數(shù)據(jù)采集與處理 課件全套 項目1-7 數(shù)據(jù)采集與處理認知 - 商務數(shù)據(jù)分析與應用_第1頁
數(shù)據(jù)采集與處理 課件全套 項目1-7 數(shù)據(jù)采集與處理認知 - 商務數(shù)據(jù)分析與應用_第2頁
數(shù)據(jù)采集與處理 課件全套 項目1-7 數(shù)據(jù)采集與處理認知 - 商務數(shù)據(jù)分析與應用_第3頁
數(shù)據(jù)采集與處理 課件全套 項目1-7 數(shù)據(jù)采集與處理認知 - 商務數(shù)據(jù)分析與應用_第4頁
數(shù)據(jù)采集與處理 課件全套 項目1-7 數(shù)據(jù)采集與處理認知 - 商務數(shù)據(jù)分析與應用_第5頁
已閱讀5頁,還剩795頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

項目一數(shù)據(jù)采集與處理認知任務一認識數(shù)據(jù)與信息網商的手機預約數(shù)真的可信嗎?數(shù)據(jù)是一個很枯燥的東西嗎?數(shù)字數(shù)據(jù)=應用在日常生活的各個領域我們很多時候都在和數(shù)據(jù)打交道一、認識數(shù)據(jù)(一)什么是數(shù)據(jù)豆瓣評分天氣預報例如,我們去電影院看電影前喜歡先看網上的評分(見圖1-2),購買商品時將各個平臺的價格進行對比,查看旅行攻略中涉及的各種路線所需的時間和花費,每天都很關注天氣預報(見圖1-3)等。因此,我們大多數(shù)人都對數(shù)據(jù)產生過興趣,又在日常生活中接觸過數(shù)據(jù),怎么能說數(shù)據(jù)是枯燥的呢?數(shù)據(jù):對客觀事件進行記錄并可以鑒別的符號,是對客觀事物的性質、狀態(tài)以及相互關系等進行記載的物理符號或這些物理符號的組合。

它不僅指狹義上的數(shù)字,還可以是具有一定意義的文字、字母、數(shù)字符號的組合、圖形、圖像、視頻、音頻等,例如,“0、1、2...”“陰、雨、下降、氣溫”“學生的檔案記錄”等都是數(shù)據(jù)。

也就是說數(shù)據(jù)不是單純地指各種Excel表格和數(shù)據(jù)庫,圖書、圖片、視頻、報表、短信等也屬于數(shù)據(jù)的范疇,如通過搜索引擎所做的圖片識別、音頻識別等都是數(shù)據(jù)的表現(xiàn)形式。數(shù)據(jù)使問題更加客觀和準確數(shù)據(jù)能夠給我們更多的反饋信息數(shù)據(jù)能讓我們的觀點更有吸引力數(shù)據(jù)的作用例如:《價值3000元和價值30000元文案的區(qū)別》例如:教育機構分析學生成績,制定輔導計劃例如:溫度的高低、每月工資8000元是高是低(二)什么是商務數(shù)據(jù)商務數(shù)據(jù):主要指記載商業(yè)、經濟等活動領域的數(shù)據(jù)符號。在電子商務領域,商務數(shù)據(jù)可以分為兩大類:前端行為數(shù)據(jù)和后端商業(yè)數(shù)據(jù)。

前端行為數(shù)據(jù):是指訪問量、瀏覽量、點擊流及站內搜索等反應用戶行為的數(shù)據(jù);

后端商業(yè)數(shù)據(jù):更側重于商業(yè)數(shù)據(jù),如交易量、投資回報率及全生命周期管理等。(三)什么是數(shù)據(jù)庫數(shù)據(jù)庫:簡單地說,數(shù)據(jù)庫是結構化數(shù)據(jù)的集合。嚴格地講,數(shù)據(jù)庫是長期儲存在計算機內、有組織的、可共享的大量數(shù)據(jù)的集合。數(shù)據(jù)庫中的數(shù)據(jù)按照一定的組織、描述和儲存,具有較小的冗余度、較高的數(shù)據(jù)獨立性和易擴展性,并可為各種用戶共享。基本特征:(四)數(shù)據(jù)的計量尺度

數(shù)據(jù)采集與處理離不開數(shù)據(jù),數(shù)據(jù)也是數(shù)據(jù)采集與處理的結果。

數(shù)據(jù)計量是指根據(jù)規(guī)則,對人或事物的數(shù)據(jù)特征進行的分類、標識和計算。數(shù)據(jù)計量一般分為四個層次或四種計量尺度。(四)數(shù)據(jù)的計量尺度1.定類尺度

定類尺度也稱類別尺度,是將數(shù)據(jù)采集對象分類,標以各種名稱確定其類別的方法,實質上是一種分類體系。

定類尺度可以用文字來表示,也可以用數(shù)值來表示,但數(shù)值本身沒有實質性意義,僅是一種符號,目的是為了區(qū)分不同的類別,而且只具有等于(=)或不等于(≠)的數(shù)學特性。定類尺度等級最低,只是給不同類別起個名稱。常見的定類數(shù)據(jù)有:國家、戶口、性別、民族、婚姻狀況、職業(yè)等變量特征的計量。(四)數(shù)據(jù)的計量尺度2.定序尺度定序尺度也稱順序尺度,是指對計量對象的屬性和特征的類別進行鑒別并能比較類別大小順序的一種計量方法。例如,人們的生活水平有貧困、溫飽、小康、富裕,這是一種由低到高的等級排列;再如城市有特大城市、大城市、中等城市、小城市,這是一種由大到小的排列;教師的職稱有講師=1、副教授=2、教授=3等。常見的定序數(shù)據(jù)有:教育程度、服務評級、比賽名次。(四)數(shù)據(jù)的計量尺度3.定距尺度定距尺度是一種不僅能將變量(社會現(xiàn)象)區(qū)分類別和等級,而且可以確定變量之間的數(shù)量差別和間隔距離的方法。例如我們對A(33℃)、B(30℃)、C(37℃)三人的體溫(Unit:℃)進行統(tǒng)計,可得到這三人的體溫依次為:33℃、30℃、37℃。我們將A和B的體溫相減33-30=3,則可知A比B的體溫高3℃。所以對于定距數(shù)據(jù)而言,其支持+、-運算,但是不可以進行×、÷運算。比如在本例中,我們將A、B的體溫相除33/30=1.1,我們不能說A的體溫比B體溫熱1.1倍。因為攝氏溫度中的0℃不表示絕對的零點,即沒有溫度,其只是一個人為定義的標準。所以對于定距數(shù)據(jù)而言,由于不存在絕對的零點,故對其進行×、÷運算是沒有任何意義的。在定距數(shù)據(jù)中,0值是作為比較的標準,而不是表示沒有。當然,其同樣亦支持=、≠、>、<運算。常見的定距數(shù)據(jù)有:攝氏溫度、華氏溫度、年份、緯度、經度、考試成績等。(四)數(shù)據(jù)的計量尺度定距尺度可以較方便地轉換為定序尺度,例如,若考查課的成績要以五級制成績表示,則需要將百分制分數(shù)轉換為五級制分數(shù),一般百分制中的“60~70”對應五級制中的“及格”,其他分數(shù)以此類推。但需要注意的一點是,通常定序尺度數(shù)據(jù)不能轉換為定距尺度數(shù)據(jù),如五級制分制不能轉換為百分制。(四)數(shù)據(jù)的計量尺度4.定比尺度定比尺度是能夠計量事物間比例、倍數(shù)關系的計量方法,通過對比計算,可以形成新的相對數(shù),用以反映現(xiàn)象的構成、比重、速度、密度等數(shù)量關系。定比尺度是計量中的最高層次,含有前三個計量尺度的特征。定比尺度下的數(shù)據(jù)可以進行加減乘除運算,運算結果具有實在的意義。例如我們對A(50kg)、B(25kg)、C(10kg)三人的體重(Unit:kg)進行統(tǒng)計,可得到這三人的體重依次為:50kg、25kg、10kg。我們將A、B的體重相除50/25=2,這時我們就可以說A比B重2倍。原因在于體重數(shù)據(jù)是存在絕對的零點,顯然體重為0kg時表示的是沒有體重。所以對于定比數(shù)據(jù)而言,其之所以支持×、÷運算,是因為存在絕對的零點,即0值表示沒有。當然,其同樣亦支持=、≠、>、<、+、-運算。常見的定比數(shù)據(jù)有:體重、身高、體積等。(四)數(shù)據(jù)的計量尺度四種計量尺度的比較見表1-1-1:功能類別分類排序間距比值定類尺度

定序尺度

定距尺度定比尺度(五)數(shù)據(jù)的分類1.按照來源分類(1)原始數(shù)據(jù)

原始數(shù)據(jù)是通過直接數(shù)據(jù)采集獲得的數(shù)據(jù),也是未經過處理或簡化的數(shù)據(jù),稱為一手數(shù)據(jù)或直接的統(tǒng)計數(shù)據(jù),如產品的出庫資料、數(shù)據(jù)采集問卷等。主要是通過訪談、詢問、問卷、測定等方式直截了當獲得的,通過收集一手數(shù)據(jù)可以解決特定問題。(2)次級數(shù)據(jù)

次級數(shù)據(jù)也稱二手數(shù)據(jù),是已經經過別人的初步數(shù)據(jù)采集、加工和處理后的數(shù)據(jù),有時也稱為間接的數(shù)據(jù),如統(tǒng)計年鑒、文獻資料、統(tǒng)計報告等。與一手數(shù)據(jù)相比,二手數(shù)據(jù)具有取得迅速、成本低、易獲取等優(yōu)點。當然,二手數(shù)據(jù)也存在相關性差、時效性差和可靠性低的缺點。(五)數(shù)據(jù)的分類2.按照數(shù)據(jù)來源的范圍分類(1)外部數(shù)據(jù)以互聯(lián)網企業(yè)為例,它的外部數(shù)據(jù)主要包括:社會人口數(shù)據(jù):人口的概況、人口的分布、人口的素質、民族的構成等。宏觀經濟數(shù)據(jù):生產總值、國民生產總收入、消費水平等。新聞輿論數(shù)據(jù):新聞的廣告、輿論的監(jiān)測等。市場調研數(shù)據(jù):對渠道、廣告、產品及價格方面的調研數(shù)據(jù)。(2)內部數(shù)據(jù)內部數(shù)據(jù)包括用戶行為數(shù)據(jù)、服務端日志數(shù)據(jù)、客戶關系管理、數(shù)據(jù)和交易數(shù)據(jù)等。其中用戶行為數(shù)據(jù)是指用戶在網站的停留時間、跳出率、回訪次數(shù)及回訪率等。(五)數(shù)據(jù)的分類2.按照采用的計量尺度分類(1)定性數(shù)據(jù)定性數(shù)據(jù)也稱為品質數(shù)據(jù),分為定類數(shù)據(jù)和定序數(shù)據(jù)。1)定類數(shù)據(jù):是由定類尺度計量形成的數(shù)據(jù),是數(shù)據(jù)的最低級,它表示個體在屬性上的特征與類別上的不同變量,僅僅是一種標志,沒有序次關系。2)定序數(shù)據(jù):是由定序尺度計量得到的,表現(xiàn)為類別,但有順序,數(shù)據(jù)的中間級,用數(shù)字表示個體在某個有序狀態(tài)中所處的位置,不能做四則運算。(五)數(shù)據(jù)的分類2.按照采用的計量尺度分類(2)定量數(shù)據(jù)定量數(shù)據(jù)又稱數(shù)值數(shù)據(jù),可分為定距數(shù)據(jù)和定比數(shù)據(jù)。1)定距數(shù)據(jù):是由定距尺度計量得到的數(shù)據(jù),具有間距特征的變量,它對事物能進行準確測度。定距數(shù)據(jù)表現(xiàn)為“數(shù)值”,有單位,可以加減運算,但不能做乘除。2)定比數(shù)據(jù):是由定比尺度計量形成的數(shù)據(jù),表現(xiàn)為數(shù)值,可以進行加、減、乘、除運算,沒有負數(shù)。數(shù)據(jù)的最高級,既有測量單位,也有絕對零點,例如職工人數(shù),身高。一般來說,數(shù)據(jù)的等級越高,應用范圍越廣泛;等級越低,應用范圍越受限。(五)數(shù)據(jù)的分類四種數(shù)據(jù)類型的比較:數(shù)據(jù)類型測量結果測量精度計算方法信息數(shù)量定性數(shù)據(jù)定類數(shù)據(jù)A、B公司是國有企業(yè)是否是國企無A、B公司是國有企業(yè)定序數(shù)據(jù)A公司是大型企業(yè)B公司是中型企業(yè)規(guī)模的大與小無A、B公司是國有企業(yè)A公司比B公司規(guī)模大定量數(shù)據(jù)定距數(shù)據(jù)A公司創(chuàng)設于1963年B公司創(chuàng)設于2003年確定的企業(yè)年限加、減A、B公司是國有企業(yè)A公司比B公司規(guī)模大A公司比B公司早成立36年定比數(shù)據(jù)A公司成立60年B公司成立20年確定的企業(yè)年限加、減、乘、除A、B公司是國有企業(yè)A公司比B公司規(guī)模大A公司比B公司早成立36年A公司的成立年限是B公司年限的3倍(五)數(shù)據(jù)的分類3.按照規(guī)模分類(1)傳統(tǒng)數(shù)據(jù)傳統(tǒng)數(shù)據(jù)就是一般意義上的數(shù)據(jù),是對客觀現(xiàn)象的屬性、特征進行分類、標示和計算等計量活動的結果。(2)大數(shù)據(jù)(五)數(shù)據(jù)的分類大數(shù)據(jù):指的是所涉及的資料量規(guī)模巨大到無法通過目前主流的軟件工具,在合理時間內提取、存儲、搜索、共享、分析和處理的數(shù)據(jù)集合。

大數(shù)據(jù)的特征:Volume(大量)Velocity(高速)Variety(多樣)Value(價值)(五)數(shù)據(jù)的分類大數(shù)據(jù)的應用:大數(shù)據(jù)教育大數(shù)據(jù)交通大數(shù)據(jù)醫(yī)療大數(shù)據(jù)金融(五)數(shù)據(jù)的分類4.按照反映時間狀態(tài)分類(1)橫截面數(shù)據(jù)橫截面數(shù)據(jù)是指在同一時間(時期或時點)截面上反映一個數(shù)據(jù)采集對象的一批(或全部)個體的同一特征變量的觀測值,是樣本數(shù)據(jù)中的常見類型之一。例如,工業(yè)普查數(shù)據(jù),人口普查數(shù)據(jù),家庭收入調查數(shù)據(jù)。(2)時間數(shù)列數(shù)據(jù)時間數(shù)列數(shù)據(jù)是指按照時間順序排列的數(shù)據(jù)序列,它反映一系列時間上發(fā)生的狀態(tài)、過程、活動或者現(xiàn)象的數(shù)據(jù)。(五)數(shù)據(jù)的分類(五)數(shù)據(jù)的分類二維表結構,通過關系型數(shù)據(jù)庫存儲和管理字段可根據(jù)需要擴充,即字段數(shù)目不確定不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn),包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等(五)數(shù)據(jù)的分類本月店內康師傅冰紅茶每天的銷售量今天店內康師傅冰紅茶、綠茶、茉莉蜜茶的銷售量本月店內康師傅冰紅茶、綠茶、茉莉蜜茶每天的銷售量(五)數(shù)據(jù)的分類智商分數(shù)100.5、100.6。。。班級個數(shù)、學生人數(shù)。。。(六)數(shù)據(jù)集數(shù)據(jù)集(Dataset):是一個數(shù)據(jù)的集合,通常以表格形式出現(xiàn)。

每一列代表一個特定變量。每一行都對應于某一成員的數(shù)據(jù)集的問題。二、認知信息1.信息信息:是指用語言、文字、符號、情景、圖像、聲音等所表示的具體內容統(tǒng)稱為信息。信息有以下兩點內涵:1)信息是向人們或機器提供關于現(xiàn)實世界新的事實的知識,是數(shù)據(jù)、消息中所包含的意義。2)信息是對客觀世界中各種事物的運動狀態(tài)和變化的反映,是客觀事物之間相互聯(lián)系和相互作用的表征,表現(xiàn)的是客觀事物運動狀態(tài)和變化的實質內容。(一)什么是信息2.信息的載體形式信息的載體形式:文字、圖像、圖形、聲音、符號、動畫、視頻等。3.信息的特征信息有如下幾個特征:傳遞性、共享性、依附性、可處理性、價值相對性、時效性和真?zhèn)涡?。(二)?shù)據(jù)與信息有一句話是這么說的“數(shù)據(jù)是爆炸了,信息卻很貧乏”,那么數(shù)據(jù)與信息之間到底有什么關系呢?(二)數(shù)據(jù)與信息1.關系數(shù)據(jù)和信息是相互聯(lián)系的概念,數(shù)據(jù)是信息的具體表現(xiàn)形式,而信息是數(shù)據(jù)的內涵。數(shù)據(jù)是反映客觀事物屬性的記錄,如文字、數(shù)字、圖形和曲線等,這些數(shù)據(jù)本身沒有意義,只有當它們被解釋、運用或解算時,才能成為信息。信息是數(shù)據(jù)經過加工處理后得到的,如報表、賬冊和圖紙等,信息被用來反映客觀事物的規(guī)律,從而為管理工作提供依據(jù)。(二)數(shù)據(jù)與信息數(shù)據(jù)和信息可以相互轉化。例如,昨天的銷售情況是數(shù)據(jù),而明天可能的銷售情況實際上就是信息,如果我們把過去一年的銷售情況收集起來進行加工,就又會得到長期變化規(guī)律的新信息。數(shù)據(jù)和信息是無法割裂開的,數(shù)據(jù)對人類真正的用途是加工出不同的信息,這也能使我們更好的認識事物,得到正確的信息更能幫助我們做出正確的決策。(二)數(shù)據(jù)與信息2.區(qū)別數(shù)據(jù)是數(shù)據(jù)采集時提供的,信息是從采集的數(shù)據(jù)中獲取的有用信息。即:數(shù)據(jù)=信息+數(shù)據(jù)冗余。由此可見,信息可以簡單地理解為數(shù)據(jù)中包含的有用的內容。不嚴格的說,“不知道的東西,你知道了,就獲得了一個信息”。也可以說數(shù)據(jù)在未被接收對象獲取前可以稱為數(shù)據(jù),一旦被對象獲取,即可稱為信息。數(shù)據(jù)是客觀的,它不依人們的主觀意志為轉移;信息是帶有主觀性的,同樣一條消息(數(shù)據(jù)),經過某人的解釋,對某人來說很有用處,很有價值,但對另外一個人,可能沒有什么價值。三、數(shù)據(jù)的職能(一)信息職能數(shù)據(jù)的信息職能是指系統(tǒng)地采集、整理和提供大量的以數(shù)量描述為基本特征的數(shù)據(jù),能夠給我們反饋更多的信息,如企業(yè)在了解市場、分析對手等方面數(shù)據(jù)使問題更加客觀和準確。在數(shù)據(jù)的三種職能中信息職能是最基本的職能,是數(shù)據(jù)的咨詢和監(jiān)督職能得以發(fā)揮的基礎。三、數(shù)據(jù)的職能(二)咨詢職能數(shù)據(jù)的咨詢職能是指根據(jù)掌握的豐富的數(shù)據(jù)信息資源,經過數(shù)據(jù)處理,為科學決策和管理提供咨詢意見和對策建議,數(shù)據(jù)也能使提供的觀點或建議更有吸引力。三、數(shù)據(jù)的職能(三)監(jiān)督職能數(shù)據(jù)的監(jiān)督職能是指根據(jù)數(shù)據(jù)采集與處理,從總體上對宏觀國民經濟和社會運行狀況及微觀數(shù)據(jù)采集單位進行全面、系統(tǒng)的定量檢查、監(jiān)測和預警,及時揭示經濟運行中的問題,促使社會經濟及數(shù)據(jù)采集單位按照客觀規(guī)律的要求發(fā)展。項目一數(shù)據(jù)采集與處理認知任務二認識數(shù)據(jù)采集與處理的相關概念

數(shù)據(jù)采集在我們日常生活當中是隨處可見的,尤其是2020年初的新冠疫情,我們每個人每天都要不斷的在小區(qū)入口,公司上班處,或在線填寫各類身體健康信息的表格和數(shù)據(jù),這些就是數(shù)據(jù)采集的過程。

一、數(shù)據(jù)采集對象與數(shù)據(jù)采集單位

數(shù)據(jù)采集對象:是指由許多同質的、客觀存在的個體構成的整體;

數(shù)據(jù)采集單位:構成數(shù)據(jù)采集對象的個體就是數(shù)據(jù)采集單位。

一般來說,在一個數(shù)據(jù)采集對象中,數(shù)據(jù)采集單位在某些方面必須有一個或多個相同的性質。例如要采集一個地區(qū)民營經濟的相關數(shù)據(jù),當?shù)厮械拿駹I經濟體就構成了一個數(shù)據(jù)采集對象,在所有制性質這一點上,所有的民營經濟體都是相同的。對于該數(shù)據(jù)采集對象來說,每一個民營經濟體就是數(shù)據(jù)采集單位。二、標志與指標(一)標志

標志:是采集對象各單位所具有的共同特征的名稱,即用來說明總體單位特征的名稱。

從不同的維度來考察,每個數(shù)據(jù)采集單位可以有許多特征,而且這些特征有不同的表現(xiàn),這種表現(xiàn)叫做標志的特征值,也是數(shù)據(jù)采集所需要的結果,例如:一家電子廠職工的性別、年齡、民族等。1.按特征值的表現(xiàn)分為不變標志和變異標志不變標志:當一個標志在各個采集單位的特征值都相同時,這個標志稱為不變標志;變異標志:當一個標志在各個單位的特征值有可能不同時,該標志稱為可變標志或變異標志。例如,電子廠的員工,如果按廠籍來看都一樣,這個廠籍就是不變標志,如果按照性別、年齡、學歷等來區(qū)分,則有所不同,這些標志就是可變標志。數(shù)據(jù)采集的標志主要是可變標志。標志的分類2.按其性質可分為品質標志和數(shù)量標志品質標志:表示事物質的特征,其特征值是不能用數(shù)值表示的,例如員工的民族、性別、工種等。數(shù)量標志:表示事物量的特征,其特征值用數(shù)值表示,例如員工的年齡、工資、工齡等。(二)指標及指標體系1.指標的概念指標:是反映數(shù)據(jù)采集對象總數(shù)量特征的名稱和具體數(shù)值。例如,全國電商廠商數(shù)、天貓“雙十一”商品銷售額、人均工資收入等。指標一般由六個要素構成:指標名稱、計量單位、計算方法、時間范圍、空間范圍、具體數(shù)值。例如,2022年全年我國國內生產總值(GDP)為1210207億元,這個指標就反映了2022年我國GDP的總體情況。2.指標的種類(1)按反映數(shù)據(jù)采集對象內容的不同分類指標按反映數(shù)據(jù)采集對象內容的不同,分為數(shù)量指標和質量指標。1)數(shù)量指標也即是總量指標,是說明數(shù)據(jù)采集對象總規(guī)模、總水平的指標。例如,員工總數(shù)、企業(yè)固定資產總額、工資總額、進出口總額等。數(shù)量指標所反映的是數(shù)據(jù)采集對象的絕對數(shù)量,有計量單位,其數(shù)值的大小隨著數(shù)據(jù)采集對象范圍的變化而變化,它是認識數(shù)據(jù)采集對象的基礎。2.指標的種類2)質量指標是說明數(shù)據(jù)采集對象內部數(shù)量關系或數(shù)據(jù)采集單位水平的指標。例如,各省經濟總量占全國經濟總量的比重、某電子廠員工的性別比例,年齡構成,農業(yè)、輕工業(yè)、重工業(yè)比例,平均年齡等。它的表現(xiàn)形式有相對數(shù)和平均數(shù),其數(shù)值的大小與范圍的變化沒有直接關系。2.指標的種類(2)按其表現(xiàn)形式和作用的不同分類指標按其表現(xiàn)形式和作用的不同,分為總量指標、相對指標和均值。1)總量指標又分為實物指標、勞動指標和價值指標三種。2)相對指標也稱相對數(shù),是用兩個有聯(lián)系的指標進行對比、用來反映數(shù)據(jù)采集對象之間數(shù)量關系的指標,如頻率、結構、發(fā)展程度、強度、普遍程度等。3)均值則是反映數(shù)據(jù)采集對象內部某一數(shù)量標志在一定時間、地點下所達到的一般水平的指標,如平均身高、平均壽命、平均畝產量等。2.指標的種類(3)按管理功能的不同分類指標按管理功能的不同,分為描述指標、評價指標及預警指標。1)描述指標是用來反映數(shù)據(jù)采集對象的狀況、過程和結果,達到對數(shù)據(jù)采集對象現(xiàn)象的基本認識,是數(shù)據(jù)信息的主體。例如,反映某網絡店鋪擁有粉絲數(shù)量指標、年銷售額指標;再如某地區(qū)勞動資源指標、國內生產總值指標、財政收入指標、投資指標等。2)評價指標包括宏觀國民經濟評價指標和數(shù)據(jù)采集對象經濟活動評價指標,用于對社會經濟運行的結果進行比較、評估和考核,以檢查工作質量或其他定額指標的結合使用。如產品的合格率、就業(yè)率、計劃完成程度等指標。3)預警指標主要用于對數(shù)據(jù)采集對象的運行進行監(jiān)測,對數(shù)據(jù)采集對象運行中即將發(fā)生的失衡、失控等進行預報、警示。通常選擇數(shù)據(jù)采集對象運行中的敏感性、關鍵性經濟現(xiàn)象,構建相應的監(jiān)測指標體系。如針對經濟增長、經濟周期波動、失業(yè)、通貨膨脹等,可以建立GDP與國民收入增長率、CPI、匯率、利率、社會積累率、消費率、失業(yè)率等預警指標。(二)指標及指標體系3.指標體系(1)指標體系指標體系就是各種相互聯(lián)系的指標所構成的一個有機整體,用來說明所研究現(xiàn)象各個方面相互依存和相互制約的關系,它主要用于解決由于現(xiàn)象的復雜多樣性,及各種現(xiàn)象之間相互聯(lián)系的性質,例如只用個別指標來反映是不全面的,這樣就需要采用指標體系來進行綜述。(2)指標體系的分類1)根據(jù)所研究問題的范圍大小分類指標體系根據(jù)所研究問題的范圍大小,可以建立宏觀指標體系和微觀指標體系。宏觀指標體系:就是反映整個現(xiàn)象大范圍的指標體系,如反映整個國民經濟和社會發(fā)展的指標體系。微觀指標體系:就是反映現(xiàn)象較小范圍的指標體系,如反映企業(yè)或事業(yè)單位的指標體系。介于這兩者之間的可以稱為中觀指標體系,如反映各地區(qū)或各部門的指標體系。2)根據(jù)所反映現(xiàn)象的范圍內容不同分類指標體系根據(jù)所反映現(xiàn)象的范圍內容不同,可分為綜合性指標體系和專題性指標體系。綜合性指標體系:能較全面地反映總系統(tǒng)及其各個子系統(tǒng)的綜合情況,如國民經濟和社會發(fā)展指標體系。專題性指標體系:則是反映某個方面或問題的,如經濟效益指標體系。三、變異、變量和變量值(一)變異一般意義上的變異是指標志(包括品質標志和數(shù)量標志)在總體單位之間的不同表現(xiàn)。如人的性別有男女之分,各時期、各地區(qū)、各部門的工業(yè)總產值各有不同等,這種差別叫作變異。嚴格來說,變異僅指品質標志的不同具體表現(xiàn)。如性別表現(xiàn)為男、女,民族表現(xiàn)為漢、滿、回、苗等。與變異相對,變量則是用來描述數(shù)量標志的具體表現(xiàn)。(二)變量及變量值1.變量的概念變量就是可以取不同值的量,這是數(shù)學上的一個名詞,在數(shù)據(jù)分析中,變量就是數(shù)量標志的名稱或指標的名稱。變量包括各種數(shù)量標志和全部指標,它都是以數(shù)值表示的,不包括品質標志。例如,職工人數(shù)是一個變量,因為各個工廠的職工人數(shù)不同。(二)變量及變量值2.變量的分類變量按其數(shù)值是否連續(xù)可分為連續(xù)變量與離散變量兩種。1)連續(xù)變量連續(xù)變量是指在一定區(qū)間內可任意取值的變量叫連續(xù)變量,其數(shù)值是連續(xù)不斷的,相鄰兩個數(shù)值之間可作無限分割,即可取無限個數(shù)值。例如,生產零件的規(guī)格尺寸、人體測量的身高、體重、胸圍等為連續(xù)變量,其數(shù)值只能用測量或計量的方法取得。(二)變量及變量值2.變量的分類2)離散變量離散變量是指可按一定順序一一列舉其數(shù)值的變量叫離散變量,其數(shù)值是斷開的。例如,企業(yè)個數(shù)、職工人數(shù)、設備臺數(shù)、學校數(shù)、醫(yī)院數(shù)等,都只能按計量單位數(shù)計數(shù),這種變量的數(shù)值一般用計數(shù)方法取得。(二)變量及變量值3.變量值變量的具體數(shù)值表現(xiàn)稱為變量值。例如,某工廠有852人,另一工廠有1686人,第三個工廠有964人等等,都是職工人數(shù)這個變量的具體數(shù)值,也就是變量值。這里要注意區(qū)分變量和變量值,在上例中,852人、1686人、964人三個變量值的平均數(shù),不能說是三個“變量”的平均數(shù),因為這里只有“職工人數(shù)”這一個變量,并沒有三個變量。任務三數(shù)據(jù)采集與處理的工作過程一、數(shù)據(jù)采集與處理的意義(一)數(shù)據(jù)采集與處理的概念數(shù)據(jù)采集與處理:是指利用科學的方法,根據(jù)要求對數(shù)據(jù)采集對象中各采集單位的數(shù)據(jù)信息資料進行采集、處理,通過作圖、制表和各種形式的擬合來計算某些特征值,分析數(shù)據(jù)采集對象規(guī)律性的活動。一、數(shù)據(jù)采集與處理(二)數(shù)據(jù)采集與處理的意義1.事前預判

通過數(shù)據(jù)采集與處理,能從整體上反映和分析事物的數(shù)量特征,能觀察出事物的本質和發(fā)展規(guī)律,從而可以做到事前預判,并作出正確的決策。

例如,企業(yè)通過分析市場整體數(shù)據(jù),可以了解市場與行業(yè)的現(xiàn)狀,預測市場和行業(yè)的未來發(fā)展走向,從而為企業(yè)調整運營策略提供有效的數(shù)據(jù)支持。一、數(shù)據(jù)采集與處理2.事中監(jiān)控在數(shù)據(jù)化運營過程中,市場主體可以通過數(shù)據(jù)分析來監(jiān)控各個指標,這樣能夠及時發(fā)現(xiàn)異常,并盡快解決問題,而不會影響正常的運營。(1)宏觀上看,數(shù)據(jù)采集與處理是國家宏觀調控和管理的重要工具。(2)從微觀上看,數(shù)據(jù)采集與處理是企業(yè)管理與決策的依據(jù)。一、數(shù)據(jù)采集與處理3.事后優(yōu)化根據(jù)數(shù)據(jù)分析的結果,對于企業(yè)而言,就可以定期進行優(yōu)化調整,不斷提升運營工作的質量,持續(xù)提高競爭力。

在這方面,數(shù)據(jù)采集與處理的價值包含3個方面:一是幫助領導做出決策;二是預防風險;三是把握市場動向,通過數(shù)據(jù)分析,可以幫助企業(yè)發(fā)現(xiàn)做得好的方向、需要改進的地方,以及指出企業(yè)出現(xiàn)的問題。一、數(shù)據(jù)采集與處理4.數(shù)據(jù)采集與處理是進行科學研究的重要方法

為使觀點與結論具有事實依據(jù)和說服力,必須根據(jù)數(shù)據(jù)采集或實驗取得的數(shù)據(jù)來說明問題,通過數(shù)字揭示事物在特定時間方面的數(shù)量特征,以便對事物進行定量乃至定性分析,從而做出正確的決策。二、數(shù)據(jù)采集與處理工作過程目的:一是對現(xiàn)狀數(shù)據(jù)進行深入的分析,提供現(xiàn)階段事物整體狀況及構成情況,包括各項業(yè)務的發(fā)展以及變動情況,即事前預判;二是進行原因分析,發(fā)現(xiàn)存在問題的原因,并依據(jù)原因制訂相應的解決方案,即事中監(jiān)控;三是預測分析,依據(jù)采集和處理的數(shù)據(jù)對事物未來的發(fā)展趨勢做預測,以便制訂相應的計劃,即事后優(yōu)化。二、數(shù)據(jù)采集與處理工作過程數(shù)據(jù)采集與處理工作過程大致分為以下幾個環(huán)節(jié),即數(shù)據(jù)分析需求識別、數(shù)據(jù)采集與處理設計、采集數(shù)據(jù)、數(shù)據(jù)處理以及數(shù)據(jù)呈現(xiàn),具體步驟如下:1.明確數(shù)據(jù)采集與處理需求和目標2.數(shù)據(jù)采集與處理設計3.采集數(shù)據(jù)及存儲數(shù)據(jù)4.數(shù)據(jù)處理5.數(shù)據(jù)呈現(xiàn)任務四認知數(shù)據(jù)采集與處理工具一、常用數(shù)據(jù)采集工具(一)平臺提供的數(shù)據(jù)工具(二)第三方專項數(shù)據(jù)采集工具(三)網頁數(shù)據(jù)采集工具(爬蟲)(四)其他數(shù)據(jù)采集工具(一)平臺提供的數(shù)據(jù)工具主要包括平臺的店鋪后臺、生意參謀(淘寶/天貓)、京東商智(京東)、數(shù)據(jù)易道(蘇寧)等數(shù)據(jù)采集工具。(一)平臺提供的數(shù)據(jù)工具1.生意參謀通過生意參謀,數(shù)據(jù)采集人員不僅可以采集自己店鋪的各項運營數(shù)據(jù)(如流量、交易、服務、產品等數(shù)據(jù)),通過市場行情板塊還能夠獲取到在淘寶/天貓平臺的行業(yè)銷售經營數(shù)據(jù)。如圖所示。(一)平臺提供的數(shù)據(jù)工具(一)平臺提供的數(shù)據(jù)工具(一)平臺提供的數(shù)據(jù)工具2.京東商智京東商智是京東為賣家提供數(shù)據(jù)服務的平臺,賣家在訂購京東商智之后,可以從PC端、APP、微信、手機QQ、移動端五大渠道獲取店鋪的流量、銷量、用戶、商品等數(shù)據(jù),并能夠獲取整個行業(yè)及同行業(yè)中其他賣家的數(shù)據(jù),以此來支持運營決策。同時,京東商智還支持購物車營銷、用戶營銷等精準營銷,幫助賣家提升銷售,如圖所示。(一)平臺提供的數(shù)據(jù)工具3.數(shù)據(jù)易道

數(shù)據(jù)易道是蘇寧面向外部賣家、供應商及品牌工廠等合作伙伴的官方數(shù)據(jù)分析產品平臺,依托蘇寧海量數(shù)據(jù)價值和大數(shù)據(jù)能力,旨在通過優(yōu)質的數(shù)據(jù)產品及服務為合作伙伴提供業(yè)務數(shù)據(jù)分析和決策建議,實現(xiàn)合作伙伴與蘇寧的商業(yè)價值共享共贏。如圖所示。(二)第三方專項數(shù)據(jù)采集工具第三方專項數(shù)據(jù)采集工具,主要包括:多多情報通(多多參謀)、店偵探(淘寶/天貓)、淘數(shù)據(jù)(淘寶/京東/wish/shopee等)、逐鹿工具箱、店數(shù)據(jù)、升業(yè)績等工具。(二)第三方專項數(shù)據(jù)采集工具1.多多情報通

多多情報通(多多參謀)是拼多多電商平臺的數(shù)據(jù)工具,提供大盤走勢、競品(“競爭商品”的簡稱)分析、貨源分析、成交高峰、物流預警、開團監(jiān)控、店鋪探索、深度分析活動商品信息、關鍵詞監(jiān)控等多維度的數(shù)據(jù)服務,輔助賣家的數(shù)據(jù)化運營,如圖所示。(二)第三方專項數(shù)據(jù)采集工具2.店偵探

店偵探是一款專門為淘寶及天貓賣家提供數(shù)據(jù)采集、數(shù)據(jù)分析的數(shù)據(jù)工具。通過對各個店鋪、寶貝運營數(shù)據(jù)進行采集分析,店偵探可以快速提供競爭對手店鋪的銷售數(shù)據(jù)、引流途徑、廣告投放、活動推廣、買家購買行為等數(shù)據(jù)信息。如圖所示。(二)第三方專項數(shù)據(jù)采集工具3.淘數(shù)據(jù)淘數(shù)據(jù)由阿里巴巴集團推出,主要針對淘寶、天貓等阿里電商平臺的交易數(shù)據(jù)和用戶行為數(shù)據(jù)進行收集和分析。如圖所示。(二)第三方專項數(shù)據(jù)采集工具淘數(shù)據(jù)和生意參謀都是提供電商數(shù)據(jù)統(tǒng)計和分析的工具,但有以下區(qū)別:(1)數(shù)據(jù)來源不同。淘數(shù)據(jù)主要從淘寶、天貓等阿里電商平臺進行數(shù)據(jù)采集和分析,而生意參謀主要從京東、蘇寧、天貓、淘寶、唯品會、拼多多等多個電商平臺進行數(shù)據(jù)收集和分析。(2)數(shù)據(jù)覆蓋范圍不同。淘數(shù)據(jù)主要關注淘寶、天貓平臺的交易數(shù)據(jù)和用戶行為數(shù)據(jù),而生意參謀覆蓋范圍更廣,不僅包括交易數(shù)據(jù)和用戶行為數(shù)據(jù),還包括流量、廣告、競爭情報等數(shù)據(jù)。(3)數(shù)據(jù)處理方式不同。淘數(shù)據(jù)提供基于自然語言處理和機器學習算法的數(shù)據(jù)挖掘,可以進行一些高級的分析和預測,而生意參謀提供的更多是基于數(shù)據(jù)指標的可視化展示,通過圖表和報告的方式直觀地顯示數(shù)據(jù)情況。(4)使用方式不同。淘數(shù)據(jù)是一款純數(shù)據(jù)分析軟件,需要用戶自行對數(shù)據(jù)進行分析和解讀,而生意參謀除了提供數(shù)據(jù)分析之外,還提供了一些營銷策略和推廣工具供商家使用,能夠幫助商家更好地制定營銷計劃和優(yōu)化營銷效果。綜上所述,淘數(shù)據(jù)主要關注淘寶、天貓平臺數(shù)據(jù)的分析,而生意參謀是一個全維度的電商數(shù)據(jù)工具,覆蓋多個電商平臺數(shù)據(jù)并提供更多的營銷策略和推廣工具,供用戶根據(jù)自身需求選擇使用。(二)第三方專項數(shù)據(jù)采集工具4.逐鹿工具箱

逐鹿工具箱是一款電商多領域營銷軟件,提供了查排名、選款選品、主圖評測、關鍵詞挖掘、關鍵詞市場分析、SEO優(yōu)化,直通車優(yōu)化,活動分析等功能,可幫助賣家全面提升店鋪經營效率。(三)網頁數(shù)據(jù)采集工具(爬蟲)1.八爪魚采集器

八爪魚采集器是一款通用網頁數(shù)據(jù)采集器,使用簡單,可執(zhí)行完全可視化操作;其功能強大,任何網站均可采集;另外,其采集的數(shù)據(jù)可導出為多種格式。八爪魚采集器可以用來采集商品的價格、銷量、評價、描述等內容。如圖所示。(三)網頁數(shù)據(jù)采集工具(爬蟲)2.火車采集器

火車采集器是一個供各大主流內容平臺系統(tǒng)、論壇系統(tǒng)等使用的多線程內容采集發(fā)布程序。其對于數(shù)據(jù)的采集可分為兩部分:一是采集數(shù)據(jù),二是發(fā)布數(shù)據(jù)。借助火車采集器可以根據(jù)采集需求在目標數(shù)據(jù)源網站采集相應數(shù)據(jù)并整理成表格或TXT格式導出。(三)網頁數(shù)據(jù)采集工具(爬蟲)3.后羿采集器

后羿采集器功能強大,操作簡單,是為廣大無編程基礎的運營、銷售、金融、新聞、電商和數(shù)據(jù)分析從業(yè)者,以及政府機關和學術研究等用戶量身打造的一款產品。后羿采集器不僅能夠進行數(shù)據(jù)的自動化采集,而且在采集過程中可以對數(shù)據(jù)進行清洗。在數(shù)據(jù)源頭即可實現(xiàn)多種內容的過濾。通過使用后羿采集器,用戶能夠快速、準確地獲取海量網頁數(shù)據(jù),從而徹底解決了人工收集數(shù)據(jù)所面臨的各種難題,降低了獲取信息的成本,提高了工作效率。如圖所示。(三)網頁數(shù)據(jù)采集工具(爬蟲)后羿、八爪魚和火車采集器的異同:后羿:支持跨平臺,個人使用完全免費,對于大多數(shù)網站來說,只需輸入網頁地址,軟件就會自動識別并提取相關字段信息,包括列表、表格、鏈接、圖片等,不需配置任何采集規(guī)則,一鍵采取,支持自動翻頁和數(shù)據(jù)導出功能,對于小白來說,非常容易學習和掌握。八爪魚:相比較后羿采集器來說,八爪魚采集器目前僅支持Windows平臺,需要人為設置采集字段和配置規(guī)則,因此更繁瑣,但也更靈活,內置了大量數(shù)據(jù)采集模板,可以輕松采集京東、天貓等熱門網站,官方教程非常詳細,對于小白入手來說,也非常容易掌握?;疖嚕合啾容^后羿采集器和八爪魚采集器來說,規(guī)則設置上更為靈活、智能,可以迅速抓取網頁上散亂的數(shù)據(jù),同時提供數(shù)據(jù)分析和輔助決策功能,對于日常爬取網站數(shù)據(jù)來說,是一個非常不錯的軟件。4.集搜客集搜客GooSeeker始于2007年,是國內最早的網絡爬蟲工具之一,近年來,集搜客已把互聯(lián)網內容結構化和語義化技術成功推廣到金融、保險、電信運營、電信設備制造、電子制造、零售、電商、旅游、教育等行業(yè)。軟件通用于國內外網站,免編程,大批量抓取,可作為微博采集工具箱,采集數(shù)據(jù)一鍵輸出至Excel表格;軟件還可自動分詞和情感分析、報表摘錄和筆記等。軟件現(xiàn)提供免費版、專業(yè)版、旗艦版、VIP版。(三)網頁數(shù)據(jù)采集工具(爬蟲)(四)其他數(shù)據(jù)采集工具1.

ScrapyScrapy是適用于Python的一個快速、高層次的屏幕抓取和web抓取框架,用于抓取web站點并從頁面中提取結構化的數(shù)據(jù),也可以用于抓取非結構化數(shù)據(jù)。Scrapy用途廣泛,可以用于數(shù)據(jù)挖掘、監(jiān)測和自動化測試。Scrapy吸引人的地方在于它是一個框架,任何人都可以根據(jù)需求方便的修改。它也提供了多種類型爬蟲的基類,如BaseSpider、sitemap爬蟲等,最新版本又提供了web2.0爬蟲的支持。(四)其他數(shù)據(jù)采集工具2.

Import.ioImport.io是一個網頁抓取工具,它可以幫助用戶從互聯(lián)網上采集各種類型的數(shù)據(jù)。這個工具可以非常靈活地處理各種不同的數(shù)據(jù)類型,包括文本、圖片、視頻等等。使用Import.io的用戶可以通過簡單的拖拽操作來完成數(shù)據(jù)采集任務,并且支持自動化抓取大規(guī)模數(shù)據(jù)。優(yōu)點:(1)簡單易用,不需要編寫代碼,只需要進行簡單的拖拽操作即可完成數(shù)據(jù)采集任務。

(2)可視化編輯器:Import.io提供了一個可視化編輯器,用戶可以通過這個編輯器來創(chuàng)建自己的抓取器,并且可以對抓取器進行編輯和修改。

(3)支持多種數(shù)據(jù)源:支持從各種不同的數(shù)據(jù)源中采集數(shù)據(jù),包括網頁、API、數(shù)據(jù)庫等。(4)自動化抓?。菏褂肐mport.io可以實現(xiàn)自動化抓取大規(guī)模數(shù)據(jù),并且可以根據(jù)需要設置自動化任務。缺點:速度較慢,數(shù)據(jù)準確性不高、可能會存在一定程度的誤差,雖然提供免費版,但是如果需要使用更加高級的功能,則需要付費。(四)其他數(shù)據(jù)采集工具3.

ApacheNutchApacheNutch是一款開源的網絡爬蟲軟件,可以用于抓取互聯(lián)網上的非結構化數(shù)據(jù)。它支持多種文件格式,包括HTML、XML、PDF、Word等,并且可以自定義抓取規(guī)則。非結構化數(shù)據(jù)是指那些沒有特定格式和組織的數(shù)據(jù),比如文本文檔、郵件、音頻、視頻等。這些數(shù)據(jù)通常難以用傳統(tǒng)的關系型數(shù)據(jù)庫來存儲和處理。(四)其他數(shù)據(jù)采集工具4.

BeautifulSoupBeautifulSoup是一款Python庫,用于解析HTML和XML文檔。它可以將非結構化的HTML或XML文檔轉換為結構化的Python對象,并且可以通過標簽名、屬性等方式來查找指定內容。BeautifulSoup可以與Scrapy等網絡爬蟲框架搭配使用,實現(xiàn)數(shù)據(jù)的采集和處理。(四)其他數(shù)據(jù)采集工具6.ContentgrabberContentgrabber采集機是一種高效的網絡數(shù)據(jù)采集工具。它可以自動化地從任何網站上抓取和提取數(shù)據(jù),并將其轉換為結構化的格式,以便于后續(xù)處理和分析。它提供了可視化的操作界面,并支持自動生成腳本,使得即使沒有編程經驗的用戶也能夠輕松地使用它。此外,contentgrabber采集機還具有更高的效率和更好的靈活性。結構化數(shù)據(jù)也稱作行數(shù)據(jù),是由二維表結構來邏輯表達和實現(xiàn)的數(shù)據(jù),嚴格地遵循數(shù)據(jù)格式與長度規(guī)范,主要通過關系型數(shù)據(jù)庫進行存儲和管理。與結構化數(shù)據(jù)相對的是不適于由數(shù)據(jù)庫二維表來表現(xiàn)的非結構化數(shù)據(jù),包括所有格式的辦公文檔、各類報表、圖片和音頻、視頻信息等。二、常用的數(shù)據(jù)處理工具(一)SAS(二)R語言(三)SPSS(四)Python二、常用的數(shù)據(jù)處理工具(一)SASSAS的產生與發(fā)展SAS系統(tǒng)全稱為StatisticsAnalysisSystem,最早由北卡羅來納州立大學的兩位生物統(tǒng)計學研究生編制,并于1976年成立了SAS軟件研究所,正式推出了SAS軟件。SAS是用于決策支持的大型集成信息系統(tǒng),但該軟件系統(tǒng)最早的功能限于統(tǒng)計分析,至今,統(tǒng)計分析功能也仍是它的重要組成部分和核心功能。二、常用的數(shù)據(jù)處理工具(一)SAS2.SAS的應用SAS系統(tǒng)是一個組合軟件系統(tǒng),它由多個功能模塊組合而成,其基本部分是BASESAS模塊。BASESAS模塊是SAS系統(tǒng)的核心,承擔著主要的數(shù)據(jù)管理任務,并管理用戶使用環(huán)境,進行用戶語言的處理,調用其他SAS模塊和產品。也就是說,SAS系統(tǒng)的運行,首先必須啟動BASESAS模塊,它除了本身所具有數(shù)據(jù)管理、程序設計及描述統(tǒng)計計算功能以外,還是SAS系統(tǒng)的中央調度室。它除可單獨存在外,也可與其他產品或模塊共同構成一個完整的系統(tǒng)。各模塊的安裝及更新都可通過其安裝程序非常方便地進行。二、常用的數(shù)據(jù)處理工具(一)SASSAS系統(tǒng)具有靈活的功能擴展接口和強大的功能模塊,在BASESAS的基礎上,還可以增加如下不同的模塊而增加不同的功能:SAS/STAT(統(tǒng)計分析模塊)、SAS/GRAPH(繪圖模塊)、SAS/QC(質量控制模塊)、SAS/ETS(經濟計量學和時間序列分析模塊)、SAS/OR(運籌學模塊)、SAS/IML(交互式矩陣程序設計語言模塊)、SAS/FSP(快速數(shù)據(jù)處理的交互式菜單系統(tǒng)模塊)、SAS/AF(交互式全屏幕軟件應用系統(tǒng)模塊)等等。二、常用的數(shù)據(jù)處理工具(一)SAS綜合來看,SAS是一種商業(yè)化的數(shù)據(jù)分析軟件,它提供了多種數(shù)據(jù)處理和分析功能,如數(shù)據(jù)挖掘、統(tǒng)計分析、預測建模等。SAS支持多種數(shù)據(jù)格式,如CSV、TXT、Excel等。SAS還提供了一套完整的數(shù)據(jù)挖掘流程,可以幫助用戶方便地完成數(shù)據(jù)挖掘任務。二、常用的數(shù)據(jù)處理工具(二)R語言1.R語言產生與發(fā)展歷程R語言來自S語言,是S語言的一個變種。S語言在貝爾實驗室開發(fā),著名的C語言、Unix系統(tǒng)也是貝爾實驗室開發(fā)的。R語言提供了一系列用于數(shù)據(jù)處理、計算和繪圖的工具,包括數(shù)據(jù)框、數(shù)組、向量和矩陣等數(shù)據(jù)結構,以及用于統(tǒng)計分析的函數(shù),如參數(shù)和非參數(shù)假設檢驗、線性回歸、廣義線性回歸、非線性回歸、可加模型、樹回歸、混合模型、方差分析、判別、聚類、時間序列分析等。二、常用的數(shù)據(jù)處理工具(二)R語言2.R語言的應用R語言廣泛的應用與統(tǒng)計、應用數(shù)學、計量經濟、金融、生物、數(shù)據(jù)可視化以及人工智能等領域,應用前景越來越廣闊。R是一種專門用于統(tǒng)計分析和數(shù)據(jù)可視化的編程語言和環(huán)境。它提供了豐富的數(shù)據(jù)處理和分析函數(shù),可以進行各種高級統(tǒng)計分析、機器學習和數(shù)據(jù)挖掘任務。R也提供了各種繪圖功能,可以生成美觀和信息豐富的數(shù)據(jù)可視化圖表。二、常用的數(shù)據(jù)處理工具(三)SPSSSPSS軟件誕生于1968年,是一款用于統(tǒng)計學分析運算、數(shù)據(jù)挖掘、預測分析和決策支持任務的專業(yè)統(tǒng)計軟件產品。SPSS最初稱為“社會科學統(tǒng)計軟件包”(StatisticalPackageforSocialScience),2002年SPSS公司將其名稱改為“統(tǒng)計產品與解決服務方案”(StatisticalProductandServiceSolutions,SPSS)。問世50多年來,SPSS軟件在醫(yī)療、商業(yè)、市場研究、教育、保險、銀行等多個領域和行業(yè)得到了廣泛應用,是當今最權威的統(tǒng)計學軟件之一,有Windows和MacOS等多個操作系統(tǒng)版本。二、常用的數(shù)據(jù)處理工具(三)SPSSSPSS有如下一些優(yōu)勢:功能強大:SPSS囊括了各種成熟的統(tǒng)計方法和模型,為統(tǒng)計分析用戶提供了全方位的統(tǒng)計學算法。兼容性好:在數(shù)據(jù)方面,不僅可以在SPSS中直接進行數(shù)據(jù)錄入工作,還可以將日常工作中常用到的Excel表格數(shù)據(jù)、文本格式數(shù)據(jù)導入SPSS中進行分析,從而節(jié)省了相當大的工作量。易用性強:SPSS之所以有廣大的用戶群,不僅因為它是一種權威的統(tǒng)計學工具,提供了強大的統(tǒng)計功能,也因為它是一種非常簡單易用的軟件。擴展性高:SPSS直接和R語言進行對接,通過直接調用R語言的各種統(tǒng)計模塊,直接實現(xiàn)了對最新統(tǒng)計方法的調用(新版本已經增加對Python的支持)。二、常用的數(shù)據(jù)處理工具(四)PythonPython是一種通用的編程語言,可以用于網絡爬蟲進行數(shù)據(jù)采集,也廣泛用于數(shù)據(jù)處理和分析。Python有許多強大的數(shù)據(jù)處理庫,如Pandas、NumPy和SciPy,可以進行各種數(shù)據(jù)操作、統(tǒng)計分析和機器學習任務。Python也支持各種可視化庫,如Matplotlib和Seaborn,可以生成各種圖表和可視化效果。二、常用的數(shù)據(jù)處理工具(五)SQLSQL(結構化查詢語言)是一種用于管理和操作關系型數(shù)據(jù)庫的編程語言。通過編寫SQL查詢語句,可以從數(shù)據(jù)庫中提取、過濾和分析數(shù)據(jù)。SQL可以執(zhí)行各種數(shù)據(jù)操作,如創(chuàng)建表、插入、更新和刪除數(shù)據(jù)等。三、數(shù)據(jù)處理的主要操作軟件---Excel(一)Excel軟件簡介Excel是微軟公司出品的Office系列辦公軟件中的一個組件,確切的說,它是一個電子表格軟件,提供了各種各樣的功能,使得用戶可以輕松構建、修改和管理各種數(shù)據(jù)表格,完成許多復雜的數(shù)據(jù)運算,進行數(shù)據(jù)的分析和預測并且具有強大的制作圖表功能。Excel廣泛應用于金融、財稅、審計、行政等領域,有助于提高工作效率,實現(xiàn)辦公自動化,是目前應用最為廣泛的數(shù)據(jù)處理軟件之一。三、數(shù)據(jù)處理的主要操作軟件---Excel(二)Excel的功能Excel功能強大,可以執(zhí)行各種計算任務,從簡單的加減乘除運算到復雜的統(tǒng)計分析、圖形展示和數(shù)據(jù)處理,其功能主要有6個部分:1.表格操作:Excel支持用戶對表格中的數(shù)據(jù)進行增加、刪除、修改、查找、排序、篩選等操作。2.公式操作:Excel支持用戶編寫公式,并通過輸入文本框中的數(shù)據(jù)來計算表格中的數(shù)據(jù)。3.圖表操作:Excel支持用戶對表格中的數(shù)據(jù)進行數(shù)據(jù)可視化展示,包括折線圖、柱狀圖、餅圖等多種類型的圖表,幫助用戶更直觀地分析數(shù)據(jù)。三、數(shù)據(jù)處理的主要操作軟件---Excel(二)Excel的功能4.數(shù)據(jù)分析:Excel支持用戶利用函數(shù)和數(shù)學公式對表格中的數(shù)據(jù)進行計算、分析和匯總,包括求和、平均值、最大值、最小值、方差等多種類型的數(shù)據(jù)分析。5.頁面設置:Excel支持用戶對工作表的頁面進行設置,包括設置頁邊距、設置工作表標簽等。6.宏操作:Excel支持用戶編寫宏,并通過運行宏來自動執(zhí)行一系列的操作。

總的來說,Excel是一款功能強大的電子表格處理軟件,可以用于數(shù)據(jù)處理、數(shù)據(jù)分析、圖表展示等多種場景。項目二數(shù)據(jù)采集概述任務一認知數(shù)據(jù)采集一、認知數(shù)據(jù)采集

數(shù)據(jù)采集,就是按照數(shù)據(jù)分析研究的目的和任務,運用科學的數(shù)據(jù)采集組織形式和方法,有組織、有計劃地采集數(shù)據(jù)資料的工作過程。由于無論何種形式的次級數(shù)據(jù)都是由原始數(shù)據(jù)資料過渡而來,所以數(shù)據(jù)采集所要搜集的資料主要是指原始數(shù)據(jù)資料。(一)數(shù)據(jù)采集的概念一、認知數(shù)據(jù)采集數(shù)據(jù)采集是整個研究分析工作的基礎環(huán)節(jié),通過數(shù)據(jù)采集,取得有關被采集對象的具體數(shù)據(jù)資料,為數(shù)據(jù)處理提供基礎依據(jù)。而且,數(shù)據(jù)采集工作的質量影響到整個數(shù)據(jù)采集與處理工作的質量,數(shù)據(jù)采集搞得好,就能準確、及時、全面地反映被研究對象的本質及規(guī)律性。反之,如果數(shù)據(jù)采集搞不好,所得資料不準確、不真實或者不及時,即使經過科學整理和分析,也得不到正確的判斷,這將影響整個數(shù)據(jù)采集與處理工作的成果。所以,數(shù)據(jù)采集階段是保證研究工作順利完成、提高數(shù)據(jù)采集與處理工作質量的首要環(huán)節(jié),是整個數(shù)據(jù)采集與處理工作的前提與基礎。(二)數(shù)據(jù)采集的意義二、數(shù)據(jù)采集的種類1.全面數(shù)據(jù)采集(一)按照數(shù)據(jù)采集對象包括的范圍劃分全面數(shù)據(jù)采集:是對數(shù)據(jù)采集對象中的所有單位進行無一遺漏的觀察登記。例如,要了解全國的汽車產量,就要對全國所有汽車廠家進行數(shù)據(jù)采集;要了解我國的人口結構和素質,就要對全國的所有人口進行數(shù)據(jù)采集。二、數(shù)據(jù)采集的種類1.全面數(shù)據(jù)采集(一)按照數(shù)據(jù)采集對象包括的范圍劃分這種數(shù)據(jù)采集方式能掌握所有總體單位的資料,但是耗時長、花費高。這種數(shù)據(jù)采集方式僅適用于有限總體,且應限于反映國情國力的重要指標。二、數(shù)據(jù)采集的種類2.非全面數(shù)據(jù)采集非全面數(shù)據(jù)采集:僅對數(shù)據(jù)采集對象中的部分單位進行觀察登記。例如,對中小企業(yè)融資方式進行數(shù)據(jù)采集,不必將所有中小企業(yè)都納入數(shù)據(jù)采集范圍,選擇一部分即可。這種數(shù)據(jù)采集方式工作量小、耗時相對較短、花費也相對較低,數(shù)據(jù)采集結果可以反映某地區(qū)的情況或在一定程度上可以反映總體的一般情況。二、數(shù)據(jù)采集的種類1.報表數(shù)據(jù)采集(二)按照數(shù)據(jù)采集的組織方式劃分報表數(shù)據(jù)采集:是指按照統(tǒng)一規(guī)定的表式要求,自上而下地統(tǒng)一布置、自下而上地逐級匯總上報的一種數(shù)據(jù)采集方式。二、數(shù)據(jù)采集的種類2.專門數(shù)據(jù)采集(二)按照數(shù)據(jù)采集的組織方式劃分專門數(shù)據(jù)采集:是指為研究某些專門問題,由采集單位專門組織進行的一種調查方式。包括全面數(shù)據(jù)采集、重點數(shù)據(jù)采集、典型數(shù)據(jù)采集、抽樣數(shù)據(jù)采集等。二、數(shù)據(jù)采集的種類1.經常性數(shù)據(jù)采集(三)按數(shù)據(jù)采集登記時間上的連續(xù)性劃分經常性數(shù)據(jù)采集:指在一定時期內對客觀事物的發(fā)展變化情況連續(xù)不斷地進行登記的采集方式,其目的是取得某事物在一定時期的發(fā)展變化過程中所累積的總量。如:工業(yè)產品產量、銷售量等。二、數(shù)據(jù)采集的種類2.一次性數(shù)據(jù)采集(三)按數(shù)據(jù)采集登記時間上的連續(xù)性劃分一次性數(shù)據(jù)采集:是指間隔一段時間,對社會經濟現(xiàn)象在某一時點上的數(shù)量特征進行一次性的登記和觀察,分為定期、不定期數(shù)據(jù)采集。二、數(shù)據(jù)采集的種類1.直接觀察法(四)按采集資料的方法不同劃分直接觀察法是指數(shù)據(jù)采集人員到現(xiàn)場對數(shù)據(jù)采集對象親自進行觀察和計量。2.報告法報告法是指由報告單位根據(jù)原始資料和核算資料,按要求規(guī)定的統(tǒng)一的表格和要求,按一定的呈報程序提供資料。3.采訪法采訪法主要是指面談、電話、互聯(lián)網訪問法。三、數(shù)據(jù)采集的要求(一)可靠性可靠性要求也稱準確性要求,是指數(shù)據(jù)必須是真實對象或環(huán)境所產生的,必須保證采集的數(shù)據(jù)能反映真實的狀況,保證數(shù)據(jù)來源是可靠的??煽啃躁P注的是數(shù)據(jù)記錄中存在的錯誤,如字符型數(shù)據(jù)的亂碼現(xiàn)象就存在著準確性的問題,還有就是異常的數(shù)值:異常大或者異常小的數(shù)值、不符合有效性要求的數(shù)值等。三、數(shù)據(jù)采集的要求(二)完整性完整性要求是指數(shù)據(jù)采集必須按照一定的標準要求,采集反映事物全貌的信息,完整性原則是數(shù)據(jù)處理的基礎。

完整性關注的是數(shù)據(jù)信息是否存在缺失的狀況,數(shù)據(jù)缺失的情況可能是整個數(shù)據(jù)記錄缺失,也可能是數(shù)據(jù)中某個字段信息的記錄缺失。三、數(shù)據(jù)采集的要求(三)實時性及時性要求是指數(shù)據(jù)自發(fā)生到被采集的時間間隔,要符合當前的時間需求,間隔越短就越及時,最快的是數(shù)據(jù)采集與數(shù)據(jù)發(fā)生同步。

比如一份數(shù)據(jù)是采集當日的,結果都是第二天甚至第三天才能采集完,這種數(shù)據(jù)就不符合數(shù)據(jù)及時性要求。三、數(shù)據(jù)采集的要求(四)相關性相關性原則是指采集的數(shù)據(jù)與要分析處理的目標要緊密相關。例如,要準備自己企業(yè)的年度會計報告內容,其他企業(yè)的年度會計報告內容與你要準備的內容不相關,因為會計信息使用者需要的是自己企業(yè)的數(shù)據(jù),而其他企業(yè)的數(shù)據(jù)不能滿足會計信息使用者的需求,對會計信息使用者的決策影響不大,不具有相關性。三、數(shù)據(jù)采集的要求(五)經濟性經濟性原則是指數(shù)據(jù)分析人員在選擇要分析的指標、確定數(shù)據(jù)采集方法以及數(shù)據(jù)采集過程中,可能要涉及的人力、物力、財力及時間等成本與產生的收益來配比,從而制定出比較經濟可行的數(shù)據(jù)采集設計,一般也稱為成本效益原則。經濟性原則要堅持“最少、必要”原則,不采集不相關數(shù)據(jù)、也不采集不必要數(shù)據(jù)或過多的冗余數(shù)據(jù)。三、數(shù)據(jù)采集的要求(六)準確性數(shù)據(jù)信息要準確,只有正確的信息和數(shù)據(jù)才能整理分析后得到正確的結果和結論。數(shù)據(jù)信息的正確性要求我們通過各種渠道獲取信息進行比對。項目二數(shù)據(jù)采集概述任務二認知數(shù)據(jù)采集方案【任務導入】

某淘寶網店長期經營零食堅果類商品,市場采購部門決定在近期計劃增加產品種類,現(xiàn)需要在“葡萄干”、“巴旦木”、“碧根果”三類商品中選擇一種,選擇的依據(jù)主要為商品近一年的用戶關注度高、目標用戶群體大等。

任務描述:要求數(shù)據(jù)分析人員針對該需求撰寫數(shù)據(jù)采集與處理方案,并對相關數(shù)據(jù)進行采集。為了確保數(shù)據(jù)采集結果的準確性和可靠性,在數(shù)據(jù)采集之前一般都需要制定一份完整的數(shù)據(jù)采集方案。一份完整的、有指導意義的數(shù)據(jù)采集方案應該包括一下幾方面的內容。一、確定數(shù)據(jù)采集與處理的目的及任務目的:就是數(shù)據(jù)分析人員完成數(shù)據(jù)分析后對項目運營各部門基于什么樣的目的提出的建議及調整策略。只有明確了數(shù)據(jù)采集與處理的目的及任務,才能確定數(shù)據(jù)采集范圍,即向誰采集和采集什么,以及采集所采用的方式方法。數(shù)據(jù)采集與處理的目的應盡可能具體,要抓住主要矛盾,突出中心問題,切忌輕重不分,只有這樣才能提高數(shù)據(jù)采集的質量。(一)數(shù)據(jù)采集的概念一、確定數(shù)據(jù)采集與處理的目的及任務在確定數(shù)據(jù)采集與處理目的時要適當?shù)倪M行背景介紹,讓項目參與人員了解該數(shù)據(jù)項目的來龍去脈,明確分析的環(huán)境和所處情況。(一)數(shù)據(jù)采集的概念二、確定數(shù)據(jù)采集對象和采集單位確定數(shù)據(jù)采集對象,首先需要對所研究的現(xiàn)象進行認真分析,掌握其主要特征;其次需要明確數(shù)據(jù)采集對象范圍,劃清與其他社會現(xiàn)象的界限,避免資料的重復或遺漏,保證采集的數(shù)據(jù)資料的準確性。三、擬定數(shù)據(jù)采集提綱和采集表數(shù)據(jù)采集提綱是在數(shù)據(jù)采集前所確定的數(shù)據(jù)采集項目,包括需要向數(shù)據(jù)采集單位了解的有關的標志和其他情況。(一)擬定數(shù)據(jù)采集提綱(二)設計數(shù)據(jù)采集表數(shù)據(jù)采集表是搜集原始資料的基本工具,把數(shù)據(jù)采集提綱中的各個數(shù)據(jù)采集項目按照一定的順序排列在一定表格內,就構成了數(shù)據(jù)采集表。三、擬定數(shù)據(jù)采集提綱和采集表商務數(shù)據(jù)采集表常用的形式有以下幾種:1.店鋪流量類數(shù)據(jù)采集報表店鋪流量類數(shù)據(jù)采集表主要是為了了解店鋪的流量來源情況及流量結構,常用的數(shù)據(jù)采集報表有店鋪UV、PV、IP數(shù)據(jù)采集表等。店鋪UV數(shù)據(jù)采集表三、擬定數(shù)據(jù)采集提綱和采集表2.店鋪日常運營數(shù)據(jù)類采集報表店鋪運營類數(shù)據(jù)采集表類型多樣,最常見的就是店鋪運營日報表,包含的數(shù)據(jù)指標通常有流量類、訂單類、轉化類、交易類等。店鋪運營日報表三、擬定數(shù)據(jù)采集提綱和采集表3.營銷推廣類數(shù)據(jù)采集表營銷推廣工作直接關系到整店的成交轉化情況,因此營銷推廣數(shù)據(jù)采集表在日常運營過程中使用也非常廣泛,營銷推廣類數(shù)據(jù)采集表通常包含通過各營銷推廣渠道的成交類指標、流量類指標、費用類指標等。CPS推廣基礎數(shù)據(jù)登記表四、確定數(shù)據(jù)來源渠道及數(shù)據(jù)采集工具(一)數(shù)據(jù)采集來源常見的數(shù)據(jù)采集來源大致可以分為三類:1.日常數(shù)據(jù)采集:主要包括平臺運營數(shù)據(jù)、網站數(shù)據(jù)庫數(shù)據(jù)以及企業(yè)管理系統(tǒng)數(shù)據(jù)等2.專題數(shù)據(jù)采集:專項調研數(shù)據(jù)和實驗實測數(shù)據(jù)。3.外部環(huán)境數(shù)據(jù):行業(yè)發(fā)展數(shù)據(jù)及競爭對手數(shù)據(jù)。四、確定數(shù)據(jù)來源渠道及數(shù)據(jù)采集工具(二)常用的數(shù)據(jù)采集渠道與采集工具數(shù)據(jù)采集渠道與采集工具一覽表采集渠道采集工具適用范圍政府部門、行業(yè)協(xié)會、媒體爬蟲、Excel等行業(yè)數(shù)據(jù)等數(shù)據(jù)平臺百度指數(shù)、360指數(shù)等行業(yè)數(shù)據(jù)的關注熱度等商家后臺生意參謀、京東商智、店偵探、自有系統(tǒng)等;市場數(shù)據(jù)、客戶數(shù)據(jù)、產品數(shù)據(jù)等咨詢公司數(shù)據(jù)平臺爬蟲、Excel等行業(yè)數(shù)據(jù)、產品數(shù)據(jù)等問卷調研問卷星、騰訊在線表單等目標客戶分析、產品體驗等五、確定數(shù)據(jù)采集時間和采集方法六、制訂數(shù)據(jù)采集工作的組織實施計劃數(shù)據(jù)采集的成功實施必須要有嚴密細致的組織工作,因此,必須在數(shù)據(jù)采集方案中擬定一個周密的組織實施計劃。其主要內容包括:確定數(shù)據(jù)采集工作的領導機構和辦事機構、數(shù)據(jù)采集人員的組織與分工、采集前的準備工作,如人員培訓、文件資料的印發(fā)、方案的傳達布置以及公布數(shù)據(jù)的時間等。項目二數(shù)據(jù)采集概述任務3認知數(shù)據(jù)采集的方法(一)數(shù)據(jù)的常見種類按照獲取途徑的不同,可分為初級數(shù)據(jù)和次級數(shù)據(jù)。1.初級數(shù)據(jù)一、初級數(shù)據(jù)的采集方法初級數(shù)據(jù)也稱原始數(shù)據(jù)或一手數(shù)據(jù),是指反映被調查對象原始狀況的數(shù)據(jù),是直接從被研究對象處取得的資料。如原始記錄、統(tǒng)計臺賬,調查問卷答案,實驗結果等。初級數(shù)據(jù)的優(yōu)點是及時、可信度高,可以解決二手數(shù)據(jù)不能解決的問題;但也存在主觀性強、收集成本高、難以收集的問題。(一)數(shù)據(jù)的常見種類2.次級數(shù)據(jù)一、初級數(shù)據(jù)的采集方法次級數(shù)據(jù)又稱二手數(shù)據(jù),是指已經存在的經他人整理分析過的數(shù)據(jù),如期刊,報紙、廣播、電視以及互聯(lián)網上的資料,各級政府機構公布的資料,企業(yè)內部記錄和報告等。次級數(shù)據(jù)的優(yōu)點是客觀、易于獲取、取得迅速、成本低;缺點是相關性、時效性、可靠性較差。(二)初級數(shù)據(jù)的采集方法1.實地調查法一、初級數(shù)據(jù)的采集方法1)訪問法

訪問法是通過有目的、有計劃、有方向的口頭交談向被調查者了解問題和情況,獲取原始資料的一種方法。

該種方法的優(yōu)點是:被調查對象的回答率大大高于問卷法,適應性強,調查內容機動性大,訪談者對資料采集過程可進行有效控制;缺點是:訪談成本高、匿名性差,訪談結果與訪談人員的素質、能力及其現(xiàn)場表現(xiàn)直接相關。

根據(jù)調查人員與被調查者接觸方式的不同,又可將訪問法分為人員訪問、電話訪問、郵寄訪問和網上訪問等。1.實地調查法一、初級數(shù)據(jù)的采集方法2)觀察法觀察法是指觀察者帶有明確目的到觀察現(xiàn)場,憑借自己的眼睛或攝像器材,在調查現(xiàn)場進行實地考察,記錄正在發(fā)生的市場行為或狀況,以獲取各種原始資料的一種非介入性調查方法,又稱為直接觀察法。

觀察法一般用于對受訪者客觀狀況進行調查,這種方法的主要特點是:調查者與被調查者不發(fā)生直接接觸,而是由調查者從側面直接地或間接地借助儀器把被調查者的活動按實際情況記錄下來,避免讓被調查者感覺正在被調查,從而提高調查結果的真實性和可靠性,使取得的資料更加貼近實際。1.實地調查法一、初級數(shù)據(jù)的采集方法2)觀察法優(yōu)點:是可以獲得更加真實,客觀的原始資料;缺點:首先,觀察法僅是取得表面性資料,只能觀察到正在發(fā)生的動作和現(xiàn)象;其次,調查者必須具備較高的業(yè)務能力、敏銳的洞察能力和良好的記憶力;再次,觀察法要求較高的調研費用和較長的觀察時間。1.實地調查法一、初級數(shù)據(jù)的采集方法3)實驗法實驗法是指在實驗中控制一個或多個變量,在有控制的條件下得到觀測結果的一種調查方法。在實驗中,研究人員要控制某一情形的所有相關方面,操縱少數(shù)感興趣的變量,然后觀察實驗的結果,獲得的實驗數(shù)據(jù)就是在實驗中控制實驗對象而搜集到的變量數(shù)據(jù)。1.實地調查法一、初級數(shù)據(jù)的采集方法4)報告法報告法亦稱通訊法,是指由受訪者填寫有關報告表格,向調查人員報告自身情況的資料采集方法。

這種方法是被調查者根據(jù)統(tǒng)計報表的格式要求,按照隸屬關系,逐級向有關部門上報統(tǒng)計資料的一種調查方法。其特點是:具有統(tǒng)一項目、統(tǒng)一表式、統(tǒng)一要求和統(tǒng)一上報程序;能夠進行大量調查?,F(xiàn)行統(tǒng)計報表制度采用的就是這種方法。1.實地調查法一、初級數(shù)據(jù)的采集方法5)問卷調查法問卷調查法就是根據(jù)調查目的,由調查者運用統(tǒng)一設計的問卷向被選取的調查對象了解情況或征詢意見的調查方法。問卷調查法是目前最常用的調查方法,其優(yōu)點在于利用問卷限定了訪問員的詢問方式和受訪者的回答方式,從而有助于獲得符合分析要求的定量數(shù)據(jù)。問卷調查法不需要訪問員進行自由聯(lián)想和發(fā)揮,從而降低了對訪問員自身素質的要求,更適用于大規(guī)模的民意調查和商業(yè)調查活動。2.網絡直接調查法一、初級數(shù)據(jù)的采集方法網絡直接調查法即利用互聯(lián)網直接進行問卷調查、電子郵件調查、網上論壇調查、網上在線座談會調查調查等收集初級數(shù)據(jù)的地方。(一)內部數(shù)據(jù)采集二、次級數(shù)據(jù)的采集方法

內部數(shù)據(jù)來自組織內部。內部數(shù)據(jù)的采集來源為業(yè)務資料、統(tǒng)計資料、數(shù)據(jù)庫等,采集方法包括報表采集、數(shù)據(jù)庫采集、系統(tǒng)日志數(shù)據(jù)采集等。(一)內部數(shù)據(jù)采集二、次級數(shù)據(jù)的采集方法(1)報表采集。企業(yè)可以通過相關業(yè)務部門每日、每周、每月的工作報表進行采集,如銷售明細、出入庫清單、客服記錄等,進行數(shù)據(jù)采集。(2)數(shù)據(jù)庫采集。企業(yè)將數(shù)據(jù)庫采集系統(tǒng)直接對接到業(yè)務后臺的服務器。業(yè)務后臺每時每刻都會產生大量業(yè)務記錄,并可直接被數(shù)據(jù)庫采集系統(tǒng)采集,最后由特定的處理系統(tǒng)進行數(shù)據(jù)分析。(3)系統(tǒng)日志數(shù)據(jù)采集。系統(tǒng)日志數(shù)據(jù)采集主要針對互聯(lián)網上的商務活動,例如網站日志會記錄訪客IP地址、訪問時間、訪問次數(shù)、停留時間、訪客來源等數(shù)據(jù)。通過對這些日志信息進行采集、分析,可以挖掘數(shù)據(jù)中的潛在價值。(二)外部數(shù)據(jù)采集二、次級數(shù)據(jù)的采集方法外部數(shù)據(jù)是指來自組織外部獲得的二手數(shù)據(jù)。外部數(shù)據(jù)的采集來源為公開出版的資料、計算機數(shù)據(jù)庫、互聯(lián)網資料等。(二)外部數(shù)據(jù)采集二、次級數(shù)據(jù)的采集方法1.文獻資料采集

文獻資料采集主要是通過政府部門、行業(yè)協(xié)會、新聞媒體、出版社等發(fā)布的統(tǒng)計數(shù)據(jù)、行業(yè)調查報告、新聞報道、出版物采集數(shù)據(jù)。2.情報聯(lián)絡網法

情報聯(lián)絡網法,就是企業(yè)在全國范圍內或國外有限地區(qū)內設立情報聯(lián)絡網,使情報資料采集工作的觸角伸到四面八方。3.專業(yè)數(shù)據(jù)庫

數(shù)據(jù)庫指的是按照一定要求采集且具有內部相關性的數(shù)據(jù)的集合體。例如,中國知網數(shù)據(jù)庫、辛迪加數(shù)據(jù)等。(二)外部數(shù)據(jù)采集二、次級數(shù)據(jù)的采集方法1.文獻資料采集

文獻資料采集主要是通過政府部門、行業(yè)協(xié)會、新聞媒體、出版社等發(fā)布的統(tǒng)計數(shù)據(jù)、行業(yè)調查報告、新聞報道、出版物采集數(shù)據(jù)。2.情報聯(lián)絡網法

情報聯(lián)絡網法,就是企業(yè)在全國范圍內或國外有限地區(qū)內設立情報聯(lián)絡網,使情報資料采集工作的觸角伸到四面八方。3.專業(yè)數(shù)據(jù)庫

數(shù)據(jù)庫指的是按照一定要求采集且具有內部相關性的數(shù)據(jù)的集合體。例如,中國知網數(shù)據(jù)庫、辛迪加數(shù)據(jù)等。項目二數(shù)據(jù)采集概述任務4采集網絡數(shù)據(jù)一、常規(guī)網絡數(shù)據(jù)的采集常規(guī)網絡數(shù)據(jù)采集方法主要是針對網絡平臺數(shù)據(jù)那些可下載或可復制數(shù)據(jù)所采用的數(shù)據(jù)采集方法。1.當在網絡上瀏覽到需要采集的數(shù)據(jù)時,如果該平臺允許下載(或導出)頁面中的數(shù)據(jù),一般會在該頁面中顯示與下載(或導出)相關的超鏈接或按鈕,用戶只要單擊該超鏈接或按鈕,設置數(shù)據(jù)文件的名稱和保存位置,然后點擊保存即可。一、常規(guī)網絡數(shù)據(jù)的采集/sj/zxfb/202401/t20240129_1946971.html一、常規(guī)網絡數(shù)據(jù)的采集2.如果網絡平臺沒有提供與下載(或導出)相關的超鏈接或按鈕,但允許選擇并復制數(shù)據(jù)內容,用戶可以點擊并按住拖拽鼠標,將需要采集的數(shù)據(jù)全部選中,在所選區(qū)域單擊鼠標右鍵,在彈出的快捷菜單中選揮“復制”命令。啟動Excel點擊鼠標右鍵,在彈出的快捷菜單中選揮點擊“粘貼”命令,或按“Ctrl+V”組合鍵即可將剪貼板中的數(shù)據(jù)粘貼到Excel的工作表。一、常規(guī)網絡數(shù)據(jù)的采集/sj/zxfb/202402/t20240228_1947915.html二、利用Excel進行網絡數(shù)據(jù)采集

對于網絡數(shù)據(jù)也可以采用Excel進行數(shù)據(jù)采集。下面以東方財富網上的股票行情中心數(shù)據(jù)(/center/gridlist.html#hs_a_board)為例,利用Excel進行網絡數(shù)據(jù)采集。下圖為東方財富網行情中心部分股票數(shù)據(jù)。二、利用Excel進行網絡數(shù)據(jù)采集第一步,啟動Excel工作簿,點擊編輯頁面的“數(shù)據(jù)”選項卡,在出現(xiàn)的頁面中,單擊功能區(qū)中的“自網站”選項,會彈出“從Web”的對話框;二、利用Excel進行網絡數(shù)據(jù)采集第二步,在URL中錄入網址:/center/gridlist.html#hs_a_board,點擊“確定”按鈕;二、利用Excel進行網絡數(shù)據(jù)采集第三步,在上述步驟之后,會出現(xiàn)“導航器”對話框,二、利用Excel進行網絡數(shù)據(jù)采集第四步,在導航對話框中,點擊“顯示選項”中的“table0”選項;二、利用Excel進行網絡數(shù)據(jù)采集第五步,點擊【加載】按鈕,就可以將有關資料采集下來。三、使用gooseeker抓取網頁數(shù)據(jù)GooSeeker集搜客網絡爬蟲軟件是一款功能齊全并且免編程的批量爬蟲軟件,該軟件提供自定義采集和快捷采集兩種主要采集方式,自定義采集適用于非常規(guī)網站和個性化采集,快捷采集適用于主流網站數(shù)據(jù)采集,比如知乎、京東、淘寶、安居客、前程無憂、微博等網站,爬取方式簡單易用。下面以本軟件為例,進行網頁數(shù)據(jù)抓取演示。三、使用gooseeker抓取網頁數(shù)據(jù)(一)數(shù)據(jù)抓取前的準備工作1.下載與安裝首先進行軟件安裝,軟件下載地址:/pro/gooseeker.html該軟件提供免費版和高級版本,初學階段建議使用免費版。三、使用gooseeker抓取網頁數(shù)據(jù)2.激活賬號下載軟件后,雙擊安裝。安裝后雙擊打開,第一次運行GS爬蟲瀏覽器,要登錄才能激活網絡爬蟲功能,檢查是否已經連上服務器(綠勾連接,紅勾未連接)。注意:沒有賬號的請先在官網注冊一個賬號。如果是Mac版軟件,需要購買專業(yè)版才能激活。Windows版界面如下(本節(jié)以Windows免費版進行講解)。三、使用gooseeker抓取網頁數(shù)據(jù)(二)使用gooseeker抓取網頁數(shù)據(jù)下面以采集天貓商品評價為例簡要說明軟件使用方法。1.登陸天貓網站:在數(shù)據(jù)管家新開一個頁簽,在新頁簽打開天貓網站,并登陸一個天貓賬號,一般直接用手機驗證碼就可以。三、使用gooseeker抓取網頁數(shù)據(jù)2.進入快捷采集:點擊數(shù)據(jù)管家左側邊欄的“快”按鈕,進入快捷采集。三、使用gooseeker抓取網頁數(shù)據(jù)3.選擇合適的快捷工具:根據(jù)要采集的網頁,選擇類別-網站-網頁。對于天貓商品評論來說,就是點擊:電商

-

天貓

-

天貓商品評論采集三、使用gooseeker抓取網頁數(shù)據(jù)如下圖所示,可以打開示例頁面看看,確保后面操作時添加的鏈接和示例頁面類似?;蛘邽g覽網頁下方的示例數(shù)據(jù),進一步了解選定的快捷工具是否滿足要求。三、使用gooseeker抓取網頁數(shù)據(jù)4.獲得網址在天貓的搜索頁面上,輸入要搜索的關鍵詞,點擊搜索,比如搜索“兒童超輕黏土”,復制出來的某條商品網址就是:/item.htm?abbucket=20&id=657886365325&ns=1&spm=a21n.18b7523cI92qPN三、使用gooseeker抓取網頁數(shù)據(jù)5.粘貼網址,啟動采集把上一步得到的網址用Ctrl+v粘貼到快捷工具的網址輸入欄,啟動采集。三、使用gooseeker抓取網頁數(shù)據(jù)6.采集中的爬蟲窗口點擊獲取數(shù)據(jù)之后,數(shù)據(jù)管家自動彈出兩個采集窗口(窗口右下方有綠色的狀態(tài)球),一個窗口加載網頁,采集數(shù)據(jù),一個窗口打包上傳數(shù)據(jù)。兩個采集窗口工作時,都不能關閉。三、使用gooseeker抓取網頁數(shù)據(jù)7.打包下載數(shù)據(jù)采集完成后,采集狀態(tài)會從橙色的“采集中”,變成綠色的”已采集”。然后打包下

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論