社會(huì)調(diào)查教程(第八版) 知識(shí)點(diǎn)、關(guān)鍵概念、課后習(xí)題 第11章 大數(shù)據(jù)調(diào)查_第1頁
社會(huì)調(diào)查教程(第八版) 知識(shí)點(diǎn)、關(guān)鍵概念、課后習(xí)題 第11章 大數(shù)據(jù)調(diào)查_第2頁
社會(huì)調(diào)查教程(第八版) 知識(shí)點(diǎn)、關(guān)鍵概念、課后習(xí)題 第11章 大數(shù)據(jù)調(diào)查_第3頁
社會(huì)調(diào)查教程(第八版) 知識(shí)點(diǎn)、關(guān)鍵概念、課后習(xí)題 第11章 大數(shù)據(jù)調(diào)查_第4頁
社會(huì)調(diào)查教程(第八版) 知識(shí)點(diǎn)、關(guān)鍵概念、課后習(xí)題 第11章 大數(shù)據(jù)調(diào)查_第5頁
已閱讀5頁,還剩14頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第十一章大數(shù)據(jù)調(diào)查法一、知識(shí)點(diǎn)與關(guān)鍵詞解釋1.大數(shù)據(jù)大數(shù)據(jù)(bigdata或megadata),或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。西方學(xué)界一般從五個(gè)維度來描述大數(shù)據(jù)的特征:“體量”(Volume),“速度”(Velocity),“多樣性”(Variety),“準(zhǔn)確性”(Veracity)和“價(jià)值”(Value),統(tǒng)稱為5V。2.大數(shù)據(jù)調(diào)查法大數(shù)據(jù)調(diào)查法是指調(diào)查者有目的、有計(jì)劃地運(yùn)用計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)采集、處理、存儲(chǔ)和分析實(shí)時(shí)記錄社會(huì)現(xiàn)象及其活動(dòng)而形成的海量數(shù)據(jù)的調(diào)查方法。3.?dāng)?shù)據(jù)挖掘大數(shù)據(jù)方法或者說大數(shù)據(jù)分析技術(shù)的核心是“數(shù)據(jù)挖掘”(datemining)。數(shù)據(jù)挖掘,又稱為“爬梳”或KDD(KnowledgeDiscoverinDatabase),就是從海量數(shù)據(jù)中,提取能揭示有意義的潛在規(guī)律和人們感興趣的知識(shí)的處理過程。數(shù)據(jù)挖掘要實(shí)現(xiàn)自行采集大數(shù)據(jù),通常需要掌握專業(yè)數(shù)據(jù)抓取技術(shù)。大數(shù)據(jù)挖掘主要分為基于內(nèi)容信息的數(shù)據(jù)挖掘和基于結(jié)構(gòu)信息的社會(huì)計(jì)算。4.機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí),是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、\t"/item/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/_blank"逼近論、\t"/item/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/_blank"凸分析、\t"/item/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/_blank"算法復(fù)雜度理論等多門學(xué)科。簡(jiǎn)單地說,機(jī)器學(xué)習(xí)就是讓計(jì)算機(jī)根據(jù)歷史數(shù)據(jù)自己去學(xué)習(xí),以適應(yīng)新的環(huán)境,模擬或?qū)崿F(xiàn)人類的\t"/item/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/_blank"學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。它是\t"/item/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/_blank"人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑。5.結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù),通常是指用關(guān)系數(shù)據(jù)庫方式記錄的數(shù)據(jù),數(shù)據(jù)按表和字段進(jìn)行存儲(chǔ),字段之間相互獨(dú)立。比如企業(yè)ERP、財(cái)務(wù)系統(tǒng),醫(yī)療HIS數(shù)據(jù)庫,教育一卡通,政府行政審批,其他核心數(shù)據(jù)庫,等等。6.半結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù),是指以自描述的文本方式記錄的數(shù)據(jù),由于自描述數(shù)據(jù)無須滿足關(guān)系數(shù)據(jù)庫中那種非常嚴(yán)格的結(jié)構(gòu)和關(guān)系,在使用過程中非常方便。很多網(wǎng)站和應(yīng)用訪問日志采用了這種格式,網(wǎng)頁本身也是這種格式。課后習(xí)題詳解1.什么是大數(shù)據(jù),它有何特點(diǎn)?大數(shù)據(jù)(bigdata或megadata),或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。西方學(xué)界一般從五個(gè)維度來描述大數(shù)據(jù)的特征:“體量”(Volume),“速度”(Velocity),“多樣性”(Variety),“準(zhǔn)確性”(Veracity)和“價(jià)值”(Value),統(tǒng)稱為5V。與傳統(tǒng)數(shù)據(jù)不同,大數(shù)據(jù)不是通過抽樣調(diào)查所獲取的樣本數(shù)據(jù),而是人類活動(dòng)的實(shí)時(shí)記錄,并大都可以通過互聯(lián)網(wǎng)存儲(chǔ)、獲取、交換和分析,這些數(shù)據(jù)可以克服抽樣調(diào)查數(shù)據(jù)帶來的許多隨機(jī)和非隨機(jī)誤差。2.簡(jiǎn)述大數(shù)據(jù)調(diào)查法及其特點(diǎn)。大數(shù)據(jù)調(diào)查法是指調(diào)查者有目的、有計(jì)劃地運(yùn)用計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)采集、處理、存儲(chǔ)和分析實(shí)時(shí)記錄社會(huì)現(xiàn)象及其活動(dòng)而形成的海量數(shù)據(jù)的調(diào)查方法。與其他調(diào)查方法相比較,大數(shù)據(jù)調(diào)查法的特點(diǎn)是:(1)從“大型數(shù)據(jù)”到“大數(shù)據(jù)”。大數(shù)據(jù)則必須使用新的模型、算法及新的計(jì)算機(jī)集成技術(shù)才能進(jìn)行有效的采集與處理。大數(shù)據(jù)調(diào)查需要應(yīng)對(duì)數(shù)據(jù)的異構(gòu)性和質(zhì)量的不一致性問題。數(shù)據(jù)的異構(gòu)性主要表現(xiàn)為:一是數(shù)據(jù)類型從以結(jié)構(gòu)化數(shù)據(jù)為主轉(zhuǎn)向結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化三者的融合;二是數(shù)據(jù)產(chǎn)生方式的多樣性帶來了數(shù)據(jù)源變化,移動(dòng)終端數(shù)據(jù)帶有明顯的時(shí)空特性;三是數(shù)據(jù)存儲(chǔ)方式的變化,要求在集成的過程中進(jìn)行數(shù)據(jù)轉(zhuǎn)換,而這種轉(zhuǎn)換的過程是非常復(fù)雜和難以管理的。質(zhì)量的不一致性,是指數(shù)據(jù)量大不等同信息量增大或者數(shù)據(jù)價(jià)值提高,相反很多時(shí)候意味著信息垃圾的泛濫,使得數(shù)據(jù)清洗過程更加復(fù)雜。(2)從“隨機(jī)抽樣”到“觀察總體”。大數(shù)據(jù)調(diào)查法采集、處理的數(shù)據(jù),一般都不是個(gè)別的、局部的,也不是抽樣的,而是對(duì)總體信息進(jìn)行海量的抓取,通過海量數(shù)據(jù)直接觀察總體,所以調(diào)查結(jié)果能更加貼近調(diào)查對(duì)象的總體特征,規(guī)避了抽樣調(diào)查推斷總體時(shí)經(jīng)常出現(xiàn)的抽樣誤差等問題。(3)從“精確測(cè)量”到“總體真實(shí)”。大數(shù)據(jù)時(shí)代的原則變成了“要效率不要精確”,并不是說精確不好,而是因?yàn)樵诖髷?shù)據(jù)時(shí)代就單個(gè)數(shù)據(jù)來說很難做到精確。以調(diào)查媒體用戶信息為例,調(diào)查獲取數(shù)據(jù)的類型繁多,有各種網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等,但很難獲取一個(gè)用戶的完整信息,其中還可能有用戶有意無意填寫的錯(cuò)誤信息。如果繼續(xù)把排除錯(cuò)誤數(shù)據(jù)作為重要工作,大數(shù)據(jù)分析就無法進(jìn)行。況且大數(shù)據(jù)的規(guī)模龐大,數(shù)據(jù)的精確性沒有那么重要。因?yàn)楹A繑?shù)據(jù)可以更好地反映總體的真實(shí),從而大大降低了錯(cuò)誤信息造成的誤差。(4)從“因果關(guān)系”到“相關(guān)關(guān)系”。大數(shù)據(jù)調(diào)查法無法揭示或驗(yàn)證“因果關(guān)系”,但卻可以通過海量數(shù)據(jù)揭示社會(huì)現(xiàn)象之間的相關(guān)關(guān)系,并據(jù)此成功做出預(yù)測(cè)。3.大數(shù)據(jù)調(diào)查法的一般步驟和方法是什么?大數(shù)據(jù)調(diào)查法的一般步驟是:甄別與分類數(shù)據(jù);采集與提取數(shù)據(jù);審讀和清理數(shù)據(jù);分析和挖掘數(shù)據(jù);從數(shù)據(jù)到結(jié)論。一是甄別與分類數(shù)據(jù)。大數(shù)據(jù)調(diào)查要從甄別與提取數(shù)據(jù)開始。數(shù)據(jù)的甄別,就是對(duì)大數(shù)據(jù)進(jìn)行研究鑒別,明確調(diào)查課題需要什么樣的大數(shù)據(jù),如何獲得、如何分析這些大數(shù)據(jù)。數(shù)據(jù)的甄別。數(shù)據(jù)的分類,是根據(jù)人們活動(dòng)的類別,將目前常用的大數(shù)據(jù)分為四類:關(guān)于日常生活的數(shù)據(jù)、關(guān)于主觀態(tài)度的數(shù)據(jù)、關(guān)于交通出行的數(shù)據(jù)和關(guān)于空間分布的數(shù)據(jù)。二是采集與提取數(shù)據(jù)。常用的采集與提取技術(shù)主要有:(1)探針采集法。探針采集法是一種采集數(shù)據(jù)的物理方法。人們?nèi)粘4螂娫挕⑹謾C(jī)上網(wǎng)時(shí)的數(shù)據(jù)交換,是由路由器、交換機(jī)等設(shè)備承載的。探針是一種從路由器、交換機(jī)上把數(shù)據(jù)采集過來的專有設(shè)備。(2)網(wǎng)頁采集法。網(wǎng)頁采集是指從網(wǎng)頁中獲取數(shù)據(jù)?;ヂ?lián)網(wǎng)上有大量散落的數(shù)據(jù)。采集互聯(lián)網(wǎng)上的數(shù)據(jù),必須把數(shù)據(jù)從網(wǎng)絡(luò)中截取下來,這就需要網(wǎng)頁爬蟲技術(shù)。爬蟲技術(shù),就是利用編程語言編寫腳本,模擬人的瀏覽行為,自動(dòng)獲取網(wǎng)頁上的數(shù)據(jù),形成一個(gè)網(wǎng)頁備份,作為采集數(shù)據(jù)的載體。(3)日志收集法。任何一個(gè)計(jì)算機(jī)系統(tǒng),在運(yùn)行過程中都會(huì)產(chǎn)生大量日志文件,其中蘊(yùn)含著非常豐富的有價(jià)值的信息。如果不加以利用,這些日志文件經(jīng)過一段時(shí)間就會(huì)被清理、消失。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和成熟,大數(shù)據(jù)技術(shù)可以將這些日志文件收集起來加以研究。(4)應(yīng)用程序接口法。通常情況下,不同軟件之間都會(huì)預(yù)先設(shè)定一個(gè)接口(如函數(shù)或HTTP接口),讓使用者可在無需訪問源碼、無需理解內(nèi)部工作機(jī)制的情況下,調(diào)用他人可共享的功能或資源。調(diào)查者通過這些應(yīng)用程序接口,就能非常方便地采集、提取大量所需的數(shù)據(jù)。(5)數(shù)據(jù)采集軟件收集法。市場(chǎng)上有許多數(shù)據(jù)采集軟件平臺(tái)和公司,能夠?yàn)樯鐣?huì)科學(xué)不同領(lǐng)域的調(diào)查研究者,提供各種個(gè)性化的數(shù)據(jù)采集服務(wù)。三是審讀和清理數(shù)據(jù)。(1)判斷數(shù)據(jù)結(jié)構(gòu)。審讀數(shù)據(jù),首先要判斷數(shù)據(jù)的結(jié)構(gòu)。按照結(jié)構(gòu)化程度,數(shù)據(jù)可分為三類:結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。(2)數(shù)據(jù)結(jié)構(gòu)化過程。分析和挖掘數(shù)據(jù),必須按照結(jié)構(gòu)化數(shù)據(jù)實(shí)施。因此,在分析和挖掘數(shù)據(jù)之前,必須對(duì)采集、提取的數(shù)據(jù)進(jìn)行審讀和清理,即將半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為成結(jié)構(gòu)化數(shù)據(jù)。這就是說,審讀和清理數(shù)據(jù)的過程,就是數(shù)據(jù)的結(jié)構(gòu)化過程。四是分析和挖掘數(shù)據(jù)。大數(shù)據(jù)分析和挖掘主要有五種方法:分類,聚類,回歸,關(guān)聯(lián)規(guī)則分析和社交網(wǎng)絡(luò)分析。(1)“分類”,就是根據(jù)某些規(guī)則或?qū)傩詫⒂^察結(jié)果劃分為預(yù)定義組的方法。(2)“聚類”,是一種將相似或相關(guān)數(shù)據(jù)聚集在一起、實(shí)現(xiàn)“組內(nèi)相似,組間不同”的分析方法。(3)“回歸”,是一種確定兩個(gè)或兩個(gè)以上變量之間相互關(guān)系的分析方法。(4)“關(guān)聯(lián)規(guī)則分析”,是一種用于發(fā)現(xiàn)事物間相關(guān)性或相互依賴性的方法。(5)“社交網(wǎng)絡(luò)分析”,是一種用來查看節(jié)點(diǎn)、連接邊之間社會(huì)關(guān)系的一種分析方法。五是從數(shù)據(jù)到結(jié)論。大數(shù)據(jù)調(diào)查法的實(shí)施,既要重視各種數(shù)據(jù)采集、分析技術(shù)和算法的應(yīng)用,又要重視唯物史觀基本原理的指導(dǎo),并努力把二者有機(jī)結(jié)合起來。只有如此,才能科學(xué)驗(yàn)證現(xiàn)有理論,或提出新的科學(xué)理論。4.簡(jiǎn)述大數(shù)據(jù)采集與提取的主要技術(shù)。大數(shù)據(jù)分析和挖掘主要有五種方法:分類,聚類,回歸,關(guān)聯(lián)規(guī)則分析和社交網(wǎng)絡(luò)分析。(1)“分類”,就是根據(jù)某些規(guī)則或?qū)傩詫⒂^察結(jié)果劃分為預(yù)定義組的方法。其中,決策樹、支持向量機(jī)和樸素貝葉斯分類器都是相對(duì)成熟的分類算法。以城市研究為例,通過分析城市基礎(chǔ)設(shè)施和文本數(shù)據(jù),量化城市基礎(chǔ)設(shè)施模式、提取不同類型城市的土地利用率,就可有效預(yù)測(cè)城市的發(fā)展?fàn)顟B(tài)和趨勢(shì)。(2)“聚類”,是一種將相似或相關(guān)數(shù)據(jù)聚集在一起、實(shí)現(xiàn)“組內(nèi)相似,組間不同”的分析方法?;诖髷?shù)據(jù)的聚類方法,主要用于獲取不同類別的數(shù)據(jù),而不特別關(guān)注所獲取類別數(shù)據(jù)的意義。聚類技術(shù)用于區(qū)分“無標(biāo)簽”數(shù)據(jù)比較有優(yōu)勢(shì)。例如,在分析蜂窩網(wǎng)絡(luò)數(shù)據(jù)和車輛GPS數(shù)據(jù)時(shí),可以使用聚類分析法,以此發(fā)現(xiàn)不同時(shí)間的人口分布模式和乘客出行模式,為制定公共交通網(wǎng)絡(luò)規(guī)劃提供基礎(chǔ)。(3)“回歸”,是一種確定兩個(gè)或兩個(gè)以上變量之間相互關(guān)系的分析方法。其中,線性回歸和邏輯回歸是使用最廣泛的兩種算法?;貧w分析法,主要用于事物之間因果關(guān)系的分析和預(yù)測(cè),具有降維、信息提取、估計(jì)和預(yù)測(cè)等功能。例如,運(yùn)用回歸分析方法,可以根據(jù)居住環(huán)境與居民健康的數(shù)據(jù),確定居民疾病與環(huán)境的關(guān)系;可以根據(jù)居住環(huán)境與房地產(chǎn)的數(shù)據(jù),弄清居住環(huán)境與房?jī)r(jià)的關(guān)系,等等。(4)“關(guān)聯(lián)規(guī)則分析”,關(guān)聯(lián)規(guī)則分析,是一種用于發(fā)現(xiàn)事物間相關(guān)性或相互依賴性的方法。其中,“Apriori”和“灰色關(guān)聯(lián)”是兩種廣泛使用的算法。關(guān)聯(lián)規(guī)則分析法,可基于某些事件的發(fā)生推測(cè)其他事件的出現(xiàn),并確定事物之間的影響程度,發(fā)現(xiàn)有價(jià)值的數(shù)據(jù)項(xiàng)之間的相關(guān)性,也可以用于分析遙感數(shù)據(jù)、社交媒體數(shù)據(jù),研究城市擴(kuò)張與城市活力之間的關(guān)系,等等。(5)“社交網(wǎng)絡(luò)分析”,是一種用來查看節(jié)點(diǎn)、連接邊之間社會(huì)關(guān)系的一種分析方法。節(jié)點(diǎn)是社交網(wǎng)絡(luò)里的每個(gè)參與者,連接邊則表示參與者之間的關(guān)系。節(jié)點(diǎn)之間可以有很多種連接。社交網(wǎng)絡(luò)是一張地圖,可以標(biāo)示出所有與節(jié)點(diǎn)間相關(guān)的連接邊。隨著社交媒體的發(fā)展,該方法已成為一種相當(dāng)流行、新穎的大數(shù)據(jù)分析方法,已廣泛應(yīng)用于分析人與人之間、人與物之間、物與物之間的關(guān)系。比如,分析人口流動(dòng)和物資流動(dòng)的方向、強(qiáng)度等關(guān)系。5.大數(shù)據(jù)分析和挖掘有哪些方法?大數(shù)據(jù)方法或者說大數(shù)據(jù)分析技術(shù)的核心是“數(shù)據(jù)挖掘”(datemining)。數(shù)據(jù)挖掘就是從海量數(shù)據(jù)中,提取能揭示有意義的潛在規(guī)律和人們感興趣的知識(shí)的處理過程。因此,數(shù)據(jù)挖掘又被稱為“爬梳”或KDD(KnowledgeDiscoverinDatabase)。要實(shí)現(xiàn)自行采集大數(shù)據(jù),通常需要掌握專業(yè)數(shù)據(jù)抓取技術(shù)。大數(shù)據(jù)挖掘主要分為基于內(nèi)容信息的數(shù)據(jù)挖掘和基于結(jié)構(gòu)信息的社會(huì)計(jì)算。(1)基于內(nèi)容信息的數(shù)據(jù)挖掘。語言是社會(huì)媒體最重要的表現(xiàn)形式,文本是社會(huì)媒體中用戶表達(dá)信息的最重要的方式?;趦?nèi)容信息的數(shù)據(jù)挖掘包括網(wǎng)絡(luò)搜索技術(shù)與實(shí)體關(guān)聯(lián)分析等主要研究?jī)?nèi)容。社會(huì)媒體的出現(xiàn)為互聯(lián)網(wǎng)信息搜索提出了新的挑戰(zhàn),研究的熱點(diǎn)從傳統(tǒng)的海量數(shù)據(jù)抓取、索引結(jié)構(gòu)優(yōu)化和用戶查詢分析等轉(zhuǎn)移到了排序?qū)W習(xí)算法,專注于提高檢索質(zhì)量。此外,社會(huì)媒體需要關(guān)注數(shù)據(jù)的短文本特征、對(duì)簡(jiǎn)短關(guān)鍵詞表達(dá)的深入理解和分析,掌握用戶真實(shí)的查詢意圖。(2)基于結(jié)構(gòu)信息的社會(huì)計(jì)算。社會(huì)網(wǎng)絡(luò)是以社會(huì)媒體中的用戶為節(jié)點(diǎn)、用戶間的關(guān)系為連邊而構(gòu)建的網(wǎng)絡(luò)。它既是用戶間社會(huì)關(guān)系的反映,也是用戶間進(jìn)行信息交互的載體。社會(huì)網(wǎng)絡(luò)具有關(guān)系的異質(zhì)性、結(jié)構(gòu)的多尺度性以及網(wǎng)絡(luò)的動(dòng)態(tài)演化性三方面特性。在社會(huì)網(wǎng)絡(luò)中,個(gè)體因血緣關(guān)系或興趣愛好等因素而形成了連接緊密的圈子,這種內(nèi)部關(guān)系緊密而對(duì)外關(guān)系相對(duì)稀疏的結(jié)構(gòu)被稱為社區(qū)。社區(qū)結(jié)構(gòu)是社會(huì)網(wǎng)絡(luò)所普遍具有的結(jié)構(gòu)特征,社區(qū)結(jié)構(gòu)的存在對(duì)于網(wǎng)絡(luò)的高效搜索、網(wǎng)絡(luò)演化、信息擴(kuò)散等具有重要意義。針對(duì)社區(qū)結(jié)構(gòu)的研究可分為社區(qū)發(fā)現(xiàn)、社區(qū)結(jié)構(gòu)演化等方面。父母社會(huì)經(jīng)濟(jì)地位對(duì)子代地位獲得的影響是社會(huì)學(xué)研究領(lǐng)域的一個(gè)經(jīng)典議題。很多研究人員通過對(duì)比父子兩代的社會(huì)經(jīng)濟(jì)地位來分析社會(huì)流動(dòng),其基本研究結(jié)論是:父母社會(huì)經(jīng)濟(jì)地位越高,子代的社會(huì)經(jīng)濟(jì)地位也越高。但是,代際之間在社會(huì)經(jīng)濟(jì)地位上的關(guān)聯(lián)程度在不同時(shí)期和不同社會(huì)也存在非常明顯的差異。6.實(shí)施大數(shù)據(jù)調(diào)查應(yīng)當(dāng)注意哪些問題?一是技術(shù)依賴性問題。大數(shù)據(jù)調(diào)查法從甄別、獲取、采集、提取、清理、分析、挖掘,直至得出調(diào)查結(jié)論,都高度依賴于軟件和計(jì)算機(jī)技術(shù)。采集、處理的數(shù)據(jù)盡管是具有很大客觀性、真實(shí)性、可靠性的自在數(shù)據(jù),但卻是非實(shí)體性的存在。機(jī)器分析算法期望同構(gòu)數(shù)據(jù),并且不能理解細(xì)微差別。同時(shí),依賴技術(shù)獲取的大數(shù)據(jù),往往難以分清與目標(biāo)總體間的差異。二是大數(shù)據(jù)調(diào)查的多學(xué)科配合問題。大數(shù)據(jù)調(diào)查一般都要涉及到廣闊的調(diào)查空間,眾多的調(diào)查對(duì)象,海量的調(diào)查數(shù)據(jù),多方面的調(diào)研資料,要使用多學(xué)科的調(diào)研方法和技術(shù),其工作量往往十分巨大,并有一定的時(shí)間要求,單靠個(gè)別調(diào)研人員是很難完成的。一般地說,大數(shù)據(jù)調(diào)查課題,都應(yīng)該組建一個(gè)多學(xué)科合作的、有一定規(guī)模的團(tuán)隊(duì)來承擔(dān)。三是隱私與信息安全問題?;ヂ?lián)網(wǎng)的發(fā)展使數(shù)據(jù)更加容易產(chǎn)生和傳播,數(shù)據(jù)隱私問題越來越嚴(yán)重。一是隱性的數(shù)據(jù)暴露?;ヂ?lián)網(wǎng),尤其是社交網(wǎng)絡(luò)的出現(xiàn),使得人們?cè)诓煌牡攸c(diǎn)產(chǎn)生越來越多的數(shù)據(jù)足跡。如果有辦法將某個(gè)人的很多行為從不同的獨(dú)立地點(diǎn)聚集在一起,他的隱私就很可能會(huì)暴露。二是數(shù)據(jù)公開與隱私保護(hù)的矛盾。如果僅僅為了保護(hù)隱私就將所有的數(shù)據(jù)都加以隱藏,那么數(shù)據(jù)的價(jià)值根本無法體現(xiàn)。大數(shù)據(jù)時(shí)代的隱私性主要體現(xiàn)為在不暴露用戶敏感信息的前提下進(jìn)行有效的數(shù)據(jù)挖掘,這有別于傳統(tǒng)的信息安全領(lǐng)域更加關(guān)注文件的私密性等安全屬性。四是大數(shù)據(jù)管理的易用性問題。從數(shù)據(jù)集成到數(shù)據(jù)分析,直到最后的數(shù)據(jù)解釋,易用性應(yīng)當(dāng)貫穿整個(gè)大數(shù)據(jù)的流程。易用性的挑戰(zhàn)突出體現(xiàn)在兩個(gè)方面:一方面,大數(shù)據(jù)時(shí)代的數(shù)據(jù)量大,分析更復(fù)雜,得到的結(jié)果形式更加多樣化。其復(fù)雜程度已經(jīng)遠(yuǎn)遠(yuǎn)超出傳統(tǒng)的關(guān)系數(shù)據(jù)庫。對(duì)于數(shù)據(jù)管理領(lǐng)域,需要借助AI發(fā)揮作用。另一方面,大數(shù)據(jù)已經(jīng)廣泛滲透到人們生活的各個(gè)方面,很多行業(yè)開始有大數(shù)據(jù)分析的需求。要想達(dá)到易用性,需要關(guān)注以下三個(gè)基本原則:可視化、匹配和反饋。三、擴(kuò)展閱讀(一)什么是大數(shù)據(jù)分析?大數(shù)據(jù)分析是指用于從不同的大量、高速數(shù)據(jù)集中收集、處理和得出見解的方法、工具和應(yīng)用程序。這些數(shù)據(jù)集可能來自各種來源,例如Web、移動(dòng)應(yīng)用、電子郵件、社交媒體和聯(lián)網(wǎng)智能設(shè)備。它們通常表示以高速生成、形式各樣的數(shù)據(jù),從結(jié)構(gòu)化(數(shù)據(jù)庫表、Excel表)到半結(jié)構(gòu)化(XML文件、網(wǎng)頁),再到非結(jié)構(gòu)化(圖像、音頻文件)應(yīng)有盡有。傳統(tǒng)形式的數(shù)據(jù)分析軟件無法支持這種程度的復(fù)雜度和規(guī)模,而這就是專為大數(shù)據(jù)分析設(shè)計(jì)的系統(tǒng)、工具和應(yīng)用程序發(fā)揮作用的地方。(二)大數(shù)據(jù)分析為什么很重要?現(xiàn)在,你知道了什么是大數(shù)據(jù)分析。但是,它為什么很重要呢?最重要的是,理解和使用大數(shù)據(jù)可如何幫助我們?數(shù)據(jù)與我們的日常生活息息相關(guān)。隨著與物聯(lián)網(wǎng)(IoT)關(guān)聯(lián)的移動(dòng)應(yīng)用、社交媒體和智能技術(shù)的興起,我們現(xiàn)在傳輸?shù)臄?shù)據(jù)比以往任何時(shí)候都多,而且傳輸速度超快。得益于大數(shù)據(jù)分析,組織現(xiàn)在能夠使用此信息來快速改善他們工作、思考的方式,并為他們的客戶提供價(jià)值。在工具和應(yīng)用程序的協(xié)助下,大數(shù)據(jù)可幫助你獲得見解、優(yōu)化運(yùn)營(yíng)和預(yù)測(cè)未來成果。大數(shù)據(jù)之所以重要,就是因?yàn)樗軌蛱峁┮娊鈦韼椭龀龈玫臎Q策。通過這種方式,零售商可打磨他們的定向廣告活動(dòng),批發(fā)商可解決供應(yīng)鏈中的瓶頸。也是通過這種方式,醫(yī)療保健提供商可根據(jù)患者數(shù)據(jù)趨勢(shì)發(fā)現(xiàn)臨床護(hù)理的新方法。大數(shù)據(jù)分析為決策制定提供一個(gè)更全面的數(shù)據(jù)驅(qū)動(dòng)的方法,進(jìn)而促進(jìn)增長(zhǎng)、效率和創(chuàng)新?,F(xiàn)在你知道了大數(shù)據(jù)的重要性,也知道了數(shù)據(jù)分析的重要性,接下來讓我們探索大數(shù)據(jù)分析是如何工作的。(三)大數(shù)據(jù)分析的工作原理分析解決方案通過分析數(shù)據(jù)集來收集見解和預(yù)測(cè)結(jié)果。不過,為了成功分析數(shù)據(jù),必須先按照一個(gè)集成的分步準(zhǔn)備流程用一系列應(yīng)用程序存儲(chǔ)、組織和清理這些數(shù)據(jù):收集。數(shù)據(jù)有結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的形式,它是跨Web、移動(dòng)和云從多個(gè)來源收集的。收集后,數(shù)據(jù)存儲(chǔ)在存儲(chǔ)庫中(數(shù)據(jù)湖或數(shù)據(jù)倉庫),為處理做好準(zhǔn)備。處理。在處理階段,會(huì)對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行驗(yàn)證、排序和篩選,這為將來的使用做好準(zhǔn)備并提高了查詢的性能。

清理。處理后,會(huì)對(duì)數(shù)據(jù)進(jìn)行清理。

數(shù)據(jù)集中的沖突、冗余、無效/不完整的字段和格式錯(cuò)誤將得到糾正和清除。分析?,F(xiàn)在可以對(duì)數(shù)據(jù)進(jìn)行分析了。

大數(shù)據(jù)分析是通過數(shù)據(jù)挖掘、AI、預(yù)測(cè)分析、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析等工具和技術(shù)來完成的,它們有助于定義和預(yù)測(cè)數(shù)據(jù)中的模式和形式。(四)大數(shù)據(jù)分析的使用和示例如今,很多主要行業(yè)使用不同類型的數(shù)據(jù)分析,圍繞產(chǎn)品策略、運(yùn)營(yíng)、銷售、營(yíng)銷和客戶服務(wù)做出更明智的決策。通過大數(shù)據(jù)分析,處理大量數(shù)據(jù)的組織都能從這些數(shù)據(jù)中獲得有意義的見解。大數(shù)據(jù)分析有很多實(shí)際應(yīng)用,下面僅列舉一些:產(chǎn)品開發(fā)。大數(shù)據(jù)分析通過大量業(yè)務(wù)分析數(shù)據(jù)挖掘客戶的需求、指導(dǎo)功能開發(fā)和路線圖策略,幫助組織定義他們的客戶想要什么。

個(gè)性化定制。流式處理平臺(tái)和在線零售商分析用戶參與情況,以推薦、定向廣告、追加銷售和忠誠(chéng)度計(jì)劃的形式創(chuàng)建更加個(gè)性化的體驗(yàn)。

供應(yīng)鏈管理。預(yù)測(cè)分析可定義和預(yù)測(cè)供應(yīng)鏈的各個(gè)方面,包括倉儲(chǔ)、采購(gòu)、交付和退貨。

醫(yī)療保健。大數(shù)據(jù)分析可用于從患者數(shù)據(jù)中收集關(guān)鍵見解,這有助于提供商發(fā)現(xiàn)新的診斷和治療方法。

定價(jià)。可分析銷售和交易數(shù)據(jù)來創(chuàng)建更優(yōu)定價(jià)模型,幫助公司做出能實(shí)現(xiàn)收入最大化的定價(jià)決策。

預(yù)防詐騙。金融機(jī)構(gòu)使用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)來檢測(cè)和預(yù)測(cè)欺詐活動(dòng)的模式,從而降低風(fēng)險(xiǎn)。

運(yùn)營(yíng)。分析財(cái)務(wù)數(shù)據(jù)可幫助組織檢測(cè)和降低隱藏的運(yùn)營(yíng)成本,進(jìn)而節(jié)省資金和提高生產(chǎn)力。

贏得和留住客戶。在線零售商使用訂單歷史記錄、搜索數(shù)據(jù)、在線評(píng)論和其他數(shù)據(jù)源來預(yù)測(cè)客戶行為-他們可能使用預(yù)測(cè)結(jié)果來更好地留住客戶。

(五)大數(shù)據(jù)分析的優(yōu)勢(shì)和挑戰(zhàn)正如眾多用例展示的那樣,大數(shù)據(jù)有利于眾多行業(yè)中、各種背景情況下的組織。不過,鑒于大數(shù)據(jù)基礎(chǔ)結(jié)構(gòu)的復(fù)雜性,大數(shù)據(jù)也帶來一些需要考慮的問題。下面是一些需要注意的大數(shù)據(jù)挑戰(zhàn):保持?jǐn)?shù)據(jù)井然有序且易于訪問。與大數(shù)據(jù)相關(guān)的最大挑戰(zhàn)是,弄清楚如何管理傳入的海量信息,使其在你的應(yīng)用程序中正確傳輸。

避免數(shù)據(jù)孤島、保持?jǐn)?shù)據(jù)集成,并圍繞有效的管理策略規(guī)劃基礎(chǔ)結(jié)構(gòu),這些都至關(guān)重要。質(zhì)量控制。保持?jǐn)?shù)據(jù)的準(zhǔn)確性和質(zhì)量可能很困難也很耗時(shí),尤其是當(dāng)快速傳入非常大量的數(shù)據(jù)時(shí)。

在執(zhí)行任何分析之前,你將需要確保你的數(shù)據(jù)收集、處理和清理流程是集成的、標(biāo)準(zhǔn)化的且經(jīng)過了優(yōu)化。保持?jǐn)?shù)據(jù)安全。

隨著數(shù)據(jù)泄露的增多,保護(hù)數(shù)據(jù)比以往任何時(shí)候都更重要。隨著分析系統(tǒng)的發(fā)展,出現(xiàn)虛假數(shù)據(jù)、泄露、合規(guī)問題和軟件漏洞等形式的數(shù)據(jù)挑戰(zhàn)的可能性也增加了。加密數(shù)據(jù)、跟進(jìn)安全審核和進(jìn)行盡職調(diào)查可幫助減輕其中一些擔(dān)憂。選擇正確的工具。可用的工具和技術(shù)太多了,可能讓人無從選擇。

正因如此,讓自己獲得信息、保持消息靈通,可能的話在需要時(shí)聘請(qǐng)或咨詢專家非常重要。雖然高效建立和管理系統(tǒng)可能需要大量工作,但使用大數(shù)據(jù)分析帶來的好處值得付出這一努力。對(duì)于尋求一種數(shù)據(jù)驅(qū)動(dòng)的更明智的方法來改進(jìn)其組織運(yùn)營(yíng)方式的任何人來說,大數(shù)據(jù)的長(zhǎng)期優(yōu)勢(shì)都是無價(jià)的。下面是幾個(gè)例子:更快獲得見解。憑借無與倫比的速度和效率,大數(shù)據(jù)分析可幫助組織更快地將信息轉(zhuǎn)化為見解。

這些見解隨后被用來圍繞產(chǎn)品、運(yùn)營(yíng)、營(yíng)銷和其他業(yè)務(wù)計(jì)劃做出明智的決策。成本效率。海量數(shù)據(jù)需要存儲(chǔ),維護(hù)起來可能很昂貴。

但隨著更具伸縮性的存儲(chǔ)系統(tǒng)的出現(xiàn),組織現(xiàn)在可在降低成本的同時(shí),最大程度提高運(yùn)營(yíng)效率。這意味著更高的利潤(rùn)率和更高效的系統(tǒng)。用戶滿意度。大數(shù)據(jù)的高級(jí)商業(yè)智能功能不僅能分析客戶趨勢(shì),還能通過預(yù)測(cè)分析來預(yù)測(cè)客戶的行為。

通過更多地了解用戶的需求,組織可創(chuàng)建能滿足這些需求的個(gè)性化產(chǎn)品。四、教學(xué)案例案例1:大數(shù)據(jù)分析工具隨著大數(shù)據(jù)時(shí)代的到來,越來越多的企業(yè)和組織開始探索如何利用海量數(shù)據(jù)來提高決策效率和質(zhì)量。這就需要一些專門的大數(shù)據(jù)分析工具,用于處理、分析、可視化和挖掘數(shù)據(jù)中蘊(yùn)含的價(jià)值。下面是10個(gè)常見的大數(shù)據(jù)分析工具:1.HadoopHadoop是Apache基金會(huì)的一個(gè)開源項(xiàng)目,是大數(shù)據(jù)處理中最為常用的分布式計(jì)算框架之一。它可以幫助用戶快速處理大數(shù)據(jù)集,并支持?jǐn)?shù)據(jù)存儲(chǔ)、處理、分析和可視化等功能。Hadoop使用HDFS(Hadoop分布式文件系統(tǒng))來存儲(chǔ)數(shù)據(jù),使用MapReduce來分析和處理數(shù)據(jù)。常用的Hadoop發(fā)行版有Cloudera、Hortonworks、MapR等。2.SparkSpark是一個(gè)快速、通用、可擴(kuò)展的分布式計(jì)算系統(tǒng),也是Apache基金會(huì)的一個(gè)開源項(xiàng)目。它可以在Hadoop集群上運(yùn)行,并支持批處理、交互式查詢和流處理等多種計(jì)算模式。Spark具有內(nèi)存計(jì)算和快速調(diào)度等優(yōu)點(diǎn),能夠大大提高計(jì)算速度和效率。3.HiveHive是一種基于Hadoop的數(shù)據(jù)倉庫系統(tǒng),支持使用SQL-like查詢語言來訪問和處理大規(guī)模數(shù)據(jù)。它將結(jié)構(gòu)化數(shù)據(jù)映射到Hadoop的HDFS上,并使用HadoopMapReduce進(jìn)行查詢和分析。Hive還支持自定義函數(shù)和UDF(用戶定義函數(shù)),可以方便地實(shí)現(xiàn)復(fù)雜的數(shù)據(jù)分析操作。4.TableauTableau是一種數(shù)據(jù)可視化工具,可以幫助用戶輕松地創(chuàng)建交互式和美觀的圖表和儀表盤。它支持多種數(shù)據(jù)源和文件格式,并提供自定義計(jì)算、過濾和聚合等功能。Tableau適用于各種行業(yè)和領(lǐng)域,例如營(yíng)銷、金融、醫(yī)療等。5.PythonPython是一種通用的編程語言,也可以用于數(shù)據(jù)分析和機(jī)器學(xué)習(xí)。它支持多種數(shù)據(jù)分析和機(jī)器學(xué)習(xí)庫,例如NumPy、Pandas、Scikit-learn等,并提供數(shù)據(jù)可視化和交互式計(jì)算等功能。Python廣泛應(yīng)用于數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)、自然語言處理等領(lǐng)域。6.阿里云大數(shù)據(jù)阿里云大數(shù)據(jù)是阿里巴巴旗下的云計(jì)算平臺(tái),提供包括MaxCompute、DataWorks、QuickBI等多種大數(shù)據(jù)分析工具。其中,MaxCompute是一種分布式云計(jì)算服務(wù),可以用于大規(guī)模數(shù)據(jù)存儲(chǔ)和分析,例如阿里巴巴的電商數(shù)據(jù)分析;DataWorks是一種數(shù)據(jù)協(xié)作平臺(tái),可以幫助企業(yè)實(shí)現(xiàn)數(shù)據(jù)整合和共享;QuickBI是一種智能化BI工具,可以進(jìn)行數(shù)據(jù)可視化和探索性分析。7.騰訊云大數(shù)據(jù)騰訊云大數(shù)據(jù)是騰訊公司旗下的云計(jì)算平臺(tái),提供包括CDH、TDH、DAS等多種大數(shù)據(jù)分析工具。其中,CDH是一種Hadoop生態(tài)圈的分布式計(jì)算框架,可以用于大數(shù)據(jù)存儲(chǔ)和分析;TDH是一種Hadoop生態(tài)圈的大數(shù)據(jù)處理平臺(tái),可以用于海量數(shù)據(jù)處理和分析;DAS是一種基于Spark的大數(shù)據(jù)分析服務(wù),可以實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)處理和分析。8.百度大數(shù)據(jù)百度大數(shù)據(jù)是百度公司推出的一種大數(shù)據(jù)分析平臺(tái),提供包括BSP、BMR等多種大數(shù)據(jù)分析工具。其中,BSP是一種分布式計(jì)算框架,可以用于海量數(shù)據(jù)處理和分析;BMR是一種批量MapReduce計(jì)算引擎,可以用于大規(guī)模數(shù)據(jù)處理和分析。9.華為云大數(shù)據(jù)華為云大數(shù)據(jù)是華為公司旗下的云計(jì)算平臺(tái),提供包括FusionInsight、ModelArts等多種大數(shù)據(jù)分析工具。其中,F(xiàn)usionInsight是一種Hadoop生態(tài)圈的大數(shù)據(jù)處理平臺(tái),可以用于大規(guī)模數(shù)據(jù)存儲(chǔ)和分析;ModelArts是一種基于人工智能技術(shù)的平臺(tái),可以用于大數(shù)據(jù)分析和預(yù)測(cè),例如人臉識(shí)別和語音識(shí)別。10.科大訊飛科大訊飛是一家語音和人工智能技術(shù)公司,提供包括智能客服、語音識(shí)別、自然語言處理等多種服務(wù),可以幫助企業(yè)進(jìn)行大數(shù)據(jù)分析和預(yù)測(cè),例如金融、電商等領(lǐng)域的智能客服和語音識(shí)別。案例2:大數(shù)據(jù)分析,到底在分析什么?“大數(shù)據(jù)”仨字已經(jīng)被喊爛了,“大數(shù)據(jù)分析”也經(jīng)常被人提起??傻降渍ν耆恰按髷?shù)據(jù)分析”?為啥大家喊得很多,平時(shí)工作中很少感受得到?今天系統(tǒng)講解一下。一、普通人理解的“大數(shù)據(jù)”普通人理解的大數(shù)據(jù)可謂千奇百怪,比如:一個(gè)excel文件200M,多大的數(shù)據(jù)呀!我國(guó)人口14億,這個(gè)數(shù)據(jù)好大呀!臥槽,我剛看了車,就有4S店推廣電話,肯定收集了我的大數(shù)據(jù)?!@些千奇百怪的理解,都是來自對(duì)“數(shù)據(jù)”本身不夠了解導(dǎo)致的。想整明白“大數(shù)據(jù)”真正的含義,得從數(shù)據(jù)是從哪里來的講起。二、先理解“小數(shù)據(jù)”,再談“大數(shù)據(jù)”最原始的數(shù)據(jù)采集方式就是:?jiǎn)柧?。由專門的調(diào)查人員,借助一張張調(diào)查問卷,通過現(xiàn)場(chǎng)詢問、測(cè)量等方式獲得數(shù)據(jù)。這種方法已經(jīng)沿用了400多年,經(jīng)典的統(tǒng)計(jì)學(xué)、管理學(xué)理論都是建立在此之上的(如下圖)。小數(shù)據(jù)有沒用?有用!非常有用!能采集到某個(gè)地區(qū)的數(shù)據(jù),代表著政府對(duì)這個(gè)地區(qū)有統(tǒng)治力。能采集到越多的數(shù)據(jù),中央就能掌握地方情況,從而加強(qiáng)管理。數(shù)據(jù)是如此重要,以至于歷史上很長(zhǎng)一段時(shí)間,統(tǒng)計(jì)任務(wù)歸屬于政府、軍隊(duì)、情報(bào)機(jī)關(guān)。我國(guó)的第一家調(diào)查公司還是在90年代初,在寶潔強(qiáng)烈要求下成立的。但是,調(diào)研做法有三個(gè)明顯的問題:非常耗費(fèi)人力。訪問員、督導(dǎo)、審核、錄入、數(shù)據(jù)處理……都是人。非常耗費(fèi)時(shí)間。設(shè)計(jì)問卷、填寫、回收、都是時(shí)間。準(zhǔn)確度低?,F(xiàn)場(chǎng)測(cè)量的數(shù)據(jù)會(huì)相對(duì)準(zhǔn),但口頭問回來的大部分都不準(zhǔn)。這些問題,導(dǎo)致了問卷時(shí)代的數(shù)據(jù)采集,只能有抽樣式的,不能是全量采集。也因此衍生出了專門的抽樣理論和方法。但無論數(shù)據(jù)方法怎么改進(jìn),在業(yè)務(wù)上,抽樣,始終是一個(gè)難以逾越的梗阻。決策者總會(huì)覺得:是不是樣本量太少;是不是代表性不夠;沒有覆蓋的樣本是不是真的一致。只要是抽樣數(shù)據(jù),就一定會(huì)被質(zhì)疑,就總是充滿懷疑。這也是最初“小數(shù)據(jù)”的說法來源,后續(xù)所有“大數(shù)據(jù)”其實(shí)都是圍繞“小數(shù)據(jù)”問題而來。1.數(shù)據(jù)變大第一步:系統(tǒng)采集數(shù)據(jù)從小變大的第一步,從系統(tǒng)采集開始。比如企業(yè)擴(kuò)大規(guī)模,要在各地建連鎖店,第一步做得就是裝POS機(jī),把交易數(shù)據(jù)采集進(jìn)來,替代紙質(zhì)訂貨單/出貨單。此時(shí)想了解銷售數(shù)據(jù),是可以基于POS機(jī)收集的數(shù)據(jù)全量查看的(如下圖)。從抽樣數(shù)據(jù)到全量數(shù)據(jù),是一個(gè)質(zhì)的變化?;谌繑?shù)據(jù),可以直接管理到各個(gè)終端門店,直接基于數(shù)據(jù)作出經(jīng)營(yíng)決策。因此大部分企業(yè)的銷售分析、經(jīng)營(yíng)分析、業(yè)務(wù)分析體系,都是在此基礎(chǔ)之上建立起來的(如下圖)。但是這個(gè)階段的局限也是很明顯的:POS機(jī)只能記錄交易結(jié)果,對(duì)過程一概不知。誰在買,買了多少,為啥買,通通不清楚。這個(gè)階段的分析,是典型的知其然,不知其所以然的分析,大部分分析只能通過成交結(jié)果去猜。如果只有這個(gè)階段的數(shù)據(jù),想做深入分析,還是得依靠調(diào)研。比如傳統(tǒng)企業(yè)想了解門店成交流程,會(huì)做門店調(diào)查,研究消費(fèi)者在門店的動(dòng)線,詢問消費(fèi)者體驗(yàn)。2.數(shù)據(jù)變大第二步:主動(dòng)采集有了系統(tǒng)采集以后,大家自然地會(huì)想:除了交易數(shù)據(jù),其他數(shù)據(jù)也能通過系統(tǒng)化采集。比如最簡(jiǎn)單的形式:讓用戶自己交身份證,通過圖像識(shí)別錄入。這樣既能采集到用戶數(shù)據(jù),又能避免手動(dòng)填寫的錯(cuò)誤。但是問題來了:憑啥要交身份證給你呀!于是傳統(tǒng)采集,只有銀行、航空、通訊等有國(guó)家背景+法律規(guī)范要求的地方,才能相對(duì)準(zhǔn)確地采集這些真實(shí)數(shù)據(jù)。不過這些困難并沒有阻擋住企業(yè)采集信息的熱情。常見的手段,比如:勾引用戶辦會(huì)員卡,給生日禮遇讓用戶填寫生日。用戶完成信息給積分獎(jiǎng)勵(lì)之類。更激進(jìn)的,甚至有常識(shí)在門店裝人臉識(shí)別、裝眼動(dòng)儀跟蹤設(shè)備來采集數(shù)據(jù)(當(dāng)然,成本很高)。為什么企業(yè)會(huì)孜孜不倦追求這些數(shù)據(jù),因?yàn)檫@些數(shù)據(jù)真的有用。至少能把數(shù)據(jù)具體到一個(gè)人的身上,能識(shí)別出

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論