大數(shù)據(jù)分析與決策概述課件_第1頁(yè)
大數(shù)據(jù)分析與決策概述課件_第2頁(yè)
大數(shù)據(jù)分析與決策概述課件_第3頁(yè)
大數(shù)據(jù)分析與決策概述課件_第4頁(yè)
大數(shù)據(jù)分析與決策概述課件_第5頁(yè)
已閱讀5頁(yè),還剩111頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)分析與決策

姜昱汐

(大連交通大學(xué)經(jīng)濟(jì)管理學(xué)院經(jīng)濟(jì)學(xué)教研室)大數(shù)據(jù)分析與決策

一、大數(shù)據(jù)的相關(guān)概念二、大數(shù)據(jù)分析三、大數(shù)據(jù)應(yīng)用的典型案例四、大數(shù)據(jù)的可靠性五、大數(shù)據(jù)與貝葉斯方法報(bào)告內(nèi)容2022/12/162一、大數(shù)據(jù)的相關(guān)概念報(bào)告內(nèi)容2022/12/142數(shù)據(jù)管理技術(shù)發(fā)展歷史數(shù)據(jù)管理技術(shù)歷經(jīng)人工管理、文件管理、數(shù)據(jù)庫(kù)管理等時(shí)代,大數(shù)據(jù)技術(shù)的出現(xiàn)使該領(lǐng)域進(jìn)入了一個(gè)新的發(fā)展階段-3-194619511956196119701974197919912001200320082011第一臺(tái)計(jì)算機(jī)ENIAC面世磁帶+卡片人工管理磁盤被發(fā)明,進(jìn)入文件管理時(shí)代網(wǎng)絡(luò)型SQLE-RGE公司發(fā)明第一個(gè)網(wǎng)絡(luò)模型數(shù)據(jù)庫(kù),但僅限于GE自己的主機(jī)1960年代,IT系統(tǒng)規(guī)模和復(fù)雜度變大,數(shù)據(jù)與應(yīng)用分離的需求開(kāi)始產(chǎn)生,數(shù)據(jù)庫(kù)技術(shù)開(kāi)始萌芽并蓬勃發(fā)展,并在1990年后逐步統(tǒng)一到以關(guān)系型數(shù)據(jù)庫(kù)為主導(dǎo)IBME.F.Dodd提出關(guān)系模型SQL語(yǔ)言被發(fā)明關(guān)系型數(shù)據(jù)庫(kù)ORACLE發(fā)布第一個(gè)商用SQL關(guān)系數(shù)據(jù)庫(kù),后續(xù)快速發(fā)展數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)開(kāi)始涌現(xiàn),關(guān)系數(shù)據(jù)庫(kù)開(kāi)始全面普及且平臺(tái)無(wú)關(guān),進(jìn)入成熟期2001年后,互聯(lián)網(wǎng)迅速發(fā)展,數(shù)據(jù)量成倍遞增,量變引起質(zhì)變,開(kāi)始對(duì)數(shù)據(jù)管理技術(shù)提出全新的要求1946年,電腦誕生,數(shù)據(jù)與應(yīng)用緊密捆綁在文件中,彼此不分Hadoop成為Apache頂級(jí)項(xiàng)目,重點(diǎn)支持海量數(shù)據(jù)分布式管理和分布式計(jì)算GFS谷歌發(fā)表論文介紹分布式計(jì)算數(shù)據(jù)管理技術(shù)發(fā)展歷史數(shù)據(jù)管理技術(shù)歷經(jīng)人工管理、文件管理、數(shù)據(jù)大數(shù)據(jù)發(fā)展背景全球信息化發(fā)展已步入大數(shù)據(jù)時(shí)代150億個(gè)設(shè)備連接到互聯(lián)網(wǎng)全球每秒鐘發(fā)送290萬(wàn)封電子郵件每天有2.88萬(wàn)小時(shí)視頻上傳到Y(jié)outubeFacebook每日評(píng)論達(dá)32億條,每天上傳照片近3億張,每月處理數(shù)據(jù)總量約130萬(wàn)TB2011年全球產(chǎn)生數(shù)據(jù)量1.8ZB,預(yù)計(jì)2020年將增長(zhǎng)到35ZB大數(shù)據(jù)正迅速成為最值得關(guān)注的IT領(lǐng)域之一2011年5月,EMCWorld2011大會(huì)主題“云計(jì)算相遇大數(shù)據(jù)”,EMC除了一直倡導(dǎo)的云計(jì)算外,還拋出"大數(shù)據(jù)"(BigData)概念2011年6月底,IBM、麥肯錫等眾多國(guó)外機(jī)構(gòu)發(fā)布"大數(shù)據(jù)"相關(guān)研究報(bào)告,予以積極跟進(jìn)2011年10月,Gartner認(rèn)為2012年十大戰(zhàn)略技術(shù)將包括"大數(shù)據(jù)"2011年11月底,IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)

將"大數(shù)據(jù)"放入2012年信息通信產(chǎn)業(yè)十大預(yù)測(cè)之一-4-IDC全球數(shù)據(jù)量預(yù)測(cè)(1ZB

=1百萬(wàn)PB=10億TB)Google網(wǎng)站Bigdata關(guān)鍵詞搜索及新聞引用量大數(shù)據(jù)發(fā)展背景全球信息化發(fā)展已步入大數(shù)據(jù)時(shí)代-4-什么是大數(shù)據(jù)123大數(shù)據(jù)的定義理解大數(shù)據(jù)的“4V”特征大數(shù)據(jù)的產(chǎn)生、增長(zhǎng)2022/12/165什么是大數(shù)據(jù)123大數(shù)據(jù)的定義理解大數(shù)據(jù)的“4V”特征大數(shù)據(jù)“大數(shù)據(jù)”是如何產(chǎn)生的?facebook社交網(wǎng)絡(luò)淘寶電子商務(wù)微博、Apps移動(dòng)互聯(lián)21世紀(jì)是數(shù)據(jù)信息大發(fā)展的時(shí)代,移動(dòng)互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)等極大拓展了互聯(lián)網(wǎng)的邊界和應(yīng)用范圍,各種數(shù)據(jù)正在迅速膨脹并變大。互聯(lián)網(wǎng)(社交、搜索、電商)、移動(dòng)互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、保險(xiǎn))、電信(通話、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)。

半個(gè)世紀(jì)以來(lái),隨著計(jì)算機(jī)技術(shù)全面融入社會(huì)生活,信息爆炸已經(jīng)積累到了一個(gè)開(kāi)始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長(zhǎng)速度也在加快。信息爆炸的學(xué)科如天文學(xué)和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”這個(gè)概念*。如今,這個(gè)概念幾乎應(yīng)用到了所有人類智力與發(fā)展的領(lǐng)域中。2022/12/166“大數(shù)據(jù)”是如何產(chǎn)生的?facebook社交網(wǎng)絡(luò)淘寶電子商務(wù)大數(shù)據(jù)時(shí)代的爆炸增長(zhǎng)想駕馭這龐大的數(shù)據(jù),我們必須了解大數(shù)據(jù)的特征。地球上至今總共的數(shù)據(jù)量:在2006年,個(gè)人用戶才剛剛邁進(jìn)TB時(shí)代,全球一共新產(chǎn)生了約180EB的數(shù)據(jù);在2011年,這個(gè)數(shù)字達(dá)到了1.8ZB。而有市場(chǎng)研究機(jī)構(gòu)預(yù)測(cè):到2020年,整個(gè)世界的數(shù)據(jù)總量將會(huì)增長(zhǎng)44倍,達(dá)到35.2ZB(1ZB=10億TB)!GBTBPBEBZB1GB

=2^30字節(jié)1TB=2^40字節(jié)1PB

=2^50字節(jié)1EB

=2^60字節(jié)1ZB=2^70字節(jié)2022/12/167大數(shù)據(jù)時(shí)代的爆炸增長(zhǎng)想駕馭這龐大的數(shù)據(jù),我們必須了解大數(shù)據(jù)的大數(shù)據(jù)的4V特征“大量化(Volume)、多樣化(Variety)、快速化(Velocity)、價(jià)值密度低(Value)”就是“大數(shù)據(jù)”的顯著特征,或者說(shuō),只有具備這些特點(diǎn)的數(shù)據(jù),才是大數(shù)據(jù)。VolumeVelocityValueVariety2022/12/168大數(shù)據(jù)的4V特征“大量化(Volume)、多樣化(Varie數(shù)據(jù)體量巨大(Volume):百度資料表明,其新首頁(yè)導(dǎo)航每天需要提供的數(shù)據(jù)超過(guò)1.5PB(1PB=1024TB),這些數(shù)據(jù)如果打印出來(lái)將超過(guò)5千億張A4紙。有資料證明,到目前為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)僅為200PB(不能在單個(gè)計(jì)算機(jī)上集中存儲(chǔ),一般需要用到分布式/云計(jì)算模式等)。數(shù)據(jù)類型多樣化:現(xiàn)在的數(shù)據(jù)不僅是文本形式,更多的是圖片、視頻、音頻、地理位置信息等多種類型的數(shù)據(jù),個(gè)性化、非結(jié)構(gòu)化數(shù)據(jù)占據(jù)較大比例。大數(shù)據(jù)的4V特征處理速度快數(shù)據(jù)處理遵循“1秒定律”,可從各種類型的數(shù)據(jù)中快速獲取高價(jià)值的信息價(jià)值密度低:以視頻為例,幾小時(shí)的視頻,在不間斷的監(jiān)控過(guò)程中,有用的數(shù)據(jù)可能僅僅幾秒。單個(gè)數(shù)據(jù)可能價(jià)值不大,但是數(shù)據(jù)整體還是有高價(jià)值的(比如一個(gè)班級(jí)大家發(fā)的微博可能沒(méi)有特別大的意義,但是全國(guó)高校大學(xué)生發(fā)的微博就可以反映當(dāng)代大學(xué)生思想理念)2022/12/169數(shù)據(jù)體量巨大(Volume):大數(shù)據(jù)的4V特征處理速度快價(jià)值大數(shù)據(jù)的構(gòu)成大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類型的數(shù)據(jù)海量交易數(shù)據(jù):企業(yè)內(nèi)部的經(jīng)營(yíng)交易信息主要包括聯(lián)機(jī)交易數(shù)據(jù)和聯(lián)機(jī)分析數(shù)據(jù),是結(jié)構(gòu)化的、通過(guò)關(guān)系數(shù)據(jù)庫(kù)進(jìn)行管理和訪問(wèn)的靜態(tài)、歷史數(shù)據(jù)。通過(guò)這些數(shù)據(jù),我們能了解過(guò)去發(fā)生了什么。大數(shù)據(jù)包括:交易數(shù)據(jù)和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集海量交互數(shù)據(jù):源于Facebook、Twitter、微博、微信及其他來(lái)源的社交媒體數(shù)據(jù)構(gòu)成。它包括了呼叫詳細(xì)記錄、設(shè)備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、通過(guò)管理文件傳輸協(xié)議傳送的海量圖像文件、Web文本和點(diǎn)擊流數(shù)據(jù)、科學(xué)信息、電子郵件等等??梢愿嬖V我們未來(lái)會(huì)發(fā)生什么。海量數(shù)據(jù)處理:大數(shù)據(jù)的涌現(xiàn)已經(jīng)催生出了設(shè)計(jì)用于數(shù)據(jù)密集型處理的架構(gòu)。例如具有開(kāi)放源碼、在商品硬件群中運(yùn)行的ApacheHadoop。2022/12/1610大數(shù)據(jù)的構(gòu)成大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類型的數(shù)據(jù)海量交易2022/12/1611大數(shù)據(jù)的市場(chǎng)潛力2022/12/1411大數(shù)據(jù)的市場(chǎng)潛力利用GPS數(shù)據(jù)了解交通狀況2012年3月29日奧巴馬政府公布了”大數(shù)據(jù)研發(fā)計(jì)劃”。該計(jì)劃的目標(biāo)是改進(jìn)現(xiàn)有人們從海量和復(fù)雜的數(shù)據(jù)中獲取知識(shí)的能力,從而加速美國(guó)在科學(xué)與工程領(lǐng)域發(fā)明的步伐,增強(qiáng)國(guó)家安全,轉(zhuǎn)變現(xiàn)有的教學(xué)和學(xué)習(xí)方式?!按髷?shù)據(jù)戰(zhàn)略”上升為美國(guó)最高國(guó)策對(duì)數(shù)據(jù)占有和控制,做為在陸權(quán)、海權(quán)、空權(quán)之外的另一種國(guó)家核心能力。大數(shù)據(jù)的浪潮大數(shù)據(jù)與喬布斯的癌癥治療沃爾瑪?shù)钠【婆c紙尿布沃爾瑪?shù)皳榕c颶風(fēng)用品的關(guān)系谷歌流感預(yù)測(cè)利用GPS數(shù)據(jù)了解交通狀況2012年3月29日奧巴馬政府公布中國(guó)大數(shù)據(jù)市場(chǎng)分析1312011年-2016年中國(guó)大數(shù)據(jù)市場(chǎng)規(guī)模22012年各行業(yè)大數(shù)據(jù)市場(chǎng)規(guī)模計(jì)世資訊預(yù)測(cè),2012年政府、互聯(lián)網(wǎng)、電信、金融的大數(shù)據(jù)市場(chǎng)規(guī)模較大,四個(gè)行業(yè)將占據(jù)一半市場(chǎng)份額。由于各個(gè)行業(yè)都存在大數(shù)據(jù)應(yīng)用需求,潛在市場(chǎng)空間非常可觀。計(jì)世資訊認(rèn)為,2011年是中國(guó)大數(shù)據(jù)市場(chǎng)元年,一些大數(shù)據(jù)產(chǎn)品已經(jīng)推出,部分行業(yè)也有大數(shù)據(jù)應(yīng)用案例的產(chǎn)生。2012年-2016年,將迎來(lái)大數(shù)據(jù)市場(chǎng)的飛速發(fā)展。計(jì)世資訊預(yù)測(cè),2012年中國(guó)大數(shù)據(jù)市場(chǎng)規(guī)模將達(dá)到4.7億元,2013年大數(shù)據(jù)市場(chǎng)將迎來(lái)增速為138.3%的飛躍,到2016年,整個(gè)市場(chǎng)規(guī)模逼近百億。中國(guó)大數(shù)據(jù)市場(chǎng)分析1312011年-2016年中國(guó)大數(shù)據(jù)市場(chǎng)大數(shù)據(jù)的商業(yè)價(jià)值行業(yè)數(shù)據(jù)處理方式價(jià)值銀行/金融貸款、保險(xiǎn)、發(fā)卡等多業(yè)務(wù)數(shù)據(jù)集成分析,市場(chǎng)評(píng)估新產(chǎn)品風(fēng)險(xiǎn)評(píng)估股票等投資組合趨勢(shì)分析增加市場(chǎng)份額提升客戶忠誠(chéng)度提高整體收入降低金融風(fēng)險(xiǎn)醫(yī)療共享電子病歷及醫(yī)療記錄,幫助快速診斷穿戴式設(shè)備遠(yuǎn)程醫(yī)療改善診療質(zhì)量加快診療速度互聯(lián)網(wǎng)在線廣告投放商品評(píng)分、排名社交網(wǎng)絡(luò)自動(dòng)匹配搜索結(jié)果優(yōu)化提升網(wǎng)絡(luò)用戶忠誠(chéng)度改善社交網(wǎng)絡(luò)體驗(yàn)向目標(biāo)用戶提供有針對(duì)性的商品與服務(wù)政府/公共事業(yè)智能城市信息網(wǎng)絡(luò)集成天氣、地理、水電煤氣等公共數(shù)據(jù)收集、研究公共安全信息集中處理、智能分析更好地對(duì)外提供公共服務(wù)輿情分析準(zhǔn)確預(yù)判安全威脅媒體/娛樂(lè)收視率統(tǒng)計(jì)熱點(diǎn)信息統(tǒng)計(jì)、分析創(chuàng)造更多聯(lián)合、交叉銷售商機(jī)準(zhǔn)確評(píng)估廣告效用零售基于用戶位置信息的準(zhǔn)確促銷社交網(wǎng)絡(luò)購(gòu)買行為分析促進(jìn)客戶購(gòu)買熱情順應(yīng)客戶購(gòu)買行為習(xí)慣大數(shù)據(jù)的商業(yè)價(jià)值行業(yè)數(shù)據(jù)處理方式價(jià)值銀行/金融貸款、保險(xiǎn)、發(fā)一、大數(shù)據(jù)的相關(guān)概念二、大數(shù)據(jù)分析三、大數(shù)據(jù)應(yīng)用的典型案例三、大數(shù)據(jù)的可靠性四、大數(shù)據(jù)與貝葉斯方法報(bào)告內(nèi)容2022/12/1615一、大數(shù)據(jù)的相關(guān)概念報(bào)告內(nèi)容2022/12/1415分析技術(shù):數(shù)據(jù)處理:自然語(yǔ)言處理技術(shù)統(tǒng)計(jì)和分析:A/Btest;topN排行榜;地域占比;文本情感分析數(shù)據(jù)挖掘:關(guān)聯(lián)規(guī)則分析;分類;聚類模型預(yù)測(cè):預(yù)測(cè)模型;機(jī)器學(xué)習(xí);建模仿真大數(shù)據(jù)技術(shù):數(shù)據(jù)采集:ETL工具數(shù)據(jù)存取:關(guān)系數(shù)據(jù)庫(kù);NoSQL;SQL等基礎(chǔ)架構(gòu)支持:云存儲(chǔ);分布式文件系統(tǒng)等計(jì)算結(jié)果展現(xiàn):云計(jì)算;標(biāo)簽云;關(guān)系圖等相關(guān)技術(shù)存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)海量數(shù)據(jù)的查詢、統(tǒng)計(jì)、更新等操作效率低非結(jié)構(gòu)化數(shù)據(jù)圖片、視頻、word、pdf、ppt等文件存儲(chǔ)不利于檢索、查詢和存儲(chǔ)半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化存儲(chǔ)按照非結(jié)構(gòu)化存儲(chǔ)解決方案:Hadoop(MapReduce技術(shù))流計(jì)算(twitter的storm和yahoo!的S4)數(shù)據(jù)采集數(shù)據(jù)儲(chǔ)存數(shù)據(jù)管理數(shù)據(jù)分析與挖掘2022/12/1616二、大數(shù)據(jù)分析分析技術(shù):相關(guān)技術(shù)存儲(chǔ)解決方案:數(shù)據(jù)采集數(shù)據(jù)儲(chǔ)存數(shù)據(jù)管理數(shù)據(jù)二、大數(shù)據(jù)分析

AnalyticVisualizations(可視化分析)

DataMiningAlgorithms(數(shù)據(jù)挖掘算法)

PredictiveAnalyticCapabilities(預(yù)測(cè)性分析能力)

SemanticEngines(語(yǔ)義引擎)

DataQualityandMasterDataManagement(數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理)

二、大數(shù)據(jù)分析AnalyticVisualizatio二、大數(shù)據(jù)分析-可視化分析

AnalyticVisualizations(可視化分析)

不管是對(duì)數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求??梢暬梢灾庇^的展示數(shù)據(jù),讓數(shù)據(jù)自己說(shuō)話,讓觀眾聽(tīng)到結(jié)果。二、大數(shù)據(jù)分析-可視化分析AnalyticVisual二、大數(shù)據(jù)分析-數(shù)據(jù)挖掘算法

DataMiningAlgorithms(數(shù)據(jù)挖掘算法)

可視化是給人看的,數(shù)據(jù)挖掘就是給機(jī)器看的。集群、分割、孤立點(diǎn)分析還有其他的算法讓我們深入數(shù)據(jù)內(nèi)部,挖掘價(jià)值。這些算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。

二、大數(shù)據(jù)分析-數(shù)據(jù)挖掘算法DataMiningAlg二、大數(shù)據(jù)分析-預(yù)測(cè)性分析能力

PredictiveAnalyticCapabilities(預(yù)測(cè)性分析能力)

數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù),而預(yù)測(cè)性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預(yù)測(cè)性的判斷。二、大數(shù)據(jù)分析-預(yù)測(cè)性分析能力PredictiveAna二、大數(shù)據(jù)分析-語(yǔ)義引擎

SemanticEngines(語(yǔ)義引擎)

我們知道由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性帶來(lái)了數(shù)據(jù)分析的新的挑戰(zhàn),我們需要一系列的工具去解析,提取,分析數(shù)據(jù)。語(yǔ)義引擎需要被設(shè)計(jì)成能夠從“文檔”中智能提取信息。二、大數(shù)據(jù)分析-語(yǔ)義引擎SemanticEngines(二、大數(shù)據(jù)分析-數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理

DataQualityandMasterDataManagement(數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理)數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實(shí)踐。通過(guò)標(biāo)準(zhǔn)化的流程和工具對(duì)數(shù)據(jù)進(jìn)行處理可以保證一個(gè)預(yù)先定義好的高質(zhì)量的分析結(jié)果。二、大數(shù)據(jù)分析-數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理DataQualit一、大數(shù)據(jù)的相關(guān)概念二、大數(shù)據(jù)分析三、大數(shù)據(jù)應(yīng)用的典型案例三、大數(shù)據(jù)的可靠性四、大數(shù)據(jù)與貝葉斯方法報(bào)告內(nèi)容2022/12/1623一、大數(shù)據(jù)的相關(guān)概念報(bào)告內(nèi)容2022/12/1423三、大數(shù)據(jù)應(yīng)用的典型案例-流感預(yù)測(cè)2022/12/1624三、大數(shù)據(jù)應(yīng)用的典型案例-流感預(yù)測(cè)2022/12/14242022/12/1625全球每星期會(huì)有數(shù)以百萬(wàn)計(jì)的用戶在網(wǎng)上搜索健康信息。正如您所預(yù)料的那樣,在流感季節(jié),與流感有關(guān)的搜索會(huì)明顯增多;到了過(guò)敏季節(jié),與過(guò)敏有關(guān)的搜索會(huì)顯著上升;而到了夏季,與曬傷有關(guān)的搜索又會(huì)大幅增加。某些搜索字詞非常有助于了解流感疫情。Google流感趨勢(shì)會(huì)根據(jù)匯總的Google搜索數(shù)據(jù),近乎實(shí)時(shí)地對(duì)全球當(dāng)前的流感疫情進(jìn)行估測(cè)。搜索流感相關(guān)主題的人數(shù)與實(shí)際患有流感癥狀的人數(shù)之間存在著密切的關(guān)系。當(dāng)然,并非每個(gè)搜索“流感”的人都真的患有流感,但將與流感有關(guān)的搜索查詢匯總到一起時(shí),便可以找到一種模式。將統(tǒng)計(jì)的查詢數(shù)量與傳統(tǒng)流感監(jiān)測(cè)系統(tǒng)的數(shù)據(jù)進(jìn)行了對(duì)比,結(jié)果發(fā)現(xiàn)許多搜索查詢?cè)诹鞲屑竟?jié)確實(shí)會(huì)明顯增多。通過(guò)對(duì)這些搜索查詢的出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),便可以估測(cè)出世界上不同國(guó)家和地區(qū)的流感傳播情況。Detectinginfluenzaepidemicsusingsearchenginequerydata,Nature

457,1012-1014(19February2009)三、大數(shù)據(jù)應(yīng)用的典型案例-流感預(yù)測(cè)2022/12/1425全球每星期會(huì)有數(shù)以百萬(wàn)計(jì)的用戶在網(wǎng)上2022/12/1626卡耐基梅隆大學(xué)的JiweiLi和康乃爾大學(xué)的ClaireCardie,成功利用Twitter預(yù)測(cè)了早期流感爆發(fā)。他們的方式與Google類似。首先,從Twitter數(shù)據(jù)流中過(guò)濾包含與“流感”相關(guān),并帶有位置標(biāo)簽的tweet;然后,在地圖上標(biāo)注這些tweet的位置分布,以及隨時(shí)間產(chǎn)生的變化。同時(shí),還制作了流感的動(dòng)態(tài)變化模型。新模型中,流感包括4個(gè)階段:無(wú)傳染階段、爆發(fā)階段、穩(wěn)定階段以及衰退階段。此外,采用了全新的算法,試圖盡可能快得發(fā)現(xiàn)不同時(shí)期的轉(zhuǎn)換節(jié)點(diǎn)。實(shí)際上,Li和Cardie在2008年6月至2010年6月間,已經(jīng)利用100萬(wàn)美國(guó)人的360萬(wàn)條tweet,驗(yàn)證了該方法的有效性。為了檢驗(yàn)他們的預(yù)測(cè)是否成真,Li和Cardie將他們的分析與CDC進(jìn)行對(duì)比。他們說(shuō),“我們確信,流感相關(guān)tweet與CDC提供的流感疾病案例數(shù)目,呈顯著相關(guān)?!比?、大數(shù)據(jù)應(yīng)用的典型案例-流感預(yù)測(cè)2022/12/1426卡耐基梅隆大學(xué)的JiweiLi2022/12/1627日本國(guó)內(nèi)有一個(gè)網(wǎng)站,你只要打開(kāi)這個(gè)網(wǎng)站用自己的Twitter賬號(hào)登錄,就可以在短時(shí)間內(nèi)通過(guò)數(shù)萬(wàn)條Twitter找出可能感冒的人,并通過(guò)過(guò)去的感冒情況和今日的感冒情況進(jìn)行分析(以及統(tǒng)計(jì)目前發(fā)燒以及嗓子痛的患者數(shù)量),另外該程序還會(huì)結(jié)合氣溫和濕度的變化來(lái)預(yù)測(cè)將來(lái)感冒的流行情況,并制作一個(gè)“易感冒日歷”。目前,此類服務(wù)正在日本陸續(xù)展開(kāi)。通過(guò)這個(gè)服務(wù)器的分析,大家就能夠知道在自己身邊到底有多少人有感冒的癥狀,并提前做好預(yù)防準(zhǔn)備。日本國(guó)立感染癥研究所將會(huì)把全國(guó)約

5000個(gè)醫(yī)療診所的流感患者進(jìn)行統(tǒng)計(jì)并發(fā)布數(shù)據(jù)。經(jīng)過(guò)對(duì)比,研究所得出的實(shí)際統(tǒng)計(jì)數(shù)字和網(wǎng)站上預(yù)測(cè)的結(jié)果基本是一致的,那么為什么大數(shù)據(jù)的結(jié)果會(huì)很準(zhǔn)呢?首先是因?yàn)橥ㄟ^(guò)網(wǎng)絡(luò)信息分析的技術(shù)有所進(jìn)步,已經(jīng)可以通過(guò)各種各樣的留言自動(dòng)搜索到相關(guān)的數(shù)據(jù),并自動(dòng)分類。就像Google現(xiàn)在所使用的技術(shù),就是利用服務(wù)器分析與流感關(guān)系十分密切的十幾個(gè)單詞進(jìn)行統(tǒng)計(jì)。另一個(gè)就是大數(shù)據(jù)所特有的功能。在流感最嚴(yán)重的時(shí)候,每天會(huì)有成千上萬(wàn)條Tweets發(fā)布,即便有一些誤差,但通過(guò)數(shù)據(jù)分析也能分析出數(shù)據(jù)的精準(zhǔn)度。以往,公共機(jī)構(gòu)在發(fā)布流感情報(bào)的時(shí)候至少要延遲一周,在有些偏遠(yuǎn)地區(qū)的立桿信息也并不確切,而現(xiàn)在,通過(guò)網(wǎng)絡(luò)能夠有效彌補(bǔ)這些缺憾。三、大數(shù)據(jù)應(yīng)用的典型案例-流感預(yù)測(cè)2022/12/1427日本國(guó)內(nèi)有一個(gè)網(wǎng)站,你只要打開(kāi)這個(gè)網(wǎng)2022/12/1628亞馬遜“預(yù)測(cè)式發(fā)貨”的新專利,可以通過(guò)對(duì)用戶數(shù)據(jù)的分析,在他們還沒(méi)有下單前,提前發(fā)出包裹。這項(xiàng)技術(shù)可以縮短發(fā)貨時(shí)間,從而降低消費(fèi)者前往實(shí)體店的沖動(dòng)。(因?yàn)樵谙聠蔚绞斋@之間的時(shí)間延遲可能會(huì)降低人們的購(gòu)物意愿,導(dǎo)致他們放棄網(wǎng)上購(gòu)物)亞馬遜根據(jù)之前的訂單和其他因素,預(yù)測(cè)用戶的購(gòu)物習(xí)慣,從而在他們實(shí)際下單前就將包裹發(fā)出。根據(jù)該專利文件,雖然包裹會(huì)提前從亞馬遜發(fā)出,但在用戶正式下單前,這些包裹會(huì)暫存在快遞公司的轉(zhuǎn)運(yùn)中心或者卡車?yán)?。亞馬遜為了決定要運(yùn)送那些貨物,可能會(huì)參考以前的訂單、商品搜索記錄、愿望清單、購(gòu)物車、甚至包括用戶的鼠標(biāo)在某件商品上停留的時(shí)間。三、大數(shù)據(jù)應(yīng)用的典型案例-亞馬遜“預(yù)測(cè)式發(fā)貨”2022/12/1428亞馬遜“預(yù)測(cè)式發(fā)貨”的新專利,可以通2022/12/16292012年11月奧巴馬大選連任成功的勝利果實(shí)也被歸功于大數(shù)據(jù),因?yàn)樗母?jìng)選團(tuán)隊(duì)對(duì)選民的行為、支持偏向進(jìn)行了數(shù)據(jù)搜集,并進(jìn)行了大規(guī)模與深入的數(shù)據(jù)挖掘。在這次大選中,奧巴馬競(jìng)選陣營(yíng)的高級(jí)助理們決定將參考得到的數(shù)據(jù)分析結(jié)果來(lái)制定下一步的競(jìng)選方案,從而獲得選民的支持。三、大數(shù)據(jù)應(yīng)用的典型案例-奧巴馬選舉2022/12/14292012年11月奧巴馬大選連任成功的三、大數(shù)據(jù)應(yīng)用的典型案例-“老鼠倉(cāng)”2022/12/1630早在2009年,上交所曾經(jīng)利用“大數(shù)據(jù)”設(shè)置“捕鼠器”的設(shè)想,設(shè)定一定的指標(biāo)預(yù)警,當(dāng)相關(guān)指標(biāo)達(dá)到某個(gè)預(yù)警點(diǎn)時(shí),監(jiān)控系統(tǒng)會(huì)自動(dòng)報(bào)警。深交所“大數(shù)據(jù)”監(jiān)控系統(tǒng),設(shè)置200多個(gè)指標(biāo)用于監(jiān)控估計(jì),一旦出現(xiàn)股價(jià)偏離大盤的走勢(shì),將利用大數(shù)據(jù)查探異動(dòng)背后的機(jī)構(gòu)或投資人。馬樂(lè)案,監(jiān)管系統(tǒng)發(fā)現(xiàn)有三個(gè)賬戶的交易特點(diǎn)和當(dāng)時(shí)的博時(shí)精選基金高度重合,從交易記錄上可以看到,持股時(shí)間最長(zhǎng)不過(guò)一兩個(gè)月,大多是三四天、四五天。三、大數(shù)據(jù)應(yīng)用的典型案例-“老鼠倉(cāng)”2022/12/1430三、大數(shù)據(jù)應(yīng)用的典型案例-阿里“水文模型”2022/12/1631阿里“水文模型”是按照小微企業(yè)類型、級(jí)別等分別統(tǒng)計(jì)一個(gè)阿里系客戶的相關(guān)“水文數(shù)據(jù)”庫(kù)。如過(guò)往每到一個(gè)時(shí)點(diǎn),該店鋪銷售會(huì)進(jìn)入旺季,銷售額就會(huì)增長(zhǎng),同時(shí)沒(méi)到這個(gè)時(shí)段,該客戶對(duì)外投放的額度就會(huì)上升,結(jié)合這些水文數(shù)據(jù),系統(tǒng)可以判斷出該店鋪的融資需求;結(jié)合該店鋪以往資金支出數(shù)據(jù)及同類店鋪資金支用數(shù)據(jù),可以判斷出該店鋪的資金需求額度。三、大數(shù)據(jù)應(yīng)用的典型案例-阿里“水文模型”2022/12/1三、大數(shù)據(jù)應(yīng)用的典型案例-啤酒與尿布2022/12/1632全球零售業(yè)巨頭沃爾瑪在對(duì)消費(fèi)者購(gòu)物行為分析時(shí)發(fā)現(xiàn),男性顧客在購(gòu)買嬰兒尿片時(shí),常常會(huì)順便搭配幾瓶啤酒來(lái)犒勞自己,于是嘗試推出了將啤酒和尿布擺在一起的促銷手段。沒(méi)想到這個(gè)舉措居然使尿布和啤酒的銷量都大幅增加了。如今,“啤酒+尿布”的數(shù)據(jù)分析成果早已成了大數(shù)據(jù)技術(shù)應(yīng)用的經(jīng)典案例,被人津津樂(lè)道。三、大數(shù)據(jù)應(yīng)用的典型案例-啤酒與尿布2022/12/1432三、大數(shù)據(jù)應(yīng)用的典型案例-數(shù)據(jù)新聞讓英國(guó)撤軍2022/12/16332010年10月23日《衛(wèi)報(bào)》利用維基解密的數(shù)據(jù)做了一篇“數(shù)據(jù)新聞”。將伊拉克戰(zhàn)爭(zhēng)中所有的人員傷亡情況均標(biāo)注于地圖之上。地圖上一個(gè)紅點(diǎn)便代表一次死傷事件,鼠標(biāo)點(diǎn)擊紅點(diǎn)后彈出的窗口則有詳細(xì)的說(shuō)明:傷亡人數(shù)、時(shí)間,造成傷亡的具體原因。密布的紅點(diǎn)多達(dá)39萬(wàn),顯得格外觸目驚心。一經(jīng)刊出立即引起朝野震動(dòng),推動(dòng)英國(guó)最終做出撤出駐伊拉克軍隊(duì)的決定。三、大數(shù)據(jù)應(yīng)用的典型案例-數(shù)據(jù)新聞讓英國(guó)撤軍2022/12/三、大數(shù)據(jù)應(yīng)用的典型案例-喬布斯癌癥治療2022/12/1634喬布斯是世界上第一個(gè)對(duì)自身所有DNA和腫瘤DNA進(jìn)行排序的人。為此,他支付了高達(dá)幾十萬(wàn)美元的費(fèi)用。他得到的不是樣本,而是包括整個(gè)基因的數(shù)據(jù)文檔。醫(yī)生按照所有基因按需下藥,最終這種方式幫助喬布斯延長(zhǎng)了好幾年的生命。三、大數(shù)據(jù)應(yīng)用的典型案例-喬布斯癌癥治療2022/12/14三、大數(shù)據(jù)應(yīng)用的典型案例

-微軟大數(shù)據(jù)成功預(yù)測(cè)奧斯卡21項(xiàng)大獎(jiǎng)2022/12/16352013年,微軟紐約研究院的經(jīng)濟(jì)學(xué)家大衛(wèi)羅斯柴爾德(DavidRothschild)利用大數(shù)據(jù)成功預(yù)測(cè)24個(gè)奧斯卡獎(jiǎng)項(xiàng)中的19個(gè),成為人們津津樂(lè)道的話題。2014年羅斯柴爾德再接再厲,成功預(yù)測(cè)第86屆奧斯卡金像獎(jiǎng)?lì)C獎(jiǎng)典禮24個(gè)獎(jiǎng)項(xiàng)中的21個(gè),繼續(xù)向人們展示現(xiàn)代科技的神奇魔力。三、大數(shù)據(jù)應(yīng)用的典型案例

一、大數(shù)據(jù)的相關(guān)概念二、大數(shù)據(jù)分析三、大數(shù)據(jù)應(yīng)用的典型案例四、大數(shù)據(jù)的可靠性五、大數(shù)據(jù)與貝葉斯方法報(bào)告內(nèi)容2022/12/1636一、大數(shù)據(jù)的相關(guān)概念報(bào)告內(nèi)容2022/12/1436四、大數(shù)據(jù)的可靠性2022/12/1637大數(shù)據(jù)思維的相關(guān)關(guān)系可以替代因果關(guān)系嗎?大數(shù)據(jù)思維下可以直接用調(diào)研結(jié)果來(lái)指導(dǎo)實(shí)踐嗎?四、大數(shù)據(jù)的可靠性2022/12/1437大數(shù)據(jù)思維的相關(guān)關(guān)四、大數(shù)據(jù)的可靠性-谷歌流感預(yù)測(cè)2022/12/1638在2011-2013年的三年間,谷歌流感模型的預(yù)測(cè)出現(xiàn)嚴(yán)重偏差:一直在高估流感的事態(tài)。其中最嚴(yán)重的偏差出現(xiàn)在2013年1月,谷歌產(chǎn)品估計(jì)的結(jié)果是CDC匯總實(shí)際結(jié)果的2倍。四、大數(shù)據(jù)的可靠性-谷歌流感預(yù)測(cè)2022/12/1438在2四、大數(shù)據(jù)分析的可靠性-谷歌流感預(yù)測(cè)2022/12/1639谷歌的目的是估算禽流感在整個(gè)美國(guó)的發(fā)病率。數(shù)據(jù)來(lái)源是自用戶使用搜索引擎的檢索記錄,即谷歌用搜索關(guān)鍵字的網(wǎng)民行為來(lái)預(yù)測(cè)整個(gè)國(guó)家人們患病的可能性。Q1:有禽流感癥狀的人都會(huì)使用google搜索關(guān)鍵字嗎?Q2:用google搜索關(guān)鍵字的人都有禽流感癥狀嗎?四、大數(shù)據(jù)分析的可靠性-谷歌流感預(yù)測(cè)2022/12/1439四、大數(shù)據(jù)的可靠性-谷歌流感預(yù)測(cè)2022/12/1640谷歌模型失敗原因谷歌模型是基于關(guān)鍵字和發(fā)病率的關(guān)系來(lái)進(jìn)行預(yù)測(cè)。大數(shù)據(jù)思維重視相關(guān)性(A和B同時(shí)發(fā)生),卻忽略了因果關(guān)系(A導(dǎo)致B發(fā)生)的分析。隨著流感的發(fā)展,媒體不斷增加對(duì)流感的報(bào)道,引來(lái)越來(lái)越多人的重視,也就有相應(yīng)一部分人會(huì)通過(guò)google來(lái)搜索流感關(guān)鍵詞,但是這些人并不一定得了流感。1A導(dǎo)致B2B導(dǎo)致A3C導(dǎo)致A和B4A和B互為因果5小樣本引起的巧合A和B的關(guān)系四、大數(shù)據(jù)的可靠性-谷歌流感預(yù)測(cè)2022/12/1440谷歌四、大數(shù)據(jù)的可靠性-被解雇的市場(chǎng)調(diào)研部員工2022/12/16412004年,我國(guó)某知名電視機(jī)生產(chǎn)公司因?yàn)橐淮问袌?chǎng)調(diào)查的結(jié)果,解雇了市場(chǎng)調(diào)研部的大量員工四、大數(shù)據(jù)的可靠性-被解雇的市場(chǎng)調(diào)研部員工2022/12/1四、大數(shù)據(jù)的可靠性-被解雇的市場(chǎng)調(diào)研部員工2022/12/1642為調(diào)查該企業(yè)電視機(jī)品牌的市場(chǎng)占有率,該公司排除市場(chǎng)研究部的兩組員工,調(diào)查消費(fèi)者會(huì)選擇的電視機(jī)品牌。Q:為什么同樣的抽樣方法結(jié)果差異這么大?

愿意購(gòu)買不愿購(gòu)買A組36%64%B組16%84%四、大數(shù)據(jù)的可靠性-被解雇的市場(chǎng)調(diào)研部員工2022/12/1四、大數(shù)據(jù)的可靠性-被解雇的市場(chǎng)調(diào)研部員工2022/12/1643Q:為什么同樣的抽樣方法結(jié)果差異這么大?原因:1A組調(diào)查員在詢問(wèn)過(guò)程中均戴著有該公司logo的領(lǐng)帶2在問(wèn)題的選項(xiàng)中,該公司的名字排在眾多品牌的第一位四、大數(shù)據(jù)的可靠性-被解雇的市場(chǎng)調(diào)研部員工2022/12/1四、大數(shù)據(jù)的可靠性2022/12/1644“大數(shù)據(jù),大偏差”科學(xué)的技術(shù)誠(chéng)實(shí)的態(tài)度嚴(yán)密的操作四、大數(shù)據(jù)的可靠性2022/12/1444“大數(shù)據(jù),大偏差”一、大數(shù)據(jù)的相關(guān)概念二、大數(shù)據(jù)分析三、大數(shù)據(jù)應(yīng)用的典型案例四、大數(shù)據(jù)的可靠性五、大數(shù)據(jù)與貝葉斯方法報(bào)告內(nèi)容2022/12/1645一、大數(shù)據(jù)的相關(guān)概念報(bào)告內(nèi)容2022/12/1445

假設(shè)擲出一枚硬幣,正面朝上的概率是50%,如果連續(xù)99次投擲硬幣都是正面朝上落地,那么下一次投擲硬幣正面朝上落地的概率是多少?這是Taleb在《黑天鵝》一書中給出的一個(gè)假想的問(wèn)題。在Taleb的書中,受過(guò)正統(tǒng)教育的約翰博士給出了教科書教給我們的標(biāo)準(zhǔn)回答,下一次投擲硬幣正面朝上落地的概率仍然為50%,因?yàn)橄乱淮斡矌懦蚺c之前投擲的結(jié)果無(wú)關(guān)。而教育背景沒(méi)有那么光鮮的胖托尼則認(rèn)為下一次投擲硬幣正面朝上的概率為99%。孰對(duì)孰錯(cuò)?每個(gè)人都不妨給出自己的判斷。而如果一定要為自己的答案下一萬(wàn)塊錢的賭注的話,可能我就會(huì)和Taleb一樣,更傾向于和不是那么教條的胖托尼保持一致,即更傾向于相信下一次硬幣正面朝上的幾率為99%,更傾向于相信我之前的有關(guān)正面朝上落地的概率是50%的假設(shè)是錯(cuò)誤的。五、大數(shù)據(jù)與貝葉斯方法假設(shè)擲出一枚硬幣,正面朝上的概率是50%,

近幾年“大數(shù)據(jù)”成為熱詞后,諸如“貝葉斯算法”這樣的統(tǒng)計(jì)學(xué)名詞也隨之在IT領(lǐng)域熱起來(lái)。所謂的貝葉斯方法源于托馬斯·貝葉斯(ThomasBayes)生前為解決一個(gè)“逆概”問(wèn)題寫的一篇文章。在貝葉斯寫這篇文章之前,人們已經(jīng)能夠計(jì)算“正向概率”,如“假設(shè)袋子里面有N個(gè)白球,M個(gè)黑球,你伸手進(jìn)去摸一把,摸出黑球的概率是多大”。而一個(gè)自然而然的問(wèn)題是反過(guò)來(lái):“如果我們事先并不知道袋子里面黑白球的比例,而是閉著眼睛摸出一個(gè)(或好幾個(gè))球,觀察這些取出來(lái)的球的顏色之后,那么我們可以就此對(duì)袋子里面的黑白球的比例作出什么樣的推測(cè)呢?”。這個(gè)問(wèn)題,就是所謂的逆概問(wèn)題。

五、大數(shù)據(jù)與貝葉斯方法五、大數(shù)據(jù)與貝葉斯方法

實(shí)際上,貝葉斯當(dāng)時(shí)的論文只是對(duì)這個(gè)問(wèn)題的一個(gè)直接的求解嘗試,并不清楚他當(dāng)時(shí)是不是已經(jīng)意識(shí)到這里面包含著的深刻思想。然而后來(lái),貝葉斯方法席卷了概率論,并將應(yīng)用延伸到各個(gè)問(wèn)題領(lǐng)域,所有需要作出概率預(yù)測(cè)的地方都可以見(jiàn)到貝葉斯方法的影子,特別地,貝葉斯是機(jī)器學(xué)習(xí)的核心方法之一。這背后的深刻原因在于,現(xiàn)實(shí)世界本身就是不確定的,人類的觀察能力是有局限性的,我們?nèi)粘K^察到的只是事物表面上的結(jié)果,沿用剛才那個(gè)袋子里面取球的比方,我們往往只能知道從里面取出來(lái)的球是什么顏色,而并不能直接看到袋子里面實(shí)際的情況。這個(gè)時(shí)候,我們就需要做一個(gè)猜測(cè),所謂猜測(cè),當(dāng)然就是不確定的,但也絕對(duì)不是兩眼一抹黑瞎蒙。五、大數(shù)據(jù)與貝葉斯方法五、大數(shù)據(jù)與貝葉斯方法

雖然,人們?cè)谡劥髷?shù)據(jù)時(shí)往往都會(huì)談及利用Hadoop等新興技術(shù)對(duì)海量數(shù)據(jù)處理等技術(shù)問(wèn)題,也會(huì)談及Facebook、Google等公司所處理的PB級(jí)別數(shù)據(jù)的問(wèn)題。但是,大數(shù)據(jù)的核心問(wèn)題在于預(yù)測(cè)。電子商務(wù)網(wǎng)站通過(guò)數(shù)據(jù)預(yù)測(cè)顧客是否會(huì)購(gòu)買推薦的產(chǎn)品;信貸公司通過(guò)數(shù)據(jù)預(yù)測(cè)借款人是否會(huì)違約;執(zhí)法部門用大數(shù)據(jù)預(yù)測(cè)特定地點(diǎn)發(fā)生犯罪的可能性;交通部門利用數(shù)據(jù)預(yù)測(cè)交通流量。但是,預(yù)測(cè)不是大數(shù)據(jù)時(shí)代才有的新問(wèn)題,它是人類本能的一部分。五、大數(shù)據(jù)與貝葉斯方法雖然,人們?cè)谡劥髷?shù)據(jù)時(shí)往往都會(huì)談及利用Hadoop

但是,與科學(xué)研究中以求真為目的的構(gòu)建模型不同,大數(shù)據(jù)時(shí)代的模型構(gòu)建將更加以務(wù)實(shí)為目的,即遵循統(tǒng)計(jì)學(xué)家GeorgeE.P.Box的觀點(diǎn)“本質(zhì)而言,所有模型都是錯(cuò)誤的,只是有些模型更有用”。大數(shù)據(jù)時(shí)代的很多模型都是為了指導(dǎo)商業(yè)決策而設(shè)的,而商業(yè)決策通常會(huì)影響決策者的利益。所以,一個(gè)模型是否正確不是最重要的,重要的是決策者對(duì)這個(gè)模型有多大的把握,決策者能否從這個(gè)模型中獲利。所以,大數(shù)據(jù)時(shí)代中最為關(guān)鍵的應(yīng)該是基于數(shù)據(jù)的模型能否說(shuō)服決策者據(jù)此進(jìn)行決策,并且?guī)椭鷽Q策者改善決策賺取相應(yīng)的利潤(rùn)。五、大數(shù)據(jù)與貝葉斯方法五、大數(shù)據(jù)與貝葉斯方法

艾賽亞·柏林(IsaishBerlin)曾經(jīng)援引古希臘詩(shī)人的殘簡(jiǎn)“狐貍多知而刺猬有一大知”將知識(shí)分子分為狐貍和刺猬兩類。刺猬用一個(gè)宏大的概念解釋所有現(xiàn)象,如約翰博士一般;狐貍知道很多事情,用多元化的甚至相互矛盾的視角看待問(wèn)題,狐貍也愿意包容新的證據(jù)以使得自己的模型與之相適應(yīng),如胖托尼一般。Tetlock等人的研究表明,在現(xiàn)實(shí)的預(yù)測(cè)中,狐貍的表現(xiàn)要優(yōu)于刺猬。在大數(shù)據(jù)時(shí)代,人們能夠接觸越來(lái)越多的信息,這些信息能否修訂決策者已有的觀念,對(duì)決策者的決策產(chǎn)生影響,這是大數(shù)據(jù)能否發(fā)揮價(jià)值的關(guān)鍵所在。五、大數(shù)據(jù)與貝葉斯方法艾賽亞·柏林(IsaishBerlin很多人都知道亞當(dāng)斯密(AdamSmith)在《國(guó)富論》中所描述的市場(chǎng)中的“看不見(jiàn)的手”。在市場(chǎng)中,沒(méi)有人掌握有關(guān)生產(chǎn)和消費(fèi)的全局信息,但是人們通過(guò)市場(chǎng)交易對(duì)供需的行為作出反應(yīng),從而逐步更新價(jià)格,進(jìn)而達(dá)到平衡。ThomasBayes與亞當(dāng)斯密同時(shí)代且同在蘇格蘭接受教育,他的貝葉斯定理(Bayesian'sTheorem)也和亞當(dāng)斯密的“看不見(jiàn)的手”有相通之處。貝葉斯理論允許每個(gè)人擁有有關(guān)世界的先驗(yàn)的信念,胖托尼也許最初認(rèn)為硬幣正面朝上的概率是50%,而當(dāng)他看到了連續(xù)99次的硬幣正面朝上落地,則他不斷利用數(shù)據(jù)修改其信念。五、大數(shù)據(jù)與貝葉斯方法很多人都知道亞當(dāng)斯密(AdamSmith)在《

英國(guó)哲學(xué)家艾賽亞·柏林,把一句古希臘諺語(yǔ)“狐貍多技巧,刺猬僅一招”發(fā)揮成關(guān)于兩種類型的思想家之差異的深刻比喻:一類是追求一元論的思想家,他們力圖找出唯一絕對(duì)的真理,并將它應(yīng)用于萬(wàn)事萬(wàn)物,恰如刺猬遇到危險(xiǎn)總是使用相同的招數(shù)豎起滿身倒刺;另一類則是承認(rèn)多元論的思想家,他們體察世間萬(wàn)物之復(fù)雜微妙,沒(méi)有不變應(yīng)萬(wàn)變的宗旨,因此寧可自己思想矛盾,亦不強(qiáng)求圓融統(tǒng)一之理,恰如狐貍遇事之靈活、機(jī)智。五、大數(shù)據(jù)與貝葉斯方法五、大數(shù)據(jù)與貝葉斯方法

利用新的數(shù)據(jù)與新的證據(jù)不斷修訂對(duì)世界的假設(shè)是狐貍式的思維方式也是貝葉斯思維方式的基本理念,這也應(yīng)當(dāng)是大數(shù)據(jù)時(shí)代思維的基本理念。隨著互聯(lián)網(wǎng)及云計(jì)算的普及,在大數(shù)據(jù)時(shí)代,人們有機(jī)會(huì)從多個(gè)渠道、多個(gè)角度獲得對(duì)事物的知識(shí)。貝葉斯的“看不見(jiàn)的手”利用這些知識(shí)逐步修訂人們對(duì)事物的假設(shè),而人們基于這些假設(shè)進(jìn)行的決策通過(guò)亞當(dāng)斯密的市場(chǎng)的“看不見(jiàn)的手”被評(píng)估與選擇,從而形成相應(yīng)的社會(huì)秩序。無(wú)論人們最初關(guān)于事物的認(rèn)識(shí)存在什么樣的差異,在貝葉斯與亞當(dāng)斯密兩重“看不見(jiàn)的手”的作用下,“隨著越來(lái)越多的證據(jù)的出現(xiàn),我們的信念將趨于一致,并且趨于真相……即使我們最初擁有有誤的甚至是錯(cuò)得離譜的先驗(yàn)認(rèn)識(shí),最終也將趨于真相。”五、大數(shù)據(jù)與貝葉斯方法利用新的數(shù)據(jù)與新的證據(jù)不斷修訂對(duì)世界的假設(shè)

自拍桿和藍(lán)牙相機(jī):有兩個(gè)一模一樣的抽獎(jiǎng)箱,裝滿獎(jiǎng)券,獎(jiǎng)券上有對(duì)應(yīng)的獎(jiǎng)品。抽獎(jiǎng)箱A中有30個(gè)自拍桿和10個(gè)藍(lán)牙相機(jī);抽獎(jiǎng)箱B里有20個(gè)自拍桿和20個(gè)藍(lán)牙相機(jī)。

如果小明隨機(jī)選擇一個(gè)抽獎(jiǎng)箱,從里面抽出一張獎(jiǎng)券,發(fā)現(xiàn)是自拍桿,這個(gè)自拍桿來(lái)自抽獎(jiǎng)箱A的概率是多少?

設(shè)A和B分別為選中抽獎(jiǎng)箱A和抽獎(jiǎng)箱B的事件,因?yàn)閺耐庥^看兩個(gè)箱子沒(méi)有區(qū)別,則選中兩個(gè)箱子的概率應(yīng)該相等,即:P(A)=P(B)=0.5這是先驗(yàn)概率,代表在沒(méi)有抽獎(jiǎng)之前的信息。S代表抽到自拍桿的事件,則問(wèn)題求的即為P(A|S)。五、大數(shù)據(jù)與貝葉斯方法-案例分析自拍桿和藍(lán)牙相機(jī):五、大數(shù)據(jù)與貝葉斯方法-案例分析自拍桿和藍(lán)牙相機(jī):P(A|S)代表抽到自拍桿這個(gè)事件發(fā)生后,對(duì)P(A)的一個(gè)修正和調(diào)整即求的是后驗(yàn)概率。

根據(jù)條件概率公式可知:P(A|S)=P(A)*P(S|A)/P(S)分析:已知P(A)=0.5,P(S|A)=0.75(代表從A中抽取自拍桿的概率,因?yàn)锳中30個(gè)自拍桿,10個(gè)藍(lán)牙相機(jī),所以概率為0.75)。根據(jù)全概率公式:P(S)=P(S|A)*P(A)+P(S|B)*P(B)=0.75*0.5+0.5*0.5=0.625帶入貝葉斯公式可得:P(A|S)=P(A)*P(S|A)/P(S)=0.5*0.75/0.625=0.6結(jié)論:將更多信息引入,可以對(duì)問(wèn)題推測(cè)進(jìn)行修訂。通過(guò)引入抽出的獎(jiǎng)券是自

拍桿的信息,可推斷出來(lái)自A的可能性增強(qiáng),這和邏輯相符。五、大數(shù)據(jù)與貝葉斯方法-案例分析自拍桿和藍(lán)牙相機(jī):五、大數(shù)據(jù)與貝葉斯方法-案例分析

謝謝!2022/12/1657謝謝!2022/12/1457演講完畢,謝謝觀看!演講完畢,謝謝觀看!大數(shù)據(jù)分析與決策

姜昱汐

(大連交通大學(xué)經(jīng)濟(jì)管理學(xué)院經(jīng)濟(jì)學(xué)教研室)大數(shù)據(jù)分析與決策

一、大數(shù)據(jù)的相關(guān)概念二、大數(shù)據(jù)分析三、大數(shù)據(jù)應(yīng)用的典型案例四、大數(shù)據(jù)的可靠性五、大數(shù)據(jù)與貝葉斯方法報(bào)告內(nèi)容2022/12/1660一、大數(shù)據(jù)的相關(guān)概念報(bào)告內(nèi)容2022/12/142數(shù)據(jù)管理技術(shù)發(fā)展歷史數(shù)據(jù)管理技術(shù)歷經(jīng)人工管理、文件管理、數(shù)據(jù)庫(kù)管理等時(shí)代,大數(shù)據(jù)技術(shù)的出現(xiàn)使該領(lǐng)域進(jìn)入了一個(gè)新的發(fā)展階段-61-194619511956196119701974197919912001200320082011第一臺(tái)計(jì)算機(jī)ENIAC面世磁帶+卡片人工管理磁盤被發(fā)明,進(jìn)入文件管理時(shí)代網(wǎng)絡(luò)型SQLE-RGE公司發(fā)明第一個(gè)網(wǎng)絡(luò)模型數(shù)據(jù)庫(kù),但僅限于GE自己的主機(jī)1960年代,IT系統(tǒng)規(guī)模和復(fù)雜度變大,數(shù)據(jù)與應(yīng)用分離的需求開(kāi)始產(chǎn)生,數(shù)據(jù)庫(kù)技術(shù)開(kāi)始萌芽并蓬勃發(fā)展,并在1990年后逐步統(tǒng)一到以關(guān)系型數(shù)據(jù)庫(kù)為主導(dǎo)IBME.F.Dodd提出關(guān)系模型SQL語(yǔ)言被發(fā)明關(guān)系型數(shù)據(jù)庫(kù)ORACLE發(fā)布第一個(gè)商用SQL關(guān)系數(shù)據(jù)庫(kù),后續(xù)快速發(fā)展數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)開(kāi)始涌現(xiàn),關(guān)系數(shù)據(jù)庫(kù)開(kāi)始全面普及且平臺(tái)無(wú)關(guān),進(jìn)入成熟期2001年后,互聯(lián)網(wǎng)迅速發(fā)展,數(shù)據(jù)量成倍遞增,量變引起質(zhì)變,開(kāi)始對(duì)數(shù)據(jù)管理技術(shù)提出全新的要求1946年,電腦誕生,數(shù)據(jù)與應(yīng)用緊密捆綁在文件中,彼此不分Hadoop成為Apache頂級(jí)項(xiàng)目,重點(diǎn)支持海量數(shù)據(jù)分布式管理和分布式計(jì)算GFS谷歌發(fā)表論文介紹分布式計(jì)算數(shù)據(jù)管理技術(shù)發(fā)展歷史數(shù)據(jù)管理技術(shù)歷經(jīng)人工管理、文件管理、數(shù)據(jù)大數(shù)據(jù)發(fā)展背景全球信息化發(fā)展已步入大數(shù)據(jù)時(shí)代150億個(gè)設(shè)備連接到互聯(lián)網(wǎng)全球每秒鐘發(fā)送290萬(wàn)封電子郵件每天有2.88萬(wàn)小時(shí)視頻上傳到Y(jié)outubeFacebook每日評(píng)論達(dá)32億條,每天上傳照片近3億張,每月處理數(shù)據(jù)總量約130萬(wàn)TB2011年全球產(chǎn)生數(shù)據(jù)量1.8ZB,預(yù)計(jì)2020年將增長(zhǎng)到35ZB大數(shù)據(jù)正迅速成為最值得關(guān)注的IT領(lǐng)域之一2011年5月,EMCWorld2011大會(huì)主題“云計(jì)算相遇大數(shù)據(jù)”,EMC除了一直倡導(dǎo)的云計(jì)算外,還拋出"大數(shù)據(jù)"(BigData)概念2011年6月底,IBM、麥肯錫等眾多國(guó)外機(jī)構(gòu)發(fā)布"大數(shù)據(jù)"相關(guān)研究報(bào)告,予以積極跟進(jìn)2011年10月,Gartner認(rèn)為2012年十大戰(zhàn)略技術(shù)將包括"大數(shù)據(jù)"2011年11月底,IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)

將"大數(shù)據(jù)"放入2012年信息通信產(chǎn)業(yè)十大預(yù)測(cè)之一-62-IDC全球數(shù)據(jù)量預(yù)測(cè)(1ZB

=1百萬(wàn)PB=10億TB)Google網(wǎng)站Bigdata關(guān)鍵詞搜索及新聞引用量大數(shù)據(jù)發(fā)展背景全球信息化發(fā)展已步入大數(shù)據(jù)時(shí)代-4-什么是大數(shù)據(jù)123大數(shù)據(jù)的定義理解大數(shù)據(jù)的“4V”特征大數(shù)據(jù)的產(chǎn)生、增長(zhǎng)2022/12/1663什么是大數(shù)據(jù)123大數(shù)據(jù)的定義理解大數(shù)據(jù)的“4V”特征大數(shù)據(jù)“大數(shù)據(jù)”是如何產(chǎn)生的?facebook社交網(wǎng)絡(luò)淘寶電子商務(wù)微博、Apps移動(dòng)互聯(lián)21世紀(jì)是數(shù)據(jù)信息大發(fā)展的時(shí)代,移動(dòng)互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)等極大拓展了互聯(lián)網(wǎng)的邊界和應(yīng)用范圍,各種數(shù)據(jù)正在迅速膨脹并變大。互聯(lián)網(wǎng)(社交、搜索、電商)、移動(dòng)互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、保險(xiǎn))、電信(通話、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)。

半個(gè)世紀(jì)以來(lái),隨著計(jì)算機(jī)技術(shù)全面融入社會(huì)生活,信息爆炸已經(jīng)積累到了一個(gè)開(kāi)始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長(zhǎng)速度也在加快。信息爆炸的學(xué)科如天文學(xué)和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”這個(gè)概念*。如今,這個(gè)概念幾乎應(yīng)用到了所有人類智力與發(fā)展的領(lǐng)域中。2022/12/1664“大數(shù)據(jù)”是如何產(chǎn)生的?facebook社交網(wǎng)絡(luò)淘寶電子商務(wù)大數(shù)據(jù)時(shí)代的爆炸增長(zhǎng)想駕馭這龐大的數(shù)據(jù),我們必須了解大數(shù)據(jù)的特征。地球上至今總共的數(shù)據(jù)量:在2006年,個(gè)人用戶才剛剛邁進(jìn)TB時(shí)代,全球一共新產(chǎn)生了約180EB的數(shù)據(jù);在2011年,這個(gè)數(shù)字達(dá)到了1.8ZB。而有市場(chǎng)研究機(jī)構(gòu)預(yù)測(cè):到2020年,整個(gè)世界的數(shù)據(jù)總量將會(huì)增長(zhǎng)44倍,達(dá)到35.2ZB(1ZB=10億TB)!GBTBPBEBZB1GB

=2^30字節(jié)1TB=2^40字節(jié)1PB

=2^50字節(jié)1EB

=2^60字節(jié)1ZB=2^70字節(jié)2022/12/1665大數(shù)據(jù)時(shí)代的爆炸增長(zhǎng)想駕馭這龐大的數(shù)據(jù),我們必須了解大數(shù)據(jù)的大數(shù)據(jù)的4V特征“大量化(Volume)、多樣化(Variety)、快速化(Velocity)、價(jià)值密度低(Value)”就是“大數(shù)據(jù)”的顯著特征,或者說(shuō),只有具備這些特點(diǎn)的數(shù)據(jù),才是大數(shù)據(jù)。VolumeVelocityValueVariety2022/12/1666大數(shù)據(jù)的4V特征“大量化(Volume)、多樣化(Varie數(shù)據(jù)體量巨大(Volume):百度資料表明,其新首頁(yè)導(dǎo)航每天需要提供的數(shù)據(jù)超過(guò)1.5PB(1PB=1024TB),這些數(shù)據(jù)如果打印出來(lái)將超過(guò)5千億張A4紙。有資料證明,到目前為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)僅為200PB(不能在單個(gè)計(jì)算機(jī)上集中存儲(chǔ),一般需要用到分布式/云計(jì)算模式等)。數(shù)據(jù)類型多樣化:現(xiàn)在的數(shù)據(jù)不僅是文本形式,更多的是圖片、視頻、音頻、地理位置信息等多種類型的數(shù)據(jù),個(gè)性化、非結(jié)構(gòu)化數(shù)據(jù)占據(jù)較大比例。大數(shù)據(jù)的4V特征處理速度快數(shù)據(jù)處理遵循“1秒定律”,可從各種類型的數(shù)據(jù)中快速獲取高價(jià)值的信息價(jià)值密度低:以視頻為例,幾小時(shí)的視頻,在不間斷的監(jiān)控過(guò)程中,有用的數(shù)據(jù)可能僅僅幾秒。單個(gè)數(shù)據(jù)可能價(jià)值不大,但是數(shù)據(jù)整體還是有高價(jià)值的(比如一個(gè)班級(jí)大家發(fā)的微博可能沒(méi)有特別大的意義,但是全國(guó)高校大學(xué)生發(fā)的微博就可以反映當(dāng)代大學(xué)生思想理念)2022/12/1667數(shù)據(jù)體量巨大(Volume):大數(shù)據(jù)的4V特征處理速度快價(jià)值大數(shù)據(jù)的構(gòu)成大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類型的數(shù)據(jù)海量交易數(shù)據(jù):企業(yè)內(nèi)部的經(jīng)營(yíng)交易信息主要包括聯(lián)機(jī)交易數(shù)據(jù)和聯(lián)機(jī)分析數(shù)據(jù),是結(jié)構(gòu)化的、通過(guò)關(guān)系數(shù)據(jù)庫(kù)進(jìn)行管理和訪問(wèn)的靜態(tài)、歷史數(shù)據(jù)。通過(guò)這些數(shù)據(jù),我們能了解過(guò)去發(fā)生了什么。大數(shù)據(jù)包括:交易數(shù)據(jù)和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集海量交互數(shù)據(jù):源于Facebook、Twitter、微博、微信及其他來(lái)源的社交媒體數(shù)據(jù)構(gòu)成。它包括了呼叫詳細(xì)記錄、設(shè)備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、通過(guò)管理文件傳輸協(xié)議傳送的海量圖像文件、Web文本和點(diǎn)擊流數(shù)據(jù)、科學(xué)信息、電子郵件等等??梢愿嬖V我們未來(lái)會(huì)發(fā)生什么。海量數(shù)據(jù)處理:大數(shù)據(jù)的涌現(xiàn)已經(jīng)催生出了設(shè)計(jì)用于數(shù)據(jù)密集型處理的架構(gòu)。例如具有開(kāi)放源碼、在商品硬件群中運(yùn)行的ApacheHadoop。2022/12/1668大數(shù)據(jù)的構(gòu)成大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類型的數(shù)據(jù)海量交易2022/12/1669大數(shù)據(jù)的市場(chǎng)潛力2022/12/1411大數(shù)據(jù)的市場(chǎng)潛力利用GPS數(shù)據(jù)了解交通狀況2012年3月29日奧巴馬政府公布了”大數(shù)據(jù)研發(fā)計(jì)劃”。該計(jì)劃的目標(biāo)是改進(jìn)現(xiàn)有人們從海量和復(fù)雜的數(shù)據(jù)中獲取知識(shí)的能力,從而加速美國(guó)在科學(xué)與工程領(lǐng)域發(fā)明的步伐,增強(qiáng)國(guó)家安全,轉(zhuǎn)變現(xiàn)有的教學(xué)和學(xué)習(xí)方式?!按髷?shù)據(jù)戰(zhàn)略”上升為美國(guó)最高國(guó)策對(duì)數(shù)據(jù)占有和控制,做為在陸權(quán)、海權(quán)、空權(quán)之外的另一種國(guó)家核心能力。大數(shù)據(jù)的浪潮大數(shù)據(jù)與喬布斯的癌癥治療沃爾瑪?shù)钠【婆c紙尿布沃爾瑪?shù)皳榕c颶風(fēng)用品的關(guān)系谷歌流感預(yù)測(cè)利用GPS數(shù)據(jù)了解交通狀況2012年3月29日奧巴馬政府公布中國(guó)大數(shù)據(jù)市場(chǎng)分析7112011年-2016年中國(guó)大數(shù)據(jù)市場(chǎng)規(guī)模22012年各行業(yè)大數(shù)據(jù)市場(chǎng)規(guī)模計(jì)世資訊預(yù)測(cè),2012年政府、互聯(lián)網(wǎng)、電信、金融的大數(shù)據(jù)市場(chǎng)規(guī)模較大,四個(gè)行業(yè)將占據(jù)一半市場(chǎng)份額。由于各個(gè)行業(yè)都存在大數(shù)據(jù)應(yīng)用需求,潛在市場(chǎng)空間非常可觀。計(jì)世資訊認(rèn)為,2011年是中國(guó)大數(shù)據(jù)市場(chǎng)元年,一些大數(shù)據(jù)產(chǎn)品已經(jīng)推出,部分行業(yè)也有大數(shù)據(jù)應(yīng)用案例的產(chǎn)生。2012年-2016年,將迎來(lái)大數(shù)據(jù)市場(chǎng)的飛速發(fā)展。計(jì)世資訊預(yù)測(cè),2012年中國(guó)大數(shù)據(jù)市場(chǎng)規(guī)模將達(dá)到4.7億元,2013年大數(shù)據(jù)市場(chǎng)將迎來(lái)增速為138.3%的飛躍,到2016年,整個(gè)市場(chǎng)規(guī)模逼近百億。中國(guó)大數(shù)據(jù)市場(chǎng)分析1312011年-2016年中國(guó)大數(shù)據(jù)市場(chǎng)大數(shù)據(jù)的商業(yè)價(jià)值行業(yè)數(shù)據(jù)處理方式價(jià)值銀行/金融貸款、保險(xiǎn)、發(fā)卡等多業(yè)務(wù)數(shù)據(jù)集成分析,市場(chǎng)評(píng)估新產(chǎn)品風(fēng)險(xiǎn)評(píng)估股票等投資組合趨勢(shì)分析增加市場(chǎng)份額提升客戶忠誠(chéng)度提高整體收入降低金融風(fēng)險(xiǎn)醫(yī)療共享電子病歷及醫(yī)療記錄,幫助快速診斷穿戴式設(shè)備遠(yuǎn)程醫(yī)療改善診療質(zhì)量加快診療速度互聯(lián)網(wǎng)在線廣告投放商品評(píng)分、排名社交網(wǎng)絡(luò)自動(dòng)匹配搜索結(jié)果優(yōu)化提升網(wǎng)絡(luò)用戶忠誠(chéng)度改善社交網(wǎng)絡(luò)體驗(yàn)向目標(biāo)用戶提供有針對(duì)性的商品與服務(wù)政府/公共事業(yè)智能城市信息網(wǎng)絡(luò)集成天氣、地理、水電煤氣等公共數(shù)據(jù)收集、研究公共安全信息集中處理、智能分析更好地對(duì)外提供公共服務(wù)輿情分析準(zhǔn)確預(yù)判安全威脅媒體/娛樂(lè)收視率統(tǒng)計(jì)熱點(diǎn)信息統(tǒng)計(jì)、分析創(chuàng)造更多聯(lián)合、交叉銷售商機(jī)準(zhǔn)確評(píng)估廣告效用零售基于用戶位置信息的準(zhǔn)確促銷社交網(wǎng)絡(luò)購(gòu)買行為分析促進(jìn)客戶購(gòu)買熱情順應(yīng)客戶購(gòu)買行為習(xí)慣大數(shù)據(jù)的商業(yè)價(jià)值行業(yè)數(shù)據(jù)處理方式價(jià)值銀行/金融貸款、保險(xiǎn)、發(fā)一、大數(shù)據(jù)的相關(guān)概念二、大數(shù)據(jù)分析三、大數(shù)據(jù)應(yīng)用的典型案例三、大數(shù)據(jù)的可靠性四、大數(shù)據(jù)與貝葉斯方法報(bào)告內(nèi)容2022/12/1673一、大數(shù)據(jù)的相關(guān)概念報(bào)告內(nèi)容2022/12/1415分析技術(shù):數(shù)據(jù)處理:自然語(yǔ)言處理技術(shù)統(tǒng)計(jì)和分析:A/Btest;topN排行榜;地域占比;文本情感分析數(shù)據(jù)挖掘:關(guān)聯(lián)規(guī)則分析;分類;聚類模型預(yù)測(cè):預(yù)測(cè)模型;機(jī)器學(xué)習(xí);建模仿真大數(shù)據(jù)技術(shù):數(shù)據(jù)采集:ETL工具數(shù)據(jù)存?。宏P(guān)系數(shù)據(jù)庫(kù);NoSQL;SQL等基礎(chǔ)架構(gòu)支持:云存儲(chǔ);分布式文件系統(tǒng)等計(jì)算結(jié)果展現(xiàn):云計(jì)算;標(biāo)簽云;關(guān)系圖等相關(guān)技術(shù)存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)海量數(shù)據(jù)的查詢、統(tǒng)計(jì)、更新等操作效率低非結(jié)構(gòu)化數(shù)據(jù)圖片、視頻、word、pdf、ppt等文件存儲(chǔ)不利于檢索、查詢和存儲(chǔ)半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化存儲(chǔ)按照非結(jié)構(gòu)化存儲(chǔ)解決方案:Hadoop(MapReduce技術(shù))流計(jì)算(twitter的storm和yahoo!的S4)數(shù)據(jù)采集數(shù)據(jù)儲(chǔ)存數(shù)據(jù)管理數(shù)據(jù)分析與挖掘2022/12/1674二、大數(shù)據(jù)分析分析技術(shù):相關(guān)技術(shù)存儲(chǔ)解決方案:數(shù)據(jù)采集數(shù)據(jù)儲(chǔ)存數(shù)據(jù)管理數(shù)據(jù)二、大數(shù)據(jù)分析

AnalyticVisualizations(可視化分析)

DataMiningAlgorithms(數(shù)據(jù)挖掘算法)

PredictiveAnalyticCapabilities(預(yù)測(cè)性分析能力)

SemanticEngines(語(yǔ)義引擎)

DataQualityandMasterDataManagement(數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理)

二、大數(shù)據(jù)分析AnalyticVisualizatio二、大數(shù)據(jù)分析-可視化分析

AnalyticVisualizations(可視化分析)

不管是對(duì)數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求??梢暬梢灾庇^的展示數(shù)據(jù),讓數(shù)據(jù)自己說(shuō)話,讓觀眾聽(tīng)到結(jié)果。二、大數(shù)據(jù)分析-可視化分析AnalyticVisual二、大數(shù)據(jù)分析-數(shù)據(jù)挖掘算法

DataMiningAlgorithms(數(shù)據(jù)挖掘算法)

可視化是給人看的,數(shù)據(jù)挖掘就是給機(jī)器看的。集群、分割、孤立點(diǎn)分析還有其他的算法讓我們深入數(shù)據(jù)內(nèi)部,挖掘價(jià)值。這些算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。

二、大數(shù)據(jù)分析-數(shù)據(jù)挖掘算法DataMiningAlg二、大數(shù)據(jù)分析-預(yù)測(cè)性分析能力

PredictiveAnalyticCapabilities(預(yù)測(cè)性分析能力)

數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù),而預(yù)測(cè)性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預(yù)測(cè)性的判斷。二、大數(shù)據(jù)分析-預(yù)測(cè)性分析能力PredictiveAna二、大數(shù)據(jù)分析-語(yǔ)義引擎

SemanticEngines(語(yǔ)義引擎)

我們知道由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性帶來(lái)了數(shù)據(jù)分析的新的挑戰(zhàn),我們需要一系列的工具去解析,提取,分析數(shù)據(jù)。語(yǔ)義引擎需要被設(shè)計(jì)成能夠從“文檔”中智能提取信息。二、大數(shù)據(jù)分析-語(yǔ)義引擎SemanticEngines(二、大數(shù)據(jù)分析-數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理

DataQualityandMasterDataManagement(數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理)數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實(shí)踐。通過(guò)標(biāo)準(zhǔn)化的流程和工具對(duì)數(shù)據(jù)進(jìn)行處理可以保證一個(gè)預(yù)先定義好的高質(zhì)量的分析結(jié)果。二、大數(shù)據(jù)分析-數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理DataQualit一、大數(shù)據(jù)的相關(guān)概念二、大數(shù)據(jù)分析三、大數(shù)據(jù)應(yīng)用的典型案例三、大數(shù)據(jù)的可靠性四、大數(shù)據(jù)與貝葉斯方法報(bào)告內(nèi)容2022/12/1681一、大數(shù)據(jù)的相關(guān)概念報(bào)告內(nèi)容2022/12/1423三、大數(shù)據(jù)應(yīng)用的典型案例-流感預(yù)測(cè)2022/12/1682三、大數(shù)據(jù)應(yīng)用的典型案例-流感預(yù)測(cè)2022/12/14242022/12/1683全球每星期會(huì)有數(shù)以百萬(wàn)計(jì)的用戶在網(wǎng)上搜索健康信息。正如您所預(yù)料的那樣,在流感季節(jié),與流感有關(guān)的搜索會(huì)明顯增多;到了過(guò)敏季節(jié),與過(guò)敏有關(guān)的搜索會(huì)顯著上升;而到了夏季,與曬傷有關(guān)的搜索又會(huì)大幅增加。某些搜索字詞非常有助于了解流感疫情。Google流感趨勢(shì)會(huì)根據(jù)匯總的Google搜索數(shù)據(jù),近乎實(shí)時(shí)地對(duì)全球當(dāng)前的流感疫情進(jìn)行估測(cè)。搜索流感相關(guān)主題的人數(shù)與實(shí)際患有流感癥狀的人數(shù)之間存在著密切的關(guān)系。當(dāng)然,并非每個(gè)搜索“流感”的人都真的患有流感,但將與流感有關(guān)的搜索查詢匯總到一起時(shí),便可以找到一種模式。將統(tǒng)計(jì)的查詢數(shù)量與傳統(tǒng)流感監(jiān)測(cè)系統(tǒng)的數(shù)據(jù)進(jìn)行了對(duì)比,結(jié)果發(fā)現(xiàn)許多搜索查詢?cè)诹鞲屑竟?jié)確實(shí)會(huì)明顯增多。通過(guò)對(duì)這些搜索查詢的出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),便可以估測(cè)出世界上不同國(guó)家和地區(qū)的流感傳播情況。Detectinginfluenzaepidemicsusingsearchenginequerydata,Nature

457,1012-1014(19February2009)三、大數(shù)據(jù)應(yīng)用的典型案例-流感預(yù)測(cè)2022/12/1425全球每星期會(huì)有數(shù)以百萬(wàn)計(jì)的用戶在網(wǎng)上2022/12/1684卡耐基梅隆大學(xué)的JiweiLi和康乃爾大學(xué)的ClaireCardie,成功利用Twitter預(yù)測(cè)了早期流感爆發(fā)。他們的方式與Google類似。首先,從Twitter數(shù)據(jù)流中過(guò)濾包含與“流感”相關(guān),并帶有位置標(biāo)簽的tweet;然后,在地圖上標(biāo)注這些tweet的位置分布,以及隨時(shí)間產(chǎn)生的變化。同時(shí),還制作了流感的動(dòng)態(tài)變化模型。新模型中,流感包括4個(gè)階段:無(wú)傳染階段、爆發(fā)階段、穩(wěn)定階段以及衰退階段。此外,采用了全新的算法,試圖盡可能快得發(fā)現(xiàn)不同時(shí)期的轉(zhuǎn)換節(jié)點(diǎn)。實(shí)際上,Li和Cardie在2008年6月至2010年6月間,已經(jīng)利用100萬(wàn)美國(guó)人的360萬(wàn)條tweet,驗(yàn)證了該方法的有效性。為了檢驗(yàn)他們的預(yù)測(cè)是否成真,Li和Cardie將他們的分析與CDC進(jìn)行對(duì)比。他們說(shuō),“我們確信,流感相關(guān)tweet與CDC提供的流感疾病案例數(shù)目,呈顯著相關(guān)?!比?、大數(shù)據(jù)應(yīng)用的典型案例-流感預(yù)測(cè)2022/12/1426卡耐基梅隆大學(xué)的JiweiLi2022/12/1685日本國(guó)內(nèi)有一個(gè)網(wǎng)站,你只要打開(kāi)這個(gè)網(wǎng)站用自己的Twitter賬號(hào)登錄,就可以在短時(shí)間內(nèi)通過(guò)數(shù)萬(wàn)條Twitter找出可能感冒的人,并通過(guò)過(guò)去的感冒情況和今日的感冒情況進(jìn)行分析(以及統(tǒng)計(jì)目前發(fā)燒以及嗓子痛的患者數(shù)量),另外該程序還會(huì)結(jié)合氣溫和濕度的變化來(lái)預(yù)測(cè)將來(lái)感冒的流行情況,并制作一個(gè)“易感冒日歷”。目前,此類服務(wù)正在日本陸續(xù)展開(kāi)。通過(guò)這個(gè)服務(wù)器的分析,大家就能夠知道在自己身邊到底有多少人有感冒的癥狀,并提前做好預(yù)防準(zhǔn)備。日本國(guó)立感染癥研究所將會(huì)把全國(guó)約

5000個(gè)醫(yī)療診所的流感患者進(jìn)行統(tǒng)計(jì)并發(fā)布數(shù)據(jù)。經(jīng)過(guò)對(duì)比,研究所得出的實(shí)際統(tǒng)計(jì)數(shù)字和網(wǎng)站上預(yù)測(cè)的結(jié)果基本是一致的,那么為什么大數(shù)據(jù)的結(jié)果會(huì)很準(zhǔn)呢?首先是因?yàn)橥ㄟ^(guò)網(wǎng)絡(luò)信息分析的技術(shù)有所進(jìn)步,已經(jīng)可以通過(guò)各種各樣的留言自動(dòng)搜索到相關(guān)的數(shù)據(jù),并自動(dòng)分類。就像Google現(xiàn)在所使用的技術(shù),就是利用服務(wù)器分析與流感關(guān)系十分密切的十幾個(gè)單詞進(jìn)行統(tǒng)計(jì)。另一個(gè)就是大數(shù)據(jù)所特有的功能。在流感最嚴(yán)重的時(shí)候,每天會(huì)有成千上萬(wàn)條Tweets發(fā)布,即便有一些誤差,但通過(guò)數(shù)據(jù)分析也能分析出數(shù)據(jù)的精準(zhǔn)度。以往,公共機(jī)構(gòu)在發(fā)布流感情報(bào)的時(shí)候至少要延遲一周,在有些偏遠(yuǎn)地區(qū)的立桿信息也并不確切,而現(xiàn)在,通過(guò)網(wǎng)絡(luò)能夠有效彌補(bǔ)這些缺憾。三、大數(shù)據(jù)應(yīng)用的典型案例-流感預(yù)測(cè)2022/12/1427日本國(guó)內(nèi)有一個(gè)網(wǎng)站,你只要打開(kāi)這個(gè)網(wǎng)2022/12/1686亞馬遜“預(yù)測(cè)式發(fā)貨”的新專利,可以通過(guò)對(duì)用戶數(shù)據(jù)的分析,在他們還沒(méi)有下單前,提前發(fā)出包裹。這項(xiàng)技術(shù)可以縮短發(fā)貨時(shí)間,從而降低消費(fèi)者前往實(shí)體店的沖動(dòng)。(因?yàn)樵谙聠蔚绞斋@之間的時(shí)間延遲可能會(huì)降低人們的購(gòu)物意愿,導(dǎo)致他們放棄網(wǎng)上購(gòu)物)亞馬遜根據(jù)之前的訂單和其他因素,預(yù)測(cè)用戶的購(gòu)物習(xí)慣,從而在他們實(shí)際下單前就將包裹發(fā)出。根據(jù)該專利文件,雖然包裹會(huì)提前從亞馬遜發(fā)出,但在用戶正式下單前,這些包裹會(huì)暫存在快遞公司的轉(zhuǎn)運(yùn)中心或者卡車?yán)?。亞馬遜為了決定要運(yùn)送那些貨物,可能會(huì)參考以前的訂單、商品搜索記錄、愿望清單、購(gòu)物車、甚至包括用戶的鼠標(biāo)在某件商品上停留的時(shí)間。三、大數(shù)據(jù)應(yīng)用的典型案例-亞馬遜“預(yù)測(cè)式發(fā)貨”2022/12/1428亞馬遜“預(yù)測(cè)式發(fā)貨”的新專利,可以通2022/12/16872012年11月奧巴馬大選連任成功的勝利果實(shí)也被歸功于大數(shù)據(jù),因?yàn)樗母?jìng)選團(tuán)隊(duì)對(duì)選民的行為、支持偏向進(jìn)行了數(shù)據(jù)搜集,并進(jìn)行了大規(guī)模與深入的數(shù)據(jù)挖掘。在這次大選中,奧巴馬競(jìng)選陣營(yíng)的高級(jí)助理們決定將參考得到的數(shù)據(jù)分析結(jié)果來(lái)制定下一步的競(jìng)選方案,從而獲得選民的支持。三、大數(shù)據(jù)應(yīng)用的典型案例-奧巴馬選舉2022/12/14292012年11月奧巴馬大選連任成功的三、大數(shù)據(jù)應(yīng)用的典型案例-“老鼠倉(cāng)”2022/12/1688早在2009年,上交所曾經(jīng)利用“大數(shù)據(jù)”設(shè)置“捕鼠器”的設(shè)想,設(shè)定一定的指標(biāo)預(yù)警,當(dāng)相關(guān)指標(biāo)達(dá)到某個(gè)預(yù)警點(diǎn)時(shí),監(jiān)控系統(tǒng)會(huì)自動(dòng)報(bào)警。深交所“大數(shù)據(jù)”監(jiān)控系統(tǒng),設(shè)置200多個(gè)指標(biāo)用于監(jiān)控估計(jì),一旦出現(xiàn)股價(jià)偏離大盤的走勢(shì),將利用大數(shù)據(jù)查探異動(dòng)背后的機(jī)構(gòu)或投資人。馬樂(lè)案,監(jiān)管系統(tǒng)發(fā)現(xiàn)有三個(gè)賬戶的交易特點(diǎn)和當(dāng)時(shí)的博時(shí)精選基金高度重合,從交易記錄上可以看到,持股時(shí)間最長(zhǎng)不過(guò)一兩個(gè)月,大多是三四天、四五天。三、大數(shù)據(jù)應(yīng)用的典型案例-“老鼠倉(cāng)”2022/12/1430三、大數(shù)據(jù)應(yīng)用的典型案例-阿里“水文模型”2022/12/1689阿里“水文模型”是按照小微企業(yè)類型、級(jí)別等分別統(tǒng)計(jì)一個(gè)阿里系客戶的相關(guān)“水文數(shù)據(jù)”庫(kù)。如過(guò)往每到一個(gè)時(shí)點(diǎn),該店鋪銷售會(huì)進(jìn)入旺季,銷售額就會(huì)增長(zhǎng),同時(shí)沒(méi)到這個(gè)時(shí)段,該客戶對(duì)外投放的額度就會(huì)上升,結(jié)合這些水文數(shù)據(jù),系統(tǒng)可以判斷出該店鋪的融資需求;結(jié)合該店鋪以往資金支出數(shù)據(jù)及同類店鋪資金支用數(shù)據(jù),可以判斷出該店鋪的資金需求額度。三、大數(shù)據(jù)應(yīng)用的典型案例-阿里“水文模型”2022/12/1三、大數(shù)據(jù)應(yīng)用的典型案例-啤酒與尿布2022/12/1690全球零售業(yè)巨頭沃爾瑪在對(duì)消費(fèi)者購(gòu)物行為分析時(shí)發(fā)現(xiàn),男性顧客在購(gòu)買嬰兒尿片時(shí),常常會(huì)順便搭配幾瓶啤酒來(lái)犒勞自己,于是嘗試推出了將啤酒和尿布擺在一起的促銷手段。沒(méi)想到這個(gè)舉措居然使尿布和啤酒的銷量都大幅增加了。如今,“啤酒+尿布”的數(shù)據(jù)分析成果早已成了大數(shù)據(jù)技術(shù)應(yīng)用的經(jīng)典案例,被人津津樂(lè)道。三、大數(shù)據(jù)應(yīng)用的典型案例-啤酒與尿布2022/12/1432三、大數(shù)據(jù)應(yīng)用的典型案例-數(shù)據(jù)新聞讓英國(guó)撤軍2022/12/16912010年10月23日《衛(wèi)報(bào)》利用維基解密的數(shù)據(jù)做了一篇“數(shù)據(jù)新聞”。將伊拉克戰(zhàn)爭(zhēng)中所有的人員傷亡情況均標(biāo)注于地圖之上。地圖上一個(gè)紅點(diǎn)便代表一次死傷事件,鼠標(biāo)點(diǎn)擊紅點(diǎn)后彈出的窗口則有詳細(xì)的說(shuō)明:傷亡人數(shù)、時(shí)間,造成傷亡的具體原因。密布的紅點(diǎn)多達(dá)39萬(wàn),顯得格外觸目驚心。一經(jīng)刊出立即引起朝野震動(dòng),推動(dòng)英國(guó)最終做出撤出駐伊拉克軍隊(duì)的決定。三、大數(shù)據(jù)應(yīng)用的典型案例-數(shù)據(jù)新聞讓英國(guó)撤軍2022/12/三、大數(shù)據(jù)應(yīng)用的典型案例-喬布斯癌癥治療2022/12/1692喬布斯是世界上第一個(gè)對(duì)自身所有DNA和腫瘤DNA進(jìn)行排序的人。為此,他支付了高達(dá)幾十萬(wàn)美元的費(fèi)用。他得到的不是樣本,而是包括整個(gè)基因的數(shù)據(jù)文檔。醫(yī)生按照所有基因按需下藥,最終這種方式幫助喬布斯延長(zhǎng)了好幾年的生命。三、大數(shù)據(jù)應(yīng)用的典型案例-喬布斯癌癥治療2022/12/14三、大數(shù)據(jù)應(yīng)用的典型案例

-微軟大數(shù)據(jù)成功預(yù)測(cè)奧斯卡21項(xiàng)大獎(jiǎng)2022/12/16932013年,微軟紐約研究院的經(jīng)濟(jì)學(xué)家大衛(wèi)羅斯柴爾德(DavidRothschild)利用大數(shù)據(jù)成功預(yù)測(cè)24個(gè)奧斯卡獎(jiǎng)項(xiàng)中的19個(gè),成為人們津津樂(lè)道的話題。2014年羅斯柴爾德再接再厲,成功預(yù)測(cè)第86屆奧斯卡金像獎(jiǎng)?lì)C獎(jiǎng)典禮24個(gè)獎(jiǎng)項(xiàng)中的21個(gè),繼續(xù)向人們展示現(xiàn)代科技的神奇魔力。三、大數(shù)據(jù)應(yīng)用的典型案例

一、大數(shù)據(jù)的相關(guān)概念二、大數(shù)據(jù)分析三、大數(shù)據(jù)應(yīng)用的典型案例四、大數(shù)據(jù)的可靠性五、大數(shù)據(jù)與貝葉斯方法報(bào)告內(nèi)容2022/12/1694一、大數(shù)據(jù)的相關(guān)概念報(bào)告內(nèi)容2022/12/1436四、大數(shù)據(jù)的可靠性2022/12/1695大數(shù)據(jù)思維的相關(guān)關(guān)系可以替代因果關(guān)系嗎?大數(shù)據(jù)思維下可以直接用調(diào)研結(jié)果來(lái)指導(dǎo)實(shí)踐嗎?四、大數(shù)據(jù)的可靠性2022/12/1437大數(shù)據(jù)思維的相關(guān)關(guān)四、大數(shù)據(jù)的可靠性-谷歌流感預(yù)測(cè)2022/12/1696在2011-2013年的三年間,谷歌流感模型的預(yù)測(cè)出現(xiàn)嚴(yán)重偏差:一直在高估流感的事態(tài)。其中最嚴(yán)重的偏差出現(xiàn)在2013年1月,谷歌產(chǎn)品估計(jì)的結(jié)果是CDC匯總實(shí)際結(jié)果的2倍。四、大數(shù)據(jù)的可靠性-谷歌流感預(yù)測(cè)2022/12/1438在2四、大數(shù)據(jù)分析的可靠性-谷歌流感預(yù)測(cè)2022/12/1697谷歌的目的是估算禽流感在整個(gè)美國(guó)的發(fā)病率。數(shù)據(jù)來(lái)源是自用戶使用搜索引擎的檢索記錄,即谷歌用搜索關(guān)鍵字的網(wǎng)民行為來(lái)預(yù)測(cè)整個(gè)國(guó)家人們患病的可能性。Q1:有禽流感癥狀的人都會(huì)使用google搜索關(guān)鍵字嗎?Q2:用google搜索關(guān)鍵字的人都有禽流感癥狀嗎?四、大數(shù)據(jù)分析的可靠性-谷歌流感預(yù)測(cè)2022/12/1439四、大數(shù)據(jù)的可靠性-谷歌流感預(yù)測(cè)2022/12/1698谷歌模型失敗原因谷歌模型是基于關(guān)鍵字和發(fā)病率的關(guān)系來(lái)進(jìn)行預(yù)測(cè)。大數(shù)據(jù)思維重視相關(guān)性(A和B同時(shí)發(fā)生),卻忽略了因果關(guān)系(A導(dǎo)致B發(fā)生)的分析。隨著流感的發(fā)展,媒體不斷增加對(duì)流感的報(bào)道,引來(lái)越來(lái)越多人的重視,也就有相應(yīng)一部分人會(huì)通過(guò)google來(lái)搜索流感關(guān)鍵詞,但是這些人并不一定得了流感。1A導(dǎo)致B2B導(dǎo)致A3C導(dǎo)致A和B4A和B互為因果5小樣本引起的巧合A和B的關(guān)系四、大數(shù)據(jù)的可靠性-谷歌流感預(yù)測(cè)2022/12/1440谷歌四、大數(shù)據(jù)的可靠性-被解雇的市場(chǎng)調(diào)研部員工2022/12/16992004年,我國(guó)某知名電視機(jī)生產(chǎn)公司因?yàn)橐淮问袌?chǎng)調(diào)查的結(jié)果,解雇了市場(chǎng)調(diào)研部的大量員工四、大數(shù)據(jù)的可靠性-被解雇的市場(chǎng)調(diào)研部員工2022/12/1四、大數(shù)據(jù)的可靠性-被解雇的市場(chǎng)調(diào)研部員工2022/12/16100為調(diào)查該企業(yè)電視機(jī)品牌的市場(chǎng)占有率,該公司排除市場(chǎng)研究部的兩組員工,調(diào)查消費(fèi)者會(huì)選擇的電視機(jī)品牌。Q:為什么同樣的抽樣方法結(jié)果差異這么大?

愿意購(gòu)買不愿購(gòu)買A組36%64%B組16%84%四、大數(shù)據(jù)的可靠性-被解雇的市場(chǎng)調(diào)研部員工2022/12/1四、大數(shù)據(jù)的可靠性-被解雇的市場(chǎng)調(diào)研部員工2022/12/16101Q:為什么同樣的抽樣方法結(jié)果差異這么大?原因:1A組調(diào)查員在詢問(wèn)過(guò)程中均戴著有該公司logo的領(lǐng)帶2在問(wèn)題的選項(xiàng)中,該公司的名字排在眾多品牌的第一位四、大數(shù)據(jù)的可靠性-被解雇的市場(chǎng)調(diào)研部員工2022/12/1四、大數(shù)據(jù)的可靠性2022/12/16102“大數(shù)據(jù),大偏差”科學(xué)的技術(shù)誠(chéng)實(shí)的態(tài)度嚴(yán)密的操作四、大數(shù)據(jù)的可靠性2022/12/1444“大數(shù)據(jù),大偏差”一、大數(shù)據(jù)的相關(guān)概念二、大數(shù)據(jù)分析三、大數(shù)據(jù)應(yīng)用的典型案例四、大數(shù)據(jù)的可靠性五、大數(shù)據(jù)與貝葉斯方法報(bào)告內(nèi)容2022/12/16103一、大數(shù)據(jù)的相關(guān)概念報(bào)告內(nèi)容2022/12/1445

假設(shè)擲出一枚硬幣,正面朝上的概率是50%,如果連續(xù)99次投擲硬幣都是正面朝上落地,那么下一次投擲硬幣正面朝上落地的概率是多少?這是Taleb在《黑天鵝》一書中給出的一個(gè)假想的問(wèn)題。在Taleb的書中,受過(guò)正統(tǒng)教育的約翰博士給出了教科書教給我們的標(biāo)準(zhǔn)回答,下一次投擲硬幣正面朝上落地的概率仍然為50%,因?yàn)橄乱淮斡矌懦蚺c之前投擲的結(jié)果無(wú)關(guān)。而教育背景沒(méi)有那么光鮮的胖托尼則認(rèn)為下一次投擲硬幣正面朝上的概率為99%。孰對(duì)孰錯(cuò)?每個(gè)人都不妨給出自己的判斷。而如果一定要為自己的答案下一萬(wàn)塊錢的賭注的話,可能我就會(huì)和Taleb一樣,更傾向于和不是那么教條的胖托尼保持一致,即更傾向于相信下一次硬幣正面朝上的幾率為99%,更傾向于相信我之前的有關(guān)正面朝上落地的概率是50%的假設(shè)是錯(cuò)誤的。五、大數(shù)據(jù)與貝葉斯方法假設(shè)擲出一枚硬幣,正面朝上的概率是50%,

近幾年“大數(shù)據(jù)”成為熱詞后,諸如“貝葉斯算法”這樣的統(tǒng)計(jì)學(xué)名詞也隨之在IT領(lǐng)域熱起來(lái)。所謂的貝葉斯方法源于托馬斯·貝葉斯(ThomasBayes)生前為解決一個(gè)“逆概”問(wèn)題寫的一篇文章。在貝葉斯寫這篇文章之前,人們已經(jīng)能夠計(jì)算“正向概率”,如“假設(shè)袋子里面有N個(gè)白球,M個(gè)黑球,你伸手進(jìn)去摸一把,摸出黑球的概率是多大”。而一個(gè)自然而然的問(wèn)題是反過(guò)來(lái):“如果我們事先并不知道袋子里面黑白球的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論