




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)分析與決策
姜昱汐
(大連交通大學(xué)經(jīng)濟(jì)管理學(xué)院經(jīng)濟(jì)學(xué)教研室)一、大數(shù)據(jù)的相關(guān)概念二、大數(shù)據(jù)分析三、大數(shù)據(jù)應(yīng)用的典型案例四、大數(shù)據(jù)的可靠性五、大數(shù)據(jù)與貝葉斯方法報(bào)告內(nèi)容2023/10/182數(shù)據(jù)管理技術(shù)發(fā)展歷史數(shù)據(jù)管理技術(shù)歷經(jīng)人工管理、文件管理、數(shù)據(jù)庫管理等時代,大數(shù)據(jù)技術(shù)的出現(xiàn)使該領(lǐng)域進(jìn)入了一個新的發(fā)展階段-3-194619511956196119701974197919912001200320082011第一臺計(jì)算機(jī)ENIAC面世磁帶+卡片人工管理磁盤被發(fā)明,進(jìn)入文件管理時代網(wǎng)絡(luò)型SQLE-RGE公司發(fā)明第一個網(wǎng)絡(luò)模型數(shù)據(jù)庫,但僅限于GE自己的主機(jī)1960年代,IT系統(tǒng)規(guī)模和復(fù)雜度變大,數(shù)據(jù)與應(yīng)用分離的需求開始產(chǎn)生,數(shù)據(jù)庫技術(shù)開始萌芽并蓬勃發(fā)展,并在1990年后逐步統(tǒng)一到以關(guān)系型數(shù)據(jù)庫為主導(dǎo)IBME.F.Dodd提出關(guān)系模型SQL語言被發(fā)明關(guān)系型數(shù)據(jù)庫ORACLE發(fā)布第一個商用SQL關(guān)系數(shù)據(jù)庫,后續(xù)快速發(fā)展數(shù)據(jù)倉庫數(shù)據(jù)倉庫開始涌現(xiàn),關(guān)系數(shù)據(jù)庫開始全面普及且平臺無關(guān),進(jìn)入成熟期2001年后,互聯(lián)網(wǎng)迅速發(fā)展,數(shù)據(jù)量成倍遞增,量變引起質(zhì)變,開始對數(shù)據(jù)管理技術(shù)提出全新的要求1946年,電腦誕生,數(shù)據(jù)與應(yīng)用緊密捆綁在文件中,彼此不分Hadoop成為Apache頂級項(xiàng)目,重點(diǎn)支持海量數(shù)據(jù)分布式管理和分布式計(jì)算GFS谷歌發(fā)表論文介紹分布式計(jì)算大數(shù)據(jù)發(fā)展背景全球信息化發(fā)展已步入大數(shù)據(jù)時代150億個設(shè)備連接到互聯(lián)網(wǎng)全球每秒鐘發(fā)送290萬封電子郵件每天有2.88萬小時視頻上傳到Y(jié)outubeFacebook每日評論達(dá)32億條,每天上傳照片近3億張,每月處理數(shù)據(jù)總量約130萬TB2011年全球產(chǎn)生數(shù)據(jù)量1.8ZB,預(yù)計(jì)2020年將增長到35ZB大數(shù)據(jù)正迅速成為最值得關(guān)注的IT領(lǐng)域之一2011年5月,EMCWorld2011大會主題“云計(jì)算相遇大數(shù)據(jù)”,EMC除了一直倡導(dǎo)的云計(jì)算外,還拋出"大數(shù)據(jù)"(BigData)概念2011年6月底,IBM、麥肯錫等眾多國外機(jī)構(gòu)發(fā)布"大數(shù)據(jù)"相關(guān)研究報(bào)告,予以積極跟進(jìn)2011年10月,Gartner認(rèn)為2012年十大戰(zhàn)略技術(shù)將包括"大數(shù)據(jù)"2011年11月底,IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)
將"大數(shù)據(jù)"放入2012年信息通信產(chǎn)業(yè)十大預(yù)測之一-4-IDC全球數(shù)據(jù)量預(yù)測(1ZB
=1百萬PB=10億TB)Google網(wǎng)站Bigdata關(guān)鍵詞搜索及新聞引用量什么是大數(shù)據(jù)123大數(shù)據(jù)的定義理解大數(shù)據(jù)的“4V”特征大數(shù)據(jù)的產(chǎn)生、增長2023/10/185“大數(shù)據(jù)”是如何產(chǎn)生的?21世紀(jì)是數(shù)據(jù)信息大發(fā)展的時代,移動互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)等極大拓展了互聯(lián)網(wǎng)的邊界和應(yīng)用范圍,各種數(shù)據(jù)正在迅速膨脹并變大?;ヂ?lián)網(wǎng)(社交、搜索、電商)、移動互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、保險(xiǎn))、電信(通話、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)。
半個世紀(jì)以來,隨著計(jì)算機(jī)技術(shù)全面融入社會生活,信息爆炸已經(jīng)積累到了一個開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。信息爆炸的學(xué)科如天文學(xué)和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”這個概念*。如今,這個概念幾乎應(yīng)用到了所有人類智力與發(fā)展的領(lǐng)域中。2023/10/186大數(shù)據(jù)時代的爆炸增長想駕馭這龐大的數(shù)據(jù),我們必須了解大數(shù)據(jù)的特征。地球上至今總共的數(shù)據(jù)量:在2006年,個人用戶才剛剛邁進(jìn)TB時代,全球一共新產(chǎn)生了約180EB的數(shù)據(jù);在2011年,這個數(shù)字達(dá)到了1.8ZB。而有市場研究機(jī)構(gòu)預(yù)測:到2020年,整個世界的數(shù)據(jù)總量將會增長44倍,達(dá)到35.2ZB(1ZB=10億TB)!1GB
=2^30字節(jié)1TB=2^40字節(jié)1PB
=2^50字節(jié)1EB
=2^60字節(jié)1ZB=2^70字節(jié)2023/10/187大數(shù)據(jù)的4V特征“大量化(Volume)、多樣化(Variety)、快速化(Velocity)、價值密度低(Value)”就是“大數(shù)據(jù)”的顯著特征,或者說,只有具備這些特點(diǎn)的數(shù)據(jù),才是大數(shù)據(jù)。VolumeVelocityValueVariety2023/10/188數(shù)據(jù)體量巨大(Volume):百度資料表明,其新首頁導(dǎo)航每天需要提供的數(shù)據(jù)超過1.5PB(1PB=1024TB),這些數(shù)據(jù)如果打印出來將超過5千億張A4紙。有資料證明,到目前為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)僅為200PB(不能在單個計(jì)算機(jī)上集中存儲,一般需要用到分布式/云計(jì)算模式等)。數(shù)據(jù)類型多樣化:現(xiàn)在的數(shù)據(jù)不僅是文本形式,更多的是圖片、視頻、音頻、地理位置信息等多種類型的數(shù)據(jù),個性化、非結(jié)構(gòu)化數(shù)據(jù)占據(jù)較大比例。大數(shù)據(jù)的4V特征處理速度快數(shù)據(jù)處理遵循“1秒定律”,可從各種類型的數(shù)據(jù)中快速獲取高價值的信息價值密度低:以視頻為例,幾小時的視頻,在不間斷的監(jiān)控過程中,有用的數(shù)據(jù)可能僅僅幾秒。單個數(shù)據(jù)可能價值不大,但是數(shù)據(jù)整體還是有高價值的(比如一個班級大家發(fā)的微博可能沒有特別大的意義,但是全國高校大學(xué)生發(fā)的微博就可以反映當(dāng)代大學(xué)生思想理念)2023/10/189大數(shù)據(jù)的構(gòu)成大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類型的數(shù)據(jù)海量交易數(shù)據(jù):企業(yè)內(nèi)部的經(jīng)營交易信息主要包括聯(lián)機(jī)交易數(shù)據(jù)和聯(lián)機(jī)分析數(shù)據(jù),是結(jié)構(gòu)化的、通過關(guān)系數(shù)據(jù)庫進(jìn)行管理和訪問的靜態(tài)、歷史數(shù)據(jù)。通過這些數(shù)據(jù),我們能了解過去發(fā)生了什么。大數(shù)據(jù)包括:交易數(shù)據(jù)和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集海量交互數(shù)據(jù):源于Facebook、Twitter、微博、微信及其他來源的社交媒體數(shù)據(jù)構(gòu)成。它包括了呼叫詳細(xì)記錄、設(shè)備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、通過管理文件傳輸協(xié)議傳送的海量圖像文件、Web文本和點(diǎn)擊流數(shù)據(jù)、科學(xué)信息、電子郵件等等??梢愿嬖V我們未來會發(fā)生什么。海量數(shù)據(jù)處理:大數(shù)據(jù)的涌現(xiàn)已經(jīng)催生出了設(shè)計(jì)用于數(shù)據(jù)密集型處理的架構(gòu)。例如具有開放源碼、在商品硬件群中運(yùn)行的ApacheHadoop。2023/10/18102023/10/1811大數(shù)據(jù)的市場潛力利用GPS數(shù)據(jù)了解交通狀況2012年3月29日奧巴馬政府公布了”大數(shù)據(jù)研發(fā)計(jì)劃”。該計(jì)劃的目標(biāo)是改進(jìn)現(xiàn)有人們從海量和復(fù)雜的數(shù)據(jù)中獲取知識的能力,從而加速美國在科學(xué)與工程領(lǐng)域發(fā)明的步伐,增強(qiáng)國家安全,轉(zhuǎn)變現(xiàn)有的教學(xué)和學(xué)習(xí)方式。“大數(shù)據(jù)戰(zhàn)略”上升為美國最高國策對數(shù)據(jù)占有和控制,做為在陸權(quán)、海權(quán)、空權(quán)之外的另一種國家核心能力。大數(shù)據(jù)的浪潮大數(shù)據(jù)與喬布斯的癌癥治療沃爾瑪?shù)钠【婆c紙尿布沃爾瑪?shù)皳榕c颶風(fēng)用品的關(guān)系谷歌流感預(yù)測中國大數(shù)據(jù)市場分析1312011年-2016年中國大數(shù)據(jù)市場規(guī)模22012年各行業(yè)大數(shù)據(jù)市場規(guī)模計(jì)世資訊預(yù)測,2012年政府、互聯(lián)網(wǎng)、電信、金融的大數(shù)據(jù)市場規(guī)模較大,四個行業(yè)將占據(jù)一半市場份額。由于各個行業(yè)都存在大數(shù)據(jù)應(yīng)用需求,潛在市場空間非常可觀。計(jì)世資訊認(rèn)為,2011年是中國大數(shù)據(jù)市場元年,一些大數(shù)據(jù)產(chǎn)品已經(jīng)推出,部分行業(yè)也有大數(shù)據(jù)應(yīng)用案例的產(chǎn)生。2012年-2016年,將迎來大數(shù)據(jù)市場的飛速發(fā)展。計(jì)世資訊預(yù)測,2012年中國大數(shù)據(jù)市場規(guī)模將達(dá)到4.7億元,2013年大數(shù)據(jù)市場將迎來增速為138.3%的飛躍,到2016年,整個市場規(guī)模逼近百億。大數(shù)據(jù)的商業(yè)價值行業(yè)數(shù)據(jù)處理方式價值銀行/金融貸款、保險(xiǎn)、發(fā)卡等多業(yè)務(wù)數(shù)據(jù)集成分析,市場評估新產(chǎn)品風(fēng)險(xiǎn)評估股票等投資組合趨勢分析增加市場份額提升客戶忠誠度提高整體收入降低金融風(fēng)險(xiǎn)醫(yī)療共享電子病歷及醫(yī)療記錄,幫助快速診斷穿戴式設(shè)備遠(yuǎn)程醫(yī)療改善診療質(zhì)量加快診療速度互聯(lián)網(wǎng)在線廣告投放商品評分、排名社交網(wǎng)絡(luò)自動匹配搜索結(jié)果優(yōu)化提升網(wǎng)絡(luò)用戶忠誠度改善社交網(wǎng)絡(luò)體驗(yàn)向目標(biāo)用戶提供有針對性的商品與服務(wù)政府/公共事業(yè)智能城市信息網(wǎng)絡(luò)集成天氣、地理、水電煤氣等公共數(shù)據(jù)收集、研究公共安全信息集中處理、智能分析更好地對外提供公共服務(wù)輿情分析準(zhǔn)確預(yù)判安全威脅媒體/娛樂收視率統(tǒng)計(jì)熱點(diǎn)信息統(tǒng)計(jì)、分析創(chuàng)造更多聯(lián)合、交叉銷售商機(jī)準(zhǔn)確評估廣告效用零售基于用戶位置信息的準(zhǔn)確促銷社交網(wǎng)絡(luò)購買行為分析促進(jìn)客戶購買熱情順應(yīng)客戶購買行為習(xí)慣一、大數(shù)據(jù)的相關(guān)概念二、大數(shù)據(jù)分析三、大數(shù)據(jù)應(yīng)用的典型案例三、大數(shù)據(jù)的可靠性四、大數(shù)據(jù)與貝葉斯方法報(bào)告內(nèi)容2023/10/1815分析技術(shù):數(shù)據(jù)處理:自然語言處理技術(shù)統(tǒng)計(jì)和分析:A/Btest;topN排行榜;地域占比;文本情感分析數(shù)據(jù)挖掘:關(guān)聯(lián)規(guī)則分析;分類;聚類模型預(yù)測:預(yù)測模型;機(jī)器學(xué)習(xí);建模仿真大數(shù)據(jù)技術(shù):數(shù)據(jù)采集:ETL工具數(shù)據(jù)存?。宏P(guān)系數(shù)據(jù)庫;NoSQL;SQL等基礎(chǔ)架構(gòu)支持:云存儲;分布式文件系統(tǒng)等計(jì)算結(jié)果展現(xiàn):云計(jì)算;標(biāo)簽云;關(guān)系圖等相關(guān)技術(shù)存儲結(jié)構(gòu)化數(shù)據(jù)海量數(shù)據(jù)的查詢、統(tǒng)計(jì)、更新等操作效率低非結(jié)構(gòu)化數(shù)據(jù)圖片、視頻、word、pdf、ppt等文件存儲不利于檢索、查詢和存儲半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化存儲按照非結(jié)構(gòu)化存儲解決方案:Hadoop(MapReduce技術(shù))流計(jì)算(twitter的storm和yahoo!的S4)2023/10/1816二、大數(shù)據(jù)分析二、大數(shù)據(jù)分析
AnalyticVisualizations(可視化分析)
DataMiningAlgorithms(數(shù)據(jù)挖掘算法)
PredictiveAnalyticCapabilities(預(yù)測性分析能力)
SemanticEngines(語義引擎)
DataQualityandMasterDataManagement(數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理)
二、大數(shù)據(jù)分析-可視化分析
AnalyticVisualizations(可視化分析)
不管是對數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求??梢暬梢灾庇^的展示數(shù)據(jù),讓數(shù)據(jù)自己說話,讓觀眾聽到結(jié)果。二、大數(shù)據(jù)分析-數(shù)據(jù)挖掘算法
DataMiningAlgorithms(數(shù)據(jù)挖掘算法)
可視化是給人看的,數(shù)據(jù)挖掘就是給機(jī)器看的。集群、分割、孤立點(diǎn)分析還有其他的算法讓我們深入數(shù)據(jù)內(nèi)部,挖掘價值。這些算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。
二、大數(shù)據(jù)分析-預(yù)測性分析能力
PredictiveAnalyticCapabilities(預(yù)測性分析能力)
數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù),而預(yù)測性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預(yù)測性的判斷。二、大數(shù)據(jù)分析-語義引擎
SemanticEngines(語義引擎)
我們知道由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性帶來了數(shù)據(jù)分析的新的挑戰(zhàn),我們需要一系列的工具去解析,提取,分析數(shù)據(jù)。語義引擎需要被設(shè)計(jì)成能夠從“文檔”中智能提取信息。二、大數(shù)據(jù)分析-數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理
DataQualityandMasterDataManagement(數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理)數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實(shí)踐。通過標(biāo)準(zhǔn)化的流程和工具對數(shù)據(jù)進(jìn)行處理可以保證一個預(yù)先定義好的高質(zhì)量的分析結(jié)果。一、大數(shù)據(jù)的相關(guān)概念二、大數(shù)據(jù)分析三、大數(shù)據(jù)應(yīng)用的典型案例三、大數(shù)據(jù)的可靠性四、大數(shù)據(jù)與貝葉斯方法報(bào)告內(nèi)容2023/10/1823三、大數(shù)據(jù)應(yīng)用的典型案例-流感預(yù)測2023/10/1824全球每年約10%~15%的人群會患上流感,受感染人群約5000萬人,死亡人數(shù)約50萬。這可不是個小數(shù)字。如果我們能夠盡早提前預(yù)測到流感即將爆發(fā),無疑將使全球公眾都將受益:政府和醫(yī)療機(jī)構(gòu)提前拿出應(yīng)對措施,就能挽救大量生命。2008年,谷歌推出了其著名的流感趨勢網(wǎng)站(/flutrends)。該網(wǎng)站假定的前提是:如果用戶患上了流感,則他們會搜索更多同流感相關(guān)的信息。如此一來,如果對任何一個國家或地區(qū)有關(guān)流感的搜索量進(jìn)行統(tǒng)計(jì),就能較好推斷出某個國家或地區(qū)是否正爆發(fā)流感。2009年,谷歌在甲型H1N1流感爆發(fā)之前,用“谷歌流感趨勢”(GFT)模型成功預(yù)測了流感在美國境內(nèi)的傳播。谷歌的相應(yīng)數(shù)據(jù),同美國疾病控制與預(yù)防中心(CDC)等政府機(jī)構(gòu)所統(tǒng)計(jì)的數(shù)據(jù)非常接近(97%)。在某些情況下,谷歌甚至能夠比CDC提前一周預(yù)測出哪些地區(qū)將爆發(fā)流感。2023/10/1825全球每星期會有數(shù)以百萬計(jì)的用戶在網(wǎng)上搜索健康信息。正如您所預(yù)料的那樣,在流感季節(jié),與流感有關(guān)的搜索會明顯增多;到了過敏季節(jié),與過敏有關(guān)的搜索會顯著上升;而到了夏季,與曬傷有關(guān)的搜索又會大幅增加。某些搜索字詞非常有助于了解流感疫情。Google流感趨勢會根據(jù)匯總的Google搜索數(shù)據(jù),近乎實(shí)時地對全球當(dāng)前的流感疫情進(jìn)行估測。搜索流感相關(guān)主題的人數(shù)與實(shí)際患有流感癥狀的人數(shù)之間存在著密切的關(guān)系。當(dāng)然,并非每個搜索“流感”的人都真的患有流感,但將與流感有關(guān)的搜索查詢匯總到一起時,便可以找到一種模式。將統(tǒng)計(jì)的查詢數(shù)量與傳統(tǒng)流感監(jiān)測系統(tǒng)的數(shù)據(jù)進(jìn)行了對比,結(jié)果發(fā)現(xiàn)許多搜索查詢在流感季節(jié)確實(shí)會明顯增多。通過對這些搜索查詢的出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),便可以估測出世界上不同國家和地區(qū)的流感傳播情況。Detectinginfluenzaepidemicsusingsearchenginequerydata,Nature
457,1012-1014(19February2009)三、大數(shù)據(jù)應(yīng)用的典型案例-流感預(yù)測2023/10/1826卡耐基梅隆大學(xué)的JiweiLi和康乃爾大學(xué)的ClaireCardie,成功利用Twitter預(yù)測了早期流感爆發(fā)。他們的方式與Google類似。首先,從Twitter數(shù)據(jù)流中過濾包含與“流感”相關(guān),并帶有位置標(biāo)簽的tweet;然后,在地圖上標(biāo)注這些tweet的位置分布,以及隨時間產(chǎn)生的變化。同時,還制作了流感的動態(tài)變化模型。新模型中,流感包括4個階段:無傳染階段、爆發(fā)階段、穩(wěn)定階段以及衰退階段。此外,采用了全新的算法,試圖盡可能快得發(fā)現(xiàn)不同時期的轉(zhuǎn)換節(jié)點(diǎn)。實(shí)際上,Li和Cardie在2008年6月至2010年6月間,已經(jīng)利用100萬美國人的360萬條tweet,驗(yàn)證了該方法的有效性。為了檢驗(yàn)他們的預(yù)測是否成真,Li和Cardie將他們的分析與CDC進(jìn)行對比。他們說,“我們確信,流感相關(guān)tweet與CDC提供的流感疾病案例數(shù)目,呈顯著相關(guān)。”三、大數(shù)據(jù)應(yīng)用的典型案例-流感預(yù)測2023/10/1827日本國內(nèi)有一個網(wǎng)站,你只要打開這個網(wǎng)站用自己的Twitter賬號登錄,就可以在短時間內(nèi)通過數(shù)萬條Twitter找出可能感冒的人,并通過過去的感冒情況和今日的感冒情況進(jìn)行分析(以及統(tǒng)計(jì)目前發(fā)燒以及嗓子痛的患者數(shù)量),另外該程序還會結(jié)合氣溫和濕度的變化來預(yù)測將來感冒的流行情況,并制作一個“易感冒日歷”。目前,此類服務(wù)正在日本陸續(xù)展開。通過這個服務(wù)器的分析,大家就能夠知道在自己身邊到底有多少人有感冒的癥狀,并提前做好預(yù)防準(zhǔn)備。日本國立感染癥研究所將會把全國約
5000個醫(yī)療診所的流感患者進(jìn)行統(tǒng)計(jì)并發(fā)布數(shù)據(jù)。經(jīng)過對比,研究所得出的實(shí)際統(tǒng)計(jì)數(shù)字和網(wǎng)站上預(yù)測的結(jié)果基本是一致的,那么為什么大數(shù)據(jù)的結(jié)果會很準(zhǔn)呢?首先是因?yàn)橥ㄟ^網(wǎng)絡(luò)信息分析的技術(shù)有所進(jìn)步,已經(jīng)可以通過各種各樣的留言自動搜索到相關(guān)的數(shù)據(jù),并自動分類。就像Google現(xiàn)在所使用的技術(shù),就是利用服務(wù)器分析與流感關(guān)系十分密切的十幾個單詞進(jìn)行統(tǒng)計(jì)。另一個就是大數(shù)據(jù)所特有的功能。在流感最嚴(yán)重的時候,每天會有成千上萬條Tweets發(fā)布,即便有一些誤差,但通過數(shù)據(jù)分析也能分析出數(shù)據(jù)的精準(zhǔn)度。以往,公共機(jī)構(gòu)在發(fā)布流感情報(bào)的時候至少要延遲一周,在有些偏遠(yuǎn)地區(qū)的立桿信息也并不確切,而現(xiàn)在,通過網(wǎng)絡(luò)能夠有效彌補(bǔ)這些缺憾。三、大數(shù)據(jù)應(yīng)用的典型案例-流感預(yù)測2023/10/1828亞馬遜“預(yù)測式發(fā)貨”的新專利,可以通過對用戶數(shù)據(jù)的分析,在他們還沒有下單前,提前發(fā)出包裹。這項(xiàng)技術(shù)可以縮短發(fā)貨時間,從而降低消費(fèi)者前往實(shí)體店的沖動。(因?yàn)樵谙聠蔚绞斋@之間的時間延遲可能會降低人們的購物意愿,導(dǎo)致他們放棄網(wǎng)上購物)亞馬遜根據(jù)之前的訂單和其他因素,預(yù)測用戶的購物習(xí)慣,從而在他們實(shí)際下單前就將包裹發(fā)出。根據(jù)該專利文件,雖然包裹會提前從亞馬遜發(fā)出,但在用戶正式下單前,這些包裹會暫存在快遞公司的轉(zhuǎn)運(yùn)中心或者卡車?yán)?。亞馬遜為了決定要運(yùn)送那些貨物,可能會參考以前的訂單、商品搜索記錄、愿望清單、購物車、甚至包括用戶的鼠標(biāo)在某件商品上停留的時間。三、大數(shù)據(jù)應(yīng)用的典型案例-亞馬遜“預(yù)測式發(fā)貨”2023/10/18292012年11月奧巴馬大選連任成功的勝利果實(shí)也被歸功于大數(shù)據(jù),因?yàn)樗母傔x團(tuán)隊(duì)對選民的行為、支持偏向進(jìn)行了數(shù)據(jù)搜集,并進(jìn)行了大規(guī)模與深入的數(shù)據(jù)挖掘。在這次大選中,奧巴馬競選陣營的高級助理們決定將參考得到的數(shù)據(jù)分析結(jié)果來制定下一步的競選方案,從而獲得選民的支持。三、大數(shù)據(jù)應(yīng)用的典型案例-奧巴馬選舉三、大數(shù)據(jù)應(yīng)用的典型案例-“老鼠倉”2023/10/1830早在2009年,上交所曾經(jīng)利用“大數(shù)據(jù)”設(shè)置“捕鼠器”的設(shè)想,設(shè)定一定的指標(biāo)預(yù)警,當(dāng)相關(guān)指標(biāo)達(dá)到某個預(yù)警點(diǎn)時,監(jiān)控系統(tǒng)會自動報(bào)警。深交所“大數(shù)據(jù)”監(jiān)控系統(tǒng),設(shè)置200多個指標(biāo)用于監(jiān)控估計(jì),一旦出現(xiàn)股價偏離大盤的走勢,將利用大數(shù)據(jù)查探異動背后的機(jī)構(gòu)或投資人。馬樂案,監(jiān)管系統(tǒng)發(fā)現(xiàn)有三個賬戶的交易特點(diǎn)和當(dāng)時的博時精選基金高度重合,從交易記錄上可以看到,持股時間最長不過一兩個月,大多是三四天、四五天。三、大數(shù)據(jù)應(yīng)用的典型案例-阿里“水文模型”2023/10/1831阿里“水文模型”是按照小微企業(yè)類型、級別等分別統(tǒng)計(jì)一個阿里系客戶的相關(guān)“水文數(shù)據(jù)”庫。如過往每到一個時點(diǎn),該店鋪銷售會進(jìn)入旺季,銷售額就會增長,同時沒到這個時段,該客戶對外投放的額度就會上升,結(jié)合這些水文數(shù)據(jù),系統(tǒng)可以判斷出該店鋪的融資需求;結(jié)合該店鋪以往資金支出數(shù)據(jù)及同類店鋪資金支用數(shù)據(jù),可以判斷出該店鋪的資金需求額度。三、大數(shù)據(jù)應(yīng)用的典型案例-
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 觀光型酒店項(xiàng)目效益評估報(bào)告
- 2025年醫(yī)療科室人力資源配置計(jì)劃
- 安全培訓(xùn)講師聘用合同及安全知識培訓(xùn)與考核協(xié)議
- 電子商務(wù)行業(yè)實(shí)習(xí)生電商運(yùn)營能力培養(yǎng)及實(shí)習(xí)成果轉(zhuǎn)化協(xié)議
- 幼兒園秋季英語啟蒙課程計(jì)劃
- 醫(yī)療保險(xiǎn)DRGDIP支付改革項(xiàng)目實(shí)施與效果評估合同
- 定制化私人直升機(jī)停機(jī)坪租賃及安全保障協(xié)議
- 醫(yī)院營養(yǎng)科改善住院患者營養(yǎng)的措施
- 職業(yè)培訓(xùn)機(jī)構(gòu)德育工作小組職責(zé)分析
- 服裝品牌售后服務(wù)保險(xiǎn)補(bǔ)充協(xié)議
- 長輸管道工序監(jiān)理作業(yè)指導(dǎo)書
- 審計(jì)業(yè)務(wù)約定書
- 石灰破拱計(jì)量投加系統(tǒng)技術(shù)規(guī)范書
- JJG 40-2011X射線探傷機(jī)
- GB/T 33217-2016沖壓件毛刺高度
- GB/T 31765-2015高密度纖維板
- GB/T 21618-2008危險(xiǎn)品易燃固體燃燒速率試驗(yàn)方法
- GB/T 19165-2003日光溫室和塑料大棚結(jié)構(gòu)與性能要求
- 品質(zhì)管理概念培訓(xùn)
- 《思想道德與法治》 課件 第四章 明確價值要求 踐行價值準(zhǔn)則
- 《擬行路難》課件26張
評論
0/150
提交評論