版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)開啟了一次重大的時代轉(zhuǎn)型。就想望遠(yuǎn)鏡讓我們能夠感受宇宙,顯微鏡讓我們能夠觀測微生物一樣,大數(shù)據(jù)正在改變我們的生活以及理解世界的方式,成為新發(fā)明和新服務(wù)的源泉,而更多的改變正蓄勢待發(fā)……一場生活、工作與思維的大變革第一頁,共32頁。一場生活、工作與思維的大變革大數(shù)據(jù),變革公共衛(wèi)生大數(shù)據(jù),變革商業(yè)大數(shù)據(jù),變革思維大數(shù)據(jù),開啟重大的時代轉(zhuǎn)型預(yù)測,大數(shù)據(jù)的核心大數(shù)據(jù),大挑戰(zhàn)第二頁,共32頁。什么是大數(shù)據(jù)2009年,甲型H1N1流感在全球爆發(fā)傳播,為了發(fā)現(xiàn)和控制疫情,各國政府和衛(wèi)生相關(guān)部門付出了巨大努力,但得到的數(shù)據(jù)仍然滯后一兩周,而Google對人們的搜索的歷史記錄進(jìn)行處理,建立合理的數(shù)學(xué)模型后,得到的預(yù)測結(jié)果與官方的數(shù)據(jù)相關(guān)性高達(dá)97%,能夠立刻判斷出流感是從哪里傳播出來的,沒有一兩周的滯后。Google處理了5000萬條歷史記錄、4.5億個不同的數(shù)學(xué)模型。第三頁,共32頁。什么是大數(shù)據(jù)Farecast是一個對機(jī)票價格進(jìn)行預(yù)測的公司,幫助消費(fèi)者抓住最佳購買機(jī)票的時機(jī),使乘客節(jié)省很多錢。最初預(yù)測系統(tǒng)建立在41天之內(nèi)的12000個價格樣本基礎(chǔ)上,數(shù)據(jù)是從旅游網(wǎng)站上抓取的,如今已經(jīng)擁有超過2000億條飛行記錄。系統(tǒng)只推測機(jī)票的價格何時最便宜,不關(guān)心是什么原因?qū)е碌膬r格下降。Farecast→Bing第四頁,共32頁。大數(shù)據(jù)的特性大數(shù)據(jù)的特性
更關(guān)注相關(guān)性
主要用于預(yù)測
數(shù)據(jù)量巨大
實(shí)時性要求高第五頁,共32頁。大數(shù)據(jù)時代的思維變革大數(shù)據(jù)時代的商業(yè)變革大數(shù)據(jù)時代的管理變革第六頁,共32頁。一、大數(shù)據(jù)時代的思維變革第七頁,共32頁。一、大數(shù)據(jù)時代的思維變革—更多“更多”——不是隨機(jī)樣本,而是全體數(shù)據(jù)當(dāng)數(shù)據(jù)處理技術(shù)已經(jīng)發(fā)生翻天覆地的變化時,在大數(shù)據(jù)時代進(jìn)行抽樣分析就像在汽車時代騎馬一樣。一切都改變了,我們需要的是所有的數(shù)據(jù),“樣本=總體”。讓數(shù)據(jù)“發(fā)聲”小數(shù)據(jù)時代的隨機(jī)采樣,最少的數(shù)據(jù)獲得最多的信息全數(shù)據(jù)模式,樣本=總體第八頁,共32頁。一、大數(shù)據(jù)時代的思維變革—更雜“更雜”——不是精確性,而是混雜性執(zhí)迷于精確性是信息缺乏時代和模擬時代的產(chǎn)物。只有5%的數(shù)據(jù)是有框架且能適用于傳統(tǒng)數(shù)據(jù)庫的。如果不能接受混亂,剩下95%的非框架數(shù)據(jù)都無法被利用,只有接受不精確性,我們才能打開一扇從未涉足的世界的窗戶。允許不精確大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復(fù)雜算法更有效紛繁的數(shù)據(jù)越多越好混雜性,不是竭力避免,而是標(biāo)準(zhǔn)途徑新的數(shù)據(jù)庫設(shè)計的誕生第九頁,共32頁。一、大數(shù)據(jù)時代的思維變革—更好“更好”——不是因果關(guān)系,而是相關(guān)關(guān)系知道“是什么”就夠了,沒必要知道“為什么”。在大數(shù)據(jù)時代,我們不必非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己“發(fā)聲”。關(guān)聯(lián)物,預(yù)測的關(guān)鍵“是什么”,而不是“為什么”改變,從操作方式開始大數(shù)據(jù),改變?nèi)祟愄剿魇澜绲姆椒ǖ谑?,?2頁。二、大數(shù)據(jù)時代的商業(yè)變革第十一頁,共32頁。二、大數(shù)據(jù)時代的商業(yè)變革—數(shù)據(jù)化“數(shù)據(jù)化”——一切皆可“量化”大數(shù)據(jù)發(fā)展的核心動力來源于人類測量、記錄和分析世界的渴望。信息技術(shù)變革隨處可見,但是如今信息技術(shù)變革的重點(diǎn)在“T”(技術(shù))上,而不是在“I”(信息)上?,F(xiàn)在,我們是時候把聚光燈打向“I”,開始關(guān)注信息本身了。數(shù)據(jù),從最不可能的地方提取出來數(shù)據(jù)化,不是數(shù)字化量化一切,數(shù)據(jù)化的核心當(dāng)文字變成數(shù)據(jù)當(dāng)方位變成數(shù)據(jù)當(dāng)溝通成為數(shù)據(jù)一切事物的數(shù)據(jù)化第十二頁,共32頁。二、大數(shù)據(jù)時代的商業(yè)變革—價值“價值”——“取之不盡,用之不竭”的數(shù)據(jù)創(chuàng)新數(shù)據(jù)就像一個神奇的鉆石礦,當(dāng)它的首要價值被發(fā)掘后仍能不斷給予。它的真實(shí)價值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而絕大部分都隱藏在表面之下。數(shù)據(jù)創(chuàng)新1:數(shù)據(jù)的再利用數(shù)據(jù)創(chuàng)新2:重組數(shù)據(jù)數(shù)據(jù)創(chuàng)新3:可擴(kuò)展數(shù)據(jù)數(shù)據(jù)創(chuàng)新4:數(shù)據(jù)的折舊值數(shù)據(jù)創(chuàng)新5:數(shù)據(jù)廢氣數(shù)據(jù)創(chuàng)新6:開放數(shù)據(jù)給數(shù)據(jù)估值第十三頁,共32頁。二、大數(shù)據(jù)時代的商業(yè)變革—角色定位“角色定位”——數(shù)據(jù)、技術(shù)與思維的三足鼎立微軟以1.1億美元的價格購買了大數(shù)據(jù)公司Farecast,而兩年后谷歌則以7億美元的價格購買了給Farecast提供數(shù)據(jù)的ITASoftware公司。如今,我們正處在大數(shù)據(jù)時代的早期,思維和技術(shù)是最有價值的,但是最終大部分價值還是必須從數(shù)據(jù)本身來挖掘。大數(shù)據(jù)價值的3大構(gòu)成大數(shù)據(jù)掌控公司大數(shù)據(jù)技術(shù)公司大數(shù)據(jù)思維公司和個人全新的數(shù)據(jù)中間商專家的消亡與數(shù)據(jù)科學(xué)家的崛起大數(shù)據(jù),決定企業(yè)的競爭力第十四頁,共32頁。三、大數(shù)據(jù)時代的管理變革第十五頁,共32頁。二、大數(shù)據(jù)時代的管理變革—風(fēng)險“風(fēng)險”——讓數(shù)據(jù)主宰一切的隱憂我們時刻都暴露在“第三只眼”之下:亞馬遜監(jiān)視著我們的購物習(xí)慣,谷歌監(jiān)視著我們的網(wǎng)頁瀏覽習(xí)慣,而微博似乎什么都知道,不僅竊聽到了我們心中的“TA”,還有我們的社交關(guān)系網(wǎng)。無處不在的“第三只眼”我們的隱私被二次利用了預(yù)測與懲罰,不是因?yàn)椤八觥?,而是因?yàn)椤皩⒆觥睌?shù)據(jù)獨(dú)裁掙脫大數(shù)據(jù)的困境第十六頁,共32頁。二、大數(shù)據(jù)時代的管理變革—掌控“掌控”——責(zé)任與自由并舉的信息管理當(dāng)世界開始邁向大數(shù)據(jù)時代時,社會也將經(jīng)歷類似的地殼運(yùn)動。在改變?nèi)祟惢镜纳钆c思考方式的同時,大數(shù)據(jù)早已在推動人類信息管理準(zhǔn)則上重新定位。然而,不同于印刷革命,我們沒有幾個世紀(jì)的時間去適應(yīng),我們也許只有幾年時間。管理變革1:個人隱私保護(hù),從個人許可到讓數(shù)據(jù)使用者承擔(dān)責(zé)任管理變革2:個人動因VS預(yù)測分析管理變革3:擊碎黑盒子,大數(shù)據(jù)程序員的崛起管理變革4:反數(shù)據(jù)壟斷大亨第十七頁,共32頁。結(jié)語正在發(fā)生的未來大數(shù)據(jù)并不是一個充斥著算法和機(jī)器的冰冷世界,人類的作用依然無法被完全替代。大數(shù)據(jù)為我們提供的不是最終答案,只是參考答案,幫助是暫時的,而更好的方法和答案還在不久的未來。第十八頁,共32頁。大數(shù)據(jù)時代下的數(shù)據(jù)挖掘
第十九頁,共32頁。Contents數(shù)據(jù)挖掘簡介1數(shù)據(jù)挖掘分類2成功案例3總結(jié)與展望4第二十頁,共32頁。數(shù)據(jù)挖掘簡介產(chǎn)生背景隨著數(shù)據(jù)庫技術(shù)的飛速發(fā)展,快速增長的海量數(shù)據(jù)收集、存放在大量數(shù)據(jù)儲存庫中理解他們已經(jīng)遠(yuǎn)遠(yuǎn)超出人的能力數(shù)據(jù)墳?zāi)埂y得再訪問的數(shù)據(jù)檔案數(shù)據(jù)豐富,但信息缺乏
第二十一頁,共32頁。如何利用大量數(shù)據(jù)第二十二頁,共32頁。數(shù)據(jù)挖掘定義從大量的、不完全的、有噪聲的、隨機(jī)的數(shù)據(jù)中提取含在其中的、人們事先不知道的、有用的信息和知識的過程。功能的廣義觀點(diǎn):從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中發(fā)現(xiàn)知識的過程數(shù)據(jù)挖掘是一個新興、交叉學(xué)科領(lǐng)域第二十三頁,共32頁。演變歷程數(shù)據(jù)倉庫提取信息和知識數(shù)據(jù)挖掘數(shù)據(jù)庫原始文件原始文件處理紙張界面、查詢硬盤聯(lián)機(jī)分析處理各個數(shù)據(jù)庫各種媒體20世紀(jì)60年代前20世紀(jì)60年代20世紀(jì)80年代現(xiàn)在第二十四頁,共32頁。
數(shù)據(jù)挖掘受多學(xué)科的影響數(shù)據(jù)挖掘BECDA統(tǒng)計學(xué)數(shù)據(jù)庫技術(shù)信息科學(xué)其他學(xué)科機(jī)器學(xué)習(xí)第二十五頁,共32頁。數(shù)據(jù)挖掘步驟結(jié)果解釋和評估數(shù)據(jù)挖掘算法執(zhí)行數(shù)據(jù)收集和與處理問題定義第二十六頁,共32頁。數(shù)據(jù)挖掘分類離群點(diǎn)分析分類分析聚類分析關(guān)聯(lián)分析時間序列數(shù)據(jù)挖掘第二十七頁,共32頁。分類分析:找出描述和區(qū)分?jǐn)?shù)據(jù)類或概念的模型,以便能夠使模型預(yù)測未知的對象類常用方法:分類規(guī)則;決策樹;神經(jīng)網(wǎng)絡(luò);聚類分析:根據(jù)最大化類內(nèi)部的相似性、最小化類之間的相似性的原則進(jìn)行聚類或分組常用算法:K-MEAMS;分層凝聚發(fā);估算最大值法關(guān)聯(lián)分析:發(fā)現(xiàn)數(shù)據(jù)庫中不同項之間的聯(lián)系常用方法:Apriori;MAQA;IUA;第二十八頁,共32頁。時間序列分析:描述行為隨時間變化的對象的規(guī)律或趨勢,并對其建模
匹配方法:ARMA模型離群點(diǎn)分析:檢測和分析離群點(diǎn)
離群點(diǎn):與數(shù)據(jù)的一般行為或模型不一致的點(diǎn)第二十九頁,共32頁。成功案例啤酒加尿布地點(diǎn):沃爾瑪在美國加州的某連鎖店起因:每天銷售信息和顧客基本情況的數(shù)據(jù)庫中發(fā)現(xiàn)購買嬰兒尿布的顧客多是男性,而且往往也同時購買啤酒經(jīng)過:重新布置貨架,把啤酒類商品布置在嬰兒尿布貨架附近,并在兩者之間放上土豆之類的佐酒小食品和男性生活用品結(jié)果:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 青海警官職業(yè)學(xué)院《民用建筑施工概論》2023-2024學(xué)年第一學(xué)期期末試卷
- 青海交通職業(yè)技術(shù)學(xué)院《工程管理導(dǎo)論》2023-2024學(xué)年第一學(xué)期期末試卷
- 車廂橢圓艙蓋行業(yè)深度研究報告
- 2024至2030年中國柔性光帶扁兩線LED軟光條行業(yè)投資前景及策略咨詢研究報告
- 2024至2030年中國拋光皂行業(yè)投資前景及策略咨詢研究報告
- 2024至2030年蓄電池全自動熱封機(jī)項目投資價值分析報告
- 2024至2030年中國吸氣式絲印臺行業(yè)投資前景及策略咨詢研究報告
- 2024至2030年中國刀模材料行業(yè)投資前景及策略咨詢研究報告
- 2024至2030年雙層磁化杯項目投資價值分析報告
- 2024至2030年儀器小車項目投資價值分析報告
- 高滲性昏迷護(hù)理查房
- 江西省-三新-協(xié)同教研共同體2023-2024學(xué)年高二上學(xué)期12月聯(lián)考英語試卷
- 《SolidWorks建模實(shí)例教程》第4章 綜合應(yīng)用實(shí)例
- 2024上海高校大學(xué)《輔導(dǎo)員》招聘考試題庫及答案
- 大班-科學(xué)語言-塑料瓶到哪里去了?-課件
- 三層電梯PLC控制系統(tǒng)設(shè)計(S7-200)含程序
- 幼兒園玩具教具投標(biāo)方案(技術(shù)標(biāo))
- 文印服務(wù)投標(biāo)方案(技術(shù)方案)
- 消防控制室值班服務(wù)投標(biāo)方案
- 語文部編版九年級語文上冊練習(xí)題-口語交際與綜合性學(xué)習(xí)含答案50
- 直播合法授權(quán)書范本
評論
0/150
提交評論