走進大數(shù)據(jù)時代_第1頁
走進大數(shù)據(jù)時代_第2頁
走進大數(shù)據(jù)時代_第3頁
走進大數(shù)據(jù)時代_第4頁
走進大數(shù)據(jù)時代_第5頁
已閱讀5頁,還剩57頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第一章 走進大數(shù)據(jù)時代 主要內容 引例 何謂大數(shù)據(jù) 大數(shù)據(jù)的4V特征 大數(shù)據(jù)帶來的思維變革 相關案例 引例1-電影點球成金 布拉德.皮特主演的點球成金是一部 美國奧斯卡獲獎影片,所講述的是棒球隊 總經(jīng)理利用計算機數(shù)據(jù)分析,對球隊進行 了翻天覆地的改造,讓一家不起眼的小球 隊能夠取得巨大的成功。 基于歷史數(shù)據(jù),利用數(shù)據(jù)建模定量分析不同 球員的特點,合理搭配,重新組隊。 打破傳統(tǒng)思維,通過分析比賽數(shù)據(jù),尋找 “性價比”最高球員,運用數(shù)據(jù)取得成功。 引例2喬布斯抗癌 喬布斯早在20多歲時就已患癌癥并開始擴散,其元兇很可 能是電子行業(yè)的有毒化學物質。而在他生命的末期,就曾 經(jīng)利用大數(shù)據(jù)嘗試為自己延長壽

2、命。 喬布斯在與癌癥斗爭的過程中采用了不同的方式,成為世 界上第一個對自身所有DNA和腫瘤DNA進行排序的人。喬布 斯為此支付了幾十萬美元的費用。醫(yī)生們可以根據(jù)喬布斯 特定的DNA為他設計藥物,并觀察藥效,如果由于癌癥的 病變導致藥物失效,醫(yī)生可以及時的更換藥物,以免延誤 最佳治療期。 實際上大數(shù)據(jù)在DNA領域的應用早已展開. 谷歌搜索和Google Maps背后的Google Cloud平臺正和遺 傳數(shù)據(jù)機構合作推廣成立Google Genomics項目,打造遺 傳分析云服務。 云服務的分析工具可以在基因組數(shù)據(jù)中預測疾病風險的 DNA變異。未來,醫(yī)生可以定期進入云服務,了解病人基 因信息引起

3、各類疾病的風險,或者選擇適合病人的治療方 案。 引例3谷歌預測流感 2009年,Google通過分析 5000萬條美國人最頻繁檢索 的詞匯,將之和美國疾病中 心在2003年到2008年間季節(jié) 性流感傳播時期的數(shù)據(jù)進行 比較,并建立一個特定的數(shù) 學模型。最終google成功預 測了2009冬季流感的傳播甚 至可以具體到特定的地區(qū)和 州。 引例4-Target懷孕預測指數(shù) 美國一名男子闖入他家附近的一家美國零售連鎖超市 Target店鋪(美國第三大零售商塔吉特)進行抗議: “你們竟然給我17歲的女兒發(fā)嬰兒尿片和童車的優(yōu)惠 券。”店鋪經(jīng)理立刻向來者承認錯誤,但是其實該經(jīng) 理并不知道這一行為是總公司運

4、行數(shù)據(jù)挖掘的結果。 一個月后,這位父親來道歉,因為這時他才知道他的 女兒的確懷孕了。Target比這位父親知道他女兒懷孕 的時間足足早了一個月。 Target能夠通過分析女性客戶購買記錄,“猜出”哪 些是孕婦。他們從Target的數(shù)據(jù)倉庫中挖掘出25項與 懷孕高度相關的商品,制作“懷孕預測”指數(shù)。比如 他們發(fā)現(xiàn)女性會在懷孕四個月左右,大量購買無香味 乳液。以此為依據(jù)推算出預產(chǎn)期后,就搶先一步將孕 婦裝、嬰兒床等折扣券寄給客戶來吸引客戶購買。 如果不是在擁有海量的用戶交易數(shù)據(jù)基礎上實施數(shù)據(jù) 挖掘,Target不可能做到如此精準的營銷。 何謂大數(shù)據(jù) 何謂大數(shù)據(jù) 何謂大數(shù)據(jù) 何謂大數(shù)據(jù) 大數(shù)據(jù)(bi

5、g data)是指無法在可承受的時間范圍 內用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù) 集合。從某種程度上說,大數(shù)據(jù)是數(shù)據(jù)分析的前 沿技術。 維基百科:Big dataBig data is a broad term for data sets so large or complex that traditional data processing applications are inadequate. Challenges include analysis, capture, data curation, search, sharing, storage, transfer, visuali

6、zation, querying and information privacy. 何謂大數(shù)據(jù) 何謂大數(shù)據(jù) 大數(shù)據(jù)的4V特征 大數(shù)據(jù)的4V特征 大量化(Volume):企業(yè)面臨著數(shù)據(jù)量的大規(guī)模增長。例如,IDC最近的報告預 測稱,到2020年,全球數(shù)據(jù)量將擴大50倍。目前,大數(shù)據(jù)的規(guī)模尚是一個不 斷變化的指標,單一數(shù)據(jù)集的規(guī)模范圍從幾十TB到數(shù)PB不等。簡而言之,存 儲1PB數(shù)據(jù)將需要兩萬臺配備50GB硬盤的個人電腦。此外,各種意想不到的來 源都能產(chǎn)生數(shù)據(jù)。 大數(shù)據(jù)的4V特征 價值密度低(Value) 價 值密度的高低與數(shù)據(jù)總量 的大小成反比。以視頻為 例,一部1小時的視頻, 在連續(xù)不間斷的監(jiān)

7、控中, 有用數(shù)據(jù)可能僅有一二秒。 如何通過強大的機器算法 更迅速地完成數(shù)據(jù)的價值 “提純”成為目前大數(shù)據(jù) 背景下亟待解決的難題。 大數(shù)據(jù)的4V特征 快速化(Velocity):高速描述的是數(shù)據(jù)被創(chuàng)建和移動的速度。在高速網(wǎng)絡時代, 通過基于實現(xiàn)軟件性能優(yōu)化的高速電腦處理器和服務器,創(chuàng)建實時數(shù)據(jù)流已成 為流行趨勢。企業(yè)不僅需要了解如何快速創(chuàng)建數(shù)據(jù),還必須知道如何快速處理、 分析并返回給用戶,以滿足他們的實時需求。根據(jù)IMS Research關于數(shù)據(jù)創(chuàng)建 速度的調查,據(jù)預測,到2020年全球將擁有220億部互聯(lián)網(wǎng)連接設備。 大數(shù)據(jù)的4V特征 數(shù)據(jù)類型繁多(Variety) 這種類型的多樣性也讓數(shù)據(jù)被

8、分為結構化數(shù)據(jù)和非結構化 數(shù)據(jù)。相對于以往便于存儲的以文本為主的結構化數(shù)據(jù),非結構化數(shù)據(jù)越來越多,包 括網(wǎng)絡日志、音頻、視頻、圖片、地理位置信息等,這些多類型的數(shù)據(jù)對數(shù)據(jù)的處理 能力提出了更高要求。 大數(shù)據(jù)帶來的思維變革 大數(shù)據(jù)帶來的思維變革 大數(shù)據(jù)時代,我們需要什么樣的“新理 念”? 在思考問題和解決問題的方法上有什么新 的特點? 大數(shù)據(jù)帶來的思維變革-數(shù)據(jù)思維 量化 決策 整合 量化思維:一切皆可量化 “萬物皆數(shù)”是畢達格拉斯 學派2000多前的一句名言。 數(shù)據(jù)是指存儲在某種介質上 能夠識別的物理符號,是對 客觀事物性質和狀態(tài)的描述。 “量化”就是用一種共性的 語言來描述,標識和解釋世 界

9、 將各種各樣的事,量化后轉 換成統(tǒng)計的事,然后應用統(tǒng) 計的方法給予解決。將具體 的事數(shù)量化,這樣的思維就 叫量化思維 下面的問題測測你的量化思維的能力。 一個老財主,臨死時對懷有身孕的老婆說: “將來如果生的是男孩,我的財產(chǎn)的三分之 二給他,三分之一給你;如果生的是女孩, 三分之二給你,三分之一給她。”后來老婆 生了一對龍鳳胎。你認為怎樣分割財產(chǎn)才能 不違背老財主的意愿? 量化思維:一切皆可量化 量化思維:一切皆可量化 量化思維:一切皆可量化 量化思維:一切皆可量化 量化思維:一切皆可量化 科學研究范式:庫 恩指出:“按既定 的用法,范式就是 一種公認的模型或 模式?!?所謂科學發(fā)現(xiàn) 的范式是

10、,第一, 實驗;第二,理 論;第三,模擬; 第四,數(shù)據(jù)挖掘。 圖靈獎得主,關系型數(shù)據(jù)庫的鼻祖吉 姆格雷(Jim Gray)也是一位航海運 動愛好者。2007年1月28日,他駕駛帆 船在茫茫大海中失聯(lián)了。而就是17天 前的1月11日,在加州山景城召開的 NRC-CSTB(National Research Council-Computer Science and Telecommunications Board)大會上, 他發(fā)表了留給世人的最后一次演講 “科學方法的革命”,提出將科學研 究分為四類范式(Paradigm,某種必 須遵循的規(guī)范或大家都在用的套路), 依次為實驗歸納,模型推演,仿真模

11、 擬和數(shù)據(jù)密集型科學發(fā)現(xiàn)(Data- Intensive Scientific Discovery)。 其中,最后的“數(shù)據(jù)密集型”,也就 是現(xiàn)在我們所稱的“科學大數(shù)據(jù)”。 量化思維:一切皆可量化 第四科學研究范式 幾千年前 科學以實驗為主 人類最早的科學研究,主 要以記錄和描述自然現(xiàn)象 為特征,稱為“實驗科學” (第一范式),從原始的 鉆木取火,發(fā)展到后來以 伽利略為代表的文藝復興 時期的科學發(fā)展初級階段, 開啟了現(xiàn)代科學之門。 過去數(shù)百年 受當時實驗條件的限制,難于完成 對自然現(xiàn)象更精細的理解??茖W家 們開始嘗試盡量簡化實驗模型,去 掉一些復雜的干擾,只留下關鍵因 素(這就出現(xiàn)了我們在學習物

12、理學 中“足夠光滑”、“足夠長的時 間”、“空氣足夠稀薄”等令人費 解的條件描述),然后通過演算進 行歸納總結,這就是第二范式。 第二研究范式以理論研究為主,這 種研究范式一直持續(xù)到19世紀末, 都堪稱完美,牛頓三大定律成功解 釋了經(jīng)典力學,麥克斯韋理論成功 解釋了電磁學,經(jīng)典物理學大廈美 輪美奐。 但之后量子力學和相對論的出現(xiàn), 則以理論研究為主,以超凡的頭腦 思考和復雜的計算超越了實驗設計, 而隨著驗證理論的難度和經(jīng)濟投入 越來越高,科學研究開始顯得力不 從心。 量化思維:一切皆可量化 第四科學研究范式 過去數(shù)十年 20世紀中葉,馮諾依曼提出 了現(xiàn)代電子計算機架構,利用 電子計算機對科學實

13、驗進行模 擬仿真的模式得到迅速普及, 人們可以對復雜現(xiàn)象通過模擬 仿真,推演出越來越多復雜的 現(xiàn)象,典型案例如模擬核試驗、 天氣預報等。隨著計算機仿真 越來越多地取代實驗,逐漸成 為科研的常規(guī)方法,即第三范 式。 今天 將理論、實驗和計算模擬統(tǒng)一起 來 由儀器收集或者計算模擬產(chǎn)生數(shù) 據(jù) 由計算機存儲和處理數(shù)據(jù) 科學家通過數(shù)據(jù)分析挖掘軟件分 析數(shù)據(jù),發(fā)現(xiàn)規(guī)律 而未來科學的發(fā)展趨勢是,隨著 數(shù)據(jù)的爆炸性增長,計算機將不 僅僅能做模擬仿真,還能進行分 析總結,得到理論。數(shù)據(jù)密集范 式理應從第三范式中分離出來, 成為一個獨特的科學研究范式。 也就是說,過去由牛頓、愛因斯 坦等科學家從事的工作,未來完

14、全可以由計算機來做。這種科學 研究的方式,被稱為第四范式。 思考:我們可以看到,第四范式與第三范式,都 是利用計算機來進行計算,二者有什么區(qū)別呢? 決策思維:讓數(shù)據(jù)說話 決策模式: 直覺驅動的決策:拍腦袋的決策,有隨意性 邏輯驅動的決策:基于邏輯分析的推理 經(jīng)驗驅動的決策:用數(shù)據(jù)說話、用數(shù)據(jù)來管理、 用數(shù)據(jù)來決策、用數(shù)據(jù)來創(chuàng)新 現(xiàn)代生活中的很多決策在本質上是不確定的, 例如,抽獎、保險和天氣預報等等,掌握概率 知識,學會以概率的觀點來思考生活中與概率 相關的問題,就不會再問一件事是否會發(fā)生, 而是問其發(fā)生的概率。 決策思維:讓數(shù)據(jù)說話 概率論和統(tǒng)計學將經(jīng)驗變成了“科 學” 數(shù)據(jù)分布(均勻分布、

15、高斯分布、泊松 分布) 數(shù)據(jù)抽樣 假設檢驗 大數(shù)定律 決策思維:讓數(shù)據(jù)說話 大數(shù)定律 在隨機事件的大量重復出現(xiàn)中,往往呈現(xiàn)幾乎必然的規(guī)律, 這個規(guī)律就是大數(shù)定律。通俗地說,這個定理就是,在試驗 不變的條件下,重復試驗多次,隨機事件的頻率近似于它的 概率。 大數(shù)定律通俗一點來講,就是樣本數(shù)量很大的時候,樣本均 值和真實均值充分接近。 例如,在重復投擲一枚硬幣的隨機試驗中,觀測投擲了n次硬 幣中出現(xiàn)正面的次數(shù)。不同的n次試驗,出現(xiàn)正面的頻率(出 現(xiàn)正面次數(shù)與n之比)可能不同,但當試驗的次數(shù)n越來越大 時,出現(xiàn)正面的頻率將大體上逐漸接近于1/2。又如稱量某一 物體的重量,假如衡器不存在系統(tǒng)偏差,由于

16、衡器的精度等 各種因素的影響,對同一物體重復稱量多次,可能得到多個 不同的重量數(shù)值,但它們的算術平均值一般來說將隨稱量次 數(shù)的增加而逐漸接近于物體的真實重量。 決策思維:讓數(shù)據(jù)說話 大數(shù)定律的假設 獨立同分布 試驗的次數(shù)非常大 在很多情況下,這些假設不一定能滿足 問題空間的參數(shù)太大,訓練數(shù)據(jù)對問題空間的覆 蓋度不大 試驗條件在變化,不能滿足獨立同分布 決策思維:讓數(shù)據(jù)說話 決策思維:讓數(shù)據(jù)說話 整合思維:跨界的創(chuàng)新 Integrative thinking(整合思維): 別再只盯著你的一畝三分地,打開眼睛, 尋找自己可用的各種資源,整合出解決問 題的新方式。“整合思維”就是在面臨困 難問題時的

17、應對之策,即運用發(fā)散思維, 尋找新的解決方案,而非僅局限于從已有 的“解決方案清單”中選擇。 整合思維:跨界的創(chuàng)新 數(shù)據(jù)孤島的形成 技術的原因 歷史的原因 認識的原因 比如,要辦一個證,時常就會出現(xiàn)“多部門跑腿”的現(xiàn)象,民眾要跑 完這個部門再跑另一個部門。-數(shù)據(jù)孤島 在大數(shù)據(jù)時代,傳統(tǒng)的政務查詢、社保查詢、醫(yī)療教育、水電煤等公 共服務將被集成,各政務服務間的信息化壁壘、數(shù)據(jù)孤島將會消失, 政府、企業(yè)、研究機構間的數(shù)據(jù)可實現(xiàn)安全的分享流通、交易交換。 因此,隨著大數(shù)據(jù)的發(fā)展,政府首先要進一步把為人民服務的觀念和 責任意識落實到實際工作中去,要有數(shù)據(jù)信息開放思維、數(shù)據(jù)信息整 合思維和數(shù)據(jù)信息分享思

18、維。從互聯(lián)網(wǎng)的角度來看,政府服務優(yōu)化是 沒有止境的。也就是說,不同部門之間要加強服務融合,要加強信息 的交換。我們需要用移動互聯(lián)網(wǎng)的思維去打造一個指尖上的政府服務 體系。正如李克強總理強調的“要讓政府信息多跑路,群眾少跑腿”, 我們各級政府應該按照方便辦事、就近服務的原則,充分利用大數(shù)據(jù) 的功能,真正完成向服務型政府轉變的時代要求。 整合思維:跨界的創(chuàng)新 信息化進程 整合思維:跨界的創(chuàng)新 信息化3.0 云計算解決了計算資源的共享問題 大數(shù)據(jù)技術試圖解決數(shù)據(jù)的利用問 題 大數(shù)據(jù)是由于不同來源的數(shù)據(jù)匯集 而帶來的“跨界”型創(chuàng)新應用 云計算 Cloud computing is a model fo

19、r enabling ubiquitous, convenient, on-demand network access to a shared pool of configurable computing resources (e.g., networks, servers, storage, applications, and services) that can be rapidly provisioned and released with minimal management effort or service provider interaction. 云計算是一個方便靈活的計算模式

20、,它是按需,可 通過網(wǎng)絡進行訪問和使用的計算資源的共享池(例 如,網(wǎng)絡、服務器、存儲、應用程序服務),它以 用最少的管理付出,與服務供應商有最少的交互的 前提下,可以達到將各種計算資源迅速地配置和推 出。 云計算的特點 (1)超大規(guī)模?!霸啤本哂邢喈?shù)囊?guī)模,Google云計算已經(jīng)擁有100多萬臺服務器, Amazon、IBM、微軟和Yahoo等公司的“云”均擁有幾十萬臺服務器?!霸啤蹦苜x予用 戶前所未有的計算能力。 (2)虛擬化。云計算支持用戶在任意位置、使用各種終端獲取服務。所請求的資源來 自“云”,而不是固定的有形的實體。應用在“云”中某處運行,但實際上用戶無需 了解應用運行的具體位置,只

21、需要一臺筆記本或一個PDA,就可以通過網(wǎng)絡服務來獲 取各種能力超強的服務。 (3)高可靠性?!霸啤笔褂昧藬?shù)據(jù)多副本容錯、計算節(jié)點同構可互換等措施來保障服 務的高可靠性,使用云計算比使用本地計算機更加可靠。 (4)通用性。云計算不針對特定的應用,在“云”的支撐下可以構造出千變萬化的應 用,同一片“云”可以同時支撐不同的應用運行。 (5)高可伸縮性?!霸啤钡囊?guī)模可以動態(tài)伸縮,滿足應用和用戶規(guī)模增長的需要。 (6)按需服務?!霸啤笔且粋€龐大的資源池,用戶按需購買,像自來水、電和煤氣那 樣計費。 (7)極其廉價。“云”的特殊容錯措施使得可以采用極其廉價的節(jié)點來構成云;“云” 的自動化管理使數(shù)據(jù)中心管理

22、成本大幅降低;“云”的公用性和通用性使資源的利用 率大幅提升;“云”設施可以建在電力資源豐富的地區(qū),從而大幅降低能源成本。因 此“云”具有前所未有的性能價格比。因此,用戶可以充分享受“云”的低成本優(yōu)勢, 需要時,花費幾百美元、一天時間就能完成以前需要數(shù)萬美元、數(shù)月時間才能完成的 數(shù)據(jù)處理任務。 整合思維:跨界的創(chuàng)新 跨界應用比比皆是 2014年7月22日,上海。阿里巴巴宣布,和中 行、招行、建行等7家銀行深度合作,為中小 企業(yè)提供基于網(wǎng)商信用的無抵押貸款,最高 授信額度為1000萬元 阿里將平臺擁有的數(shù)萬家企業(yè)交易數(shù)據(jù)開放 給銀行,降低銀行貸款風控成本的同時,也 為苦于無法自證信用的中小企業(yè)提

23、供了第三 方擔保。 大數(shù)據(jù)帶來的思維變革-互聯(lián)網(wǎng)思維 互聯(lián)網(wǎng)的發(fā)展 大數(shù)據(jù)帶來的思維變革-互聯(lián)網(wǎng)思維 大數(shù)據(jù)帶來的思維變革-互聯(lián)網(wǎng)思維 以客戶為中心:人本思維 萬物皆有聯(lián)系:關聯(lián)思維 反壟斷去中心化:平等思維 人本思維 傳統(tǒng)的信息系統(tǒng) 是將業(yè)務邏輯作 為最重要的內容 互聯(lián)網(wǎng)應用將客戶 作為信息系統(tǒng)最重 要的組成部分 互聯(lián)網(wǎng)應用的核心 在于以用戶需求為 主導,將用戶思考 和用戶體驗做到極 致是關鍵所在 人本思維 有數(shù)據(jù)顯示,高達92%的顧客相信朋友 推薦,有75%的顧客決策前參考社會化 評價,70%的顧客相信在線評論。 口碑營銷:通過社會媒體各渠道塑造品 牌形象,直接影響消費決策。 互聯(lián)網(wǎng)應用中

24、,最有價值的是社區(qū)。 為用戶畫像,了解用戶的需求,提供個 性化的服務 關聯(lián)思維 大腦如何記憶:我們會把某種事物特征化,然 后將事物與特征彼此關聯(lián)。每個事物都關聯(lián)了 很多個特征,每個特征也同時關聯(lián)了很多個事 物。大腦會通過這種特征與事物的關聯(lián)來進行 檢索和思考。其中,事物的特征是可以被編輯 的。也就是說,我們對事物的認識越豐富,在 事物中甄別出越多的特征,就會越有利于我們 的思考與記憶。 例如,聽到下面兩個詞之后,你想到了什么。第一 個詞“人行橫道”,第二個詞“非洲”。 關聯(lián)思維 強調數(shù)據(jù)之間的關聯(lián)也很有用, 而不去追求數(shù)據(jù)之間的因果關 系。 因果關系是最深刻的一類聯(lián)系, 但是我們很多時候并不能

25、獲得。 平等思維 平等思維去中心化 中心化(Centralization)和去中心化 (Decentralization)就是集權與分權, 在互聯(lián)網(wǎng)上,就是指從我說你聽的廣播模 式,向人人有個小喇叭的廣場模式轉變。 中心化的典型例子是門戶網(wǎng)站,去中心化 的典型例子是blog、UGC、社交媒體等。 建立和運維社區(qū)是大數(shù)據(jù)應用的關鍵。 在社區(qū)中,成員都是平等的。 平等思維壟斷vs反壟斷 互聯(lián)網(wǎng)本質上是反壟斷的 技術反壟斷:開源社區(qū) 信息反壟斷:信息公開是反腐的利 器 資源反壟斷:開放和標準是有效的 辦法 平等思維壟斷vs反壟斷 平等思維長尾效應 從人們需求的角度來看,大多數(shù)的 需求會集中在頭部,這部分我們可 以稱之為流行;而分布在尾部的需 求是個性化的、零散的、小量的需 求。這部分差異化的、少量的需求 會在需求

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論