版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
目錄1什么是大數(shù)據(jù)2思維變革之一:樣本=總體3思維變革之二:接受數(shù)據(jù)的混雜性4思維變革之三:數(shù)據(jù)的相關(guān)關(guān)系第4章大數(shù)據(jù)時代的思維變革信息社會所帶來的好處是顯而易見的:每個人口袋里都揣有一部手機(jī),每臺辦公桌上都放著一臺電腦,每間辦公室內(nèi)都連接到局域網(wǎng)甚至互聯(lián)網(wǎng)。半個世紀(jì)以來,隨著計算機(jī)技術(shù)全面和深度地融入社會生活,信息爆炸已經(jīng)積累到了一個開始引發(fā)變革的程度。信息總量的變化導(dǎo)致了信息形態(tài)的變化——量變引起了質(zhì)變。最先經(jīng)歷信息爆炸的學(xué)科,如天文學(xué)和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”(BigData)這個概念。如今,這個概念幾乎應(yīng)用到了所有人類致力于發(fā)展的領(lǐng)域中。什么是大數(shù)據(jù)4.14.1什么是大數(shù)據(jù)數(shù)據(jù)是反映客觀事物屬性的記錄,是信息的具體表現(xiàn)形式。數(shù)據(jù)經(jīng)過加工處理之后,就成為信息;而信息需要經(jīng)過數(shù)字化轉(zhuǎn)變成數(shù)據(jù)才能存儲和傳輸。所以,數(shù)據(jù)和信息之間是相互聯(lián)系的。數(shù)據(jù)和信息也是有區(qū)別的。從信息論的觀點來看,描述信源的數(shù)據(jù)是信息和數(shù)據(jù)冗余之和,即:數(shù)據(jù)=信息+數(shù)據(jù)冗余。數(shù)據(jù)是數(shù)據(jù)采集時提供的,信息是從采集的數(shù)據(jù)中獲取的有用信息,即信息可以簡單地理解為數(shù)據(jù)中包含的有用的內(nèi)容。4.1什么是大數(shù)據(jù)一個消息越不可預(yù)測,它所含的信息量就越大。事實上,信息的基本作用就是消除人們對事物了解的不確定性。信息量是指從N個相等的可能事件中選出一個事件所需要的信息度量和含量。從這個定義看,信息量跟概率是密切相關(guān)的。4.1.1天文學(xué)——信息爆炸的起源綜合觀察社會各個方面的變化趨勢,我們能真正意識到信息爆炸或者說大數(shù)據(jù)的時代已經(jīng)到來。以天文學(xué)為例,2000年斯隆數(shù)字巡天項目(見圖4-1)啟動的時候,位于新墨西哥州的望遠(yuǎn)鏡在短短幾周內(nèi)收集到的數(shù)據(jù),就比世界天文學(xué)歷史上總共收集的數(shù)據(jù)還要多。到了2010年,信息檔案已經(jīng)高達(dá)4.4×242字節(jié)。不過,預(yù)計2016年在智利投入使用的大型視場全景巡天望遠(yuǎn)鏡能在五天之內(nèi)就獲得同樣多的信息。4.1.1天文學(xué)——信息爆炸的起源圖4-1美國斯隆數(shù)字巡天望遠(yuǎn)鏡4.1.1天文學(xué)——信息爆炸的起源天文學(xué)領(lǐng)域發(fā)生的變化在社會各個領(lǐng)域都在發(fā)生。2003年,人類第一次破譯人體基因密碼的時候,辛苦工作了十年才完成了三十億對堿基對的排序。大約十年之后,世界范圍內(nèi)的基因儀每15分鐘就可以完成同樣的工作。在金融領(lǐng)域,美國股市每天的成交量高達(dá)70億股,而其中三分之二的交易都是由建立在數(shù)學(xué)模型和算法之上的計算機(jī)程序自動完成的,這些程序運(yùn)用海量數(shù)據(jù)來預(yù)測利益和降低風(fēng)險。4.1.1天文學(xué)——信息爆炸的起源互聯(lián)網(wǎng)公司更是要被數(shù)據(jù)淹沒了。谷歌公司每天要處理超過24拍字節(jié)(PB,250字節(jié))的數(shù)據(jù),這意味著其每天的數(shù)據(jù)處理量是美國國家圖書館所有紙質(zhì)出版物所含數(shù)據(jù)量的上千倍。Facebook(臉書)這個創(chuàng)立不過十來年的公司,每天更新的照片量超過1000萬張,每天人們在網(wǎng)站上點“贊”(Like)按鈕或者寫評論大約有三十億次,這就為Facebook公司挖掘用戶喜好提供了大量的數(shù)據(jù)線索。與此同時,谷歌子公司YouTube每月接待多達(dá)8億的訪客,平均每一秒鐘就會有一段長度在一小時以上的視頻上傳。推特(Twitter)上的信息量幾乎每年翻一番,每天都會發(fā)布超過4億條微博。4.1.1天文學(xué)——信息爆炸的起源從科學(xué)研究到醫(yī)療保險,從銀行業(yè)到互聯(lián)網(wǎng),各個不同的領(lǐng)域都在講述著一個類似的故事,那就是爆發(fā)式增長的數(shù)據(jù)量。這種增長超過了我們創(chuàng)造機(jī)器的速度,甚至超過了我們的想象。人類存儲信息量的增長速度比世界經(jīng)濟(jì)的增長速度快4倍,而計算機(jī)數(shù)據(jù)處理能力的增長速度則比世界經(jīng)濟(jì)的增長速度快9倍,每個人都受到了這種極速發(fā)展的沖擊。4.1.1天文學(xué)——信息爆炸的起源以納米技術(shù)為例。納米技術(shù)專注于把東西變小而不是變大。其原理就是當(dāng)事物到達(dá)分子級別時,它的物理性質(zhì)就會發(fā)生改變。一旦你知道這些新的性質(zhì),就可以用同樣的原料來做以前無法做的事情。銅本來是用來導(dǎo)電的物質(zhì),但它一旦到達(dá)納米級別就不能在磁場中導(dǎo)電了。銀離子具有抗菌性,但當(dāng)它以分子形式存在的時候,這種性質(zhì)會消失。一旦到達(dá)納米級別,金屬可以變得柔軟,陶土可以具有彈性。同樣,當(dāng)我們增加所利用的數(shù)據(jù)量時,也就可以做很多在小數(shù)據(jù)量的基礎(chǔ)上無法完成的事情。4.1.1天文學(xué)——信息爆炸的起源大數(shù)據(jù)的科學(xué)價值和社會價值正是體現(xiàn)在這里。一方面,對大數(shù)據(jù)的掌握程度可以轉(zhuǎn)化為經(jīng)濟(jì)價值的來源。另一方面,大數(shù)據(jù)已經(jīng)撼動了世界的方方面面,從商業(yè)科技到醫(yī)療、政府、教育、經(jīng)濟(jì)、人文以及社會的其他各個領(lǐng)域。盡管我們還處在大數(shù)據(jù)時代的初期,但我們的日常生活已經(jīng)離不開它了。4.1.2大數(shù)據(jù)的定義所謂大數(shù)據(jù),狹義上可以定義為:用現(xiàn)有的一般技術(shù)難以管理的大量數(shù)據(jù)的集合。對大量數(shù)據(jù)進(jìn)行分析,并從中獲得有用觀點,這種做法在一部分研究機(jī)構(gòu)和大企業(yè)中,過去就已經(jīng)存在了?,F(xiàn)在的大數(shù)據(jù)和過去相比,主要有三點區(qū)別:第一,隨著社交媒體和傳感器網(wǎng)絡(luò)等的發(fā)展,在我們身邊正產(chǎn)生出大量且多樣的數(shù)據(jù);第二,隨著硬件和軟件技術(shù)的發(fā)展,數(shù)據(jù)的存儲、處理成本大幅下降;第三,隨著云計算的興起,大數(shù)據(jù)的存儲、處理環(huán)境已經(jīng)沒有必要自行搭建。4.1.2大數(shù)據(jù)的定義所謂“用現(xiàn)有的一般技術(shù)難以管理”,例如是指用目前在企業(yè)數(shù)據(jù)庫占據(jù)主流地位的關(guān)系型數(shù)據(jù)庫無法進(jìn)行管理的、具有復(fù)雜結(jié)構(gòu)的數(shù)據(jù)?;蛘咭部梢哉f,是指由于數(shù)據(jù)量的增大,導(dǎo)致對數(shù)據(jù)的查詢(Query)響應(yīng)時間超出允許范圍的龐大數(shù)據(jù)。研究機(jī)構(gòu)Gartner給出了這樣的定義:“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。4.1.2大數(shù)據(jù)的定義麥肯錫說:“大數(shù)據(jù)指的是所涉及的數(shù)據(jù)集規(guī)模已經(jīng)超過了傳統(tǒng)數(shù)據(jù)庫軟件獲取、存儲、營理和分析的能力。這是一個被故意設(shè)計成主觀性的定義,并且是一個關(guān)于多大的數(shù)據(jù)集才能被認(rèn)為是大數(shù)據(jù)的可變定義,即并不定義大于一個特定數(shù)字的TB才叫大數(shù)據(jù)。因為隨著技術(shù)的不斷發(fā)展,符合大數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)集容量也會增長;并且定義隨不同的行業(yè)也有變化,這依賴于在一個特定行業(yè)通常使用何種軟件和數(shù)據(jù)集有多大。因此,大數(shù)據(jù)在今天不同行業(yè)中的范圍可以從幾十TB到幾PB?!彪S著“大數(shù)據(jù)”的出現(xiàn),數(shù)據(jù)倉庫、數(shù)據(jù)安全、數(shù)據(jù)分析、數(shù)據(jù)挖掘等圍繞大數(shù)據(jù)商業(yè)價值的利用正逐漸成為行業(yè)人士爭相追捧的利潤焦點,在全球引領(lǐng)了又一輪數(shù)據(jù)技術(shù)革新的浪潮。4.1.3用3V描述大數(shù)據(jù)特征從字面來看,“大數(shù)據(jù)”這個詞可能會讓人覺得只是容量非常大的數(shù)據(jù)集合而已。但容量只不過是大數(shù)據(jù)特征的一個方面,如果只拘泥于數(shù)據(jù)量,就無法深入理解當(dāng)前圍繞大數(shù)據(jù)所進(jìn)行的討論。因為“用現(xiàn)有的一般技術(shù)難以管理”這樣的狀況,并不僅僅是由于數(shù)據(jù)量增大這一個因素所造成的。IBM說:“可以用3個特征相結(jié)合來定義大數(shù)據(jù):數(shù)量(Volume,或稱容量)、種類(Variety,或稱多樣性)和速度(Velocity),或者就是簡單的3V,即龐大容量、極快速度和種類豐富的數(shù)據(jù)”(見圖4-2)。4.1.3用3V描述大數(shù)據(jù)特征圖4-2按數(shù)量、種類和速度來定義大數(shù)據(jù)4.1.3用3V描述大數(shù)據(jù)特征1.Volume(數(shù)量)用現(xiàn)有技術(shù)無法管理的數(shù)據(jù)量,從現(xiàn)狀來看,基本上是指從幾十TB到幾PB這樣的數(shù)量級。當(dāng)然,隨著技術(shù)的進(jìn)步,這個數(shù)值也會不斷變化。如今,存儲的數(shù)據(jù)數(shù)量正在急劇增長中,我們存儲所有事物,包括:環(huán)境數(shù)據(jù)、財務(wù)數(shù)據(jù)、醫(yī)療數(shù)據(jù)、監(jiān)控數(shù)據(jù)等。有關(guān)數(shù)據(jù)量的對話已從TB級別轉(zhuǎn)向PB級別,并且不可避免地會轉(zhuǎn)向ZB級別??墒?,隨著可供企業(yè)使用的數(shù)據(jù)量不斷增長,可處理、理解和分析的數(shù)據(jù)的比例卻不斷下降。4.1.3用3V描述大數(shù)據(jù)特征2.Variety(種類、多樣性)隨著傳感器、智能設(shè)備以及社交協(xié)作技術(shù)的激增,企業(yè)的數(shù)據(jù)也變得更加復(fù)雜,因為它不僅包含傳統(tǒng)的關(guān)系型數(shù)據(jù),還包含來自網(wǎng)頁、互聯(lián)網(wǎng)日志文件(包括單擊流數(shù)據(jù))、搜索索引、社交媒體論壇、電子郵件、文檔、主動和被動系統(tǒng)的傳感器數(shù)據(jù)等原始、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。種類表示所有的數(shù)據(jù)類型。其中,爆發(fā)式增長的一些數(shù)據(jù),如互聯(lián)網(wǎng)上的文本數(shù)據(jù)、位置信息、傳感器數(shù)據(jù)、視頻等,用企業(yè)中主流的關(guān)系型數(shù)據(jù)庫是很難存儲的,它們都屬于非結(jié)構(gòu)化數(shù)據(jù)。4.1.3用3V描述大數(shù)據(jù)特征當(dāng)然,在這些數(shù)據(jù)中,有一些是過去就一直存在并保存下來的。和過去不同的是,除了存儲,還需要對這些大數(shù)據(jù)進(jìn)行分析,并從中獲得有用的信息。例如監(jiān)控攝像機(jī)中的視頻數(shù)據(jù)。近年來,超市、便利店等零售企業(yè)幾乎都配備了監(jiān)控攝像機(jī),最初目的是為了防范盜竊,但現(xiàn)在也出現(xiàn)了使用監(jiān)控攝像機(jī)的視頻數(shù)據(jù)來分析顧客購買行為的案例。例如,美國高級文具制造商萬寶龍(Montblane)過去是憑經(jīng)驗和直覺來決定商品陳列布局的,現(xiàn)在嘗試?yán)帽O(jiān)控攝像頭對顧客在店內(nèi)的行為進(jìn)行分析。通過分析監(jiān)控攝像機(jī)的數(shù)據(jù),將最想賣出去的商品移動到最容易吸引顧客目光的位置,使得銷售額提高了20%。4.1.3用3V描述大數(shù)據(jù)特征3.Velocity(速度)數(shù)據(jù)產(chǎn)生和更新的頻率,也是衡量大數(shù)據(jù)的一個重要特征。就像我們收集和存儲的數(shù)據(jù)量和種類發(fā)生了變化一樣,生成和需要處理數(shù)據(jù)的速度也在變化。不要將速度的概念限定為與數(shù)據(jù)存儲相關(guān)的增長速率,應(yīng)動態(tài)地將此定義應(yīng)用到數(shù)據(jù),即數(shù)據(jù)流動的速度。有效處理大數(shù)據(jù)需要在數(shù)據(jù)變化的過程中對它的數(shù)量和種類執(zhí)行分析,而不只是在它靜止后執(zhí)行分析。例如,遍布全國的便利店在24小時內(nèi)產(chǎn)生的POS機(jī)數(shù)據(jù),電商網(wǎng)站中由用戶訪問所產(chǎn)生的網(wǎng)站點擊流數(shù)據(jù),高峰時達(dá)到每秒近萬條的微信短文,全國公路上安裝的交通堵塞探測傳感器和路面狀況傳感器(可檢測結(jié)冰、積雪等路面狀態(tài))等,每天都在產(chǎn)生著龐大的數(shù)據(jù)。4.1.3用3V描述大數(shù)據(jù)特征IBM在3V的基礎(chǔ)上又歸納總結(jié)了第四個V一一Veracity(真實和準(zhǔn)確)?!爸挥姓鎸嵍鴾?zhǔn)確的數(shù)據(jù)才能讓對數(shù)據(jù)的管控和治理真正有意義。隨著社交數(shù)據(jù)、企業(yè)內(nèi)容、交易與應(yīng)用數(shù)據(jù)等新數(shù)據(jù)源的興起,傳統(tǒng)數(shù)據(jù)源的局限性被打破,企業(yè)愈發(fā)需要有效的信息治理以確保其真實性及安全性?!?.1.3用3V描述大數(shù)據(jù)特征IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)說:“大數(shù)據(jù)是一個貌似不知道從哪里冒出來的大的動力。但是實際上,大數(shù)據(jù)并不是新生事物。然而,它確實正在進(jìn)入主流,并得到重大關(guān)注,這是有原因的。廉價的存儲、傳感器和數(shù)據(jù)采集技術(shù)的快速發(fā)展、通過云和虛擬化存儲設(shè)施增加的信息鏈路,以及創(chuàng)新軟件和分析工具,正在驅(qū)動著大數(shù)據(jù)。大數(shù)據(jù)不是一個‘事物’,而是一個跨多個信息技術(shù)領(lǐng)域的動力/活動。大數(shù)據(jù)技術(shù)描述了新一代的技術(shù)和架構(gòu),其被設(shè)計用于:通過使用高速(Velocity)的采集、發(fā)現(xiàn)和/或分析,從超大容量(Volume)的多樣(Variety)數(shù)據(jù)中經(jīng)濟(jì)地提取價值(Value)。”4.1.3用3V描述大數(shù)據(jù)特征這個定義除了揭示大數(shù)據(jù)傳統(tǒng)的3V基本特征,即Volume(大數(shù)據(jù)量)、Variety(多樣性)和Velocity(高速),還增添了一個新特征:Value(價值)??傊?,大數(shù)據(jù)是個動態(tài)的定義,不同行業(yè)根據(jù)其應(yīng)用的不同有著不同的理解,其衡量標(biāo)準(zhǔn)也在隨著技術(shù)的進(jìn)步而改變。我們從廣義層面上再為大數(shù)據(jù)下一個定義(見圖4-3):“所謂大數(shù)據(jù),是一個綜合性概念,它包括因具備3V(Volume/Variety/Velocity)特征而難以進(jìn)行管理的數(shù)據(jù),對這些數(shù)據(jù)進(jìn)行存儲、處理、分析的技術(shù),以及能夠通過分析這些數(shù)據(jù)獲得實用意義和觀點的人才和組織?!?.1.3用3V描述大數(shù)據(jù)特征圖4-3廣義的大數(shù)據(jù)4.1.3用3V描述大數(shù)據(jù)特征“存儲、處理、分析的技術(shù)”,指的是用于大規(guī)模數(shù)據(jù)分布式處理的框架Hadoop、具備良好擴(kuò)展性的NoSQL數(shù)據(jù)庫,以及機(jī)器學(xué)習(xí)和統(tǒng)計分析等;“能夠通過分析這些數(shù)據(jù)獲得實用意義和觀點的人才和組織”,指的是目前十分緊俏的“數(shù)據(jù)科學(xué)家”這類人才,以及能夠?qū)Υ髷?shù)據(jù)進(jìn)行有效運(yùn)用的組織。4.1.4大數(shù)據(jù)的結(jié)構(gòu)類型大數(shù)據(jù)具有多種形式,從高度結(jié)構(gòu)化的財務(wù)數(shù)據(jù),到文本文件、多媒體文件和基因定位圖的任何數(shù)據(jù),都可以稱為大數(shù)據(jù)。由于數(shù)據(jù)自身的復(fù)雜性,作為一個必然的結(jié)果,處理大數(shù)據(jù)的首選方法就是在并行計算的環(huán)境中進(jìn)行大規(guī)模并行處理(MassivelyParallelProcessing,MPP),這使得同時發(fā)生的并行攝取、并行數(shù)據(jù)裝載和分析成為可能。實際上,大多數(shù)的大數(shù)據(jù)都是非結(jié)構(gòu)化或半結(jié)構(gòu)化的,這需要不同的技術(shù)和工具來處理和分析。大數(shù)據(jù)最突出的特征是它的結(jié)構(gòu)。圖4-4顯示了幾種不同數(shù)據(jù)結(jié)構(gòu)類型數(shù)據(jù)的增長趨勢,由圖可知,未來數(shù)據(jù)增長的80%~90%將來自于不是結(jié)構(gòu)化的數(shù)據(jù)類型(半、準(zhǔn)和非結(jié)構(gòu)化)。4.1.4大數(shù)據(jù)的結(jié)構(gòu)類型圖4-4數(shù)據(jù)增長日益趨向非結(jié)構(gòu)化4.1.4大數(shù)據(jù)的結(jié)構(gòu)類型雖然圖4-4顯示了4種不同的、相分離的數(shù)據(jù)類型,實際上,有時這些數(shù)據(jù)類型是可以被混合在一起的。例如,有一個傳統(tǒng)的關(guān)系數(shù)據(jù)庫管理系統(tǒng)保存著一個軟件支持呼叫中心的通話日志,這里有典型的結(jié)構(gòu)化數(shù)據(jù),比如日期/時間戳、機(jī)器類型、問題類型、操作系統(tǒng),這些都是在線支持人員通過圖形用戶界面上的下拉式菜單輸入的。另外,還有非結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化數(shù)據(jù),比如自由形式的通話日志信息,這些可能來自包含問題的電子郵件,或者技術(shù)問題和解決方案的實際通話描述。另外一種可能是與結(jié)構(gòu)化數(shù)據(jù)有關(guān)的實際通話的語音日志或者音頻文字實錄。即使是現(xiàn)在,大多數(shù)分析人員還無法分析這種通話日志歷史數(shù)據(jù)庫中的最普通和高度結(jié)構(gòu)化的數(shù)據(jù),因為挖掘文本信息是一項強(qiáng)度很大的工作,并且無法簡單地實現(xiàn)自動化。4.1.4大數(shù)據(jù)的結(jié)構(gòu)類型人們通常最熟悉結(jié)構(gòu)化數(shù)據(jù)的分析,然而,半結(jié)構(gòu)化數(shù)據(jù)(XML)、“準(zhǔn)”結(jié)構(gòu)化數(shù)據(jù)(網(wǎng)站地址字符串)和非結(jié)構(gòu)化數(shù)據(jù)代表了不同的挑戰(zhàn),需要不同的技術(shù)來分析。如今,人們不再認(rèn)為數(shù)據(jù)是靜止和陳舊的。但在以前,一旦完成了收集數(shù)據(jù)的目的之后,數(shù)據(jù)就會被認(rèn)為已經(jīng)沒有用處了。比方說,在飛機(jī)降落之后,票價數(shù)據(jù)就沒有用了。又如某城市的公交車因為價格不依賴于起點和終點,所以能夠反映重要通勤信息的數(shù)據(jù)就可能被丟棄了——設(shè)計人員如果沒有大數(shù)據(jù)的理念,就會丟失掉很多有價值的數(shù)據(jù)。4.1.4大數(shù)據(jù)的結(jié)構(gòu)類型今天,大數(shù)據(jù)是人們獲得新的認(rèn)知、創(chuàng)造新的價值的源泉,大數(shù)據(jù)還是改變市場、組織機(jī)構(gòu),以及政府與公民關(guān)系的方法。大數(shù)據(jù)時代對我們的生活,以及與世界交流的方式都提出了挑戰(zhàn)。實際上,大數(shù)據(jù)的精髓在于我們分析信息時的三個轉(zhuǎn)變,這些轉(zhuǎn)變將改變我們理解和組建社會的方法,這三個轉(zhuǎn)變是相互聯(lián)系和相互作用的。思維變革之一:樣本=總體4.24.2思維變革之一:樣本=總體大數(shù)據(jù)時代的第一個轉(zhuǎn)變,是要分析與某事物相關(guān)的更多的數(shù)據(jù),有時候甚至可以處理和某個特別現(xiàn)象相關(guān)的所有數(shù)據(jù),而不再是只依賴于分析隨機(jī)采樣的少量的數(shù)據(jù)樣本。19世紀(jì)以來,當(dāng)面臨大量數(shù)據(jù)時,社會都依賴于采樣分析。但是采樣分析是信息缺乏時代和信息流通受限制的模擬數(shù)據(jù)時代的產(chǎn)物。以前我們通常把這看成是理所當(dāng)然的限制,但高性能數(shù)字技術(shù)的流行讓我們意識到,這其實是一種人為的限制。與局限在小數(shù)據(jù)范圍相比,使用一切數(shù)據(jù)為我們帶來了更高的精確性,也讓我們看到了一些以前樣本無法揭示的細(xì)節(jié)信息。4.2思維變革之一:樣本=總體在某些方面,人們依然沒有完全意識到自己擁有了能夠收集和處理更大規(guī)模數(shù)據(jù)的能力,還是在信息匱乏的假設(shè)下做很多事情,假定自己只能收集到少量信息。這是一個自找實現(xiàn)的過程。人們甚至發(fā)展了一些使用盡可能少的信息的技術(shù)。例如,統(tǒng)計學(xué)的一個目的就是用盡可能少的數(shù)據(jù)來證實盡可能重大的發(fā)現(xiàn)。事實上,我們形成了一種習(xí)慣,那就是在制度、處理過程和激勵機(jī)制中盡可能地減少數(shù)據(jù)的使用。4.2.1小數(shù)據(jù)時代的隨機(jī)采樣數(shù)千年來,政府一直都試圖通過收集信息來管理國民,只是到最近,小企業(yè)和個人才有可能擁有大規(guī)模收集和分類數(shù)據(jù)的能力,而此前,大規(guī)模的計數(shù)都是政府的事情。以人口普查為例。據(jù)說古代埃及曾進(jìn)行過人口普查,《舊約》和《新約》中對此都有所提及。那次由奧古斯都愷撒(見圖4-5)主導(dǎo)實施的人口普查,提出了“每個人都必須納稅”。4.2.1小數(shù)據(jù)時代的隨機(jī)采樣圖4-5奧古斯都愷撒4.2.1小數(shù)據(jù)時代的隨機(jī)采樣1086年的《末日審判書》對當(dāng)時英國的人口、土地和財產(chǎn)做了一個前所未有的全面記載?;始椅瘑T穿越整個國家對每個人、每件事都做了記載,后來這本書用《圣經(jīng)》中的《末日審判書》命名,因為每個人的生活都被赤裸裸地記載下來的過程就像接受“最后的審判”一樣。然而,人口普查是一項耗資且費(fèi)時的事情,盡管如此,當(dāng)時收集的信息也只是一個大概情況,實施人口普查的人也知道他們不可能準(zhǔn)確記錄下每個人的信息。實際上,“人口普查”這個詞來源于拉丁語的“censere”,本意就是推測、估算。4.2.1小數(shù)據(jù)時代的隨機(jī)采樣三百多年前,一個名叫約翰·格朗特的英國縫紉用品商提出了一個很有新意的方法,來推算出鼠疫時期倫敦的人口數(shù),這種方法就是后來的統(tǒng)計學(xué)。這個方法不需要一個人一個人地計算。雖然這個方法比較粗糙,但采用這個方法,人們可以利用少量有用的樣本信息來獲取人口的整體情況。雖然后來證實他能夠得出正確的數(shù)據(jù)僅僅是因為運(yùn)氣好,但在當(dāng)時他的方法大受歡迎。樣本分析法一直都有較大的漏洞,因此,無論是進(jìn)行人口普查還是其他大數(shù)據(jù)類的任務(wù),人們還是一直使用清點這種“野蠻”的方法。4.2.1小數(shù)據(jù)時代的隨機(jī)采樣考慮到人口普查的復(fù)雜性以及耗時耗費(fèi)的特點,政府極少進(jìn)行普查。古羅馬在擁有數(shù)十萬人口的時候每5年普查一次。美國憲法規(guī)定每10年進(jìn)行一次人口普查,而隨著國家人口越來越多,只能以百萬計數(shù)。但是到19世紀(jì)為止,即使這樣不頻繁的人口普查依然很困難,因為數(shù)據(jù)變化的速度超過了人口普查局統(tǒng)計分析的能力。4.2.1小數(shù)據(jù)時代的隨機(jī)采樣新中國建立后,先后于1953、1964和1982年舉行過3次人口普查。前3次人口普查是不定期進(jìn)行的,自1990年第4次全國人口普查開始改為定期進(jìn)行。根據(jù)《中華人民共和國統(tǒng)計法實施細(xì)則》和國務(wù)院的決定以及國務(wù)院2010年頒布的《全國人口普查條例》規(guī)定,人口普查每10年進(jìn)行一次,尾數(shù)逢0的年份為普查年度。兩次普查之間,進(jìn)行一次簡易人口普查。2020年為第七次全國人口普查時間。4.2.1小數(shù)據(jù)時代的隨機(jī)采樣新中國第一次人口普查的標(biāo)準(zhǔn)時間是1953年6月30日24時,所謂人口普查的標(biāo)準(zhǔn)時間,就是規(guī)定一個時間點,無論普查員入戶登記在哪一天進(jìn)行,登記的人口及其各種特征都是反映那個時間點上的情況。根據(jù)上述規(guī)定,不管普查員在哪天進(jìn)行入戶登記,普查對象所申報的都應(yīng)該是標(biāo)準(zhǔn)時間的情況。通過這個標(biāo)準(zhǔn)時間,所有普查員普查登記完成后,經(jīng)過匯總就可以得到全國人口的總數(shù)和各種人口狀況的數(shù)據(jù)。1953年11月1日發(fā)布了人口普查的主要數(shù)據(jù),當(dāng)時全國人口總數(shù)為601938035人。4.2.1小數(shù)據(jù)時代的隨機(jī)采樣第六次人口普查的標(biāo)準(zhǔn)時間是2010年11月1日零時。2011年4月,發(fā)布了第六次全國人口普查主要數(shù)據(jù)。此次人口普查登記的全國總?cè)丝跒?339724852人。與2000年第五次人口普查相比,10年增加7390萬人,增長5.84%,年平均增長0.57%,比1990年到2000年年均1.07%的增長率下降了0.5個百分點。4.2.1小數(shù)據(jù)時代的隨機(jī)采樣美國在1880年進(jìn)行的人口普查,耗時8年才完成數(shù)據(jù)匯總。因此,他們獲得的很多數(shù)據(jù)都是過時的。1890年進(jìn)行的人口普查,預(yù)計要花費(fèi)13年的時間來匯總數(shù)據(jù)。然而,因為稅收分?jǐn)偤蛧鴷砣藬?shù)確定都是建立在人口的基礎(chǔ)上的,必須獲得正確且及時的數(shù)據(jù)。很明顯,人們已有的數(shù)據(jù)處理工具已經(jīng)難以應(yīng)付了。后來,美國人口普查局就委托發(fā)明家赫爾曼·霍爾瑞斯(被稱為現(xiàn)代自動計算之父)用他的穿孔卡片制表機(jī)(見圖4-6)來完成1890年的人口普查。4.2.1小數(shù)據(jù)時代的隨機(jī)采樣圖4-6霍爾瑞斯普查機(jī)4.2.1小數(shù)據(jù)時代的隨機(jī)采樣經(jīng)過大量的努力,霍爾瑞斯成功地在1年時間內(nèi)完成了人口普查的數(shù)據(jù)匯總工作。這在當(dāng)時簡直就是一個奇跡,它標(biāo)志著自動處理數(shù)據(jù)的開端,也為后來IBM公司的成立奠定了基礎(chǔ)。但是,將其作為收集處理大數(shù)據(jù)的方法依然過于昂貴。畢竟,每個美國人都必須填一張可制成穿孔卡片的表格,然后再進(jìn)行統(tǒng)計。對于一個跨越式發(fā)展的國家而言,十年一次的人口普查的滯后性已經(jīng)讓普查失去了大部分意義。4.2.1小數(shù)據(jù)時代的隨機(jī)采樣這就是問題所在,是利用所有的數(shù)據(jù)還是僅僅采用一部分呢?最明智的自然是得到有關(guān)被分析事物的所有數(shù)據(jù),但是,當(dāng)數(shù)量無比龐大時,這又不太現(xiàn)實。那如何選擇樣本呢?事實證明,問題的關(guān)鍵是選擇樣本時的隨機(jī)性。統(tǒng)計學(xué)家們證明:采樣分析的精確性隨著采樣隨機(jī)性的增加而大幅提高,但與樣本數(shù)量的增加關(guān)系不大。雖然聽起來很不可思議,但事實上,研究表明,當(dāng)樣本數(shù)量達(dá)到了某個值之后,我們從新個體身上得到的信息會越來越少,就如同經(jīng)濟(jì)學(xué)中的邊際效應(yīng)遞減一樣。4.2.1小數(shù)據(jù)時代的隨機(jī)采樣在商業(yè)領(lǐng)域,隨機(jī)采樣被用來監(jiān)管商品質(zhì)量。這使得監(jiān)管商品質(zhì)量和提升商品品質(zhì)變得更容易,花費(fèi)也更少。以前,全面的質(zhì)量監(jiān)管要求對生產(chǎn)出來的每個產(chǎn)品進(jìn)行檢查,而現(xiàn)在只需從一批商品中隨機(jī)抽取部分樣品進(jìn)行檢查就可以了。本質(zhì)上來說,隨機(jī)采樣讓大數(shù)據(jù)問題變得更加切實可行。同理,它將客戶調(diào)查引進(jìn)了零售行業(yè),將焦點討論引進(jìn)了政治界,也將許多人文問題變成了社會科學(xué)問題。4.2.1小數(shù)據(jù)時代的隨機(jī)采樣隨機(jī)采樣取得了巨大的成功,成為現(xiàn)代社會、現(xiàn)代測量領(lǐng)域的主心骨。但這只是一條捷徑,是在不可收集和分析全部數(shù)據(jù)的情況下的選擇,它本身存在許多固有的缺陷。它的成功依賴于采樣的絕對隨機(jī)性,但是實現(xiàn)采樣的隨機(jī)性非常困難。一旦采樣過程中存在任何偏見,分析結(jié)果就會相去甚遠(yuǎn)。此外,隨機(jī)采樣不適合考察子類別的情況。因為一旦繼續(xù)細(xì)分,隨機(jī)采樣結(jié)果的錯誤率會大大增加。因此,在宏觀領(lǐng)域起作用的方法在微觀領(lǐng)域失去了作用。4.2.2大數(shù)據(jù)與喬布斯的癌癥治療由于技術(shù)成本大幅下跌以及在醫(yī)學(xué)方面的廣闊前景,個人基因排序(DNA分析)成為了一門新興產(chǎn)業(yè)(見圖4-7)。從2007年起,硅谷的新興科技公司23andme就開始分析人類基因,價格僅為幾百美元。這可以揭示出人類遺傳密碼中一些會導(dǎo)致其對某些疾病抵抗力差的特征,如乳腺癌和心臟病。23andme希望能通過整合顧客的DNA和健康信息,了解到用其他方式不能獲取的新信息。公司對某人的一小部分DNA進(jìn)行排序,標(biāo)注出幾十個特定的基因缺陷。這只是該人整個基因密碼的樣本,還有幾十億個基因堿基對未排序。最后,23andme只能回答其標(biāo)注過的基因組表現(xiàn)出來的問題。發(fā)現(xiàn)新標(biāo)注時,該人的DNA必須重新排序,更準(zhǔn)確地說,是相關(guān)的部分必須重新排列。只研究樣本而不是整體,有利有弊:能更快更容易地發(fā)現(xiàn)問題,但不能回答事先未考慮到的問題。4.2.2大數(shù)據(jù)與喬布斯的癌癥治療圖4-7世界民族基因總圖(美國)4.2.2大數(shù)據(jù)與喬布斯的癌癥治療蘋果公司的傳奇總裁史蒂夫·喬布斯在與癌癥斗爭的過程中采用了不同的方式,成為世界上第一個對自身所有DNA和腫瘤DNA進(jìn)行排序的人。為此,他支付了高達(dá)幾十萬美元的費(fèi)用,這是23andme報價的幾百倍之多。所以,他得到了包括整個基因密碼的數(shù)據(jù)文檔。對于一個普通的癌癥患者,醫(yī)生只能期望她的DNA排列同試驗中使用的樣本足夠相似。但是,史蒂夫·喬布斯的醫(yī)生們能夠基于喬布斯的特定基因組成,按所需效果用藥。如果癌癥病變導(dǎo)致藥物失效,醫(yī)生可以及時更換另一種藥。喬布斯曾經(jīng)開玩笑地說:“我要么是第一個通過這種方式戰(zhàn)勝癌癥的人,要么就是最后一個因為這種方式死于癌癥的人?!彪m然他的愿望都沒有實現(xiàn),但是這種獲得所有數(shù)據(jù)而不僅是樣本的方法還是將他的生命延長了好幾年。4.2.3全數(shù)據(jù)模式:樣本=總體采樣的目的是用最少的數(shù)據(jù)得到最多的信息,而當(dāng)我們可以獲得海量數(shù)據(jù)的時候,它就沒有什么意義了。如今,感應(yīng)器、手機(jī)導(dǎo)航、網(wǎng)站點擊和微信等被動地收集了大量數(shù)據(jù),而計算機(jī)可以輕易地對這些數(shù)據(jù)進(jìn)行處理——數(shù)據(jù)處理技術(shù)己經(jīng)發(fā)生了翻天覆地的改變。在很多領(lǐng)域,從收集部分?jǐn)?shù)據(jù)到收集盡可能多的數(shù)據(jù)的轉(zhuǎn)變已經(jīng)發(fā)生了。如果可能的話,我們會收集所有的數(shù)據(jù),即“樣本=總體”,這是指我們能對數(shù)據(jù)進(jìn)行深度探討。4.2.3全數(shù)據(jù)模式:樣本=總體分析整個數(shù)據(jù)庫,而不是對一個小樣本進(jìn)行分析,能夠提高微觀層面分析的準(zhǔn)確性。所以,我們現(xiàn)在經(jīng)常會放棄樣本分析這條捷徑,選擇收集全面而完整的數(shù)據(jù)。我們需要足夠的數(shù)據(jù)處理和存儲能力,也需要最先進(jìn)的分析技術(shù)。同時,簡單廉價的數(shù)據(jù)收集方法也很重要。過去,這些問題中的任何一個都很棘手。在一個資源有限的時代,要解決這些問題需要付出很高的代價。但是現(xiàn)在,解決這些難題已經(jīng)變得簡單容易得多。曾經(jīng)只有大公司才能做到的事情,現(xiàn)在絕大部分的公司都可以做到了。4.2.3全數(shù)據(jù)模式:樣本=總體通過使用所有的數(shù)據(jù),我們可以發(fā)現(xiàn)如若不然則將會在大量數(shù)據(jù)中淹沒掉的情況。例如,信用卡詐騙是通過觀察異常情況來識別的,只有掌握了所有的數(shù)據(jù)才能做到這一點。在這種情況下,異常值是最有用的信息,你可以把它與正常交易情況進(jìn)行對比。這是一個大數(shù)據(jù)問題。而且,因為交易是即時的,所以你的數(shù)據(jù)分析也應(yīng)該是即時的。因為大數(shù)據(jù)是建立在掌握所有數(shù)據(jù),至少是盡可能多的數(shù)據(jù)的基礎(chǔ)上的,所以我們就可以正確地考察細(xì)節(jié)并進(jìn)行新的分析。在任何細(xì)微的層面,我們都可以用大數(shù)據(jù)去論證新的假設(shè)。當(dāng)然,有些時候,我們還是可以使用樣本分析法,畢竟我們?nèi)匀换钤谝粋€資源有限的時代。但是更多時候,利用手中掌握的所有數(shù)據(jù)成為了最好也是可行的選擇。思維變革之二:接受數(shù)據(jù)的混雜性4.34.3思維變革之二:接受數(shù)據(jù)的混雜性大數(shù)據(jù)時代的第二個轉(zhuǎn)變,是我們樂于接受數(shù)據(jù)的紛繁復(fù)雜,而不再一味追求其精確性。在越來越多的情況下,使用所有可獲取的數(shù)據(jù)變得更為可能,但為此也要付出一定的代價。數(shù)據(jù)量的大幅增加會造成結(jié)果的不準(zhǔn)確,與此同時,一些錯誤的數(shù)據(jù)也會混進(jìn)數(shù)據(jù)庫。然而,重點是我們能夠努力避免這些問題,適當(dāng)忽略微觀層面上的精確度會讓我們在宏觀層面擁有更好的洞察力。當(dāng)我們擁有海量即時數(shù)據(jù)時,絕對的精準(zhǔn)不再是我們追求的主要目標(biāo)。大數(shù)據(jù)紛繁多樣,優(yōu)劣摻雜,分布在全球多個服務(wù)器上。擁有了大數(shù)據(jù),我們不再需要對一個現(xiàn)象刨根究底,只要掌握大體的發(fā)展方向即可。當(dāng)然,我們也不是完全放棄了精確度,只是不再沉迷于此。4.3.1允許不精確對“小數(shù)據(jù)”而言,最基本、最重要的要求就是減少錯誤,保證質(zhì)量。因為收集的信息量比較少,所以我們必須確保記錄下來的數(shù)據(jù)盡量精確。無論是確定天體的位置還是觀測顯微鏡下物體的大小,為了使結(jié)果更加準(zhǔn)確,很多科學(xué)家都致力于優(yōu)化測量的工具,發(fā)展了可以準(zhǔn)確收集、記錄和管理數(shù)據(jù)的方法。在采樣的時候,對精確度的要求就更高更苛刻了。因為收集信息的有限意味著細(xì)微的錯誤會被放大,甚至有可能影響整個結(jié)果的準(zhǔn)確性。然而,在不斷涌現(xiàn)的新情況里,允許不精確的出現(xiàn)已經(jīng)成為一個亮點。因為放松了容錯的標(biāo)準(zhǔn),人們掌握的數(shù)據(jù)也多了起來,還可以利用這些數(shù)據(jù)做更多新的事情。這樣就不是大量數(shù)據(jù)優(yōu)于少量數(shù)據(jù)那么簡單了,而是大量數(shù)據(jù)創(chuàng)造了更好的結(jié)果。4.3.1允許不精確同時,我們需要與各種各樣的混亂做斗爭?;靵y,簡單地說就是隨著數(shù)據(jù)的增加,錯誤率也會相應(yīng)增加。所以,如果橋梁的壓力數(shù)據(jù)量增加1000倍的話,其中的部分讀數(shù)就可能是錯誤的,而且隨著讀數(shù)量的增加,錯誤率可能也會繼續(xù)增加。在整合來源不同的各類信息的時候,因為它們通常不完全一致,所以也會加大混亂程度?;靵y還可以指格式的不一致性,因為要達(dá)到格式一致,就需要在進(jìn)行數(shù)據(jù)處理之前仔細(xì)地清洗數(shù)據(jù),而這在大數(shù)據(jù)背景下很難做到。4.3.1允許不精確當(dāng)然,在萃取或處理數(shù)據(jù)的時候,混亂也會發(fā)生。因為在進(jìn)行數(shù)據(jù)轉(zhuǎn)化的時候,我們是在把它變成另外的事物。比如,葡萄是溫帶植物,溫度是葡萄生長發(fā)育的重要因素,假設(shè)你要測量一個葡萄園的溫度,但是整個葡萄園只有一個溫度測量儀,那你就必須確保這個測量儀是精確的而且能夠一直工作。反過來,如果每100棵葡萄樹就有一個測量儀,有些測試的數(shù)據(jù)可能會是錯誤的,可能會更加混亂,但眾多的讀數(shù)合起來就可以提供一個更加準(zhǔn)確的結(jié)果。因為這里面包含了更多的數(shù)據(jù),而它不僅能抵消掉錯誤數(shù)據(jù)造成的影響,還能提供更多的額外價值。4.3.1允許不精確大數(shù)據(jù)在多大程度上優(yōu)于算法,這個問題在自然語言處理上表現(xiàn)得很明顯。2000年,微軟研究中心的米歇爾·班科和埃里克·布里爾一直在尋求改進(jìn)Word程序中語法檢查的方法。但是他們不能確定是努力改進(jìn)現(xiàn)有的算法、研發(fā)新的方法,還是添加更加細(xì)膩精致的特點更有效。所以,在實施這些措施之前,他們決定往現(xiàn)有的算法中添加更多的數(shù)據(jù),看看會有什么不同的變化。很多對計算機(jī)學(xué)習(xí)算法的研究都建立在百萬字左右的語料庫基礎(chǔ)上。最后,他們決定往4種常見的算法中逐新添加數(shù)據(jù),先是一千萬字,再到一億字,最后到十億。4.3.1允許不精確結(jié)果有點令人吃驚。他們發(fā)現(xiàn),隨著數(shù)據(jù)的增多,4種算法的表現(xiàn)都大幅提高了。當(dāng)數(shù)據(jù)只有500萬的時候,有一種簡單的算法表現(xiàn)得很差,但當(dāng)數(shù)據(jù)達(dá)10億的時候,它變成了表現(xiàn)最好的,準(zhǔn)確率從原來的75%提高到了95%以上。與之相反地,在少量數(shù)據(jù)情況下運(yùn)行得最好的算法,當(dāng)加入更多的數(shù)據(jù)時,也會像其他的算法一樣有所提高,但是卻變成了在大量數(shù)據(jù)條件下運(yùn)行得最不好的。它的準(zhǔn)確率會從86%提高到94%。后來,班科和布里爾在他們發(fā)表的研究論文中寫到,“如此一來,我們得重新衡量一下更多的人力物力是應(yīng)該消耗在算法發(fā)展上還是在語料庫發(fā)展上?!?.3.2大數(shù)據(jù)的簡單算法與小數(shù)據(jù)的復(fù)雜算法20世紀(jì)40年代,計算機(jī)由真空管制成,要占據(jù)整個房間這么大的空間。而機(jī)器翻譯也只是計算機(jī)開發(fā)人員的一個想法。在冷戰(zhàn)時期,美國掌握了大量關(guān)于蘇聯(lián)的各種資料,但缺少翻譯這些資料的人手。所以,計算機(jī)翻譯也成了亟待解決的問題。最初,計算機(jī)研發(fā)人員打算將語法規(guī)則和雙語詞典結(jié)合在一起。1954年,IBM以計算機(jī)中的250個詞語和六條語法規(guī)則為基礎(chǔ),將60個俄語詞組翻譯成了英語,結(jié)果振奮人心。IBM701通過穿孔卡片讀取了一句話,并將其譯成了“我們通過語言來交流思想”。在慶祝這個成就的發(fā)布會上,一篇報道就有提到,這60句話翻譯得很流暢。這個程序的指揮官利昂?多斯特爾特表示,他相信“在三五年后,機(jī)器翻譯將會變得很成熟”。4.3.2大數(shù)據(jù)的簡單算法與小數(shù)據(jù)的復(fù)雜算法事實證明,計算機(jī)翻譯最初的成功誤導(dǎo)了人們。1966年,一群機(jī)器翻譯的研究人員意識到,翻譯比他們想象的更困難,他們不得不承認(rèn)自己的失敗。機(jī)器翻譯不能只是讓電腦熟悉常用規(guī)則,還必須教會電腦處理特殊的語言情況。畢竟,翻譯不僅僅只是記憶和復(fù)述,也涉及選詞,而明確地教會電腦這些非常不現(xiàn)實。在20世紀(jì)80年代后期,IBM的研發(fā)人員提出了一個新的想法。與單純教給計算機(jī)語言規(guī)則和詞匯相比,他們試圖讓計算機(jī)自己估算一個詞或一個詞組適合于用來翻譯另一種語言中的一個詞和詞組的可能性,然后再決定某個詞和詞組在另一種語言中的對等詞和詞組。4.3.2大數(shù)據(jù)的簡單算法與小數(shù)據(jù)的復(fù)雜算法20世紀(jì)90年代,IBM這個名為Candide的項目花費(fèi)了大概十年的時間,將大約有300萬句之多的加拿大議會資料譯成了英語和法語并出版。由于是官方文件,翻譯的標(biāo)準(zhǔn)就非常高。用那個時候的標(biāo)準(zhǔn)來看,數(shù)據(jù)量非常之龐大。統(tǒng)計機(jī)器學(xué)習(xí)從誕生之日起,就聰明地把翻譯的挑戰(zhàn)變成了一個數(shù)學(xué)問題,而這似乎很有效!計算機(jī)翻譯能力在短時間內(nèi)就提高了很多。然而,在這次飛躍之后,IBM公司盡管投入了很多資金,但取得的成效不大。最終,IBM公司停止了這個項目。4.3.2大數(shù)據(jù)的簡單算法與小數(shù)據(jù)的復(fù)雜算法2006年,谷歌公司也開始涉足機(jī)器翻譯,這被當(dāng)作實現(xiàn)“收集全世界的數(shù)據(jù)資源,并讓人人都可享受這些資源”這個目標(biāo)的一個步驟。谷歌翻譯開始利用一個更大更繁雜的數(shù)據(jù)庫,也就是全球的互聯(lián)網(wǎng),而不再只利用兩種語言之間的文本翻譯。4.3.2大數(shù)據(jù)的簡單算法與小數(shù)據(jù)的復(fù)雜算法為了訓(xùn)練計算機(jī),谷歌翻譯系統(tǒng)會吸收它能找到的所有翻譯。它從各種各樣語言的公司網(wǎng)站上尋找對譯文檔,還會去尋找聯(lián)合國和歐盟這些國際組織發(fā)布的官方文件和報告的譯本。它甚至?xí)账僮x項目中的書籍翻譯。谷歌翻譯部的負(fù)責(zé)人弗朗茲·奧齊是機(jī)器翻譯界的權(quán)威,他指出,“谷歌的翻譯系統(tǒng)不會像Candide一樣只是仔細(xì)地翻譯300萬句話,它會掌握用不同語言翻譯的質(zhì)量參差不齊的數(shù)十億頁的文檔?!辈豢紤]翻譯質(zhì)量的話,上萬億的語料庫就相當(dāng)于950億句英語。4.3.2大數(shù)據(jù)的簡單算法與小數(shù)據(jù)的復(fù)雜算法盡管其輸入源很混亂,但較其他翻譯系統(tǒng)而言,谷歌的翻譯質(zhì)量相對而言還是最好的,而且可翻譯的內(nèi)容更多。到2012年年中,谷歌數(shù)據(jù)庫涵蓋了60多種語言,甚至能夠接受14種語言的語音輸入,并有很流利的對等翻譯。之所以能做到這些,是因為它將語言視為能夠判別可能性的數(shù)據(jù),而不是語言本身。如果要將印度語譯成加泰羅尼亞語,谷歌就會把英語作為中介語言。因為在翻譯的時候它能適當(dāng)增減詞匯,所以谷歌的翻譯比其他系統(tǒng)的翻譯靈活很多。4.3.2大數(shù)據(jù)的簡單算法與小數(shù)據(jù)的復(fù)雜算法谷歌的翻譯之所以更好并不是因為它擁有一個更好的算法機(jī)制。和微軟的班科和布里爾一樣,這是因為谷歌翻譯增加了很多各種各樣的數(shù)據(jù)。從谷歌的例子來看,它之所以能比IBM的Candide系統(tǒng)多利用成千上萬的數(shù)據(jù),是因為它接受了有錯誤的數(shù)據(jù)。2006年,谷歌發(fā)布的上萬億的語料庫,就是來自于互聯(lián)網(wǎng)的一些廢棄內(nèi)容。這就是“訓(xùn)練集”,可以正確地推算出英語詞匯搭配在一起的可能性。4.3.2大數(shù)據(jù)的簡單算法與小數(shù)據(jù)的復(fù)雜算法谷歌公司人工智能專家彼得·諾維格在一篇題為《數(shù)據(jù)的非理性效果》的文章中寫道,“大數(shù)據(jù)基礎(chǔ)上的簡單算法比小數(shù)據(jù)基礎(chǔ)上的復(fù)雜算法更加有效。”他們就指出,混雜是關(guān)鍵?!坝捎诠雀枵Z料庫的內(nèi)容來自于未經(jīng)過濾的網(wǎng)頁內(nèi)容,所以會包含一些不完整的句子、拼寫錯誤、語法錯誤以及其他各種錯誤。況且,它也沒有詳細(xì)的人工糾錯后的注解。但是,谷歌語料庫的數(shù)據(jù)優(yōu)勢完全壓倒了缺點?!?.3.3紛繁的數(shù)據(jù)越多越好通常傳統(tǒng)的統(tǒng)計學(xué)家都很難容忍錯誤數(shù)據(jù)的存在,在收集樣本的時候,他們會用一整套的策略來減少錯誤發(fā)生的概率。在結(jié)果公布之前,他們也會測試樣本是否存在潛在的系統(tǒng)性偏差。這些策略包括根據(jù)協(xié)議或通過受過專門訓(xùn)練的專家來采集樣本。但是,即使只是少量的數(shù)據(jù),這些規(guī)避錯誤的策略實施起來還是耗費(fèi)巨大。尤其是當(dāng)我們收集所有數(shù)據(jù)的時候,在大規(guī)模的基礎(chǔ)上保持?jǐn)?shù)據(jù)收集標(biāo)準(zhǔn)的一致性不太現(xiàn)實。如今,我們已經(jīng)生活在信息時代。我們掌握的數(shù)據(jù)庫越來越全面,它包括了與這些現(xiàn)象相關(guān)的大量甚至全部數(shù)據(jù)。我們不再需要那么擔(dān)心某個數(shù)據(jù)點對整套分析的不利影響。我們要做的就是要接受這些紛繁的數(shù)據(jù)并從中受益,而不是以高昂的代價消除所有的不確定性。4.3.3紛繁的數(shù)據(jù)越多越好在華盛頓州布萊恩市的英國石油公司(BP)切里波因特?zé)捰蛷S(見圖4-8)里,無線感應(yīng)器遍布于整個工廠,形成無形的網(wǎng)絡(luò),能夠產(chǎn)生大量實時數(shù)據(jù)。在這里,酷熱的惡劣環(huán)境和電氣設(shè)備的存在有時會對感應(yīng)器讀數(shù)有所影響,形成錯誤的數(shù)據(jù)。但是數(shù)據(jù)生成的數(shù)量之多可以彌補(bǔ)這些小錯誤。隨時監(jiān)測管道的承壓使得BP能夠了解到,有些種類的原油比其他種類更具有腐蝕性。以前,這都是無法發(fā)現(xiàn)也無法防止的。4.3.3紛繁的數(shù)據(jù)越多越好圖4-8煉油廠4.3.3紛繁的數(shù)據(jù)越多越好有時候,當(dāng)我們掌握了大量新型數(shù)據(jù)時,精確性就不那么重要了,我們同樣可以掌握事情的發(fā)展趨勢。除了一開始會與我們的直覺相矛盾之外,接受數(shù)據(jù)的不精確和不完美,我們反而能夠更好地進(jìn)行預(yù)測,也能夠更好地理解這個世界。4.3.3紛繁的數(shù)據(jù)越多越好值得注意的是,錯誤性并不是大數(shù)據(jù)本身固有的特性,而是一個亟需我們?nèi)ヌ幚淼默F(xiàn)實問題,并且有可能長期存在。它只是我們用來測量、記錄和交流數(shù)據(jù)的工具的一個缺陷。因為擁有更大數(shù)據(jù)量所能帶來的商業(yè)利益遠(yuǎn)遠(yuǎn)超過增加一點精確性,所以通常我們不會再花大力氣去提升數(shù)據(jù)的精確性。這又是一個關(guān)注焦點的轉(zhuǎn)變,正如以前,統(tǒng)計學(xué)家們總是把他們的興趣放在提高樣本的隨機(jī)性而不是數(shù)量上。如今,大數(shù)據(jù)給我們帶來的利益,讓我們能夠接受不精確的存在了。4.3.45%的數(shù)字?jǐn)?shù)據(jù)與95%的非結(jié)構(gòu)化數(shù)據(jù)據(jù)估計,只有5%的數(shù)字?jǐn)?shù)據(jù)是結(jié)構(gòu)化的且能適用于傳統(tǒng)數(shù)據(jù)庫。如果不接受混亂,剩下95%的非結(jié)構(gòu)化數(shù)據(jù)都無法被利用,比如網(wǎng)頁和視頻資源。我們怎么看待使用所有數(shù)據(jù)和使用部分?jǐn)?shù)據(jù)的差別,以及我們怎樣選擇放松要求并取代嚴(yán)格的精確性,將會對我們與世界的溝通產(chǎn)生深刻的影響。隨著大數(shù)據(jù)技術(shù)成為日常生活中的一部分,我們應(yīng)該開始從一個比以前更大更全面的角度來理解事物,也就是說應(yīng)該將“樣本=總體”植入我們的思維中。4.3.45%的數(shù)字?jǐn)?shù)據(jù)與95%的非結(jié)構(gòu)化數(shù)據(jù)相比依賴于小數(shù)據(jù)和精確性的時代,大數(shù)據(jù)因為更強(qiáng)調(diào)數(shù)據(jù)的完整性和混雜性,幫助我們進(jìn)一步接近事實的真相。當(dāng)我們的視野局限在我們可以分析和能夠確定的數(shù)據(jù)上時,我們對世界的整體理解就可能產(chǎn)生偏差和錯誤。不僅失去了去盡力收集一切數(shù)據(jù)的動力,也失去了從各個不同角度來觀察事物的權(quán)利。所以,局限于狹隘的小數(shù)據(jù)中,我們可以自豪于對精確性的追求,但是就算我們可以分析得到細(xì)節(jié)中的細(xì)節(jié),也依然會錯過事物的全貌。大數(shù)據(jù)要求我們有所改變,我們必須能夠接受混亂和不確定性。精確性似乎一直是我們生活的支撐,但認(rèn)為每個問題只有一個答案的想法是站不住腳的。思維變革之三:數(shù)據(jù)的相關(guān)關(guān)系4.44.4思維變革之三:數(shù)據(jù)的相關(guān)關(guān)系在傳統(tǒng)觀念下,人們總是致力于找到一切事情發(fā)生背后的原因。然而在很多時候,尋找數(shù)據(jù)間的關(guān)聯(lián)并利用這種關(guān)聯(lián)就足夠了。這些思想上的重大轉(zhuǎn)變導(dǎo)致了第三個變革:我們嘗試著不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。相關(guān)關(guān)系也許不能準(zhǔn)確地告知我們某件事情為何會發(fā)生,但是它會提醒我們這件事情正在發(fā)生。在許多情況下,這種提醒的幫助已經(jīng)足夠大了。4.4思維變革之三:數(shù)據(jù)的相關(guān)關(guān)系如果數(shù)百萬條電子醫(yī)療記錄顯示橙汁和阿司匹林的特定組合可以治療癌癥,那么找出具體的藥理機(jī)制就沒有這種治療方法本身來得重要。同樣,只要我們知道什么時候是買機(jī)票的最佳時機(jī),就算不知道機(jī)票價格瘋狂變動的原因也無所謂了。大數(shù)據(jù)告訴我們“是什么”而不是“為什么”。在大數(shù)據(jù)時代,我們不必知道現(xiàn)象背后的原因,我們只要讓數(shù)據(jù)自己發(fā)聲。我們不再需要在還沒有收集數(shù)據(jù)之前,就把我們的分析建立在早已設(shè)立的少量假設(shè)的基礎(chǔ)之上。讓數(shù)據(jù)發(fā)聲,我們會注意到很多以前從來沒有意識到的聯(lián)系的存在。4.4.1關(guān)聯(lián)物,預(yù)測的關(guān)鍵雖然在小數(shù)據(jù)世界中相關(guān)關(guān)系也是有用的,但如今在大數(shù)據(jù)的背景下,通過應(yīng)用相關(guān)關(guān)系,我們可以比以前更容易、更快捷、更清楚地分析事物。所謂相關(guān)關(guān)系,其核心是指量化兩個數(shù)據(jù)值之間的數(shù)理關(guān)系。相關(guān)關(guān)系強(qiáng)是指當(dāng)一個數(shù)據(jù)值增加時,另一個數(shù)據(jù)值很有可能也會隨之增加。我們已經(jīng)看到過這種很強(qiáng)的相關(guān)關(guān)系,比如谷歌流感趨勢:在一個特定的地理位置,越多的人通過谷歌搜索特定的詞條,該地區(qū)就有更多的人患了流感。相反,相關(guān)關(guān)系弱就意味著當(dāng)一個數(shù)據(jù)值增加時,另一個數(shù)據(jù)值幾乎不會發(fā)生變化。例如,我們可以尋找關(guān)于個人的鞋碼和幸福的相關(guān)關(guān)系,但會發(fā)現(xiàn)它們幾乎扯不上什么關(guān)系。4.4.1關(guān)聯(lián)物,預(yù)測的關(guān)鍵相關(guān)關(guān)系通過識別有用的關(guān)聯(lián)物來幫助我們分析一個現(xiàn)象,而不是通過揭示其內(nèi)部的運(yùn)作機(jī)制。當(dāng)然,即使是很強(qiáng)的相關(guān)關(guān)系也不一定能解釋每一種情況,比如兩個事物看上去行為相似,但很有可能只是巧合。相關(guān)關(guān)系沒有絕對,只有可能性。也就是說,不是亞馬遜推薦的每本書都是顧客想買的書。但是,如果相關(guān)關(guān)系強(qiáng),一個相關(guān)鏈接成功的概率是很高的。這一點很多人可以證明,他們的書架上有很多書都是因為亞馬遜推薦而購買的。4.4.1關(guān)聯(lián)物,預(yù)測的關(guān)鍵通過找到一個現(xiàn)象的良好的關(guān)聯(lián)物,相關(guān)關(guān)系可以幫助我們捕捉現(xiàn)在和預(yù)測未來。如果A和B經(jīng)常一起發(fā)生,我們只需要注意到B發(fā)生了.就可以預(yù)測A也發(fā)生了。這有助于我們捕捉可能和A一起發(fā)生的事情,即使我們不能直接測量或觀察到A。更重要的是,它還可以幫助我們預(yù)測未來可能發(fā)生什么。當(dāng)然,相關(guān)關(guān)系是無法預(yù)知未來的,他們只能預(yù)測可能發(fā)生的事情。但是,這已經(jīng)極其珍貴了。在大數(shù)據(jù)時代,建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測是大數(shù)據(jù)的核心。這種預(yù)測發(fā)生的頻率非常高,以至于我們經(jīng)常忽略了它的創(chuàng)新性。當(dāng)然,它的應(yīng)用會越來越多。4.4.1關(guān)聯(lián)物,預(yù)測的關(guān)鍵在社會環(huán)境下尋找關(guān)聯(lián)物只是大數(shù)據(jù)分析法采取的一種方式。同樣有用的一種方法是,通過找出新種類數(shù)據(jù)之間的相互聯(lián)系來解決日常需要。比方說,一種稱為預(yù)測分析法的方法就被廣泛地應(yīng)用于商業(yè)領(lǐng)域,它可以預(yù)測事件的發(fā)生。這可以指一個能發(fā)現(xiàn)可能的流行歌曲的算法系統(tǒng)——音樂界廣泛采用這種方法來確保它們看好的歌曲真的會流行;也可以指那些用來防止機(jī)器失效和建筑倒塌的方法?,F(xiàn)在,在機(jī)器、發(fā)動機(jī)和橋梁等基礎(chǔ)設(shè)施上放置傳感器變得越來越平常了,這些傳感器被用來記錄散發(fā)的熱量、振幅、承壓和發(fā)出的聲音等。4.4.1關(guān)聯(lián)物,預(yù)測的關(guān)鍵一個東西要出故障,不會是瞬間的,而是慢慢地出問題的。通過收集所有的數(shù)據(jù),我們可以預(yù)先捕捉到事物要出故障的信號,比方說發(fā)動機(jī)的嗡嗡聲、引擎過熱都說明它們可能要出故障了。系統(tǒng)把這些異常情況與正常情況進(jìn)行對比,就會知道什么地方出了毛病。通過盡早地發(fā)現(xiàn)異常,系統(tǒng)可以提醒我們在故障之前更換零件或者修復(fù)問題。通過找出一個關(guān)聯(lián)物并監(jiān)控它,我們就能預(yù)測未來。4.4.2是“什么”,而不是“為什么”在小數(shù)據(jù)時代,相關(guān)關(guān)系分析和因果分析都不容易,耗費(fèi)巨大,都要從建立假設(shè)開始,然后進(jìn)行實驗——這個假設(shè)要么被證實要么被推翻。但是,由于兩者都始于假設(shè),這些分析就都有受偏見影響的可能,極易導(dǎo)致錯誤。與此同時,用來
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度醫(yī)療廢物處理及回收服務(wù)合同4篇
- 2025年度木結(jié)構(gòu)工程綠色施工技術(shù)指導(dǎo)合同3篇
- FIDIC合同條件中的紅皮書是指
- 2025年度木屑廢棄物資源化利用合同4篇
- 2025年租賃房屋租賃合同解除后責(zé)任承擔(dān)協(xié)議3篇
- 二零二五年度城市綠化景觀工程養(yǎng)護(hù)合同范本3篇
- 2025年度綠色環(huán)保技術(shù)研發(fā)項目貸款合同及違約賠償條款4篇
- 2025年度農(nóng)產(chǎn)品進(jìn)出口代理服務(wù)合同2篇
- 2025年度漁船買賣合同(含漁船改裝與升級服務(wù))4篇
- 二零二五年度木制玩具生產(chǎn)木工勞務(wù)分包合同4篇
- 鹽酸??颂婺崤R床療效、不良反應(yīng)與藥代動力學(xué)的相關(guān)性分析的開題報告
- 消防設(shè)施安全檢查表
- 組合結(jié)構(gòu)設(shè)計原理 第2版 課件 第6、7章 鋼-混凝土組合梁、鋼-混凝土組合剪力墻
- 建筑公司資質(zhì)常識培訓(xùn)課件
- 旅居管家策劃方案
- GB/T 26316-2023市場、民意和社會調(diào)查(包括洞察與數(shù)據(jù)分析)術(shù)語和服務(wù)要求
- 春節(jié)值班安全教育培訓(xùn)
- 帶狀皰疹護(hù)理查房
- 平衡計分卡-化戰(zhàn)略為行動
- 幼兒園小班下學(xué)期期末家長會PPT模板
- 幼兒教師干預(yù)幼兒同伴沖突的行為研究 論文
評論
0/150
提交評論