版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
項(xiàng)目2大數(shù)據(jù)時(shí)代思維變革目錄1任務(wù)2.1:理解思維轉(zhuǎn)變之一:樣本=總體2任務(wù)2.2:理解思維轉(zhuǎn)變之二:接受數(shù)據(jù)的混雜性3任務(wù)2.3:理解思維轉(zhuǎn)變之三:數(shù)據(jù)的相關(guān)關(guān)系【導(dǎo)讀案例】亞馬遜推薦系統(tǒng)討論:(1)你熟悉亞馬遜等電商網(wǎng)站的推薦系統(tǒng)嗎?請(qǐng)列舉一個(gè)這樣的實(shí)例(你選擇購(gòu)買(mǎi)什么商品,網(wǎng)站又給你推薦了其他什么商品)。(2)亞馬遜書(shū)評(píng)組和林登推薦系統(tǒng)各自成功的基礎(chǔ)是什么?(3)為什么書(shū)評(píng)組最終輸給了推薦系統(tǒng)?請(qǐng)說(shuō)說(shuō)你的觀點(diǎn)。(4)請(qǐng)簡(jiǎn)單記述你所知道的上一周內(nèi)發(fā)生的國(guó)
際、國(guó)內(nèi)或者身邊的大事?!救蝿?wù)描述】(1)熟悉大數(shù)據(jù)時(shí)代思維變革的基本概念和主要內(nèi)容;(2)回顧在傳統(tǒng)情況下,人們分析信息,了解世界的主要方法;(3)熟悉大數(shù)據(jù)時(shí)代人們思維變革的第一個(gè)轉(zhuǎn)變,即“分析更多數(shù)據(jù)而不再是只依賴于隨機(jī)采樣”?!局R(shí)準(zhǔn)備】分析更多數(shù)據(jù)而不再是只依賴于隨機(jī)采樣人類使用數(shù)據(jù)已經(jīng)有相當(dāng)長(zhǎng)一段時(shí)間了,無(wú)論是日常進(jìn)行的大量非正式觀察,還是過(guò)去幾個(gè)世紀(jì)以來(lái)在專業(yè)層面上用高級(jí)算法進(jìn)行的量化研究,都與數(shù)據(jù)有關(guān)。在數(shù)字化時(shí)代,數(shù)據(jù)處理變得更加容易、更加快速,人們能夠在瞬間處理成千上萬(wàn)的數(shù)據(jù)。而“大數(shù)據(jù)”全在于發(fā)現(xiàn)和理解信息內(nèi)容及信息與信息之間的關(guān)系。實(shí)際上,大數(shù)據(jù)的精髓在于我們分析信息時(shí)的三個(gè)轉(zhuǎn)變,這些轉(zhuǎn)變將改變我們理解和組建社會(huì)的方法,這三個(gè)轉(zhuǎn)變是相互聯(lián)系和相互作用的?!局R(shí)準(zhǔn)備】分析更多數(shù)據(jù)而不再是只依賴于隨機(jī)采樣19世紀(jì)以來(lái),當(dāng)面臨大量數(shù)據(jù)時(shí),社會(huì)都依賴于采樣分析。但是采樣分析是信息缺乏時(shí)代和信息流通受限制的模擬數(shù)據(jù)時(shí)代的產(chǎn)物。以前我們通常把這看成是理所當(dāng)然的限制,但高性能數(shù)字技術(shù)的流行讓我們意識(shí)到,這其實(shí)是一種人為的限制。與局限在小數(shù)據(jù)范圍相比,使用一切數(shù)據(jù)為我們帶來(lái)了更高的精確性,也讓我們看到了一些以前無(wú)法發(fā)現(xiàn)的細(xì)節(jié)——大數(shù)據(jù)讓我們更清楚地看到了樣本無(wú)法揭示的細(xì)節(jié)信息。大數(shù)據(jù)時(shí)代的第一個(gè)轉(zhuǎn)變,是要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本?!局R(shí)準(zhǔn)備】分析更多數(shù)據(jù)而不再是只依賴于隨機(jī)采樣很長(zhǎng)以來(lái),因?yàn)橛涗洝?chǔ)存和分析數(shù)據(jù)的工具不夠好,為了讓分析變得簡(jiǎn)單,人們會(huì)把數(shù)據(jù)量縮減到最少,人們依據(jù)少量數(shù)據(jù)進(jìn)行分析,而準(zhǔn)確分析大量數(shù)據(jù)一直都是一種挑戰(zhàn)。如今,信息技術(shù)的條件已經(jīng)有了非常大的提高,雖然人類可以處理的數(shù)據(jù)依然是有限的,但是可以處理的數(shù)據(jù)量已經(jīng)大大地增加,而且未來(lái)會(huì)越來(lái)越多?!局R(shí)準(zhǔn)備】分析更多數(shù)據(jù)而不再是只依賴于隨機(jī)采樣在某些方面,人們依然沒(méi)有完全意識(shí)到自己擁有了能夠收集和處理更大規(guī)模數(shù)據(jù)的能力,還是在信息匱乏的假設(shè)下做很多事情,假定自己只能收集到少量信息。這是一個(gè)自找實(shí)現(xiàn)的過(guò)程。人們甚至發(fā)展了一些使用盡可能少的信息的技術(shù)。例如,統(tǒng)計(jì)學(xué)的一個(gè)目的就是用盡可能少的數(shù)據(jù)來(lái)證實(shí)盡可能重大的發(fā)現(xiàn)。事實(shí)上,我們形成了一種習(xí)慣,那就是在制度、處理過(guò)程和激勵(lì)機(jī)制中盡可能地減少數(shù)據(jù)的使用。小數(shù)據(jù)時(shí)代的隨機(jī)采樣2.1.12.1.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣數(shù)千年來(lái),政府一直都試圖通過(guò)收集信息來(lái)管理國(guó)民,只是到最近,小企業(yè)和個(gè)人才有可能擁有大規(guī)模收集和分類數(shù)據(jù)的能力,而此前,大規(guī)模的計(jì)數(shù)則是政府的事情。以人口普查為例。據(jù)說(shuō)古代埃及曾進(jìn)行過(guò)人口普查,《舊約》和《新約》中對(duì)此都有所提及。那次由奧古斯都愷撒(見(jiàn)圖2-2)主導(dǎo)實(shí)施的人口普查,提出了“每個(gè)人都必須納稅”。2.1.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣圖2-2奧古斯都愷撒2.1.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣1086年的《末日審判書(shū)》對(duì)當(dāng)時(shí)英國(guó)的人口、土地和財(cái)產(chǎn)做了一個(gè)前所未有的全面記載?;始椅瘑T穿越整個(gè)國(guó)家對(duì)每個(gè)人、每件事都做了記載,后來(lái)這本書(shū)用《圣經(jīng)》中的《末日審判書(shū)》命名,因?yàn)槊總€(gè)人的生活都被赤裸裸地記載下來(lái)的過(guò)程就像接受“最后的審判”一樣。然而,人口普查是一項(xiàng)耗資且費(fèi)時(shí)的事情,盡管如此,當(dāng)時(shí)收集的信息也只是一個(gè)大概情況,實(shí)施人口普查的人也知道他們不可能準(zhǔn)確記錄下每個(gè)人的信息。實(shí)際上,“人口普查”這個(gè)詞來(lái)源于拉丁語(yǔ)的“censere”,本意就是推測(cè)、估算。2.1.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣三百多年前,一個(gè)名叫約翰·格朗特的英國(guó)縫紉用品商提出了一個(gè)很有新意的方法,來(lái)推算出鼠疫時(shí)期倫敦的人口數(shù),這種方法就是后來(lái)的統(tǒng)計(jì)學(xué)。這個(gè)方法不需要一個(gè)人一個(gè)人地計(jì)算。雖然這個(gè)方法比較粗糙,但采用這個(gè)方法,人們可以利用少量有用的樣本信息來(lái)獲取人口的整體情況。雖然后來(lái)證實(shí)他能夠得出正確的數(shù)據(jù)僅僅是因?yàn)檫\(yùn)氣好,但在當(dāng)時(shí)他的方法大受歡迎。樣本分析法一直都有較大的漏洞,因此,無(wú)論是進(jìn)行人口普查還是其他大數(shù)據(jù)類的任務(wù),人們還是一直使用清點(diǎn)這種“野蠻”的方法。2.1.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣考慮到人口普查的復(fù)雜性以及耗時(shí)耗費(fèi)的特點(diǎn),政府極少進(jìn)行普查。古羅馬在擁有數(shù)十萬(wàn)人口的時(shí)候每5年普查一次。美國(guó)憲法規(guī)定每10年進(jìn)行一次人口普查,而隨著國(guó)家人口越來(lái)越多,只能以百萬(wàn)計(jì)數(shù)。但是到19世紀(jì)為止,即使這樣不頻繁的人口普查依然很困難,因?yàn)閿?shù)據(jù)變化的速度超過(guò)了人口普查局統(tǒng)計(jì)分析的能力。2.1.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣中國(guó)的人口調(diào)查有近4000年的歷史,留下了豐富的人口史料。但是,在封建制度下,歷代政府都是為了征稅、抽丁等才進(jìn)行人口調(diào)查,因而隱瞞匿報(bào)人口的現(xiàn)象十分嚴(yán)重,調(diào)查統(tǒng)計(jì)的口徑也很不一致。具有近代意義的人口普查,在1949年以前有過(guò)兩次:一次是清宣統(tǒng)元年(1909)進(jìn)行的人口清查,另一次是民國(guó)17年(1928)國(guó)民政府試行的全國(guó)人口調(diào)查。前者多數(shù)省僅調(diào)查戶數(shù)而無(wú)人口數(shù),推算出當(dāng)時(shí)中國(guó)人口約為3.7億多人,包括邊民戶數(shù)總計(jì)約為4億人口。后者只規(guī)定調(diào)查常住人口,沒(méi)有規(guī)定標(biāo)準(zhǔn)時(shí)間。經(jīng)過(guò)3年時(shí)間,也只對(duì)13個(gè)省進(jìn)行了調(diào)查,其他未調(diào)查的省的人數(shù)只進(jìn)行了估算。調(diào)查加估算的結(jié)果,全國(guó)人口約為4.75億人。2.1.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣新中國(guó)建立后,先后于1953、1964和1982年舉行過(guò)3次人口普查,1990年進(jìn)行了第4次全國(guó)人口普查。前3次人口普查是不定期進(jìn)行的,自1990年開(kāi)始改為定期進(jìn)行。根據(jù)《中華人民共和國(guó)統(tǒng)計(jì)法實(shí)施細(xì)則》和國(guó)務(wù)院的決定以及國(guó)務(wù)院2010年頒布的《全國(guó)人口普查條例》規(guī)定,人口普查每10年進(jìn)行一次,尾數(shù)逢0的年份為普查年度(見(jiàn)圖2-3)。兩次普查之間,進(jìn)行一次簡(jiǎn)易人口普查。2020年為第七次全國(guó)人口普查時(shí)間。2.1.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣圖2-3中國(guó)人口普查2.1.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣新中國(guó)第一次人口普查的標(biāo)準(zhǔn)時(shí)間是1953年6月30日24時(shí),所謂人口普查的標(biāo)準(zhǔn)時(shí)間,就是規(guī)定一個(gè)時(shí)間點(diǎn),無(wú)論普查員入戶登記在哪一天進(jìn)行,登記的人口及其各種特征都是反映那個(gè)時(shí)間點(diǎn)上的情況。根據(jù)上述規(guī)定,不管普查員在哪天進(jìn)行入戶登記,普查對(duì)象所申報(bào)的都應(yīng)該是標(biāo)準(zhǔn)時(shí)間的情況。通過(guò)這個(gè)標(biāo)準(zhǔn)時(shí)間,所有普查員普查登記完成后,經(jīng)過(guò)匯總就可以得到全國(guó)人口的總數(shù)和各種人口狀況的數(shù)據(jù)。1953年11月1日發(fā)布了人口普查的主要數(shù)據(jù),當(dāng)時(shí)全國(guó)人口總數(shù)為601938035人。2.1.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣第六次人口普查的標(biāo)準(zhǔn)時(shí)間是2010年11月1日零時(shí)。2011年4月,發(fā)布了第六次全國(guó)人口普查主要數(shù)據(jù)。此次人口普查登記的全國(guó)總?cè)丝跒?339724852人。比2000年第五次人口普查相比,10年增加7390萬(wàn)人,增長(zhǎng)5.84%,年平均增長(zhǎng)0.57%,比1990年到2000年年均1.07%的長(zhǎng)率下降了0.5個(gè)百分點(diǎn)。2.1.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣美國(guó)在1880年進(jìn)行的人口普查,耗時(shí)8年才完成數(shù)據(jù)匯總。因此,他們獲得的很多數(shù)據(jù)都是過(guò)時(shí)的。1890年進(jìn)行的人口普查,預(yù)計(jì)要花費(fèi)13年的時(shí)間來(lái)匯總數(shù)據(jù)。然而,因?yàn)槎愂辗謹(jǐn)偤蛧?guó)會(huì)代表人數(shù)確定都是建立在人口的基礎(chǔ)上的,必須獲得正確且及時(shí)的數(shù)據(jù)。很明顯,當(dāng)人們被數(shù)據(jù)淹沒(méi)的時(shí)候,已有的數(shù)據(jù)處理工具已經(jīng)難以應(yīng)付了,所以就需要有新技術(shù)。后來(lái),美國(guó)人口普查局就和美國(guó)發(fā)明家赫爾曼?霍爾瑞斯(被稱為現(xiàn)代自動(dòng)計(jì)算之父)簽訂了一個(gè)協(xié)議,用他的穿孔卡片制表機(jī)(見(jiàn)圖2-4)來(lái)完成1890年的人口普查。2.1.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣圖2-4霍爾瑞斯普查機(jī)2.1.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣經(jīng)過(guò)大量的努力,霍爾瑞斯成功地在1年時(shí)間內(nèi)完成了人口普查的數(shù)據(jù)匯總工作。這簡(jiǎn)直就是一個(gè)奇跡,它標(biāo)志著自動(dòng)處理數(shù)據(jù)的開(kāi)端,也為后來(lái)IBM公司的成立奠定了基礎(chǔ)。但是,將其作為收集處理大數(shù)據(jù)的方法依然過(guò)于昂貴。畢竟,每個(gè)美國(guó)人都必須填一張可制成穿孔卡片的表格,然后再進(jìn)行統(tǒng)計(jì)。這么麻煩的情況下,很難想象如果不足十年就要進(jìn)行一次人口普查應(yīng)該怎么辦。對(duì)于一個(gè)跨越式發(fā)展的國(guó)家而言,十年一次的人口普查的滯后性已經(jīng)讓普查失去了大部分意義。2.1.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣這就是問(wèn)題所在,是利用所有的數(shù)據(jù)還是僅僅采用一部分呢?最明智的自然是得到有關(guān)被分析事物的所有數(shù)據(jù),但是當(dāng)數(shù)量無(wú)比龐大時(shí),這又不太現(xiàn)實(shí)。那如何選擇樣本呢?有人提出有目的地選擇最具代表性的樣本是最恰當(dāng)?shù)姆椒ā?934年,波蘭統(tǒng)計(jì)學(xué)家耶日·奈曼指出,這只會(huì)導(dǎo)致更多更大的漏洞。事實(shí)證明,問(wèn)題的關(guān)鍵是選擇樣本時(shí)的隨機(jī)性。統(tǒng)計(jì)學(xué)家們證明:采樣分析的精確性隨著采樣隨機(jī)性的增加而大幅提高,但與樣本數(shù)量的增加關(guān)系不大。雖然聽(tīng)起來(lái)很不可思議,但事實(shí)上,研究表明,當(dāng)樣本數(shù)量達(dá)到了某個(gè)值之后,我們從新個(gè)體身上得到的信息會(huì)越來(lái)越少,就如同經(jīng)濟(jì)學(xué)中的邊際效應(yīng)遞減一樣。2.1.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣認(rèn)為樣本選擇的隨機(jī)性比樣本數(shù)量更重要,這種觀點(diǎn)是非常有見(jiàn)地的。這種觀點(diǎn)為我們開(kāi)辟了一條收集信息的新道路。通過(guò)收集隨機(jī)樣本,我們可以用較少的花費(fèi)做出高精準(zhǔn)度的推斷。因此,政府每年都可以用隨機(jī)采樣的方法進(jìn)行小規(guī)模的人口普查,而不是只在每十年進(jìn)行一次。事實(shí)上,政府也這樣做了。例如,除了十年一次的人口大普查,美國(guó)人口普查局每年都會(huì)用隨機(jī)采樣的方法對(duì)經(jīng)濟(jì)和人口進(jìn)行200多次小規(guī)模的調(diào)查。當(dāng)收集和分析數(shù)據(jù)都不容易時(shí),隨機(jī)采樣就成為應(yīng)對(duì)信息采集困難的辦法。2.1.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣在商業(yè)領(lǐng)域,隨機(jī)采樣被用來(lái)監(jiān)管商品質(zhì)量。這使得監(jiān)管商品質(zhì)量和提升商品品質(zhì)變得更容易,花費(fèi)也更少。以前,全面的質(zhì)量監(jiān)管要求對(duì)生產(chǎn)出來(lái)的每個(gè)產(chǎn)品進(jìn)行檢查,而現(xiàn)在只需從一批商品中隨機(jī)抽取部分樣品進(jìn)行檢查就可以了。本質(zhì)上來(lái)說(shuō),隨機(jī)采樣讓大數(shù)據(jù)問(wèn)題變得更加切實(shí)可行。同理,它將客戶調(diào)查引進(jìn)了零售行業(yè),將焦點(diǎn)討論引進(jìn)了政治界,也將許多人文問(wèn)題變成了社會(huì)科學(xué)問(wèn)題。隨機(jī)采樣取得了巨大的成功,成為現(xiàn)代社會(huì)、現(xiàn)代測(cè)量領(lǐng)域的主心骨。但這只是一條捷徑,是在不可收集和分析全部數(shù)據(jù)的情況下的選擇,它本身存在許多固有的缺陷。它的成功依賴于采樣的絕對(duì)隨機(jī)性,但是實(shí)現(xiàn)采樣的隨機(jī)性非常困難。一旦采樣過(guò)程中存在任何偏見(jiàn),分析結(jié)果就會(huì)相去甚遠(yuǎn)。2.1.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣在美國(guó)總統(tǒng)大選中,以固定電話用戶為基礎(chǔ)進(jìn)行投票民調(diào)就面臨了這樣的問(wèn)題,采樣缺乏隨機(jī)性,因?yàn)闆](méi)有考慮到只使用移動(dòng)電話的用戶——這些用戶一般更年輕和更熱愛(ài)自由,不考慮這些用戶,自然就得不到正確的預(yù)測(cè)。2008年在奧巴馬與麥凱恩之間進(jìn)行的美國(guó)總統(tǒng)大選中,蓋洛普咨詢公司、皮尤研究中心、美國(guó)廣播公司和《華盛頓郵報(bào)》社這些主要的民調(diào)組織都發(fā)現(xiàn),如果不把移動(dòng)用戶考慮進(jìn)來(lái),民意測(cè)試的結(jié)果就會(huì)出現(xiàn)三個(gè)點(diǎn)的偏差,而一旦考慮進(jìn)來(lái),偏差就只有一個(gè)點(diǎn)。鑒于這次大選的票數(shù)差距極其微弱,這已經(jīng)是非常大的偏差了。2.1.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣更糟糕的是,隨機(jī)采樣不適合考察子類別的情況。因?yàn)橐坏├^續(xù)細(xì)分,隨機(jī)采樣結(jié)果的錯(cuò)誤率會(huì)大大增加。因此,當(dāng)人們想了解更深層次的細(xì)分領(lǐng)域的情況時(shí),隨機(jī)采樣的方法就不可取了。在宏觀領(lǐng)域起作用的方法在微觀領(lǐng)域失去了作用。隨機(jī)采樣就像是模擬照片打印,遠(yuǎn)看很不錯(cuò),但是一旦聚焦某個(gè)點(diǎn),就會(huì)變得模糊不清。隨機(jī)采樣也需要嚴(yán)密的安排和執(zhí)行。人們只能從采樣數(shù)據(jù)中得出事先設(shè)計(jì)好的問(wèn)題的結(jié)果。所以雖說(shuō)隨機(jī)采樣是一條捷徑,但它并不適用于一切情況,因?yàn)檫@種調(diào)查結(jié)果缺乏延展性,即調(diào)查得出的數(shù)據(jù)不可以重新分析以實(shí)現(xiàn)計(jì)劃之外的目的。大數(shù)據(jù)與喬布斯的癌癥治療2.1.22.1.2大數(shù)據(jù)與喬布斯的癌癥治療我們來(lái)看一下DNA分析。由于技術(shù)成本大幅下跌以及在醫(yī)學(xué)方面的廣闊前景,個(gè)人基因排序成為了一門(mén)新興產(chǎn)業(yè)(見(jiàn)圖2-5)。從2007年起,硅谷的新興科技公司23andme就開(kāi)始分析人類基因,價(jià)格僅為幾百美元。這可以揭示出人類遺傳密碼中一些會(huì)導(dǎo)致其對(duì)某些疾病抵抗力差的特征,如乳腺癌和心臟病。23andme希望能通過(guò)整合顧客的DNA和健康信息,了解到用其他方式不能獲取的新信息。公司對(duì)某人的一小部分DNA進(jìn)行排序,標(biāo)注出幾十個(gè)特定的基因缺陷。這只是該人整個(gè)基因密碼的樣本,還有幾十億個(gè)基因堿基對(duì)未排序。最后,23andme只能回答其標(biāo)注過(guò)的基因組表現(xiàn)出來(lái)的問(wèn)題。發(fā)現(xiàn)新標(biāo)注時(shí),該人的DNA必須重新排序,更準(zhǔn)確地說(shuō),是相關(guān)的部分必須重新排列。只研究樣本而不是整體,有利有弊:能更快更容易地發(fā)現(xiàn)問(wèn)題,但不能回答事先未考慮到的問(wèn)題。2.1.2大數(shù)據(jù)與喬布斯的癌癥治療圖2-5世界民族基因總圖(美國(guó))2.1.2大數(shù)據(jù)與喬布斯的癌癥治療蘋(píng)果公司的傳奇總裁史蒂夫·喬布斯在與癌癥斗爭(zhēng)的過(guò)程中采用了不同的方式,成為世界上第一個(gè)對(duì)自身所有DNA和腫瘤DNA進(jìn)行排序的人。為此,他支付了高達(dá)幾十萬(wàn)美元的費(fèi)用,這是23andme報(bào)價(jià)的幾百倍之多。所以,他得到的不是一個(gè)只有一系列標(biāo)記的樣本,他得到了包括整個(gè)基因密碼的數(shù)據(jù)文檔。對(duì)于一個(gè)普通的癌癥患者,醫(yī)生只能期望她的DNA排列同試驗(yàn)中使用的樣本足夠相似。但是,史蒂夫?喬布斯的醫(yī)生們能夠基于喬布斯的特定基因組成,按所需效果用藥。如果癌癥病變導(dǎo)致藥物失效,醫(yī)生可以及時(shí)更換另一種藥。喬布斯曾經(jīng)開(kāi)玩笑地說(shuō):“我要么是第一個(gè)通過(guò)這種方式戰(zhàn)勝癌癥的人,要么就是最后一個(gè)因?yàn)檫@種方式死于癌癥的人?!彪m然他的愿望都沒(méi)有實(shí)現(xiàn),但是這種獲得所有數(shù)據(jù)而不僅是樣本的方法還是將他的生命延長(zhǎng)了好幾年。全數(shù)據(jù)模式:樣本=總體2.1.32.1.3全數(shù)據(jù)模式:樣本=總體采樣的目的是用最少的數(shù)據(jù)得到最多的信息,而當(dāng)我們可以獲得海量數(shù)據(jù)的時(shí)候,采樣就沒(méi)有什么意義了。如今,計(jì)算和制表已經(jīng)不再困難,感應(yīng)器、手機(jī)導(dǎo)航、網(wǎng)站點(diǎn)擊和微信等被動(dòng)地收集了大量數(shù)據(jù),而計(jì)算機(jī)可以輕易地對(duì)這些數(shù)據(jù)進(jìn)行處理。但是,數(shù)據(jù)處理技術(shù)己經(jīng)發(fā)生了翻天覆地的改變,而我們的方法和思維卻沒(méi)有跟上這種改變。在很多領(lǐng)域,從收集部分?jǐn)?shù)據(jù)到收集盡可能多的數(shù)據(jù)的轉(zhuǎn)變已經(jīng)發(fā)生。如果可能的話,我們會(huì)收集所有的數(shù)據(jù),即“樣本=總體”。2.1.3全數(shù)據(jù)模式:樣本=總體“樣本=總體”是指我們能對(duì)數(shù)據(jù)進(jìn)行深度探討。在上面提到的有關(guān)采樣的例子中,用采樣的方法分析情況,正確率可達(dá)97%。對(duì)于某些事物來(lái)說(shuō),3%的錯(cuò)誤率是可以接受的。但是你無(wú)法得到一些微觀細(xì)節(jié)的信息,甚至還會(huì)失去對(duì)某些特定子類別進(jìn)行進(jìn)一步研究的能力。我們不能滿足于正態(tài)分布一般中庸平凡的景象。生活中有很多事情經(jīng)常藏匿在細(xì)節(jié)之中,而采樣分析法卻無(wú)法捕捉到這些細(xì)節(jié)。2.1.3全數(shù)據(jù)模式:樣本=總體谷歌流感趨勢(shì)預(yù)測(cè)不是依賴于隨機(jī)樣本,而是分析了全美國(guó)幾十億條互聯(lián)網(wǎng)檢索記錄。分析整個(gè)數(shù)據(jù)庫(kù),而不是對(duì)一個(gè)小樣本進(jìn)行分析,能夠提高微觀層面分析的準(zhǔn)確性,甚至能夠推測(cè)出某個(gè)特定城市的流感狀況。所以,我們現(xiàn)在經(jīng)常會(huì)放棄樣本分析這條捷徑,選擇收集全面而完整的數(shù)據(jù)。我們需要足夠的數(shù)據(jù)處理和存儲(chǔ)能力,也需要最先進(jìn)的分析技術(shù)。同時(shí),簡(jiǎn)單廉價(jià)的數(shù)據(jù)收集方法也很重要。過(guò)去,這些問(wèn)題中的任何一個(gè)都很棘手。在一個(gè)資源有限的時(shí)代,要解決這些問(wèn)題需要付出很高的代價(jià)。但是現(xiàn)在,解決這些難題已經(jīng)變得簡(jiǎn)單容易得多。曾經(jīng)只有大公司才能做到的事情,現(xiàn)在絕大部分的公司都可以做到了。2.1.3全數(shù)據(jù)模式:樣本=總體通過(guò)使用所有的數(shù)據(jù),我們可以發(fā)現(xiàn)如若不然則將會(huì)在大量數(shù)據(jù)中淹沒(méi)掉的情況。例如,信用卡詐騙是通過(guò)觀察異常情況來(lái)識(shí)別的,只有掌握了所有的數(shù)據(jù)才能做到這一點(diǎn)。在這種情況下,異常值是最有用的信息,你可以把它與正常交易情況進(jìn)行對(duì)比。這是一個(gè)大數(shù)據(jù)問(wèn)題。而且,因?yàn)榻灰资羌磿r(shí)的,所以你的數(shù)據(jù)分析也應(yīng)該是即時(shí)的。2.1.3全數(shù)據(jù)模式:樣本=總體然而,使用所有的數(shù)據(jù)并不代表這是一項(xiàng)艱巨的任務(wù)。大數(shù)據(jù)中的“大”不是絕對(duì)意義上的大,雖然在大多數(shù)情況下是這個(gè)意思。谷歌流感趨勢(shì)預(yù)測(cè)建立在數(shù)億的數(shù)學(xué)模型上,而它們又建立在數(shù)十億數(shù)據(jù)節(jié)點(diǎn)的基礎(chǔ)之上。完整的人體基因組有約30億個(gè)堿基對(duì)。但這只是單純的數(shù)據(jù)節(jié)點(diǎn)的絕對(duì)數(shù)量,不代表它們就是大數(shù)據(jù)。大數(shù)據(jù)是指不用隨機(jī)分析法這樣的捷徑,而采用所有數(shù)據(jù)的方法。谷歌流感趨勢(shì)和喬布斯的醫(yī)生們采取的就是大數(shù)據(jù)的方法。因?yàn)榇髷?shù)據(jù)是建立在掌握所有數(shù)據(jù),至少是盡可能多的數(shù)據(jù)的基礎(chǔ)上的,所以我們就可以正確地考察細(xì)節(jié)并進(jìn)行新的分析。在任何細(xì)微的層面,我們都可以用大數(shù)據(jù)去論證新的假設(shè)。是大數(shù)據(jù)讓我們發(fā)現(xiàn)了流感的傳播區(qū)域和對(duì)抗癌癥需要針對(duì)的那部分DNA。它讓我們能清楚分析微觀層面的情況。2.1.3全數(shù)據(jù)模式:樣本=總體當(dāng)然,有些時(shí)候,我們還是可以使用樣本分析法,畢竟我們?nèi)匀换钤谝粋€(gè)資源有限的時(shí)代。但是更多時(shí)候,利用手中掌握的所有數(shù)據(jù)成為了最好也是可行的選擇。社會(huì)科學(xué)是被“樣本=總體”撼動(dòng)得最厲害的學(xué)科。隨著大數(shù)據(jù)分析取代了樣本分析,社會(huì)科學(xué)不再單純依賴于分析實(shí)證數(shù)據(jù)。這門(mén)學(xué)科過(guò)去曾非常依賴樣本分析、研究和調(diào)查問(wèn)卷。當(dāng)記錄下來(lái)的是人們的平常狀態(tài),也就不用擔(dān)心在做研究和調(diào)查問(wèn)卷時(shí)存在的偏見(jiàn)了?,F(xiàn)在,我們可以收集過(guò)去無(wú)法收集到的信息,不管是通過(guò)移動(dòng)電話表現(xiàn)出的關(guān)系,還是通過(guò)推特信息表現(xiàn)出的感情。更重要的是,我們現(xiàn)在也不再依賴抽樣調(diào)查了。2.1.3全數(shù)據(jù)模式:樣本=總體我們總是習(xí)慣把統(tǒng)計(jì)抽樣看作文明得以建立的牢固基石,就如同幾何學(xué)定理和萬(wàn)有引力定律一樣。但是統(tǒng)計(jì)抽樣其實(shí)只是為了在技術(shù)受限的特定時(shí)期,解決當(dāng)時(shí)存在的一些特定問(wèn)題而產(chǎn)生的,其歷史尚不足一百年。如今,技術(shù)環(huán)境已經(jīng)有了很大的改善。在大數(shù)據(jù)時(shí)代進(jìn)行抽樣分析就像是在汽車時(shí)代騎馬一樣。在某些特定的情況下,我們依然可以使用樣本分析法,但這不再是我們分析數(shù)據(jù)的主要方式。慢慢地,我們會(huì)完全拋棄樣本分析?!咀鳂I(yè)】討論:【實(shí)訓(xùn)操作】搜索與分析,體驗(yàn)“樣本=總體”討論:目錄1任務(wù)2.1:理解思維轉(zhuǎn)變之一:樣本=總體2任務(wù)2.2:理解思維轉(zhuǎn)變之二:接受數(shù)據(jù)的混雜性3任務(wù)2.3:理解思維轉(zhuǎn)變之三:數(shù)據(jù)的相關(guān)關(guān)系【導(dǎo)讀案例】得數(shù)據(jù)者得天下討論:(1)請(qǐng)?jiān)诶斫獾幕A(chǔ)上簡(jiǎn)單闡述:什么是數(shù)據(jù)驅(qū)動(dòng)?(2)請(qǐng)簡(jiǎn)單闡述:本文為什么說(shuō)“數(shù)據(jù)驅(qū)動(dòng)≠大數(shù)據(jù)”?(3)請(qǐng)簡(jiǎn)單分析數(shù)據(jù)驅(qū)動(dòng)與大數(shù)據(jù)的練習(xí)與區(qū)別。(4)請(qǐng)簡(jiǎn)單記述你所知道的上一周內(nèi)發(fā)生的國(guó)際、國(guó)內(nèi)或者身邊的大事?!救蝿?wù)描述】(1)熟悉大數(shù)據(jù)時(shí)代思維變革的基本概念和主要內(nèi)容;(2)回顧在傳統(tǒng)情況下,人們分析信息,了解世界的主要方法;(3)熟悉大數(shù)據(jù)時(shí)代人們思維變革的第二個(gè)轉(zhuǎn)變,即“不再熱衷于追求精確度”?!局R(shí)準(zhǔn)備】不再熱衷于追求精確度當(dāng)我們測(cè)量事物的能力受限時(shí),關(guān)注最重要的事情和獲取最精確的結(jié)果是可取的。直到今天,我們的數(shù)字技術(shù)依然建立在精準(zhǔn)的基礎(chǔ)上。我們假設(shè)只要電子數(shù)據(jù)表格把數(shù)據(jù)排序,數(shù)據(jù)庫(kù)引擎就可以找出和我們檢索的內(nèi)容完全一致的檢索記錄。這種思維方式適用于掌握“小數(shù)據(jù)量”的情況,因?yàn)樾枰治龅臄?shù)據(jù)很少,所以我們必須盡可能精準(zhǔn)地量化我們的記錄。在某些方面,我們已經(jīng)意識(shí)到了差別。例如,一個(gè)小商店在晚上打烊的時(shí)候要把收銀臺(tái)里的每分錢(qián)都數(shù)清楚,但是我們不會(huì)、也不可能用“分”這個(gè)單位去精確度量國(guó)民生產(chǎn)總值。隨著規(guī)模的擴(kuò)大,對(duì)精確度的癡迷將減弱?!局R(shí)準(zhǔn)備】不再熱衷于追求精確度達(dá)到精確需要有專業(yè)的數(shù)據(jù)庫(kù)。針對(duì)小數(shù)據(jù)量和特定事情,追求精確性依然是可行的,比如一個(gè)人的銀行賬戶上是否有足夠的錢(qián)開(kāi)具支票。但是,在這個(gè)大數(shù)據(jù)時(shí)代,很多時(shí)候,追求精確度已經(jīng)變得不可行,甚至不受歡迎了。當(dāng)我們擁有海量即時(shí)數(shù)據(jù)時(shí),絕對(duì)的精準(zhǔn)不再是我們追求的主要目標(biāo)。大數(shù)據(jù)紛繁多樣,優(yōu)劣摻雜,分布在全球多個(gè)服務(wù)器上。擁有了大數(shù)據(jù),我們不再需要對(duì)一個(gè)現(xiàn)象刨根究底,只要掌握大體的發(fā)展方向即可。當(dāng)然,我們也不是完全放棄了精確度,只是不再沉迷于此。適當(dāng)忽略微觀層面上的精確度會(huì)讓我們?cè)诤暧^層面擁有更好的洞察力?!局R(shí)準(zhǔn)備】不再熱衷于追求精確度大數(shù)據(jù)時(shí)代的第二個(gè)轉(zhuǎn)變,是我們樂(lè)于接受數(shù)據(jù)的紛繁復(fù)雜,而不再一味追求其精確性。在越來(lái)越多的情況下,使用所有可獲取的數(shù)據(jù)變得更為可能,但為此也要付出一定的代價(jià)。數(shù)據(jù)量的大幅增加會(huì)造成結(jié)果的不準(zhǔn)確,與此同時(shí),一些錯(cuò)誤的數(shù)據(jù)也會(huì)混進(jìn)數(shù)據(jù)庫(kù)。然而,重點(diǎn)是我們能夠努力避免這些問(wèn)題。我們從不認(rèn)為這些問(wèn)題是無(wú)法避免的,而且也正在學(xué)會(huì)接受它們。允許不精確2.2.12.2.1允許不精確對(duì)“小數(shù)據(jù)”而言,最基本、最重要的要求就是減少錯(cuò)誤,保證質(zhì)量。因?yàn)槭占男畔⒘勘容^少,所以我們必須確保記錄下來(lái)的數(shù)據(jù)盡量精確。無(wú)論是確定天體的位置還是觀測(cè)顯微鏡下物體的大小,為了使結(jié)果更加準(zhǔn)確,很多科學(xué)家都致力于優(yōu)化測(cè)量的工具。在采樣的時(shí)候,對(duì)精確度的要求就更高更苛刻了。因?yàn)槭占畔⒌挠邢抟馕吨?xì)微的錯(cuò)誤會(huì)被放大,甚至有可能影響整個(gè)結(jié)果的準(zhǔn)確性。2.2.1允許不精確歷史上很多時(shí)候,人們會(huì)把通過(guò)測(cè)量世界來(lái)征服世界視為最大的成就。事實(shí)上,對(duì)精確度的高要求始于13世紀(jì)中期的歐洲。那時(shí)候,天文學(xué)家和學(xué)者對(duì)時(shí)間、空間的研究采取了比以往更為精確的量化方式,用歷史學(xué)家阿爾弗雷德·克羅斯比的話來(lái)說(shuō)就是“測(cè)量現(xiàn)實(shí)”。后來(lái),測(cè)量方法逐漸被運(yùn)用到科學(xué)觀察、解釋方法中,體現(xiàn)為一種進(jìn)行量化研究、記錄,并呈現(xiàn)可重復(fù)結(jié)果的能力。偉大的物理學(xué)家開(kāi)爾文男爵曾說(shuō)過(guò):“測(cè)量就是認(rèn)知?!边@已成為一條至理名言?!蓖瑫r(shí),很多數(shù)學(xué)家以及后來(lái)的精算師和會(huì)計(jì)師都發(fā)展了可以準(zhǔn)確收集、記錄和管理數(shù)據(jù)的方法。2.2.1允許不精確然而,在不斷涌現(xiàn)的新情況里,允許不精確的出現(xiàn)已經(jīng)成為一個(gè)亮點(diǎn),而非缺點(diǎn)。因?yàn)榉潘闪巳蒎e(cuò)的標(biāo)準(zhǔn),人們掌握的數(shù)據(jù)也多了起來(lái),還可以利用這些數(shù)據(jù)做更多新的事情。這樣就不是大量數(shù)據(jù)優(yōu)于少量數(shù)據(jù)那么簡(jiǎn)單了,而是大量數(shù)據(jù)創(chuàng)造了更好的結(jié)果。同時(shí),我們需要與各種各樣的混亂做斗爭(zhēng)?;靵y,簡(jiǎn)單地說(shuō)就是隨著數(shù)據(jù)的增加,錯(cuò)誤率也會(huì)相應(yīng)增加。所以,如果橋梁的壓力數(shù)據(jù)量增加1000倍的話,其中的部分讀數(shù)就可能是錯(cuò)誤的,而且隨著讀數(shù)量的增加,錯(cuò)誤率可能也會(huì)繼續(xù)增加。在整合來(lái)源不同的各類信息的時(shí)候,因?yàn)樗鼈兺ǔ2煌耆恢?,所以也?huì)加大混亂程度。2.2.1允許不精確混亂還可以指格式的不一致性,因?yàn)橐_(dá)到格式一致,就需要在進(jìn)行數(shù)據(jù)處理之前仔細(xì)地清洗數(shù)據(jù),而這在大數(shù)據(jù)背景下很難做到。例如,I.B.M.、T.J.WatsonLabs、InternationalBusinessMachines都可以用來(lái)指代IBM,甚至可能有成千上萬(wàn)種方法稱呼IBM。當(dāng)然,在萃取或處理數(shù)據(jù)的時(shí)候,混亂也會(huì)發(fā)生。因?yàn)樵谶M(jìn)行數(shù)據(jù)轉(zhuǎn)化的時(shí)候,我們是在把它變成另外的事物。2.2.1允許不精確例如,溫度是葡萄生長(zhǎng)發(fā)育的重要因素。葡萄是溫帶植物(見(jiàn)圖2-6),對(duì)熱量要求高,但不同發(fā)育階段對(duì)溫度的要求不同。當(dāng)氣溫升到10攝氏度以上時(shí),歐洲品種先開(kāi)始萌芽。新梢生長(zhǎng)的最適溫度為25至30攝氏度;開(kāi)花期的最適溫度為20至28攝氏度,品種間稍有差異,夜間最低溫不低于14攝氏度,否則授粉受精不良;漿果生長(zhǎng)不低于20攝氏度,低于20攝氏度,漿果生長(zhǎng)緩慢,成熟期推遲;果實(shí)成熟期為25至30攝氏度,當(dāng)?shù)陀?4攝氏度時(shí)不能正常成熟,成熟期的晝夜溫差應(yīng)大于10攝氏度,這樣有利于糖分的積累和品質(zhì)的提高。生長(zhǎng)期溫度高于40攝氏度,對(duì)葡萄會(huì)造成傷害。零下5攝氏度以下低溫根部會(huì)受凍。2.2.1允許不精確葡萄的生長(zhǎng)發(fā)育還受大于10攝氏度以上活動(dòng)積溫的影響。不同成熟期的品種對(duì)活動(dòng)積溫的要求不同。在露地條件下,寒冷地區(qū)由于活動(dòng)積溫量低,晚熟和極晚熟品種不能正常成熟,只能栽植早熟和中熟品種。在溫室條件下可不受此限制。圖2-6葡萄園2.2.1允許不精確假設(shè)你要測(cè)量一個(gè)葡萄園的溫度,但是整個(gè)葡萄園只有一個(gè)溫度測(cè)量?jī)x,那你就必須確保這個(gè)測(cè)量?jī)x是精確的而且能夠一直工作。反過(guò)來(lái),如果每100棵葡萄樹(shù)就有一個(gè)測(cè)量?jī)x,有些測(cè)試的數(shù)據(jù)可能會(huì)是錯(cuò)誤的,可能會(huì)更加混亂,但眾多的讀數(shù)合起來(lái)就可以提供一個(gè)更加準(zhǔn)確的結(jié)果。因?yàn)檫@里面包含了更多的數(shù)據(jù),而它不僅能抵消掉錯(cuò)誤數(shù)據(jù)造成的影響,還能提供更多的額外價(jià)值。2.2.1允許不精確再來(lái)想想增加讀數(shù)頻率的這個(gè)事情。如果每隔一分鐘就測(cè)量一下溫度,我們至少還能夠保證測(cè)量結(jié)果是按照時(shí)間有序排列的。如果變成每分鐘測(cè)量十次甚至百次的話,不僅讀數(shù)可能出錯(cuò),連時(shí)間先后都可能搞混掉。試想,如果信息在網(wǎng)絡(luò)中流動(dòng),那么一條記錄很可能在傳輸過(guò)程中被延遲,在其到達(dá)的時(shí)候已經(jīng)沒(méi)有意義了,甚至干脆在奔涌的信息洪流中徹底迷失。雖然我們得到的信息不再那么準(zhǔn)確,但收集到的數(shù)量龐大的信息讓我們放棄嚴(yán)格精確的選擇變得更為劃算。2.2.1允許不精確可見(jiàn),為了獲得更廣泛的數(shù)據(jù)而犧牲了精確性,也因此看到了很多如若不然無(wú)法被關(guān)注到的細(xì)節(jié)。或者,為了高頻率而放棄了精確性,結(jié)果觀察到了一些本可能被錯(cuò)過(guò)的變化。雖然如果我們能夠下足夠多的工夫,這些錯(cuò)誤是可以避免的,但在很多情況下,與致力于避免錯(cuò)誤相比,對(duì)錯(cuò)誤的包容會(huì)帶給我們更多好處。2.2.1允許不精確“大數(shù)據(jù)”通常用概率說(shuō)話。我們可以在大量數(shù)據(jù)對(duì)計(jì)算機(jī)其他領(lǐng)域進(jìn)步的重要性上看到類似的變化。我們都知道,如摩爾定律所預(yù)測(cè)的,過(guò)去一段時(shí)間里計(jì)算機(jī)的數(shù)據(jù)處理能力得到了很大的提高。摩爾定律認(rèn)為,每塊芯片上晶體管的數(shù)量每?jī)赡昃蜁?huì)翻一倍。這使得電腦運(yùn)行更快速了,存儲(chǔ)空間更大了。大家沒(méi)有意識(shí)到的是,驅(qū)動(dòng)各類系統(tǒng)的算法也進(jìn)步了,有報(bào)告顯示,在很多領(lǐng)域這些算法帶來(lái)的進(jìn)步還要?jiǎng)龠^(guò)芯片的進(jìn)步。然而,社會(huì)從“大數(shù)據(jù)”中所能得到的,并非來(lái)自運(yùn)行更快的芯片或更好的算法,而是更多的數(shù)據(jù)。2.2.1允許不精確由于象棋的規(guī)則家喻戶曉,且走子限制良多,在過(guò)去的幾十年里,象棋算法的變化很小。計(jì)算機(jī)象棋程序總是步步為贏是由于對(duì)殘局掌握得更好了,而之所以能做到這一點(diǎn)也只是因?yàn)橥到y(tǒng)里加入了更多的數(shù)據(jù)。實(shí)際上,當(dāng)棋盤(pán)上只剩下六枚棋子或更少的時(shí)候,這個(gè)殘局得到了全面的分析,并且接下來(lái)所有可能的走法(樣本=總體)都被制入到一個(gè)龐大的數(shù)據(jù)表格。這個(gè)數(shù)據(jù)表格如果不壓縮的話,會(huì)有一太字節(jié)那么多。所以,計(jì)算機(jī)在這些重要的象棋殘局中表現(xiàn)得完美無(wú)缺和不可戰(zhàn)勝。2.2.1允許不精確大數(shù)據(jù)在多大程度上優(yōu)于算法,這個(gè)問(wèn)題在自然語(yǔ)言處理上表現(xiàn)得很明顯(這是關(guān)于計(jì)算機(jī)如何學(xué)習(xí)和領(lǐng)悟我們?cè)谌粘I钪惺褂谜Z(yǔ)言的學(xué)科方向)。2000年,微軟研究中心的米歇爾·班科和埃里克·布里爾一直在尋求改進(jìn)Word程序中語(yǔ)法檢查的方法。但是他們不能確定是努力改進(jìn)現(xiàn)有的算法、研發(fā)新的方法,還是添加更加細(xì)膩精致的特點(diǎn)更有效。所以,在實(shí)施這些措施之前,他們決定往現(xiàn)有的算法中添加更多的數(shù)據(jù),看看會(huì)有什么不同的變化。很多對(duì)計(jì)算機(jī)學(xué)習(xí)算法的研究都建立在百萬(wàn)字左右的語(yǔ)料庫(kù)基礎(chǔ)上。最后,他們決定往4種常見(jiàn)的算法中逐新添加數(shù)據(jù),先是一千萬(wàn)字,再到一億字,最后到十億。2.2.1允許不精確結(jié)果有點(diǎn)令人吃驚。他們發(fā)現(xiàn),隨著數(shù)據(jù)的增多,4種算法的表現(xiàn)都大幅提高了。當(dāng)數(shù)據(jù)只有500萬(wàn)的時(shí)候,有一種簡(jiǎn)單的算法表現(xiàn)得很差,但當(dāng)數(shù)據(jù)達(dá)10億的時(shí)候,它變成了表現(xiàn)最好的,準(zhǔn)確率從原來(lái)的75%提高到了95%以上。與之相反地,在少量數(shù)據(jù)情況下運(yùn)行得最好的算法,當(dāng)加入更多的數(shù)據(jù)時(shí),也會(huì)像其他的算法一樣有所提高,但是卻變成了在大量數(shù)據(jù)條件下運(yùn)行得最不好的。它的準(zhǔn)確率會(huì)從86%提高到94%。后來(lái),班科和布里爾在他們發(fā)表的研究論文中寫(xiě)到,“如此一來(lái),我們得重新衡量一下更多的人力物力是應(yīng)該消耗在算法發(fā)展上還是在語(yǔ)料庫(kù)發(fā)展上?!贝髷?shù)據(jù)的簡(jiǎn)單算法與小數(shù)據(jù)的復(fù)雜算法2.2.22.2.2大數(shù)據(jù)的簡(jiǎn)單算法與小數(shù)據(jù)的復(fù)雜算法20世紀(jì)40年代,電腦由真空管制成,要占據(jù)整個(gè)房間這么大的空間。而機(jī)器翻譯也只是計(jì)算機(jī)開(kāi)發(fā)人員的一個(gè)想法。在冷戰(zhàn)時(shí)期,美國(guó)掌握了大量關(guān)于蘇聯(lián)的各種資料,但缺少翻譯這些資料的人手。所以,計(jì)算機(jī)翻譯也成了亟待解決的問(wèn)題。最初,計(jì)算機(jī)研發(fā)人員打算將語(yǔ)法規(guī)則和雙語(yǔ)詞典結(jié)合在一起。1954年,IBM以計(jì)算機(jī)中的250個(gè)詞語(yǔ)和六條語(yǔ)法規(guī)則為基礎(chǔ),將60個(gè)俄語(yǔ)詞組翻譯成了英語(yǔ),結(jié)果振奮人心。IBM701通過(guò)穿孔卡片讀取了一句話,并將其譯成了“我們通過(guò)語(yǔ)言來(lái)交流思想”。在慶祝這個(gè)成就的發(fā)布會(huì)上,一篇報(bào)道就有提到,這60句話翻譯得很流暢。這個(gè)程序的指揮官利昂?多斯特爾特表示,他相信“在三五年后,機(jī)器翻譯將會(huì)變得很成熟”。2.2.2大數(shù)據(jù)的簡(jiǎn)單算法與小數(shù)據(jù)的復(fù)雜算法事實(shí)證明,計(jì)算機(jī)翻譯最初的成功誤導(dǎo)了人們。1966年,一群機(jī)器翻譯的研究人員意識(shí)到,翻譯比他們想象的更困難,他們不得不承認(rèn)自己的失敗。機(jī)器翻譯不能只是讓電腦熟悉常用規(guī)則,還必須教會(huì)電腦處理特殊的語(yǔ)言情況。畢竟,翻譯不僅僅只是記憶和復(fù)述,也涉及選詞,而明確地教會(huì)電腦這些非常不現(xiàn)實(shí)。在20世紀(jì)80年代后期,IBM的研發(fā)人員提出了一個(gè)新的想法。與單純教給計(jì)算機(jī)語(yǔ)言規(guī)則和詞匯相比,他們?cè)噲D讓計(jì)算機(jī)自己估算一個(gè)詞或一個(gè)詞組適合于用來(lái)翻譯另一種語(yǔ)言中的一個(gè)詞和詞組的可能性,然后再?zèng)Q定某個(gè)詞和詞組在另一種語(yǔ)言中的對(duì)等詞和詞組。2.2.2大數(shù)據(jù)的簡(jiǎn)單算法與小數(shù)據(jù)的復(fù)雜算法20世紀(jì)90年代,IBM這個(gè)名為Candide的項(xiàng)目花費(fèi)了大概十年的時(shí)間,將大約有300萬(wàn)句之多的加拿大議會(huì)資料譯成了英語(yǔ)和法語(yǔ)并出版。由于是官方文件,翻譯的標(biāo)準(zhǔn)就非常高。用那個(gè)時(shí)候的標(biāo)準(zhǔn)來(lái)看,數(shù)據(jù)量非常之龐大。統(tǒng)計(jì)機(jī)器學(xué)習(xí)從誕生之日起,就聰明地把翻譯的挑戰(zhàn)變成了一個(gè)數(shù)學(xué)問(wèn)題,而這似乎很有效!計(jì)算機(jī)翻譯能力在短時(shí)間內(nèi)就提高了很多。然而,在這次飛躍之后,IBM公司盡管投入了很多資金,但取得的成效不大。最終,IBM公司停止了這個(gè)項(xiàng)目。2.2.2大數(shù)據(jù)的簡(jiǎn)單算法與小數(shù)據(jù)的復(fù)雜算法2006年,谷歌公司也開(kāi)始涉足機(jī)器翻譯。這被當(dāng)作實(shí)現(xiàn)“收集全世界的數(shù)據(jù)資源,并讓人人都可享受這些資源”這個(gè)目標(biāo)的一個(gè)步驟。谷歌翻譯開(kāi)始利用一個(gè)更大更繁雜的數(shù)據(jù)庫(kù),也就是全球的互聯(lián)網(wǎng),而不再只利用兩種語(yǔ)言之間的文本翻譯。2.2.2大數(shù)據(jù)的簡(jiǎn)單算法與小數(shù)據(jù)的復(fù)雜算法為了訓(xùn)練計(jì)算機(jī),谷歌翻譯系統(tǒng)會(huì)吸收它能找到的所有翻譯。它會(huì)從各種各樣語(yǔ)言的公司網(wǎng)站上尋找對(duì)譯文檔,還會(huì)去尋找聯(lián)合國(guó)和歐盟這些國(guó)際組織發(fā)布的官方文件和報(bào)告的譯本。它甚至?xí)账僮x項(xiàng)目中的書(shū)籍翻譯。谷歌翻譯部的負(fù)責(zé)人弗朗茲·奧齊是機(jī)器翻譯界的權(quán)威,他指出,“谷歌的翻譯系統(tǒng)不會(huì)像Candide一樣只是仔細(xì)地翻譯300萬(wàn)句話,它會(huì)掌握用不同語(yǔ)言翻譯的質(zhì)量參差不齊的數(shù)十億頁(yè)的文檔?!辈豢紤]翻譯質(zhì)量的話,上萬(wàn)億的語(yǔ)料庫(kù)就相當(dāng)于950億句英語(yǔ)。2.2.2大數(shù)據(jù)的簡(jiǎn)單算法與小數(shù)據(jù)的復(fù)雜算法盡管其輸入源很混亂,但較其他翻譯系統(tǒng)而言,谷歌的翻譯質(zhì)量相對(duì)而言還是最好的,而且可翻譯的內(nèi)容更多。到2012年年中,谷歌數(shù)據(jù)庫(kù)涵蓋了60多種語(yǔ)言,甚至能夠接受14種語(yǔ)言的語(yǔ)音輸入,并有很流利的對(duì)等翻譯。之所以能做到這些,是因?yàn)樗鼘⒄Z(yǔ)言視為能夠判別可能性的數(shù)據(jù),而不是語(yǔ)言本身。如果要將印度語(yǔ)譯成加泰羅尼亞語(yǔ),谷歌就會(huì)把英語(yǔ)作為中介語(yǔ)言。因?yàn)樵诜g的時(shí)候它能適當(dāng)增減詞匯,
所以谷歌的翻譯比其他系統(tǒng)的翻譯靈
活很多。圖2-7谷歌翻譯2.2.2大數(shù)據(jù)的簡(jiǎn)單算法與小數(shù)據(jù)的復(fù)雜算法谷歌的翻譯之所以更好并不是因?yàn)樗鼡碛幸粋€(gè)更好的算法機(jī)制。和微軟的班科和布里爾一樣,這是因?yàn)楣雀璺g增加了很多各種各樣的數(shù)據(jù)。從谷歌的例子來(lái)看,它之所以能比IBM的Candide系統(tǒng)多利用成千上萬(wàn)的數(shù)據(jù),是因?yàn)樗邮芰擞绣e(cuò)誤的數(shù)據(jù)。2006年,谷歌發(fā)布的上萬(wàn)億的語(yǔ)料庫(kù),就是來(lái)自于互聯(lián)網(wǎng)的一些廢棄內(nèi)容。這就是“訓(xùn)練集”,可以正確地推算出英語(yǔ)詞匯搭配在一起的可能性。2.2.2大數(shù)據(jù)的簡(jiǎn)單算法與小數(shù)據(jù)的復(fù)雜算法谷歌公司人工智能專家彼得·諾維格在一篇題為《數(shù)據(jù)的非理性效果》的文章中寫(xiě)道,“大數(shù)據(jù)基礎(chǔ)上的簡(jiǎn)單算法比小數(shù)據(jù)基礎(chǔ)上的復(fù)雜算法更加有效?!彼麄兙椭赋?,混雜是關(guān)鍵。“由于谷歌語(yǔ)料庫(kù)的內(nèi)容來(lái)自于未經(jīng)過(guò)濾的網(wǎng)頁(yè)內(nèi)容,所以會(huì)包含一些不完整的句子、拼寫(xiě)錯(cuò)誤、語(yǔ)法錯(cuò)誤以及其他各種錯(cuò)誤。況且,它也沒(méi)有詳細(xì)的人工糾錯(cuò)后的注解。但是,谷歌語(yǔ)料庫(kù)的數(shù)據(jù)優(yōu)勢(shì)完全壓倒了缺點(diǎn)?!奔姺钡臄?shù)據(jù)越多越好2.2.32.2.3紛繁的數(shù)據(jù)越多越好通常傳統(tǒng)的統(tǒng)計(jì)學(xué)家都很難容忍錯(cuò)誤數(shù)據(jù)的存在,在收集樣本的時(shí)候,他們會(huì)用一整套的策略來(lái)減少錯(cuò)誤發(fā)生的概率。在結(jié)果公布之前,他們也會(huì)測(cè)試樣本是否存在潛在的系統(tǒng)性偏差。這些策略包括根據(jù)協(xié)議或通過(guò)受過(guò)專門(mén)訓(xùn)練的專家來(lái)采集樣本。但是,即使只是少量的數(shù)據(jù),這些規(guī)避錯(cuò)誤的策略實(shí)施起來(lái)還是耗費(fèi)巨大。尤其是當(dāng)我們收集所有數(shù)據(jù)的時(shí)候,這就行不通了。不僅是因?yàn)楹馁M(fèi)巨大,還因?yàn)樵诖笠?guī)模的基礎(chǔ)上保持?jǐn)?shù)據(jù)收集標(biāo)準(zhǔn)的一致性不太現(xiàn)實(shí)。大數(shù)據(jù)時(shí)代要求我們重新審視數(shù)據(jù)精確性的優(yōu)劣。如果將傳統(tǒng)的思維模式運(yùn)用于數(shù)字化、網(wǎng)絡(luò)化的21世紀(jì),就有可能錯(cuò)過(guò)重要的信息。2.2.3紛繁的數(shù)據(jù)越多越好如今,我們已經(jīng)生活在信息時(shí)代。我們掌握的數(shù)據(jù)庫(kù)越來(lái)越全面,它包括了與這些現(xiàn)象相關(guān)的大量甚至全部數(shù)據(jù)。我們不再需要那么擔(dān)心某個(gè)數(shù)據(jù)點(diǎn)對(duì)整套分析的不利影響。我們要做的就是要接受這些紛繁的數(shù)據(jù)并從中受益,而不是以高昂的代價(jià)消除所有的不確定性。在華盛頓州布萊恩市的英國(guó)石油公司(BP)切里波因特?zé)捰蛷S(見(jiàn)圖2-8)里,無(wú)線感應(yīng)器遍布于整個(gè)工廠,形成無(wú)形的網(wǎng)絡(luò),能夠產(chǎn)生大量實(shí)時(shí)數(shù)據(jù)。在這里,酷熱的惡劣環(huán)境和電氣設(shè)備的存在有時(shí)會(huì)對(duì)感應(yīng)器讀數(shù)有所影響,形成錯(cuò)誤的數(shù)據(jù)。但是數(shù)據(jù)生成的數(shù)量之多可以彌補(bǔ)這些小錯(cuò)誤。隨時(shí)監(jiān)測(cè)管道的承壓使得BP能夠了解到,有些種類的原油比其他種類更具有腐蝕性。以前,這都是無(wú)法發(fā)現(xiàn)也無(wú)法防止的。2.2.3紛繁的數(shù)據(jù)越多越好圖2-8切里波因特?zé)捰蛷S2.2.3紛繁的數(shù)據(jù)越多越好有時(shí)候,當(dāng)我們掌握了大量新型數(shù)據(jù)時(shí),精確性就不那么重要了,我們同樣可以掌握事情的發(fā)展趨勢(shì)。大數(shù)據(jù)不僅讓我們不再期待精確性,也讓我們無(wú)法實(shí)現(xiàn)精確性。然而,除了一開(kāi)始會(huì)與我們的直覺(jué)相矛盾之外,接受數(shù)據(jù)的不精確和不完美,我們反而能夠更好地進(jìn)行預(yù)測(cè),也能夠更好地理解這個(gè)世界。2.2.3紛繁的數(shù)據(jù)越多越好值得注意的是,錯(cuò)誤性并不是大數(shù)據(jù)本身固有的特性,而是一個(gè)亟需我們?nèi)ヌ幚淼默F(xiàn)實(shí)問(wèn)題,并且有可能長(zhǎng)期存在。它只是我們用來(lái)測(cè)量、記錄和交流數(shù)據(jù)的工具的一個(gè)缺陷。如果說(shuō)哪天技術(shù)變得完美無(wú)缺了,不精確的問(wèn)題也就不復(fù)存在了。因?yàn)閾碛懈髷?shù)據(jù)量所能帶來(lái)的商業(yè)利益遠(yuǎn)遠(yuǎn)超過(guò)增加一點(diǎn)精確性,所以通常我們不會(huì)再花大力氣去提升數(shù)據(jù)的精確性。這又是一個(gè)關(guān)注焦點(diǎn)的轉(zhuǎn)變,正如以前,統(tǒng)計(jì)學(xué)家們總是把他們的興趣放在提高樣本的隨機(jī)性而不是數(shù)量上。如今,大數(shù)據(jù)給我們帶來(lái)的利益,讓我們能夠接受不精確的存在了?;祀s性是標(biāo)準(zhǔn)途徑2.2.42.2.4混雜性是標(biāo)準(zhǔn)途徑長(zhǎng)期以來(lái),人們一直用分類法和索引法來(lái)幫助自己存儲(chǔ)和檢索數(shù)據(jù)資源。這樣的分級(jí)系統(tǒng)通常都不完善。而在“小數(shù)據(jù)”范圍內(nèi),這些方法就很有效,但一旦把數(shù)據(jù)規(guī)模增加好幾個(gè)數(shù)量級(jí),這些預(yù)設(shè)一切都各就各位的系統(tǒng)就會(huì)崩潰。相片分享網(wǎng)站Flickr在2011年就已經(jīng)擁有來(lái)自大概1億用戶的60億張照片。根據(jù)預(yù)先設(shè)定好的分類來(lái)標(biāo)注每張照片就沒(méi)有意義了。恰恰相反,清楚的分類被更混亂卻更靈活的機(jī)制所取代了,這些機(jī)制才能適應(yīng)改變著的世界。2.2.4混雜性是標(biāo)準(zhǔn)途徑當(dāng)我們上傳照片到Flickr網(wǎng)站的時(shí)候,我們會(huì)給照片添加標(biāo)簽,也就是使用一組文本標(biāo)簽來(lái)編組和搜索這些資源。人們用自己的方式創(chuàng)造和使用標(biāo)簽,所以它是沒(méi)有標(biāo)準(zhǔn)、沒(méi)有預(yù)先設(shè)定的排列和分類,也沒(méi)有我們所必須遵守的類別規(guī)定。任何人都可以輸入新的標(biāo)簽,標(biāo)簽內(nèi)容事實(shí)上就成為了網(wǎng)絡(luò)資源的分類標(biāo)準(zhǔn)。標(biāo)簽被廣泛地應(yīng)用于臉書(shū)、博客等社交網(wǎng)絡(luò)上。因?yàn)樗鼈兊拇嬖冢ヂ?lián)網(wǎng)上的資源變得更加容易找到,特別是像圖片、視頻和音樂(lè)這些無(wú)法用關(guān)鍵詞搜索的非文本類資源。2.2.4混雜性是標(biāo)準(zhǔn)途徑當(dāng)然,有時(shí)人們錯(cuò)標(biāo)的標(biāo)簽會(huì)導(dǎo)致資源編組的不準(zhǔn)確,這會(huì)讓習(xí)慣了精確性的人們很痛苦。但是,我們用來(lái)編組照片集的混亂方法給我們帶來(lái)了很多好處。比如,我們擁有了更加豐富的標(biāo)簽內(nèi)容,同時(shí)能更深更廣地獲得各種照片。我們可以通過(guò)合并多個(gè)搜索標(biāo)簽來(lái)過(guò)濾我們需要尋找的照片,這在以前是無(wú)法完成的。我們添加標(biāo)簽時(shí)所帶來(lái)的不準(zhǔn)確性從某種意義上說(shuō)明我們能夠接受世界的紛繁復(fù)雜。這是對(duì)更加精確系統(tǒng)的一種對(duì)抗。這些精確的系統(tǒng)試圖讓我們接受一個(gè)世界貧乏而規(guī)整的慘象——假裝世間萬(wàn)物都是整齊地排列的。而事實(shí)上現(xiàn)實(shí)是紛繁復(fù)雜的,天地間存在的事物也遠(yuǎn)遠(yuǎn)多于系統(tǒng)所設(shè)想的。2.2.4混雜性是標(biāo)準(zhǔn)途徑互聯(lián)網(wǎng)上最火的網(wǎng)址都表明,它們欣賞不精確而不會(huì)假裝精確。當(dāng)一個(gè)人在網(wǎng)站上見(jiàn)到一個(gè)臉書(shū)的“喜歡”按鈕時(shí),可以看到有多少其他人也在點(diǎn)擊。當(dāng)數(shù)量不多時(shí),會(huì)顯示像“63”這種精確的數(shù)字。當(dāng)數(shù)量很大時(shí),則只會(huì)顯示近似值,比方說(shuō)“4000”。這并不代表系統(tǒng)不知道正確的數(shù)據(jù)是多少,只是當(dāng)數(shù)量規(guī)模變大的時(shí)候,確切的數(shù)量已經(jīng)不那么重要了。另外,數(shù)據(jù)更新得非???,甚至在剛剛顯示出來(lái)的時(shí)候可能就已經(jīng)過(guò)時(shí)了。所以,同樣的原理適用于時(shí)間的顯示。電子郵箱會(huì)確切標(biāo)注在很短時(shí)間內(nèi)收到的信件,比方說(shuō)“11分鐘之前”。但是,對(duì)于已經(jīng)收到一段時(shí)間的信件,則會(huì)標(biāo)注如“兩個(gè)小時(shí)之前”這種不太確切的時(shí)間信息。如今,要想獲得大規(guī)模數(shù)據(jù)帶來(lái)的好處,混亂應(yīng)該是一種標(biāo)準(zhǔn)途徑,而不應(yīng)該是竭力避免的。新的數(shù)據(jù)庫(kù)設(shè)計(jì)2.2.52.2.5新的數(shù)據(jù)庫(kù)設(shè)計(jì)傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)是為小數(shù)據(jù)的時(shí)代設(shè)計(jì)的,所以能夠也需要仔細(xì)策劃。在那個(gè)時(shí)代,人們遇到的問(wèn)題無(wú)比清晰,數(shù)據(jù)庫(kù)被設(shè)計(jì)用來(lái)有效地回答這些問(wèn)題。2.2.5新的數(shù)據(jù)庫(kù)設(shè)計(jì)傳統(tǒng)的數(shù)據(jù)庫(kù)引擎要求數(shù)據(jù)高度精確和準(zhǔn)確排列。數(shù)據(jù)不是單純地被存儲(chǔ),它往往被劃分為包含“域”(字段)的記錄,每個(gè)域都包含了特定種類和特定長(zhǎng)度的信息。比方說(shuō),某個(gè)數(shù)值域被設(shè)定為7位數(shù)長(zhǎng),一個(gè)1000萬(wàn)或者更大的數(shù)值就無(wú)法被記錄。一個(gè)人想在某個(gè)記錄手機(jī)號(hào)碼的域中輸入一串漢字是“不被允許”的。想要被允許,則需要改變數(shù)據(jù)庫(kù)結(jié)構(gòu)才可以。索引是事先就設(shè)定好了的,這也就限制了人們的搜索。增加一個(gè)新的索引往往很耗費(fèi)時(shí)間,因?yàn)樾枰淖兊讓拥脑O(shè)計(jì)。預(yù)設(shè)場(chǎng)域顯示的是數(shù)據(jù)的整齊排列。最普遍的數(shù)據(jù)庫(kù)查詢語(yǔ)言是結(jié)構(gòu)化查詢語(yǔ)言(SQL)。2.2.5新的數(shù)據(jù)庫(kù)設(shè)計(jì)但是,這種數(shù)據(jù)存儲(chǔ)和分析的方法越來(lái)越和現(xiàn)實(shí)相沖突。我們發(fā)現(xiàn),不精確已經(jīng)開(kāi)始滲入數(shù)據(jù)庫(kù)設(shè)計(jì)這個(gè)最不能容忍錯(cuò)誤的領(lǐng)域。我們現(xiàn)在擁有各種各樣、參差不齊的海量數(shù)據(jù)。很少有數(shù)據(jù)完全符合預(yù)先設(shè)定的數(shù)據(jù)種類。而且,我們想要數(shù)據(jù)回答的問(wèn)題,也只有在我們收集和處理數(shù)據(jù)的過(guò)程中才全知道。這些現(xiàn)實(shí)條件導(dǎo)致了新的數(shù)據(jù)庫(kù)設(shè)計(jì)的誕生。2.2.5新的數(shù)據(jù)庫(kù)設(shè)計(jì)近年的大轉(zhuǎn)變是非關(guān)系型數(shù)據(jù)庫(kù)的出現(xiàn),它不需要預(yù)先設(shè)定記錄結(jié)構(gòu),允許處理超大量五花八門(mén)的數(shù)據(jù)。因?yàn)榘萘私Y(jié)構(gòu)多樣性,這些數(shù)據(jù)庫(kù)設(shè)計(jì)要求更多的處理和存儲(chǔ)資源。帕特·赫蘭德是來(lái)自微軟的世界上最權(quán)威的數(shù)據(jù)庫(kù)設(shè)計(jì)專家之一,他把這稱為一個(gè)重大的轉(zhuǎn)變。他分析了被各種各樣質(zhì)量參差不齊的數(shù)據(jù)所侵蝕的傳統(tǒng)數(shù)據(jù)庫(kù)設(shè)計(jì)的核心原則,他認(rèn)為,處理海量數(shù)據(jù)會(huì)不可避免地導(dǎo)致部分信息的缺失。雖然這本來(lái)就是有“損耗性”的,但是能快速得到想要的結(jié)果彌補(bǔ)了這個(gè)缺陷。2.2.5新的數(shù)據(jù)庫(kù)設(shè)計(jì)傳統(tǒng)數(shù)據(jù)庫(kù)的設(shè)計(jì)要求在不同的時(shí)間提供一致的結(jié)果。比方說(shuō),如果你查詢你的賬戶結(jié)余,它會(huì)提供給你確切的數(shù)目;而你幾秒鐘之后查詢的時(shí)候,系統(tǒng)應(yīng)該提供給你同樣的結(jié)果,沒(méi)有任何改變。但是,隨著數(shù)據(jù)數(shù)量的大幅增加以及系統(tǒng)用戶的增加,這種一致性將越來(lái)越難保持。大的數(shù)據(jù)庫(kù)并不是固定在某個(gè)地方的,它一般分散在多個(gè)硬盤(pán)和多臺(tái)電腦上。為了確保其運(yùn)行的穩(wěn)定性和速度,一個(gè)記錄可能會(huì)分開(kāi)存儲(chǔ)在兩三個(gè)地方。如果一個(gè)地方的記錄更新了,其他地方的記錄則只有同步更新才不會(huì)產(chǎn)生錯(cuò)誤。傳統(tǒng)的系統(tǒng)會(huì)一直等到所有地方的記錄都更新,然而,當(dāng)數(shù)據(jù)廣泛地分布在多臺(tái)服務(wù)器上而且服務(wù)器每秒鐘都會(huì)接受成千上萬(wàn)條搜索指令的時(shí)候,同步更新就比較不現(xiàn)實(shí)了。因此,多樣性是一種解決的方法。2.2.5新的數(shù)據(jù)庫(kù)設(shè)計(jì)最能代表這個(gè)轉(zhuǎn)變的,就是Hadoop的流行。Hadoop是與谷歌的MapReduce系統(tǒng)相對(duì)應(yīng)的開(kāi)源式分布系統(tǒng)的基礎(chǔ)架構(gòu),它非常善于處理超大量的數(shù)據(jù)。通過(guò)把大數(shù)據(jù)變成小模塊,然后分配給其他機(jī)器進(jìn)行分析,它實(shí)現(xiàn)了對(duì)超大量數(shù)據(jù)的處理。它預(yù)見(jiàn)到硬件可能會(huì)癱瘓,所以在內(nèi)部建立了數(shù)據(jù)的副本,它還假定數(shù)據(jù)量之大導(dǎo)致數(shù)據(jù)在處理之前不可能整齊排列。典型的數(shù)據(jù)分析需要經(jīng)過(guò)“萃取、轉(zhuǎn)移和下載”,這樣一個(gè)操作流程,但是Hadoop不拘泥于這樣的方式。相反,它假定了數(shù)據(jù)量的巨大使得數(shù)據(jù)完全無(wú)法移動(dòng),所以人們必須在本地進(jìn)行數(shù)據(jù)分析。2.2.5新的數(shù)據(jù)庫(kù)設(shè)計(jì)Hadoop的輸出結(jié)果沒(méi)有關(guān)系型數(shù)據(jù)庫(kù)輸出結(jié)果那么精確,它不能用于衛(wèi)星發(fā)射、開(kāi)具銀行賬戶明細(xì)這種精確度要求很高的任務(wù)。但是對(duì)于不要求極端精確的任務(wù),它就比其他系統(tǒng)運(yùn)行得快很多,比如說(shuō)把顧客分群,然后分別進(jìn)行不同的營(yíng)銷活動(dòng)。信用卡公司VISA使用Hadoop,能夠?qū)⑻幚韮赡陜?nèi)730億單交易所需的時(shí)間,從一個(gè)月縮減至僅僅13分鐘。這樣大規(guī)模處理時(shí)間上的縮減足以變革商業(yè)了。也許Hadoop不適合正規(guī)記賬,但是當(dāng)可以允許少量錯(cuò)誤的時(shí)候它就非常實(shí)用。接受混亂,我們就能享受極其有用的服務(wù),這些服務(wù)如果使用傳統(tǒng)方法和工具是不可能做到的,因?yàn)槟切┓椒ê凸ぞ咛幚聿涣诉@么大規(guī)模的數(shù)據(jù)。5%的數(shù)字?jǐn)?shù)據(jù)與95%的非結(jié)構(gòu)化數(shù)據(jù)2.2.62.2.65%的數(shù)字?jǐn)?shù)據(jù)與95%的非結(jié)構(gòu)化數(shù)據(jù)據(jù)估計(jì),只有5%的數(shù)字?jǐn)?shù)據(jù)是結(jié)構(gòu)化的且能適用于傳統(tǒng)數(shù)據(jù)庫(kù)。如果不接受混亂,剩下95%的非結(jié)構(gòu)化數(shù)據(jù)都無(wú)法被利用,比如網(wǎng)頁(yè)和視頻資源。通過(guò)接受不精確性,我們打開(kāi)了一個(gè)從未涉足的世界的窗戶。我們?cè)趺纯创褂盟袛?shù)據(jù)和使用部分?jǐn)?shù)據(jù)的差別,以及我們?cè)鯓舆x擇放松要求并取代嚴(yán)格的精確性,將會(huì)對(duì)我們與世界的溝通產(chǎn)生深刻的影響。隨著大數(shù)據(jù)技術(shù)成為日常生活中的一部分,我們應(yīng)該開(kāi)始從一個(gè)比以前更大更全面的角度來(lái)理解事物,也就是說(shuō)應(yīng)該將“樣本=總體”植入我們的思維中。2.2.65%的數(shù)字?jǐn)?shù)據(jù)與95%的非結(jié)構(gòu)化數(shù)據(jù)現(xiàn)在,我們能夠容忍模糊和不確定出現(xiàn)在一些過(guò)去依賴于清晰和精確的頓域,當(dāng)然過(guò)去可能也只是有清晰的假象和不完全的精確。只要我們能夠得到一個(gè)事物更完整的概念,我們就能接受模糊和不確定的存在。就像印象派的畫(huà)風(fēng)一樣,近看畫(huà)中的每一筆都感覺(jué)是混亂的,但是退后一步你就會(huì)發(fā)現(xiàn)這是一幅偉大的作品,因?yàn)槟阃撕笠徊降臅r(shí)候
就能看出畫(huà)作的整體思路了。圖2-9印象派畫(huà)作2.2.65%的數(shù)字?jǐn)?shù)據(jù)與95%的非結(jié)構(gòu)化數(shù)據(jù)相比依賴于小數(shù)據(jù)和精確性的時(shí)代,大數(shù)據(jù)因?yàn)楦鼜?qiáng)調(diào)數(shù)據(jù)的完整性和混雜性,幫助我們進(jìn)一步接近事實(shí)的真相?!安糠帧焙汀按_切”的吸引力是可以理解的。但是,當(dāng)我們的視野局限在我們可以分析和能夠確定的數(shù)據(jù)上時(shí),我們對(duì)世界的整體理解就可能產(chǎn)生偏差和錯(cuò)誤。不僅失去了去盡力收集一切數(shù)據(jù)的動(dòng)力,也失去了從各個(gè)不同角度來(lái)觀察事物的權(quán)利。所以,局限于狹隘的小數(shù)據(jù)中,我們可以自豪于對(duì)精確性的追求,但是就算我們可以分析得到細(xì)節(jié)中的細(xì)節(jié),也依然會(huì)錯(cuò)過(guò)事物的全貌。大數(shù)據(jù)要求我們有所改變,我們必須能夠接受混亂和不確定性。精確性似乎一直是我們生活的支撐,但認(rèn)為每個(gè)問(wèn)題只有一個(gè)答案的想法是站不住腳的?!咀鳂I(yè)】討論:【實(shí)訓(xùn)操作】搜索與分析,體驗(yàn)“接受數(shù)據(jù)的混雜性”討論:目錄1任務(wù)2.1:理解思維轉(zhuǎn)變之一:樣本=總體2任務(wù)2.2:理解思維轉(zhuǎn)變之二:接受數(shù)據(jù)的混雜性3任務(wù)2.3:理解思維轉(zhuǎn)變之三:數(shù)據(jù)的相關(guān)關(guān)系【導(dǎo)讀案例】美國(guó)百億美元望遠(yuǎn)鏡主鏡安裝完畢討論:(1)你是否了解中國(guó)在天文望遠(yuǎn)鏡建設(shè)方面的最新成就,是什么?(2)人類為什么要一再斥巨資建設(shè)觀天設(shè)施和發(fā)展航天事業(yè)?(3)依你的理解,天文學(xué)及其積累的大數(shù)據(jù),會(huì)大到什么程度?(4)請(qǐng)簡(jiǎn)單記述你所知道的上一周內(nèi)發(fā)生的國(guó)際、國(guó)內(nèi)或者身邊的大事。【任務(wù)描述】(1)熟悉大數(shù)據(jù)時(shí)代思維變革的基本概念和主要內(nèi)容;(2)理解在傳統(tǒng)情況下,人們分析信息,了解世界的主要方法;(3)熟悉大數(shù)據(jù)時(shí)代人們思維變革的第三個(gè)轉(zhuǎn)變,即“不再熱衷于尋找因果關(guān)系”。【知識(shí)準(zhǔn)備】不再熱衷于尋找因果關(guān)系這是因前兩個(gè)轉(zhuǎn)變而促成的。尋找因果關(guān)系是人類長(zhǎng)久以來(lái)的習(xí)慣,即使確定因果關(guān)系很困難而且用途不大,人類還是習(xí)慣性地尋找緣由。相反,在大數(shù)據(jù)時(shí)代,我們無(wú)須再緊盯事物之間的因果關(guān)系,而應(yīng)該尋找事物之間的相關(guān)關(guān)系,這會(huì)給我們提供非常新穎且有價(jià)值的觀點(diǎn)。相關(guān)關(guān)系也許不能準(zhǔn)確地告知我們某件事情為何會(huì)發(fā)生,但是它會(huì)提醒我們這件事情正在發(fā)生。在許多情況下,這種提醒的幫助已經(jīng)足夠大了?!局R(shí)準(zhǔn)備】不再熱衷于尋找因果關(guān)系例如,如果數(shù)百萬(wàn)條電子醫(yī)療記錄都顯示橙汁和阿司匹林的特定組合可以治療癌癥,那么找出具體的藥理機(jī)制就沒(méi)有這種治療方法本身來(lái)得重要。同樣,只要我們知道什么時(shí)候是買(mǎi)機(jī)票的最佳時(shí)機(jī),就算不知道機(jī)票價(jià)格瘋狂變動(dòng)的原因也無(wú)所謂了。大數(shù)據(jù)告訴我們“是什么”而不是“為什么”。在大數(shù)據(jù)時(shí)代,我們不必知道現(xiàn)象背后的原因,只要讓數(shù)據(jù)自己發(fā)聲。我們不再需要在還沒(méi)有收集數(shù)據(jù)之前,就把分析建立在早已設(shè)立的少量假設(shè)的基礎(chǔ)之上。讓數(shù)據(jù)發(fā)聲,我們會(huì)注意到很多以前從來(lái)沒(méi)有意識(shí)到的聯(lián)系的存在?!局R(shí)準(zhǔn)備】不再熱衷于尋找因果關(guān)系在傳統(tǒng)觀念下,人們總是致力于找到一切事情發(fā)生背后的原因。然而在很多時(shí)候,尋找數(shù)據(jù)間的關(guān)聯(lián)并利用這種關(guān)聯(lián)就足夠了。這些思想上的重大轉(zhuǎn)變導(dǎo)致了第三個(gè)變革,我們嘗試著不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵2.3.12.3.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵雖然在小數(shù)據(jù)世界中相關(guān)關(guān)系也是有用的,但如今在大數(shù)據(jù)的背景下,相關(guān)關(guān)系大放異彩。通過(guò)應(yīng)用相關(guān)關(guān)系,我們可以比以前更容易、更快捷、更清楚地分析事物。所謂相關(guān)關(guān)系,其核心是指量化兩個(gè)數(shù)據(jù)值之間的數(shù)理關(guān)系。相關(guān)關(guān)系強(qiáng)是指當(dāng)一個(gè)數(shù)據(jù)值增加時(shí),另一個(gè)數(shù)據(jù)值很有可能也會(huì)隨之增加。我們已經(jīng)看到過(guò)這種很強(qiáng)的相關(guān)關(guān)系,比如谷歌流感趨勢(shì):在一個(gè)特定的地理位置,越多的人通過(guò)谷歌搜索特定的詞條,該地區(qū)就有更多的人患了流感。相反,相關(guān)關(guān)系弱就意味著當(dāng)一個(gè)數(shù)據(jù)值增加時(shí),另一個(gè)數(shù)據(jù)值幾乎不會(huì)發(fā)生變化。例如,我們可以尋找關(guān)于個(gè)人的鞋碼和幸福的相關(guān)關(guān)系,但會(huì)發(fā)現(xiàn)它們幾乎扯不上什么關(guān)系。2.3.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵相關(guān)關(guān)系通過(guò)識(shí)別有用的關(guān)聯(lián)物來(lái)幫助我們分析一個(gè)現(xiàn)象,而不是通過(guò)揭示其內(nèi)部的運(yùn)作機(jī)制。當(dāng)然,即使是很強(qiáng)的相關(guān)關(guān)系也不一定能解釋每一種情況,比如兩個(gè)事物看上去行為相似,但很有可能只是巧合。相關(guān)關(guān)系沒(méi)有絕對(duì),只有可能性。也就是說(shuō),不是亞馬遜推薦的每本書(shū)都是顧客想買(mǎi)的書(shū)。但是,如果相關(guān)關(guān)系強(qiáng),一個(gè)相關(guān)鏈接成功的概率是很高的。這一點(diǎn)很多人可以證明,他們的書(shū)架上有很多書(shū)都是因?yàn)閬嗰R遜推薦而購(gòu)買(mǎi)的。2.3.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵通過(guò)找到一個(gè)現(xiàn)象的良好的關(guān)聯(lián)物,相關(guān)關(guān)系可以幫助我們捕捉現(xiàn)在和預(yù)測(cè)未來(lái)。如果A和B經(jīng)常一起發(fā)生,我們只需要注意到B發(fā)生了.就可以預(yù)測(cè)A也發(fā)生了。這有助于我們捕捉可能和A一起發(fā)生的事情,即使我們不能直接測(cè)量或觀察到A。更重要的是,它還可以幫助我們預(yù)測(cè)未來(lái)可能發(fā)生什么。當(dāng)然,相關(guān)關(guān)系是無(wú)法預(yù)知未來(lái)的,他們只能預(yù)測(cè)可能發(fā)生的事情。但是,這已經(jīng)極其珍貴了。2.3.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵2004年,沃爾瑪對(duì)歷史交易記錄這個(gè)龐大的數(shù)據(jù)庫(kù)進(jìn)行了觀察,這個(gè)數(shù)據(jù)庫(kù)記錄的不僅包括每一個(gè)顧客的購(gòu)物清單以及消費(fèi)額,還包括購(gòu)物籃中的物品、具體購(gòu)買(mǎi)時(shí)間,甚至購(gòu)買(mǎi)當(dāng)日的天氣。沃爾瑪公司注意到,每當(dāng)在季節(jié)性臺(tái)風(fēng)來(lái)臨之箭,不僅手電筒銷售量增加了,而且POP-Tarts蛋撻(美式含糖早餐零食)的銷量也增加了。因此,當(dāng)季節(jié)性風(fēng)暴來(lái)臨時(shí),沃爾瑪會(huì)把庫(kù)存的蛋撻放在靠著防臺(tái)用品的位置,以方便行色匆匆的顧客從而增加銷量。2.3.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵在大數(shù)據(jù)時(shí)代來(lái)臨前很久,相關(guān)關(guān)系就已經(jīng)被證明大有用途。這個(gè)觀點(diǎn)是1888年查爾斯?達(dá)爾文的表弟弗朗西斯·高爾頓爵士提出的,因?yàn)樗⒁獾饺说纳砀吆颓氨鄣拈L(zhǎng)度有關(guān)系。相關(guān)關(guān)系背后的數(shù)學(xué)計(jì)算是直接而又有活力的,這是相關(guān)關(guān)系的本質(zhì)特征,也是讓相關(guān)關(guān)系成為最廣泛應(yīng)用的統(tǒng)計(jì)計(jì)量方法的原因。但是在大數(shù)據(jù)時(shí)代之前,相關(guān)關(guān)系的應(yīng)用很少。因?yàn)閿?shù)據(jù)很少而且收集數(shù)據(jù)很費(fèi)時(shí)費(fèi)力,所以統(tǒng)計(jì)學(xué)家們喜歡找到一個(gè)關(guān)聯(lián)物,然后收集與之相關(guān)的數(shù)據(jù)進(jìn)行相關(guān)關(guān)系分析來(lái)評(píng)測(cè)這個(gè)關(guān)聯(lián)物的優(yōu)劣。那么,如何尋找這個(gè)關(guān)聯(lián)物呢?2.3.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵除了僅僅依靠相關(guān)關(guān)系,專家們還會(huì)使用一些建立在理論基礎(chǔ)上的假想來(lái)指導(dǎo)自己選擇適當(dāng)?shù)年P(guān)聯(lián)物。這些理論就是一些抽象的觀點(diǎn),關(guān)于事物是怎樣運(yùn)作的。然后收集與關(guān)聯(lián)物相關(guān)的數(shù)據(jù)來(lái)進(jìn)行相關(guān)關(guān)系分析,以證明這個(gè)關(guān)聯(lián)物是否真的合適。如果不合適,人們通常會(huì)固執(zhí)地再次嘗試,因?yàn)閾?dān)心可能是數(shù)據(jù)收集的錯(cuò)誤,而最終卻不得不承認(rèn)一開(kāi)始的假想甚至假想建立的基礎(chǔ)都是有缺陷和必須修改的。這種對(duì)假想的反復(fù)試驗(yàn)促進(jìn)了學(xué)科的發(fā)展。但是這種發(fā)展非常緩慢,因?yàn)閭€(gè)人以及團(tuán)體的偏見(jiàn)會(huì)蒙蔽我們的雙眼,導(dǎo)致我們?cè)谠O(shè)立假想、應(yīng)用假想和選擇關(guān)聯(lián)物的過(guò)程中犯錯(cuò)誤??傊@是一個(gè)繁瑣的過(guò)程,只適用于小數(shù)據(jù)時(shí)代。2.3.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵在大數(shù)據(jù)時(shí)代,通過(guò)建立在人的偏見(jiàn)基礎(chǔ)上的關(guān)聯(lián)物監(jiān)測(cè)法已經(jīng)不再可行,因?yàn)閿?shù)據(jù)庫(kù)太大而且需要考慮的領(lǐng)域太復(fù)雜。幸運(yùn)的是,許多迫使我們選擇假想分析法的限制條件也逐漸消失了。我們現(xiàn)在擁有如此多的數(shù)據(jù),這么好的機(jī)器計(jì)算能力,因而不再需要人工選擇一個(gè)關(guān)聯(lián)物或者一小部分相似數(shù)據(jù)來(lái)逐一分析了。復(fù)雜的機(jī)器分析有助于我們做出準(zhǔn)確的判斷,就像在谷歌流感趨勢(shì)中,計(jì)算機(jī)把檢索詞條在5億個(gè)數(shù)學(xué)模型上進(jìn)行測(cè)試之后,準(zhǔn)確地找出了哪些是與流感傳播最相關(guān)的詞條。2.3.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵我們理解世界不再需要建立在假設(shè)的基礎(chǔ)上,這個(gè)假設(shè)是指針對(duì)現(xiàn)象建立的有關(guān)其產(chǎn)生機(jī)制和內(nèi)在機(jī)理的假設(shè)。因此,我們也不需要建立這樣一個(gè)假設(shè),關(guān)于哪些詞條可以表示流感在何時(shí)何地傳播;我們不需要了解航空公司怎樣給機(jī)票定價(jià);我們不需要知道沃爾瑪?shù)念櫩偷呐腼兿埠?。取而代之的是,我們可以?duì)大數(shù)據(jù)進(jìn)行相關(guān)關(guān)系分析,從而知道哪些檢索詞條是最能顯示流感的傳播的,飛機(jī)票的價(jià)格是否會(huì)飛漲,哪些食物是臺(tái)風(fēng)期間待在家里的人最想吃的。我們用數(shù)據(jù)驅(qū)動(dòng)的關(guān)于大數(shù)據(jù)的相關(guān)關(guān)系分析法,取代了基于假想的易出錯(cuò)的方法。大數(shù)據(jù)的相關(guān)關(guān)系分析法更準(zhǔn)確、更快,而且不易受偏見(jiàn)的影響。2.3.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測(cè)是大數(shù)據(jù)的核心。這種預(yù)測(cè)發(fā)生的頻率非常高,以至于我們經(jīng)常忽略了它的創(chuàng)新性。當(dāng)然,它的應(yīng)用會(huì)越來(lái)越多。大數(shù)據(jù)相關(guān)關(guān)系分析的極致,非美國(guó)折扣零售商塔吉特(Target,見(jiàn)圖2-16)莫屬了。該公司使用大數(shù)據(jù)的相關(guān)關(guān)系分析已經(jīng)有多年?!都~約時(shí)報(bào)》的記者查爾奢·杜西格就在一份報(bào)道中闡述了塔吉特公司怎樣在完全不和準(zhǔn)媽媽對(duì)話的前提下,預(yù)測(cè)一個(gè)女性會(huì)在什么時(shí)候懷孕。基本上來(lái)說(shuō),就是收集一個(gè)人可以收集到的所有數(shù)據(jù),然后通過(guò)相關(guān)關(guān)系分析得出事情的真實(shí)狀況。2.3.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵圖2-16折扣零售商塔吉特2.3.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵對(duì)于零售商來(lái)說(shuō),知道一個(gè)顧客是否懷孕是非常重要的。因?yàn)檫@是一對(duì)夫妻改變消費(fèi)觀念的開(kāi)始,也是一對(duì)夫妻生活的分水嶺。他們會(huì)開(kāi)始光顧以前不會(huì)去的商店,漸漸對(duì)新的品牌建立忠誠(chéng)。塔吉特公司的市場(chǎng)專員們向分析部求助,看是否有什么辦法能夠通過(guò)一個(gè)人的購(gòu)物方式發(fā)現(xiàn)她是否懷孕。公司的分析團(tuán)隊(duì)首先查看了簽署嬰兒禮物登記簿的女性的消費(fèi)記錄。塔吉特公司注意到,登記簿上的婦女會(huì)在懷孕大概第三個(gè)月的時(shí)候買(mǎi)很多無(wú)香乳液。幾個(gè)月之后,她們會(huì)買(mǎi)一些營(yíng)養(yǎng)品,比如鎂、鈣、鋅。公司最終找出了大概20多種關(guān)聯(lián)物,這些關(guān)聯(lián)物可以給顧客進(jìn)行“懷孕趨勢(shì)”評(píng)分。這些相關(guān)關(guān)系甚至使得零售商能夠比較準(zhǔn)確地預(yù)測(cè)預(yù)產(chǎn)期,這樣就能夠在孕期的每個(gè)階段給客戶寄送相應(yīng)的優(yōu)惠券,這才是塔吉特公司的目的。2.3.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵在社會(huì)環(huán)境下尋找關(guān)聯(lián)物只是大數(shù)據(jù)分析法采取的一種方式。同樣有用的一種方法是,通過(guò)找出新種類數(shù)據(jù)之間的相互聯(lián)系來(lái)解決日常需要。比方說(shuō),一種稱為預(yù)測(cè)分析法的方法就被廣泛地應(yīng)用于商業(yè)領(lǐng)域,它可以預(yù)測(cè)事件的發(fā)生。這可以指一個(gè)能發(fā)現(xiàn)可能的流行歌曲的算法系統(tǒng)——音樂(lè)界廣泛采用這種方法來(lái)確保它們看好的歌曲真的會(huì)流行;也可以指那些用來(lái)防止機(jī)器失效和建筑倒塌的方法?,F(xiàn)在,在機(jī)器、發(fā)動(dòng)機(jī)和橋梁等基礎(chǔ)設(shè)施上放置傳感器變得越來(lái)越平常了,這些傳感器被用來(lái)記錄散發(fā)的熱量、振幅、承壓和發(fā)出的聲音等。2.3.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵一個(gè)東西要出故障,不會(huì)是瞬間的,而是慢慢地出問(wèn)題的。通過(guò)收集所有的數(shù)據(jù),我們可以預(yù)先捕捉到事物要出故障的信號(hào),比方說(shuō)發(fā)動(dòng)機(jī)的嗡嗡聲、引擎過(guò)熱都說(shuō)明它們可能要出故障了。系統(tǒng)把這些異常情況與正常情況進(jìn)行對(duì)比,就會(huì)知道什么地方出了毛病。通過(guò)盡早地發(fā)現(xiàn)異常,系統(tǒng)可以提醒我們?cè)诠收现案鼡Q零件或者修復(fù)問(wèn)題。通過(guò)找出一個(gè)關(guān)聯(lián)物并監(jiān)控它,我們就能預(yù)測(cè)未來(lái)。“是什么”,而不是“為什么”2.3.22.3.2“是什么”,而不是“為什么”在小數(shù)據(jù)時(shí)代,相關(guān)關(guān)系分析和因果分析都不容易,耗費(fèi)巨大,都要從建立假設(shè)開(kāi)始,然后進(jìn)行實(shí)驗(yàn)——這個(gè)假設(shè)要么被證實(shí)要么被推翻。但是,由于兩者都始于假設(shè),這些分析就都有受偏見(jiàn)影響的可能,極易導(dǎo)致錯(cuò)誤。與此同時(shí),用來(lái)做相關(guān)關(guān)系分析的數(shù)據(jù)很難得到。另一方面,在小數(shù)據(jù)時(shí)代,由于計(jì)算機(jī)能力的不足,大部分相關(guān)關(guān)系分析僅限于尋求線性關(guān)系。而事實(shí)上,實(shí)際情況遠(yuǎn)比我們所想象的要復(fù)雜。經(jīng)過(guò)復(fù)雜的分析,我們能夠發(fā)現(xiàn)數(shù)據(jù)的“非線性關(guān)系”。2.3.2“是什么”,而不是“為什么”多年來(lái),經(jīng)濟(jì)學(xué)家和政治家一直認(rèn)為收入水平和幸福感是成正比的。從數(shù)據(jù)圖表上可以看到,雖然統(tǒng)計(jì)工具呈現(xiàn)的是一種線性關(guān)系,但事實(shí)上,它們之間存在一種更復(fù)雜的動(dòng)態(tài)關(guān)系:例如,對(duì)于收入水平在1萬(wàn)美元以下的人來(lái)說(shuō),一旦收入增加,幸福感會(huì)隨之提升;但對(duì)于收入水平在1萬(wàn)美元以上的人來(lái)說(shuō),幸福感并不會(huì)隨著收入水平提高而提升。如果能發(fā)現(xiàn)這層關(guān)系,我們看到的就應(yīng)該是一條曲線,而不是統(tǒng)計(jì)工具分析出來(lái)的直線。這個(gè)發(fā)現(xiàn)對(duì)決策者來(lái)說(shuō)非常重要。如果只看到線性關(guān)系的話,那么政策重心應(yīng)完全放在增加收入上,因?yàn)檫@樣才能增加全民的幸福感。而一旦察覺(jué)到這種非線性關(guān)系,策略的重心就會(huì)變成提高低收入人群的收入水平,因?yàn)檫@樣明顯更劃算。2.3.2“是什么”,而不是“為什么”當(dāng)相關(guān)關(guān)系變得更復(fù)雜時(shí),一切就更混亂了。比如,各地麻疹疫苗接種率的差別與人們?cè)卺t(yī)療保健上的花費(fèi)似乎有關(guān)聯(lián)。但是,哈佛與麻省理工的聯(lián)合研究小組發(fā)現(xiàn),這種關(guān)聯(lián)不是簡(jiǎn)單的線性關(guān)系,而是一個(gè)復(fù)雜的曲線圖。和預(yù)期相同的是,隨著人們?cè)卺t(yī)療上花費(fèi)的增多,麻疹疫苗接種率的差別會(huì)變?。坏钊梭@訝的是,當(dāng)增加到一定程度時(shí),這種差別又會(huì)變大。發(fā)現(xiàn)這種關(guān)系對(duì)公共衛(wèi)生官員來(lái)說(shuō)非常重要,但是普通的線性關(guān)系分析無(wú)法捕捉到這個(gè)重要信息。2.3.2“是什么”,而不是“為什么”大數(shù)據(jù)時(shí)代,專家們正在研發(fā)能發(fā)現(xiàn)并對(duì)比分析非線性關(guān)系的技術(shù)工具。一系列飛速發(fā)展的新技術(shù)和新軟件也從多方面提高了相關(guān)關(guān)系分析工具發(fā)現(xiàn)非因果關(guān)系的能力。這些新的分析工具和思路為我們展現(xiàn)了一系列新的視野被有用的預(yù)測(cè),我們看到了很多以前不曾注意到的聯(lián)系,還掌握了以前無(wú)法理解的復(fù)雜技術(shù)和社會(huì)動(dòng)態(tài)。但最重要的是,通過(guò)去探求“是什么”而不是“為什么”,相關(guān)關(guān)系幫助我們更好地了解了這個(gè)世界。通過(guò)因果關(guān)系了解世界2.3.32.3.3通過(guò)因果關(guān)系了解世界傳統(tǒng)情況下,人類是通過(guò)因果關(guān)系了解世界的。首先,我們的直接愿望就是了解因果關(guān)系。即使無(wú)因果聯(lián)系存在,我們也還是會(huì)假定其存在。研究證明,這只是我們的認(rèn)知方式,與每個(gè)人的文化背景、生長(zhǎng)環(huán)境以及教育水平無(wú)關(guān)。當(dāng)我們看到兩件事情接連發(fā)生的封候,我們會(huì)習(xí)慣性地從因果關(guān)系的角度來(lái)看待它們??纯聪旅娴娜湓挘骸案ダ椎碌母改高t到了;供應(yīng)商快到了;弗雷德生氣了。”讀到這里時(shí),我們可能立馬就會(huì)想到弗雷德生氣并不是因?yàn)楣?yīng)商快到了,而是他父母遲到了的緣故。實(shí)際上,我們也不知道到底是什么情況。即便如此,我們還是不禁認(rèn)為這些假設(shè)的因果關(guān)系是成立的。2.3.3通過(guò)因果關(guān)系了解世界普林斯頓大學(xué)心理學(xué)專家,同時(shí)也是2002年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主丹尼爾·卡尼曼就是用這個(gè)例子證明了人有兩種思維模式。第一種是不費(fèi)力的快速思維,通過(guò)這種思維方式幾秒鐘就能得出結(jié)果;另一種是比較費(fèi)力的慢性思維,對(duì)于特定的問(wèn)題,需要考慮到位。快速思維模式使人們偏向用因果聯(lián)系來(lái)看待周圍的一切,即使這種關(guān)系并不存在。這是我們對(duì)已有的知識(shí)和信仰的執(zhí)著。在古代,這種快速思維模式是很有用的,它能幫助我們?cè)谛畔⒘咳狈s必須快速做出決定的危險(xiǎn)情況下化險(xiǎn)為夷。但是,通常這種因果關(guān)系都是并不存在的。2.3.3通過(guò)因果關(guān)系了解世界卡尼曼指出,平時(shí)生活中,由于惰性,我們很少慢條斯理地思考問(wèn)題,所以快速思維模式就占據(jù)了上風(fēng)。因此,我們會(huì)經(jīng)常臆想出一些因果關(guān)系,最終導(dǎo)致了對(duì)世界的錯(cuò)誤理解。父母經(jīng)常告訴孩子,天冷時(shí)不戴帽子和手套就會(huì)感冒。然而,事實(shí)上,感冒和穿戴之間卻沒(méi)有直接的聯(lián)系。有時(shí),我們?cè)谀硞€(gè)餐館用餐后生病了的話,我們就會(huì)自然而然地覺(jué)得這是餐館食物的問(wèn)題,以后可能就不再去這家餐館了。事實(shí)上,我們肚子痛也許是因?yàn)槠渌膫魅就緩?,比如和患者握過(guò)手之類的。然而,我們的快速思維模式使我們直接將其歸于任何我們能在第一時(shí)間想起來(lái)的因果關(guān)系,因此,這經(jīng)常導(dǎo)致我們做出錯(cuò)誤的決定。2.3.3通過(guò)因果關(guān)系了解世界與常識(shí)相反,經(jīng)常憑借直覺(jué)而
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年西師新版九年級(jí)地理下冊(cè)階段測(cè)試試卷含答案
- 2025年滬教版九年級(jí)歷史上冊(cè)月考試卷含答案
- 2025年滬教新版選擇性必修3化學(xué)下冊(cè)階段測(cè)試試卷
- 2025年滬科版選修一歷史下冊(cè)階段測(cè)試試卷
- 2025年華師大版九年級(jí)化學(xué)上冊(cè)階段測(cè)試試卷含答案
- 2025年滬教版九年級(jí)歷史下冊(cè)階段測(cè)試試卷
- 2025年外研銜接版九年級(jí)地理下冊(cè)月考試卷含答案
- 2025年農(nóng)藥企業(yè)環(huán)保責(zé)任履行合同4篇
- 二零二五版抵押車借款合同編制指南與實(shí)例3篇
- 二零二五年度跨境電商進(jìn)口貨物擔(dān)保借款合同范本4篇
- 2023年成都市青白江區(qū)村(社區(qū))“兩委”后備人才考試真題
- 2024中考復(fù)習(xí)必背初中英語(yǔ)單詞詞匯表(蘇教譯林版)
- 海員的營(yíng)養(yǎng)-1315醫(yī)學(xué)營(yíng)養(yǎng)霍建穎等講解
- 《現(xiàn)代根管治療術(shù)》課件
- 肩袖損傷的護(hù)理查房課件
- 2023屆北京市順義區(qū)高三二模數(shù)學(xué)試卷
- 公司差旅費(fèi)報(bào)銷單
- 我國(guó)全科醫(yī)生培訓(xùn)模式
- 2021年上海市楊浦區(qū)初三一模語(yǔ)文試卷及參考答案(精校word打印版)
- 八年級(jí)上冊(cè)英語(yǔ)完形填空、閱讀理解100題含參考答案
- 八年級(jí)物理下冊(cè)功率課件
評(píng)論
0/150
提交評(píng)論