




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
人工智能導(dǎo)論Introductiontoartificialintelligence大數(shù)據(jù)思維1大數(shù)據(jù)與人工智能2思維轉(zhuǎn)變之一:樣本=總體3思維轉(zhuǎn)變之二:接受數(shù)據(jù)的混雜性4思維轉(zhuǎn)變之三:數(shù)據(jù)的相關(guān)關(guān)系第1節(jié)1大數(shù)據(jù)與人工智能3.1大數(shù)據(jù)與人工智能事實(shí)上人們對(duì)數(shù)據(jù)并不陌生。上古時(shí)期的結(jié)繩記事、以月之盈虧計(jì)算歲月,到后來(lái)部落內(nèi)部以獵物、采摘多寡計(jì)算貢獻(xiàn),再到歷朝歷代的土地農(nóng)田、人口糧食、馬匹軍隊(duì)等各類事項(xiàng)都涉及到大量的數(shù)據(jù)。這些數(shù)據(jù)雖然越來(lái)越多、越來(lái)越大,但是,人們都未曾冠之以“大”字,那是什么事情讓“數(shù)據(jù)”這瓶老酒突然換發(fā)了青春并如此時(shí)髦起來(lái)呢?Car
情報(bào)局3.1大數(shù)據(jù)與人工智能當(dāng)互聯(lián)網(wǎng)開(kāi)始進(jìn)一步向外延伸并與世上的很多物品鏈接之后,這些物體開(kāi)始不停地將實(shí)時(shí)變化的各類數(shù)據(jù)傳回到互聯(lián)網(wǎng)并與人開(kāi)始互動(dòng)的時(shí)候,物聯(lián)網(wǎng)誕生了。物聯(lián)網(wǎng)是個(gè)大奇跡,被認(rèn)為可能是繼互聯(lián)網(wǎng)之后人類最偉大的技術(shù)革命。Car
情報(bào)局3.1大數(shù)據(jù)與人工智能如今,即便是一件物品被人感知到的幾天內(nèi)的各種動(dòng)態(tài)數(shù)據(jù),都足以與古代一個(gè)王國(guó)一年所收集的各類數(shù)據(jù)相匹抵,那物聯(lián)網(wǎng)上數(shù)以萬(wàn)計(jì)億計(jì)的物品呢?是不是數(shù)據(jù)大得不得了,于是“大數(shù)據(jù)”產(chǎn)生了。Car
情報(bào)局3.1大數(shù)據(jù)與人工智能如此浩如云海的數(shù)據(jù),如何分類提取和有效處理呢?這個(gè)需要強(qiáng)大的技術(shù)設(shè)計(jì)與運(yùn)算能力,于是有了“云計(jì)算”。其中的“技術(shù)設(shè)計(jì)”屬于“算法”。“云計(jì)算”需要從大量數(shù)據(jù)中挖掘有用的信息,于是“數(shù)據(jù)挖掘”產(chǎn)生了。這些被挖掘出來(lái)的有用信息去服務(wù)城市就叫做“智慧城市”,去服務(wù)交通就叫做“智慧交通”,去服務(wù)家庭就叫做“智能家居”,去服務(wù)于醫(yī)院就叫做“智能醫(yī)院”,……于是,智能社會(huì)產(chǎn)生了。不過(guò),智能社會(huì)要有序、有效地運(yùn)行,中間必須依托一個(gè)“橋梁”和借助于某個(gè)工具,那就是“人工智能”。Car
情報(bào)局3.1大數(shù)據(jù)與人工智能這就是為什么近幾年時(shí)間內(nèi),諸如“人工智能”、“物聯(lián)網(wǎng)”、“大數(shù)據(jù)”、“云計(jì)算”、“算法”、“數(shù)據(jù)挖掘”和“智能XX”這些時(shí)髦概念突然紛紛冒出來(lái)的理由,原來(lái)它們都是“同一條線上拴著的螞蚱”!圖3-3一根繩上的螞蚱Car
情報(bào)局3.1大數(shù)據(jù)與人工智能萬(wàn)物大數(shù)據(jù)主要包括人與人、人與物、物與物三者相互作用所產(chǎn)生(制造)的大數(shù)據(jù)。其中人與人、人與物之間制造出來(lái)的數(shù)據(jù),有少部分被感知,物與物之間制造出來(lái)的數(shù)據(jù)還根本沒(méi)法被感知的。對(duì)于人與人、人與物之間被感知到的那部分很小的數(shù)據(jù)(相對(duì)于萬(wàn)物釋放的量來(lái)說(shuō)非常小,但是絕對(duì)量卻非常大),這主要是指在2000年后,因?yàn)槿祟愋畔⒔粨Q、信息存儲(chǔ)、信息處理三方面能力的大幅增長(zhǎng)而產(chǎn)生的數(shù)據(jù),這個(gè)實(shí)際上就是我們?nèi)粘K?tīng)到的“大數(shù)據(jù)”概念,是以人為中心的狹義大數(shù)據(jù),也是實(shí)用性(商業(yè)、監(jiān)控或發(fā)展等使用)大數(shù)據(jù)。信息存儲(chǔ)、處理等能力的增強(qiáng)為我們利用大數(shù)據(jù)提供了近乎無(wú)限的想象空間。Car
情報(bào)局3.1大數(shù)據(jù)與人工智能在數(shù)字化時(shí)代,數(shù)據(jù)處理變得更加容易、更加快速,人們能夠在瞬間處理成千上萬(wàn)的數(shù)據(jù)。而“大數(shù)據(jù)”全在于發(fā)現(xiàn)和理解信息內(nèi)容及信息與信息之間的關(guān)系。實(shí)際上,大數(shù)據(jù)的精髓在于我們分析信息時(shí)的三個(gè)轉(zhuǎn)變,這些轉(zhuǎn)變將改變我們理解和組建社會(huì)的方法,這三個(gè)轉(zhuǎn)變是相互聯(lián)系和相互作用的。Car
情報(bào)局1小數(shù)據(jù)時(shí)代的隨機(jī)采樣2大數(shù)據(jù)與喬布斯的癌癥治療3全數(shù)據(jù)模式:樣本=總體第2節(jié)3.2思維轉(zhuǎn)變之一:樣本=總體很長(zhǎng)以來(lái),因?yàn)橛涗?、?chǔ)存和分析數(shù)據(jù)的工具不夠好,為了讓分析變得簡(jiǎn)單,當(dāng)面臨大量數(shù)據(jù)時(shí),社會(huì)都依賴于采樣分析。但是采樣分析是信息缺乏時(shí)代和信息流通受限制的模擬數(shù)據(jù)時(shí)代的產(chǎn)物。如今信息技術(shù)的條件已經(jīng)有了非常大的提高,雖然人類可以處理的數(shù)據(jù)依然是有限的,但是可以處理的數(shù)據(jù)量已經(jīng)大大地增加,而且未來(lái)會(huì)越來(lái)越多。大數(shù)據(jù)時(shí)代的第一個(gè)轉(zhuǎn)變,是要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本。Car
情報(bào)局3.2思維轉(zhuǎn)變之一:樣本=總體在某些方面,人們依然還沒(méi)有意識(shí)到自己擁有了能夠收集和處理更大規(guī)模數(shù)據(jù)的能力,還是在信息匱乏的假設(shè)下做很多事情。人們甚至發(fā)展了一些使用盡可能少的信息的技術(shù),例如統(tǒng)計(jì)學(xué)的一個(gè)目的就是用盡可能少的數(shù)據(jù)來(lái)證實(shí)盡可能重大的發(fā)現(xiàn)。Car
情報(bào)局3.2.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣數(shù)千年來(lái),政府一直都試圖通過(guò)收集信息來(lái)管理國(guó)民,只是到最近,小企業(yè)和個(gè)人才有可能擁有大規(guī)模收集和分類數(shù)據(jù)的能力,而此前,大規(guī)模的計(jì)數(shù)則是政府的事情。以人口普查為例,據(jù)說(shuō)古代埃及就曾進(jìn)行過(guò)人口普查,那次由羅馬帝國(guó)的開(kāi)國(guó)君主愷撒主導(dǎo)實(shí)施的人口普查,提出了“每個(gè)人都必須納稅”。1086年的《末日審判書(shū)》對(duì)當(dāng)時(shí)英國(guó)的人口、土地和財(cái)產(chǎn)做了一個(gè)前所未有的全面記載?;始椅瘑T穿越整個(gè)國(guó)家對(duì)每個(gè)人、每件事都做了記載,后來(lái)這本書(shū)用《圣經(jīng)》中的《末日審判書(shū)》命名,因?yàn)槊總€(gè)人的生活都被赤裸裸地記載下來(lái)的過(guò)程就像接受“最后的審判”一樣。Car
情報(bào)局3.2.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣然而,人口普查是一項(xiàng)耗資且費(fèi)時(shí)的事情,盡管如此,當(dāng)時(shí)收集的信息也只是一個(gè)大概情況,實(shí)施人口普查的人也知道他們不可能準(zhǔn)確記錄下每個(gè)人的信息。實(shí)際上,“人口普查”這個(gè)詞來(lái)源于拉丁語(yǔ)的“censere”,本意就是推測(cè)、估算。Car
情報(bào)局3.2.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣三百多年前,一個(gè)名叫約翰·格朗特的英國(guó)縫紉用品商提出了一個(gè)很有新意的方法,來(lái)推算出鼠疫時(shí)期倫敦的人口數(shù),這種方法就是后來(lái)的統(tǒng)計(jì)學(xué)。這個(gè)方法不需要一個(gè)人一個(gè)人地計(jì)算。雖然這個(gè)方法比較粗糙,但采用這個(gè)方法,人們可以利用少量有用的樣本信息來(lái)獲取人口的整體情況。樣本分析法一直都有較大的漏洞,因此,無(wú)論是進(jìn)行人口普查還是其他大數(shù)據(jù)類的任務(wù),人們還是一直使用清點(diǎn)這種“野蠻”的方法。Car
情報(bào)局3.2.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣美國(guó)在1880年進(jìn)行的人口普查,耗時(shí)8年才完成數(shù)據(jù)匯總。因此,他們獲得的很多數(shù)據(jù)都是過(guò)時(shí)的。1890年進(jìn)行的人口普查,預(yù)計(jì)要花費(fèi)13年的時(shí)間來(lái)匯總數(shù)據(jù)。然而,因?yàn)槎愂辗謹(jǐn)偤蛧?guó)會(huì)代表人數(shù)確定都是建立在人口的基礎(chǔ)上的,必須獲得正確且及時(shí)的數(shù)據(jù),所以就需要有新技術(shù)。后來(lái),是美國(guó)發(fā)明家赫爾曼?霍爾瑞斯(被稱為現(xiàn)代自動(dòng)計(jì)算之父)用他的穿孔卡片制表機(jī)成功地在1年時(shí)間內(nèi)完成了人口普查的數(shù)據(jù)匯總工作。這簡(jiǎn)直就
是一個(gè)奇跡,它標(biāo)志著自動(dòng)處理數(shù)據(jù)的開(kāi)端,也為
后來(lái)IBM公司的成立奠定了基礎(chǔ)。Car
情報(bào)局3.2.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣這就是問(wèn)題所在,是利用所有的數(shù)據(jù)還是僅僅采用一部分呢?有人提出有目的地選擇最具代表性的樣本是最恰當(dāng)?shù)姆椒?,后?lái)統(tǒng)計(jì)學(xué)家們證明,問(wèn)題的關(guān)鍵是選擇樣本時(shí)的隨機(jī)性,采樣分析的精確性隨著采樣隨機(jī)性的增加而大幅提高,但與樣本數(shù)量的增加關(guān)系不大。在商業(yè)領(lǐng)域,隨機(jī)采樣被用來(lái)監(jiān)管商品質(zhì)量。這使得監(jiān)管商品質(zhì)量和提升商品品質(zhì)變得更容易,花費(fèi)也更少。本質(zhì)上來(lái)說(shuō),隨機(jī)采樣讓大數(shù)據(jù)問(wèn)題變得更加切實(shí)可行。同理,它將客戶調(diào)查引進(jìn)了零售行業(yè),將焦點(diǎn)討論引進(jìn)了政治界,也將許多人文問(wèn)題變成了社會(huì)科學(xué)問(wèn)題。Car
情報(bào)局3.2.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣隨機(jī)采樣取得了巨大的成功,成為現(xiàn)代社會(huì)、現(xiàn)代測(cè)量領(lǐng)域的主心骨。但這只是一條捷徑,是在不可收集和分析全部數(shù)據(jù)的情況下的選擇,它的成功依賴于采樣的絕對(duì)隨機(jī)性,但是實(shí)現(xiàn)采樣的隨機(jī)性非常困難。一旦采樣過(guò)程中存在任何偏見(jiàn),分析結(jié)果就會(huì)相去甚遠(yuǎn)。Car
情報(bào)局3.2.2大數(shù)據(jù)與喬布斯的癌癥治療我們來(lái)看一下DNA分析。由于技術(shù)成本大幅下跌以及在醫(yī)學(xué)方面的廣闊前景,個(gè)人基因排序成為了一門(mén)新興
產(chǎn)業(yè)。圖3-5世界民族基因總圖(美國(guó))Car
情報(bào)局3.2.2大數(shù)據(jù)與喬布斯的癌癥治療從2007年起,硅谷的新興科技公司23andMe就開(kāi)始分析人類基因,這可以揭示出人類遺傳密碼中一些會(huì)導(dǎo)致其對(duì)某些疾病抵抗力差的特征,如乳腺癌和心臟病。23andMe希望能通過(guò)整合顧客的DNA和健康信息,了解到用其他方式不能獲取的新信息。公司對(duì)某人的一小部分DNA進(jìn)行排序,標(biāo)注出幾十個(gè)特定的基因缺陷。這只是該人整個(gè)基因密碼的樣本,還有幾十億個(gè)基因堿基對(duì)未排序。最后,23andMe只能回答其標(biāo)注過(guò)的基因組表現(xiàn)出來(lái)的問(wèn)題。發(fā)現(xiàn)新標(biāo)注時(shí),該人的DNA必須重新排序,更準(zhǔn)確地說(shuō),是相關(guān)的部分必須重新排列。只研究樣本而不是整體,有利有弊:能更快更容易地發(fā)現(xiàn)問(wèn)題,但不能回答事先未考慮到的問(wèn)題。Car
情報(bào)局3.2.2大數(shù)據(jù)與喬布斯的癌癥治療蘋(píng)果公司的傳奇總裁史蒂夫·喬布斯在與癌癥斗爭(zhēng)的過(guò)程中采用了不同的方式,成為世界上第一個(gè)對(duì)自身所有DNA和腫瘤DNA進(jìn)行排序的人。他得到的不是一個(gè)標(biāo)記的樣本,他得到了包括整個(gè)基因密碼的數(shù)據(jù)文檔。對(duì)于一個(gè)普通的癌癥患者,醫(yī)生只能期望她的DNA排列同試驗(yàn)中使用的樣本足夠相似。但是,史蒂夫?喬布斯的醫(yī)生們能夠基于喬布斯的特定基因組成,按所需效果用藥。如果癌癥病變導(dǎo)致藥物失效,醫(yī)生可以及時(shí)更換另一種藥。喬布斯曾經(jīng)開(kāi)玩笑地說(shuō):“我要么是第一個(gè)通過(guò)這種方式戰(zhàn)勝癌癥的人,要么就是最后一個(gè)因?yàn)檫@種方式死于癌癥的人?!彪m然他的愿望都沒(méi)有實(shí)現(xiàn),但是這種獲得所有數(shù)據(jù)而不僅是樣本的方法還是將他的生命延長(zhǎng)了好幾年。Car
情報(bào)局3.2.3全數(shù)據(jù)模式:樣本=總體采樣的目的是用最少的數(shù)據(jù)得到更多的信息,而當(dāng)我們可以處理海量數(shù)據(jù)的時(shí)候,采樣就沒(méi)有什么意義了。如今,計(jì)算和制表已經(jīng)不再困難,感應(yīng)器、手機(jī)導(dǎo)航、網(wǎng)站點(diǎn)擊和微信等被動(dòng)地收集了大量數(shù)據(jù),而計(jì)算機(jī)可以輕易地對(duì)這些數(shù)據(jù)進(jìn)行處理。但是,數(shù)據(jù)處理技術(shù)己經(jīng)發(fā)生了翻天覆地的改變,而我們的方法和思維卻沒(méi)有跟上這種改變。在很多領(lǐng)域,從收集部分?jǐn)?shù)據(jù)到收集盡可能多的數(shù)據(jù)的轉(zhuǎn)變已經(jīng)發(fā)生。如果可能的話,我們會(huì)收集所有的數(shù)據(jù),即“樣本=總體”,這是指我們能對(duì)數(shù)據(jù)進(jìn)行深度探討。Car
情報(bào)局3.2.3全數(shù)據(jù)模式:樣本=總體在上面提到的例子中,用采樣的方法分析情況正確率可達(dá)97%。對(duì)于某些事物來(lái)說(shuō),3%的錯(cuò)誤率是可以接受的,但是你可能會(huì)失去對(duì)某些特定子類別進(jìn)行進(jìn)一步研究的能力。谷歌流感趨勢(shì)預(yù)測(cè)不是依賴于隨機(jī)樣本,而是分析了全美國(guó)幾十億條互聯(lián)網(wǎng)檢索記錄。分析整個(gè)數(shù)據(jù)庫(kù),而不是對(duì)一個(gè)小樣本進(jìn)行分析,能夠提高微觀層面分析的準(zhǔn)確性,甚至能夠推測(cè)出某個(gè)特定城市的流感狀況。Car
情報(bào)局3.2.3全數(shù)據(jù)模式:樣本=總體通過(guò)使用所有的數(shù)據(jù),我們可以發(fā)現(xiàn)如若不然則將會(huì)在大量數(shù)據(jù)中淹沒(méi)掉的情況。例如,信用卡詐騙是通過(guò)觀察異常情況來(lái)識(shí)別的,只有掌握了所有的數(shù)據(jù)才能做到這一點(diǎn)。在這種情況下,異常值是最有用的信息,你可以把它與正常交易情況進(jìn)行對(duì)比。而且,因?yàn)榻灰资羌磿r(shí)的,所以你的數(shù)據(jù)分析也應(yīng)該是即時(shí)的。Car
情報(bào)局3.2.3全數(shù)據(jù)模式:樣本=總體因?yàn)榇髷?shù)據(jù)是建立在掌握所有數(shù)據(jù),至少是盡可能多的數(shù)據(jù)的基礎(chǔ)上的,所以我們就可以正確地考察細(xì)節(jié)并進(jìn)行新的分析。在任何細(xì)微的層面,我們都可以用大數(shù)據(jù)去論證新的假設(shè)。當(dāng)然,有些時(shí)候,我們還是可以使用樣本分析法,畢竟我們?nèi)匀换钤谝粋€(gè)資源有限的時(shí)代。但是更多時(shí)候,利用手中掌握的所有數(shù)據(jù)成為了最好也是可行的選擇。于是,慢慢地,我們會(huì)完全拋棄樣本分析。Car
情報(bào)局1允許不精確2紛繁的數(shù)據(jù)越多越好3混雜性是標(biāo)準(zhǔn)途徑45%的數(shù)字?jǐn)?shù)據(jù)與95%的非結(jié)構(gòu)化數(shù)據(jù)第3節(jié)3.3思維轉(zhuǎn)變之二:接受數(shù)據(jù)的混雜性當(dāng)我們測(cè)量事物的能力受限時(shí),關(guān)注最重要的事情和獲取最精確的結(jié)果是可取的。直到今天,我們的數(shù)字技術(shù)依然建立在精準(zhǔn)的基礎(chǔ)上。我們假設(shè)只要電子數(shù)據(jù)表格把數(shù)據(jù)排序,數(shù)據(jù)庫(kù)引擎就可以找出和我們檢索的內(nèi)容完全一致的檢索記錄。這種思維方式適用于掌握“小數(shù)據(jù)量”的情況,因?yàn)樾枰治龅臄?shù)據(jù)很少,所以我們必須盡可能精準(zhǔn)地量化我們的記錄。在某些方面,我們已經(jīng)意識(shí)到了差別。例如,一個(gè)小商店在晚上打烊的時(shí)候要把收銀臺(tái)里的每分錢(qián)都數(shù)清楚,但是我們不會(huì)、也不可能用“分”這個(gè)單位去精確度量國(guó)民生產(chǎn)總值。隨著規(guī)模的擴(kuò)大,對(duì)精確度的癡迷將減弱。Car
情報(bào)局3.3思維轉(zhuǎn)變之二:接受數(shù)據(jù)的混雜性針對(duì)小數(shù)據(jù)量和特定事情,追求精確性依然是可行的,比如一個(gè)人的銀行賬戶上是否有足夠的錢(qián)開(kāi)具支票。但是,在大數(shù)據(jù)時(shí)代,很多時(shí)候,追求精確度已經(jīng)變得不可行,甚至不受歡迎了。大數(shù)據(jù)紛繁多樣,優(yōu)劣摻雜,分布在全球多個(gè)服務(wù)器上。擁有了大數(shù)據(jù),我們不再需要對(duì)一個(gè)現(xiàn)象刨根究底,只要掌握大體的發(fā)展方向即可。當(dāng)然,我們也不是完全放棄了精確度,只是不再沉迷于此。適當(dāng)忽略微觀層面上的精確度會(huì)讓我們?cè)诤暧^層面擁有更好的洞察力。Car
情報(bào)局3.3思維轉(zhuǎn)變之二:接受數(shù)據(jù)的混雜性大數(shù)據(jù)時(shí)代的第二個(gè)轉(zhuǎn)變,是我們樂(lè)于接受數(shù)據(jù)的紛繁復(fù)雜,而不再一味追求其精確性。在越來(lái)越多的情況下,使用所有可獲取的數(shù)據(jù)變得更為可能,但為此也要付出一定的代價(jià)。數(shù)據(jù)量的大幅增加會(huì)造成結(jié)果的不準(zhǔn)確,與此同時(shí),一些錯(cuò)誤的數(shù)據(jù)也會(huì)混進(jìn)數(shù)據(jù)庫(kù)。然而,重點(diǎn)是我們能夠努力避免這些問(wèn)題。Car
情報(bào)局3.3.1允許不精確對(duì)“小數(shù)據(jù)”而言,最基本、最重要的要求就是減少錯(cuò)誤,保證質(zhì)量。因?yàn)槭占男畔⒘勘容^少,所以我們必須確保記錄下來(lái)的數(shù)據(jù)盡量精確。為了使結(jié)果更加準(zhǔn)確,很多科學(xué)家都致力于優(yōu)化測(cè)量的工具。在采樣的時(shí)候,對(duì)精確度的要求就更高更苛刻了。因?yàn)槭占畔⒌挠邢抟馕吨?xì)微的錯(cuò)誤會(huì)被放大,甚至有可能影響整個(gè)結(jié)果的準(zhǔn)確性。然而,在不斷涌現(xiàn)的新情況里,允許不精確的出現(xiàn)已經(jīng)成為一個(gè)亮點(diǎn),而非缺點(diǎn)。因?yàn)榉潘闪巳蒎e(cuò)的標(biāo)準(zhǔn),人們掌握的數(shù)據(jù)也多了起來(lái),還可以利用這些數(shù)據(jù)做更多新的事情。這樣就不是大量數(shù)據(jù)優(yōu)于少量數(shù)據(jù)那么簡(jiǎn)單了,而是大量數(shù)據(jù)創(chuàng)造了更好的結(jié)果。Car
情報(bào)局3.3.1允許不精確同時(shí),我們需要與各種各樣的混亂做斗爭(zhēng)?;靵y,簡(jiǎn)單地說(shuō)就是隨著數(shù)據(jù)的增加,錯(cuò)誤率也會(huì)相應(yīng)增加。所以,如果橋梁的壓力數(shù)據(jù)量增加1000倍的話,其中的部分讀數(shù)就可能是錯(cuò)誤的,而且隨著讀數(shù)量的增加,錯(cuò)誤率可能也會(huì)繼續(xù)增加。在整合來(lái)源不同的各類信息的時(shí)候,因?yàn)樗鼈兺ǔ2煌耆恢?,所以也?huì)加大混亂程度?;靵y還指格式的不一致性,因?yàn)橐_(dá)到格式一致,就需要在進(jìn)行數(shù)據(jù)處理之前仔細(xì)地清洗數(shù)據(jù),而這在大數(shù)據(jù)背景下很難做到。當(dāng)然,在萃取或處理數(shù)據(jù)的時(shí)候,混亂也會(huì)發(fā)生。因?yàn)樵谶M(jìn)行數(shù)據(jù)轉(zhuǎn)化的時(shí)候,我們是在把它變成另外的事物。Car
情報(bào)局3.3.1允許不精確可見(jiàn),為了獲得更廣泛的數(shù)據(jù)而犧牲了精確性,也因此看到了很多如若不然無(wú)法被關(guān)注到的細(xì)節(jié)。雖然如果我們能夠下足夠多的工夫,這些錯(cuò)誤是可以避免的,但在很多情況下,與致力于避免錯(cuò)誤相比,對(duì)錯(cuò)誤的包容會(huì)帶給我們更多好處。Car
情報(bào)局3.3.1允許不精確大數(shù)據(jù)在多大程度上優(yōu)于算法,這個(gè)問(wèn)題在自然語(yǔ)言處理上表現(xiàn)得很明顯。2000年,微軟研究中心的米歇爾·班科和埃里克·布里爾一直在尋求改進(jìn)Word程序中語(yǔ)法檢查的方法。但是他們不能確定是努力改進(jìn)現(xiàn)有的算法、研發(fā)新的方法,還是添加更加細(xì)膩精致的特點(diǎn)更有效。所以,在實(shí)施這些措施之前,他們決定往現(xiàn)有的算法中添加更多的數(shù)據(jù),看看會(huì)有什么不同的變化。很多對(duì)計(jì)算機(jī)學(xué)習(xí)算法的研究都建立在百萬(wàn)字左右的語(yǔ)料庫(kù)基礎(chǔ)上。最后,他們決定往4種常見(jiàn)的算法中逐新添加數(shù)據(jù),先是一千萬(wàn)字,再到一億字,最后到十億。Car
情報(bào)局3.3.1允許不精確結(jié)果有點(diǎn)令人吃驚。他們發(fā)現(xiàn),隨著數(shù)據(jù)的增多,4種算法的表現(xiàn)都大幅提高了。當(dāng)數(shù)據(jù)只有500萬(wàn)的時(shí)候,有一種簡(jiǎn)單的算法表現(xiàn)得很差,但當(dāng)數(shù)據(jù)達(dá)10億的時(shí)候,它變成了表現(xiàn)最好的,準(zhǔn)確率從原來(lái)的75%提高到了95%以上。與之相反地,在少量數(shù)據(jù)情況下運(yùn)行得最好的算法,當(dāng)加入更多的數(shù)據(jù)時(shí),也會(huì)像其他的算法一樣有所提高,但是卻變成了在大量數(shù)據(jù)條件下運(yùn)行得最不好的。它的準(zhǔn)確率會(huì)從86%提高到94%。后來(lái),班科和布里爾在他們發(fā)表的研究論文中寫(xiě)到,“如此一來(lái),我們得重新衡量一下更多的人力物力是應(yīng)該消耗在算法發(fā)展上還是在語(yǔ)料庫(kù)發(fā)展上?!盋ar
情報(bào)局3.3.2紛繁的數(shù)據(jù)越多越好通常傳統(tǒng)的統(tǒng)計(jì)學(xué)家都很難容忍錯(cuò)誤數(shù)據(jù)的存在,在收集樣本的時(shí)候,他們會(huì)用一整套的策略來(lái)減少錯(cuò)誤發(fā)生的概率。在結(jié)果公布之前,他們也會(huì)測(cè)試樣本是否存在潛在的系統(tǒng)性偏差。這些策略包括根據(jù)協(xié)議或通過(guò)受過(guò)專門(mén)訓(xùn)練的專家來(lái)采集樣本。但是,即使只是少量的數(shù)據(jù),這些規(guī)避錯(cuò)誤的策略實(shí)施起來(lái)還是耗費(fèi)巨大。尤其是當(dāng)我們收集所有數(shù)據(jù)的時(shí)候,這就行不通了。不僅是因?yàn)楹馁M(fèi)巨大,還因?yàn)樵诖笠?guī)模的基礎(chǔ)上保持?jǐn)?shù)據(jù)收集標(biāo)準(zhǔn)的一致性不太現(xiàn)實(shí)。大數(shù)據(jù)時(shí)代要求我們重新審視數(shù)據(jù)精確性的優(yōu)劣。如果將傳統(tǒng)的思維模式運(yùn)用于數(shù)字化、網(wǎng)絡(luò)化的21世紀(jì),就有可能錯(cuò)過(guò)重要的信息。Car
情報(bào)局3.3.2紛繁的數(shù)據(jù)越多越好如今,我們已經(jīng)生活在信息時(shí)代。我們掌握的數(shù)據(jù)庫(kù)越來(lái)越全面,它包括了與這些現(xiàn)象相關(guān)的大量甚至全部數(shù)據(jù)。我們不再需要那么擔(dān)心某個(gè)數(shù)據(jù)點(diǎn)對(duì)整套分析的不利影響。我們要做的就是要接受這些紛繁的數(shù)據(jù)并從中受益,而不是以高昂的代價(jià)消除所有的不確定性。Car
情報(bào)局Car
情報(bào)局3.3.2紛繁的數(shù)據(jù)越多越好在華盛頓州布萊恩市的英國(guó)石油公司(BP)切里波因特?zé)捰蛷S里,無(wú)線感應(yīng)器遍布于整個(gè)工廠,形成無(wú)形的網(wǎng)絡(luò),能夠產(chǎn)生大量實(shí)時(shí)數(shù)據(jù)。在這里,酷熱的惡劣環(huán)境和電氣設(shè)備的存在有時(shí)會(huì)對(duì)感應(yīng)器讀數(shù)有所影響,形成錯(cuò)誤的數(shù)據(jù)。但是數(shù)據(jù)生成的數(shù)量之多可以彌補(bǔ)這些小
錯(cuò)誤。隨時(shí)監(jiān)測(cè)管道的承壓使得BP能夠了
解到,有些種類的原油比其他種類更具有
腐蝕性。以前,這都是無(wú)法發(fā)現(xiàn)也無(wú)法防
止的。Car
情報(bào)局3.3.2紛繁的數(shù)據(jù)越多越好有時(shí)候,當(dāng)我們掌握了大量新型數(shù)據(jù)時(shí),精確性就不那么重要了,我們同樣可以掌握事情的發(fā)展趨勢(shì)。大數(shù)據(jù)不僅讓我們不再期待精確性,也讓我們無(wú)法實(shí)現(xiàn)精確性。然而,除了一開(kāi)始會(huì)與我們的直覺(jué)相矛盾之外,接受數(shù)據(jù)的不精確和不完美,我們反而能夠更好地進(jìn)行預(yù)測(cè),也能夠更好地理解這個(gè)世界。Car
情報(bào)局3.3.2紛繁的數(shù)據(jù)越多越好值得注意的是,錯(cuò)誤性并不是大數(shù)據(jù)本身固有的特性,而是一個(gè)亟需我們?nèi)ヌ幚淼默F(xiàn)實(shí)問(wèn)題,并且有可能長(zhǎng)期存在。它只是我們用來(lái)測(cè)量、記錄和交流數(shù)據(jù)的工具的一個(gè)缺陷。如果說(shuō)哪天技術(shù)變得完美無(wú)缺了,不精確的問(wèn)題也就不復(fù)存在了。因?yàn)閾碛懈髷?shù)據(jù)量所能帶來(lái)的商業(yè)利益遠(yuǎn)遠(yuǎn)超過(guò)增加一點(diǎn)精確性,所以通常我們不會(huì)再花大力氣去提升數(shù)據(jù)的精確性。這又是一個(gè)關(guān)注焦點(diǎn)的轉(zhuǎn)變,正如以前,統(tǒng)計(jì)學(xué)家們總是把他們的興趣放在提高樣本的隨機(jī)性而不是數(shù)量上。如今,大數(shù)據(jù)給我們帶來(lái)的利益,讓我們能夠接受不精確的存在了。Car
情報(bào)局3.3.3混雜性是標(biāo)準(zhǔn)途徑長(zhǎng)期以來(lái),人們一直用分類法和索引法來(lái)幫助自己存儲(chǔ)和檢索數(shù)據(jù)資源。這樣的分級(jí)系統(tǒng)通常都不完善。而在“小數(shù)據(jù)”范圍內(nèi),這些方法就很有效,但一旦把數(shù)據(jù)規(guī)模增加好幾個(gè)數(shù)量級(jí),這些預(yù)設(shè)一切都各就各位的系統(tǒng)就會(huì)崩潰。一家加拿大的相片分享網(wǎng)站Flickr在2011年就已經(jīng)擁有來(lái)自大概1億用戶的60億張照片。根據(jù)預(yù)先設(shè)定好的分類來(lái)標(biāo)注每張照
片就沒(méi)有意義了。恰恰相反,清楚的分類被更
混亂卻更靈活的機(jī)制所取代了,這些機(jī)制才能
適應(yīng)改變著的世界。圖3-7Flickr年度最受歡迎的照片之一Car
情報(bào)局3.3.3混雜性是標(biāo)準(zhǔn)途徑當(dāng)我們上傳照片到Flickr網(wǎng)站的時(shí)候,我們會(huì)給照片添加標(biāo)簽,也就是使用一組文本標(biāo)簽來(lái)編組和搜索這些資源。人們用自己的方式創(chuàng)造和使用標(biāo)簽,所以它是沒(méi)有標(biāo)準(zhǔn)、沒(méi)有預(yù)先設(shè)定的排列和分類,也沒(méi)有我們所必須遵守的類別規(guī)定。任何人都可以輸入新的標(biāo)簽,標(biāo)簽內(nèi)容事實(shí)上就成為了網(wǎng)絡(luò)資源的分類標(biāo)準(zhǔn)。標(biāo)簽被廣泛地應(yīng)用于微信、臉書(shū)、博客等社交網(wǎng)絡(luò)上。因?yàn)樗鼈兊拇嬖?,互?lián)網(wǎng)上的資源變得更加容易找到,特別是像圖片、視頻和音樂(lè)這些無(wú)法用關(guān)鍵詞搜索的非文本類資源。如今,要想獲得大規(guī)模數(shù)據(jù)帶來(lái)的好處,混亂應(yīng)該是一種標(biāo)準(zhǔn)途徑,而不應(yīng)該是竭力避免的。Car
情報(bào)局3.3.45%的數(shù)字?jǐn)?shù)據(jù)與95%的非結(jié)構(gòu)化數(shù)據(jù)據(jù)估計(jì),只有5%的數(shù)字?jǐn)?shù)據(jù)是結(jié)構(gòu)化的且能適用于傳統(tǒng)數(shù)據(jù)庫(kù)。如果不接受混亂,剩下95%的非結(jié)構(gòu)化數(shù)據(jù)都無(wú)法被利用,比如網(wǎng)頁(yè)和視頻資源。通過(guò)接受不精確性,我們打開(kāi)了一個(gè)從未涉足的世界的窗戶。我們?cè)趺纯创褂盟袛?shù)據(jù)和使用部分?jǐn)?shù)據(jù)的差別以及我們?cè)鯓舆x擇放松要求并取代嚴(yán)格的精確性,將會(huì)對(duì)我們與世界的溝通產(chǎn)生深刻的影響。隨著大數(shù)據(jù)技術(shù)成為日常生活中的一部分,我們應(yīng)該開(kāi)始從一個(gè)比以前更大更全面的角度來(lái)理解事物,也就是說(shuō)應(yīng)該將“樣本=總體”植入我們的思維中。Car
情報(bào)局3.3.45%的數(shù)字?jǐn)?shù)據(jù)與95%的非結(jié)構(gòu)化數(shù)據(jù)現(xiàn)在,我們能夠容忍模糊和不確定出現(xiàn)在一些過(guò)去依賴于清晰和精確的頓域,當(dāng)然過(guò)去可能也只是有清晰的假象和不完全的精確。只要我們能夠得到一個(gè)事物更完整的概念,我們就能接受模糊和不確定的存在。Car
情報(bào)局3.3.45%的數(shù)字?jǐn)?shù)據(jù)與95%的非結(jié)構(gòu)化數(shù)據(jù)相比依賴于小數(shù)據(jù)和精確性的時(shí)代,大數(shù)據(jù)因?yàn)楦鼜?qiáng)調(diào)數(shù)據(jù)的完整性和混雜性,幫助我們進(jìn)一步接近事實(shí)的真相。“部分”和“確切”的吸引力是可以理解的。但是,當(dāng)我們的視野局限在我們可以分析和能夠確定的數(shù)據(jù)上時(shí),我們對(duì)世界的整體理解就可能產(chǎn)生偏差和錯(cuò)誤。不僅失去了去盡力收集一切數(shù)據(jù)的動(dòng)力,也失去了從各個(gè)不同角度來(lái)觀察事物的權(quán)利。所以,局限于狹隘的小數(shù)據(jù)中,我們可以自豪于對(duì)精確性的追求,但是就算我們可以分析得到細(xì)節(jié)中的細(xì)節(jié),也依然會(huì)錯(cuò)過(guò)事物的全貌。Car
情報(bào)局1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵2“是什么”,而不是“為什么”3通過(guò)因果關(guān)系了解世界4通過(guò)相關(guān)關(guān)系了解世界第4節(jié)3.4思維轉(zhuǎn)變之三:數(shù)據(jù)的相關(guān)關(guān)系這是因前兩個(gè)轉(zhuǎn)變而促成的。尋找因果關(guān)系是人類長(zhǎng)久以來(lái)的習(xí)慣,即使確定因果關(guān)系很困難而且用途不大,人類還是習(xí)慣性地尋找緣由。相反,在大數(shù)據(jù)時(shí)代,我們無(wú)須再緊盯事物之間的因果關(guān)系,而應(yīng)該尋找事物之間的相關(guān)關(guān)系,這會(huì)給我們提供非常新穎且有價(jià)值的觀點(diǎn)。相關(guān)關(guān)系也許不能準(zhǔn)確地告知我們某件事情為何會(huì)發(fā)生,但是它會(huì)提醒我們這件事情正在發(fā)生。在許多情況下,這種提醒的幫助已經(jīng)足夠大了。Car
情報(bào)局3.4思維轉(zhuǎn)變之三:數(shù)據(jù)的相關(guān)關(guān)系例如,如果數(shù)百萬(wàn)條電子醫(yī)療記錄都顯示橙汁和阿司匹林的特定組合可以治療癌癥,那么找出具體的藥理機(jī)制就沒(méi)有這種治療方法本身來(lái)得重要。同樣,只要我們知道什么時(shí)候是買機(jī)票的最佳時(shí)機(jī),就算不知道機(jī)票價(jià)格瘋狂變動(dòng)的原因也無(wú)所謂了。大數(shù)據(jù)告訴我們“是什么”而不是“為什么”。在大數(shù)據(jù)時(shí)代,我們不必知道現(xiàn)象背后的原因,只要讓數(shù)據(jù)自己發(fā)聲。我們不再需要在還沒(méi)有收集數(shù)據(jù)之前,就把分析建立在早已設(shè)立的少量假設(shè)的基礎(chǔ)之上。讓數(shù)據(jù)發(fā)聲,我們會(huì)注意到很多以前從來(lái)沒(méi)有意識(shí)到的聯(lián)系的存在。Car
情報(bào)局3.4思維轉(zhuǎn)變之三:數(shù)據(jù)的相關(guān)關(guān)系在傳統(tǒng)觀念下,人們總是致力于找到一切事情發(fā)生背后的原因。然而在很多時(shí)候,尋找數(shù)據(jù)間的關(guān)聯(lián)并利用這種關(guān)聯(lián)就足夠了。這些思想上的重大轉(zhuǎn)變導(dǎo)致了第三個(gè)變革,我們嘗試著不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。Car
情報(bào)局3.4.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵雖然在小數(shù)據(jù)世界中相關(guān)關(guān)系也是有用的,但如今在大數(shù)據(jù)的背景下,相關(guān)關(guān)系大放異彩。通過(guò)應(yīng)用相關(guān)關(guān)系,我們可以比以前更容易、更快捷、更清楚地分析事物。Car
情報(bào)局3.4.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵所謂相關(guān)關(guān)系,其核心是指量化兩個(gè)數(shù)據(jù)值之間的數(shù)理關(guān)系。相關(guān)關(guān)系強(qiáng)是指當(dāng)一個(gè)數(shù)據(jù)值增加時(shí),另一個(gè)數(shù)據(jù)值很有可能也會(huì)隨之增加。我們已經(jīng)看到過(guò)這種很強(qiáng)的相關(guān)關(guān)系,比如谷歌流感趨勢(shì):在一個(gè)特定的地理位置,越多的人通過(guò)谷歌搜索特定的詞條,該地區(qū)就有更多的人患了流感。相反,相關(guān)關(guān)系弱就意味著當(dāng)一個(gè)數(shù)據(jù)值增加時(shí),另一個(gè)數(shù)據(jù)值幾乎不會(huì)發(fā)生變化。例如,我們可以尋找關(guān)于個(gè)人的鞋碼和幸福的相關(guān)關(guān)系,但會(huì)發(fā)現(xiàn)它們幾乎扯不上什么關(guān)系。Car
情報(bào)局3.4.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵相關(guān)關(guān)系通過(guò)識(shí)別有用的關(guān)聯(lián)物來(lái)幫助我們分析一個(gè)現(xiàn)象,而不是通過(guò)揭示其內(nèi)部的運(yùn)作機(jī)制。當(dāng)然,即使是很強(qiáng)的相關(guān)關(guān)系也不一定能解釋每一種情況,比如兩個(gè)事物看上去行為相似,但很有可能只是巧合。相關(guān)關(guān)系沒(méi)有絕對(duì),只有可能性。也就是說(shuō),不是亞馬遜推薦的每本書(shū)都是顧客想買的書(shū)。但是,如果相關(guān)關(guān)系強(qiáng),一個(gè)相關(guān)鏈接成功的概率是很高的。這一點(diǎn)很多人可以證明,他們的書(shū)架上有很多書(shū)都是因?yàn)閬嗰R遜推薦而購(gòu)買的。Car
情報(bào)局3.4.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵通過(guò)找到一個(gè)現(xiàn)象的良好的關(guān)聯(lián)物,相關(guān)關(guān)系可以幫助我們捕捉現(xiàn)在和預(yù)測(cè)未來(lái)。如果A和B經(jīng)常一起發(fā)生,我們只需要注意到B發(fā)生了.就可以預(yù)測(cè)A也發(fā)生了。這有助于我們捕捉可能和A一起發(fā)生的事情,即使我們不能直接測(cè)量或觀察到A。更重要的是,它還可以幫助我們預(yù)測(cè)未來(lái)可能發(fā)生什么。當(dāng)然,相關(guān)關(guān)系是無(wú)法預(yù)知未來(lái)的,他們只能預(yù)測(cè)可能發(fā)生的事情。但是,這已經(jīng)極其珍貴了。Car
情報(bào)局3.4.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵除了僅僅依靠相關(guān)關(guān)系,專家們還會(huì)使用一些建立在理論基礎(chǔ)上的假想來(lái)指導(dǎo)自己選擇適當(dāng)?shù)年P(guān)聯(lián)物。這些理論就是一些抽象的觀點(diǎn),關(guān)于事物是怎樣運(yùn)作的。然后收集與關(guān)聯(lián)物相關(guān)的數(shù)據(jù)來(lái)進(jìn)行相關(guān)關(guān)系分析,以證明這個(gè)關(guān)聯(lián)物是否真的合適。如果不合適,人們通常會(huì)固執(zhí)地再次嘗試,因?yàn)閾?dān)心可能是數(shù)據(jù)收集的錯(cuò)誤,而最終卻不得不承認(rèn)一開(kāi)始的假想甚至假想建立的基礎(chǔ)都是有缺陷和必須修改的。這種對(duì)假想的反復(fù)試驗(yàn)促進(jìn)了學(xué)科的發(fā)展。但是這種發(fā)展非常緩慢,因?yàn)閭€(gè)人以及團(tuán)體的偏見(jiàn)會(huì)蒙蔽我們的雙眼,導(dǎo)致我們?cè)谠O(shè)立假想、應(yīng)用假想和選擇關(guān)聯(lián)物的過(guò)程中犯錯(cuò)誤??傊?,這是一個(gè)繁瑣的過(guò)程,只適用于小數(shù)據(jù)時(shí)代。Car
情報(bào)局3.4.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵在大數(shù)據(jù)時(shí)代,通過(guò)建立在人的偏見(jiàn)基礎(chǔ)上的關(guān)聯(lián)物監(jiān)測(cè)法已經(jīng)不再可行,因?yàn)閿?shù)據(jù)庫(kù)太大而且需要考慮的領(lǐng)域太復(fù)雜。幸運(yùn)的是,許多迫使我們選擇假想分析法的限制條件也逐漸消失了。我們現(xiàn)在擁有如此多的數(shù)據(jù),這么好的機(jī)器計(jì)算能力,因而不再需要人工選擇一個(gè)關(guān)聯(lián)物或者一小部分相似數(shù)據(jù)來(lái)逐一分析了。復(fù)雜的機(jī)器分析有助于我們做出準(zhǔn)確的判斷,就像在谷歌流感趨勢(shì)中,計(jì)算機(jī)把檢索詞條在5億個(gè)數(shù)學(xué)模型上進(jìn)行測(cè)試之后,準(zhǔn)確地找出了哪些是與流感傳播最相關(guān)的詞條。我們理解世界不再需要建立在假設(shè)的基礎(chǔ)上,這個(gè)假設(shè)是指針對(duì)現(xiàn)象建立的有關(guān)其產(chǎn)生機(jī)制和內(nèi)在機(jī)理的假設(shè)。Car
情報(bào)局3.4.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測(cè)是大數(shù)據(jù)的核心。這種預(yù)測(cè)發(fā)生的頻率非常高,以至于我們經(jīng)常忽略了它的創(chuàng)新性。當(dāng)然,它的應(yīng)用會(huì)越來(lái)越多。一個(gè)東西要出故障,不會(huì)是瞬間的,而是慢慢地出問(wèn)題的。通過(guò)收集所有的數(shù)據(jù),我們可以預(yù)先捕捉到事物要出故障的信號(hào),比方說(shuō)發(fā)動(dòng)機(jī)的嗡嗡聲、引擎過(guò)熱都說(shuō)明它們可能要出故障了。系統(tǒng)把這些異常情況與正常情況進(jìn)行對(duì)比,就會(huì)知道什么地方出了毛病。通過(guò)盡早地發(fā)現(xiàn)異常,系統(tǒng)可以提醒我們?cè)诠收现案鼡Q零件或者修復(fù)問(wèn)題。通過(guò)找出一個(gè)關(guān)聯(lián)物并監(jiān)控它,我們就能預(yù)測(cè)未來(lái)。Car
情報(bào)局3.4.2“是什么”,而不是“為什么”在小數(shù)據(jù)時(shí)代,相關(guān)關(guān)系分析和因果分析都不容易,耗費(fèi)巨大,都要從建立假設(shè)開(kāi)始,然后進(jìn)行實(shí)驗(yàn)——這個(gè)假設(shè)要么被證實(shí)要么被推翻。但是,由于兩者都始于假設(shè),這些分析就都有受偏見(jiàn)影響的可能,極易導(dǎo)致錯(cuò)誤。與此同時(shí),用來(lái)做相關(guān)關(guān)系分析的數(shù)據(jù)很難得到。另一方面,在小數(shù)據(jù)時(shí)代,由于計(jì)算機(jī)能力的不足,大部分相關(guān)關(guān)系分析僅限于尋求線性關(guān)系。而事實(shí)上,實(shí)際情況遠(yuǎn)比我們所想象的要復(fù)雜。經(jīng)過(guò)復(fù)雜的分析,我們能夠發(fā)現(xiàn)數(shù)據(jù)的“非線性關(guān)系”。Car
情報(bào)局3.4.2“是什么”,而不是“為什么”多年來(lái),經(jīng)濟(jì)學(xué)家和政治家一直認(rèn)為收入水平和幸福感是成正比的。從數(shù)據(jù)圖表上可以看到,雖然統(tǒng)計(jì)工具呈現(xiàn)的是一種線性關(guān)系,但事實(shí)上,它們之間存在一種更復(fù)雜的動(dòng)態(tài)關(guān)系:例如,對(duì)于收入水平在1萬(wàn)美元以下的人來(lái)說(shuō),一旦收入增加,幸福感會(huì)隨之提升;但對(duì)于收入水平在1萬(wàn)美元以上的人來(lái)說(shuō),幸福感并不會(huì)隨著收入水平提高而提升。如果能發(fā)現(xiàn)這層關(guān)系,我們看到的就應(yīng)該是一條曲線,而不是統(tǒng)計(jì)工具分析出來(lái)的直線。這個(gè)發(fā)現(xiàn)對(duì)決策者來(lái)說(shuō)非常重要。Car
情報(bào)局3.4.2“是什么”,而不是“為什么”如果只看到線性關(guān)系的話,那么政策重心應(yīng)完全放在增加收入上,因?yàn)檫@樣才能增加全民的幸福感。而一旦察覺(jué)到這種非線性關(guān)系,策略的重心就會(huì)變成提高低收入人群的收入水平,因?yàn)檫@樣明顯更劃算。當(dāng)相關(guān)關(guān)系變得更復(fù)雜時(shí),一切就更混亂了。Car
情報(bào)局3.4.2“是什么”,而不是“為什么”大數(shù)據(jù)時(shí)代,專家們正在研發(fā)能發(fā)現(xiàn)并對(duì)比分析非線性關(guān)系的技術(shù)工具。一系列飛速發(fā)展的新技術(shù)和新軟件也從多方面提高了相關(guān)關(guān)系分析工具發(fā)現(xiàn)非因果關(guān)系的能力。這些新的分析工具和思路為我們展現(xiàn)了一系列新的視野被有用的預(yù)測(cè),我們看到了很多以前不曾注意到的聯(lián)系,還掌握了以前無(wú)法理解的復(fù)雜技術(shù)和社會(huì)動(dòng)態(tài)。但最重要的是,通過(guò)去探求“是什么”而不是“為什么”,相關(guān)關(guān)系幫助我們更好地了解了這個(gè)世界。Car
情報(bào)局3.4.3通過(guò)因果關(guān)系了解世界傳統(tǒng)情況下,人類是通過(guò)因果關(guān)系了解世界的。首先,我們的直接愿望就是了解因果關(guān)系。即使無(wú)因果聯(lián)系存在,我們也還是會(huì)假定其存在。研究證明,這只是我們的認(rèn)知方式,與每個(gè)人的文化背景、生長(zhǎng)環(huán)境以及教育水平無(wú)關(guān)。當(dāng)我們看到兩件事情接連發(fā)生的封候,我們會(huì)習(xí)慣性地從因果關(guān)系的角度來(lái)看待它們。Car
情報(bào)局3.4.3通過(guò)因果關(guān)系了解世界看看這三句話:“小明的父母遲到了;供應(yīng)商快到了;小明生氣了?!弊x到這里時(shí),我們可能立馬就會(huì)想到小明生氣并不是因?yàn)楣?yīng)商快到了,而是他父母遲到了的緣故。實(shí)際上,我們也不知道到底是什么情況。即便如此,我們還是不禁認(rèn)為這些假設(shè)的因果關(guān)系是成立的。普林斯頓大學(xué)心理學(xué)專家,同時(shí)也是2002年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主丹尼爾·卡尼曼就是用這個(gè)例子證明了人有兩種思維模式。第一種是不費(fèi)力的快速思維,通過(guò)這種思維方式幾秒鐘就能得出結(jié)果;另一種是比較費(fèi)力的慢性思維,對(duì)于特定的問(wèn)題,需要考慮到位。Car
情報(bào)局3.4.3通過(guò)因果關(guān)系了解世界快速思維模式使人們偏向用因果聯(lián)系來(lái)看待周圍的一切,即使這種關(guān)系并不存在。這是我們對(duì)已有的知識(shí)和信仰的執(zhí)著。在古代,這種快速思維模式是很有用的,它能幫助我們?cè)谛畔⒘咳狈s必須快速做出決定的危險(xiǎn)情況下化險(xiǎn)為夷。但是,通常這種因果關(guān)系都是并不存在的??崧赋?,平時(shí)生活中,由于惰性,我們很少慢條斯理地思考問(wèn)題,所以快速思維模式就占據(jù)了上風(fēng)。因此,我們會(huì)經(jīng)常臆想出一些因果關(guān)系,最終導(dǎo)致了對(duì)世界的錯(cuò)誤理解。Car
情報(bào)局3.4.3通過(guò)因果關(guān)系了解世界與常識(shí)相反,經(jīng)常憑借直覺(jué)而來(lái)的因果關(guān)系并沒(méi)有幫助我們加深對(duì)這個(gè)世界的理解。很多時(shí)候,這種認(rèn)知捷徑只是給了我們一種自己已經(jīng)理解的錯(cuò)覺(jué),但實(shí)際上,我們因此完全陷入了理解誤區(qū)之中。就像采樣是我們無(wú)法處理全部數(shù)據(jù)時(shí)的捷徑一樣,這種找因果關(guān)系的方法也是我們大腦用來(lái)避免辛苦思考的捷徑。在小數(shù)據(jù)時(shí)代,很難證明由直覺(jué)而來(lái)的因果聯(lián)系是錯(cuò)誤的?,F(xiàn)在,情況不一樣了,大數(shù)據(jù)之間的相關(guān)關(guān)系,將經(jīng)常會(huì)用來(lái)證明直覺(jué)的因果聯(lián)系是錯(cuò)誤的。最終也能表明,統(tǒng)計(jì)關(guān)系也不蘊(yùn)含多少真實(shí)的因果關(guān)系??傊?,我們的快速思維模式將會(huì)遭受各種各樣的現(xiàn)實(shí)考驗(yàn)。Car
情報(bào)局3.4.3通過(guò)因果關(guān)系了解世界為了更好地了解世界,我們會(huì)因此更加努力地思考。但是,即使是我們用來(lái)發(fā)現(xiàn)因果關(guān)系的第二種思維方式——慢性思維,也將因?yàn)榇髷?shù)據(jù)之間的相關(guān)關(guān)系迎來(lái)大的改變。日常生活中,我們習(xí)慣性地用因果關(guān)系來(lái)考慮事情,所以會(huì)認(rèn)為,因果聯(lián)系是淺顯易尋的。但事實(shí)卻并非如此。與相關(guān)關(guān)系不一樣,即使用數(shù)學(xué)這種比較直接的方式,因果聯(lián)系也很難被輕易證明。我們也不能用標(biāo)準(zhǔn)的等式將因果關(guān)系表達(dá)清楚。因此,即使我們慢慢思考,想要發(fā)現(xiàn)因果關(guān)系也是很困難的。因?yàn)槲覀円呀?jīng)習(xí)慣了信息的匾乏,故此亦習(xí)慣了在少量數(shù)據(jù)的基礎(chǔ)上進(jìn)行推理思考,即使大部分時(shí)候很多因素都會(huì)削弱特定的因果關(guān)系。Car
情報(bào)局3.4.3通過(guò)因果關(guān)系了解世界與相關(guān)關(guān)系一樣,因果關(guān)系被完全證實(shí)的可能幾乎是沒(méi)有的,我們只能說(shuō),某兩者之間很有可能存在因果關(guān)系。但兩者之間又有不同,證明因果關(guān)系的實(shí)驗(yàn)要么不切實(shí)際,要么違背社會(huì)倫
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年匯康醫(yī)藥考試題及答案
- 2025年無(wú)錫初中化學(xué)試題及答案
- 2025年再見(jiàn)了親人測(cè)試題及答案
- 2025年青州教師面試試題及答案
- 2025年焊工教育考試題及答案
- 2025年環(huán)保調(diào)研面試試題及答案
- 2025年?yáng)|營(yíng)化工焊工考試題及答案
- 2025年雕塑匠計(jì)劃考試題及答案
- 2025年檢驗(yàn)面試題及答案
- 2025年融信裁員面試題及答案
- 貴陽(yáng)市重點(diǎn)學(xué)科
- 電磁學(xué)第三版趙凱華答案
- 酒精溶液體積濃度、質(zhì)量濃度與密度對(duì)照表
- 主要腸內(nèi)營(yíng)養(yǎng)制劑成分比較
- 老年人各系統(tǒng)的老化改變
- 小學(xué)五年級(jí)綜合實(shí)踐課教案
- 煤礦井下供電常用計(jì)算公式及系數(shù)
- ISO14001:2015中文版(20211205141421)
- 汽車總裝車間板鏈輸送線的應(yīng)用研究
- 工作日志模板
- 購(gòu)銷合同模板(excel版)
評(píng)論
0/150
提交評(píng)論