




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)時(shí)代的社會(huì)研究計(jì)算社會(huì)學(xué)目錄TOC\h\h第1章簡(jiǎn)介\h1.1一處墨跡\h1.2歡迎來(lái)到數(shù)字時(shí)代\h1.3研究設(shè)計(jì)\h1.4本書的主題\h1.5本書梗概\h第2章觀察行為\h2.1簡(jiǎn)介\h2.2大數(shù)據(jù)\h2.3大數(shù)據(jù)的10個(gè)共同特征\h2.4研究策略\h2.5結(jié)論\h第3章提問(wèn)\h3.1簡(jiǎn)介\h3.2提問(wèn)與觀察\h3.3調(diào)查誤差總框架\h3.4向誰(shuí)提問(wèn)\h3.5提問(wèn)的新方法\h3.6與大數(shù)據(jù)資源相結(jié)合的調(diào)查\h3.7結(jié)論\h第4章開展實(shí)驗(yàn)\h4.1簡(jiǎn)介\h4.2什么是實(shí)驗(yàn)\h4.3實(shí)驗(yàn)的兩個(gè)維度:實(shí)驗(yàn)室–實(shí)地以及模擬–數(shù)字\h4.4超越簡(jiǎn)單實(shí)驗(yàn)\h4.5使實(shí)驗(yàn)成為現(xiàn)實(shí)\h4.6建議\h4.7結(jié)論\h第5章進(jìn)行大規(guī)模協(xié)作\h5.1簡(jiǎn)介\h5.2人本計(jì)算\h5.3公開征集\h5.4分布式數(shù)據(jù)采集\h5.5設(shè)計(jì)你自己的大規(guī)模協(xié)作項(xiàng)目\h5.6結(jié)論\h第6章道德倫理\h6.1簡(jiǎn)介\h6.2三個(gè)事例\h6.3數(shù)字時(shí)代的不同\h6.4四項(xiàng)原則\h6.5兩種道德框架\h6.6困難面\h6.7實(shí)用技巧\h6.8結(jié)論\h歷史附錄\h第7章未來(lái)\h7.1展望\h7.2未來(lái)主題\h7.3回到開始第1章簡(jiǎn)介1.1一處墨跡2009年夏天,手機(jī)鈴聲響遍了整個(gè)盧旺達(dá)。除了來(lái)自家人、朋友和商業(yè)伙伴的數(shù)百萬(wàn)個(gè)電話之外,大約有1000名盧旺達(dá)人還接到了由喬舒亞·布盧門斯托克(JoshuaBlumenstock)及其同事打來(lái)的電話。研究人員從盧旺達(dá)最大手機(jī)供應(yīng)商的數(shù)據(jù)庫(kù)中隨機(jī)抽樣進(jìn)行調(diào)查,以完成對(duì)財(cái)富與貧困的研究,這個(gè)數(shù)據(jù)庫(kù)中有150萬(wàn)名客戶。布盧門斯托克和他的同事會(huì)詢問(wèn)這些被隨機(jī)選中的人是否愿意參與調(diào)查,然后向其解釋這項(xiàng)研究的性質(zhì),接下來(lái)便會(huì)詢問(wèn)一系列有關(guān)他們的人口學(xué)特征、社會(huì)特征和經(jīng)濟(jì)特征方面的問(wèn)題。到目前為止,我所描述的一切都讓這項(xiàng)研究聽起來(lái)像是一項(xiàng)傳統(tǒng)的社會(huì)科學(xué)調(diào)查。但接下來(lái)我要描述的就不再傳統(tǒng)了,至少目前來(lái)說(shuō)是這樣的。除了調(diào)查而來(lái)的數(shù)據(jù)外,布盧門斯托克和同事還擁有這150萬(wàn)人的完整通話記錄。他們將這兩部分?jǐn)?shù)據(jù)結(jié)合起來(lái),利用調(diào)查數(shù)據(jù)訓(xùn)練了一個(gè)機(jī)器學(xué)習(xí)模型,使模型能根據(jù)一個(gè)人的通話記錄預(yù)測(cè)其財(cái)富狀況。接著,他們利用這個(gè)模型評(píng)估數(shù)據(jù)庫(kù)中150萬(wàn)名客戶的財(cái)富狀況,還利用通話記錄中包含的地理信息判斷這150萬(wàn)名客戶的居住位置。最后他們將所有這些信息——估算的財(cái)富狀況以及居住位置,綜合到一起,繪制出高分辨率的盧旺達(dá)財(cái)富地理分布圖。尤其是,他們能夠估算出盧旺達(dá)2148個(gè)街區(qū)(該國(guó)的最小行政單位)中每一個(gè)街區(qū)的財(cái)富狀況。要證實(shí)這些估算是不可能的,因?yàn)閺膩?lái)沒有人估算過(guò)盧旺達(dá)中如此小的地理區(qū)域的財(cái)富狀況。但在布盧門斯托克和同事把這些估算值匯總為分別反映盧旺達(dá)30個(gè)地區(qū)財(cái)富狀況的數(shù)值后,他們發(fā)現(xiàn),這些數(shù)值與通過(guò)人口統(tǒng)計(jì)和健康調(diào)查(DemographicandHealthSurvey)得到的數(shù)據(jù)非常接近,而人口統(tǒng)計(jì)和健康調(diào)查被認(rèn)為是發(fā)展中國(guó)家調(diào)查的黃金標(biāo)準(zhǔn)。雖然這兩種方法在此案例中產(chǎn)生了類似的結(jié)果,但布盧門斯托克和同事的方法要比傳統(tǒng)的人口統(tǒng)計(jì)和健康調(diào)查的方法快了差不多10倍,成本為后者的1/50左右。這些明顯更快、更節(jié)省成本的預(yù)測(cè)為研究人員、政府和公司創(chuàng)造了新的可能性(Blumenstock,Cadamuro,andOn2015)。這項(xiàng)研究有點(diǎn)像一個(gè)羅夏墨跡測(cè)驗(yàn):人們看到的事物取決于他們的背景。許多社會(huì)科學(xué)家從中看到了一個(gè)新的測(cè)量工具,這個(gè)工具可以檢驗(yàn)經(jīng)濟(jì)發(fā)展理論。許多數(shù)據(jù)科學(xué)家從中看到了一個(gè)很酷的、新的機(jī)器學(xué)習(xí)問(wèn)題。許多商界人士看到了一個(gè)可以讓他們從已經(jīng)搜集到的大數(shù)據(jù)中獲利的好方法。許多隱私權(quán)倡導(dǎo)者從中看到了一個(gè)可怕的警示:我們也許生活在一個(gè)大規(guī)模監(jiān)控的時(shí)代。最后,許多政策制定者從中看到了新技術(shù)能夠幫助我們創(chuàng)造一個(gè)更好的世界。其實(shí),這項(xiàng)研究與這些都相關(guān),而且正是因?yàn)樗诤狭诉@么多特征,所以我把它看作了解社會(huì)研究之未來(lái)的一扇窗。羅夏墨跡測(cè)驗(yàn)是一種著名的人格測(cè)驗(yàn),它會(huì)向被試呈現(xiàn)由墨跡偶然形成的圖案,讓被試觀看并說(shuō)出由此聯(lián)想到的事,研究人員由此對(duì)反應(yīng)符號(hào)進(jìn)行分析,從而判斷被試的人格特征?!幷咦?.2歡迎來(lái)到數(shù)字時(shí)代數(shù)字時(shí)代無(wú)處不在,它在不斷發(fā)展,并且改變著研究的可能性。這本書的核心前提是數(shù)字時(shí)代能為社會(huì)研究創(chuàng)造新的機(jī)會(huì)。研究人員現(xiàn)在能以不久前還幾乎不可能的方式觀察行為、提出問(wèn)題、開展實(shí)驗(yàn)以及彼此協(xié)作。但新的風(fēng)險(xiǎn)也隨之而來(lái):研究人員現(xiàn)在能以過(guò)去絕不可能的方式去傷害人們。這些機(jī)會(huì)和風(fēng)險(xiǎn)源于從模擬時(shí)代到數(shù)字時(shí)代的轉(zhuǎn)變。這種轉(zhuǎn)變并不是像開燈那樣瞬間就發(fā)生了,事實(shí)上,這種轉(zhuǎn)變目前還尚未徹底完成。但目前為止發(fā)生的事情,已經(jīng)足以讓我們相信有大事正在發(fā)生了。注意到這種轉(zhuǎn)變的一個(gè)方法是觀察發(fā)現(xiàn)你們?nèi)粘I钪械淖兓?。生活中,許多曾經(jīng)是模擬的東西現(xiàn)在變成智能的了。也許你曾經(jīng)用的是帶膠卷的相機(jī),但現(xiàn)在用的是數(shù)碼相機(jī)(可能你們的智能手機(jī)就有數(shù)碼相機(jī)的功能)。也許你們?cè)?jīng)讀的是紙質(zhì)的報(bào)紙,現(xiàn)在卻在線看新聞。也許你們?cè)?jīng)用現(xiàn)金來(lái)付款,現(xiàn)在卻是用信用卡。在上述每一種情況下,從模擬到數(shù)字的轉(zhuǎn)變,都意味著更多關(guān)于你的信息被以數(shù)字化的形式獲取并存儲(chǔ)了下來(lái)。事實(shí)上,總體來(lái)看,從模擬到數(shù)字的轉(zhuǎn)變所產(chǎn)生的影響是非常驚人的。信息量正在迅速增加,更多的信息以數(shù)字化的形式被存儲(chǔ),進(jìn)而便于分析、傳輸和歸并。這些數(shù)字信息被稱為“大數(shù)據(jù)”。在數(shù)字?jǐn)?shù)據(jù)爆炸式增長(zhǎng)的同時(shí),有條件使用計(jì)算機(jī)的人的數(shù)量也在不斷增加(圖1.1)。這些趨勢(shì),即越來(lái)越多的數(shù)字?jǐn)?shù)據(jù)以及越來(lái)越多的使用計(jì)算機(jī)的人,在可預(yù)見的未來(lái)很可能會(huì)持續(xù)下去。圖1.1信息存儲(chǔ)能力和計(jì)算能力正在顯著提高。此外,信息存儲(chǔ)現(xiàn)在幾乎已經(jīng)全部數(shù)字化了。這些變化為社會(huì)研究人員創(chuàng)造了不可思議的機(jī)會(huì)。改編自HilbertandLópez(2011)。考慮到社會(huì)研究的目的,我認(rèn)為數(shù)字時(shí)代最重要的特征就是計(jì)算機(jī)隨處可見。從最初房間般大的、只有政府和大公司才能使用的計(jì)算機(jī)發(fā)展而來(lái),今天的計(jì)算機(jī),其尺寸在不斷縮小,普及程度在不斷增加。從20世紀(jì)80年代開始,每10年就會(huì)有一種新型的計(jì)算機(jī)誕生:個(gè)人計(jì)算機(jī)、筆記本電腦、智能手機(jī)以及現(xiàn)在“物聯(lián)網(wǎng)”中的嵌入式處理器(即汽車、手表和恒溫器等設(shè)備內(nèi)部的嵌入式計(jì)算機(jī))(Waldrop2016)。除了計(jì)算,這些隨處可見的計(jì)算機(jī)還開始具備越來(lái)越多的功能:感知、存儲(chǔ)和傳輸信息。對(duì)研究人員來(lái)說(shuō),利用網(wǎng)絡(luò)最容易看出隨處可見的計(jì)算機(jī)所產(chǎn)生的影響?;ヂ?lián)網(wǎng)是一個(gè)被全面監(jiān)測(cè)的環(huán)境,非常適合研究人員開展實(shí)驗(yàn)。例如,一個(gè)網(wǎng)上商店很容易就可以搜集到精確的數(shù)百萬(wàn)顧客的購(gòu)買行為數(shù)據(jù)。然后,它可以隨機(jī)選擇幾組顧客并為其提供不同的購(gòu)物體驗(yàn)。這種在精準(zhǔn)掌握了顧客購(gòu)物數(shù)據(jù)的基礎(chǔ)上再進(jìn)行隨機(jī)選擇的能力,意味著網(wǎng)上商店能夠持續(xù)開展隨機(jī)對(duì)照實(shí)驗(yàn)。事實(shí)上,只要曾在網(wǎng)上買過(guò)東西,你的購(gòu)買行為就已經(jīng)被記錄下來(lái)了,之后你也幾乎必然地會(huì)成為某項(xiàng)實(shí)驗(yàn)的參與者,無(wú)論你自己是否知道。這種被全面監(jiān)測(cè)、完全隨機(jī)化的情況不僅局限于網(wǎng)上,這在線下也開始變得越來(lái)越普遍。實(shí)體店已經(jīng)搜集了非常詳細(xì)的購(gòu)買行為數(shù)據(jù),同時(shí)它們也正在開發(fā)相關(guān)基礎(chǔ)設(shè)施,以便追蹤顧客的購(gòu)買行為,并將實(shí)驗(yàn)研究結(jié)果用于日常商業(yè)活動(dòng)中?!拔锫?lián)網(wǎng)”意味著現(xiàn)實(shí)世界中的行為會(huì)越來(lái)越多地被數(shù)字傳感器捕獲。換句話說(shuō)就是,當(dāng)你思考數(shù)字時(shí)代的社會(huì)研究時(shí),你不應(yīng)該只想到“在線”社會(huì)研究,你應(yīng)該想到它可以發(fā)生在任何地方。數(shù)字時(shí)代使行為測(cè)量和實(shí)施隨機(jī)化的處理成為可能,同時(shí)還為人們創(chuàng)造了新的交流途徑。這些新的交流途徑使研究人員能夠開展創(chuàng)新性的調(diào)查,并與同事以及普通大眾進(jìn)行大規(guī)模協(xié)作。懷疑論者可能會(huì)說(shuō),上述這些功能并不能算是真正意義上的新事物。也就是說(shuō),在過(guò)去,人們的交流途徑也曾有過(guò)其他一些重大的進(jìn)步,例如電報(bào)(Gleick2011),而且自20世紀(jì)60年代以來(lái),計(jì)算機(jī)的運(yùn)行速度也基本上一直在以同樣的速度增長(zhǎng)(Waldrop2016)。但這些懷疑論者所忽略的是,在某種程度上,多個(gè)相同的東西合起來(lái)會(huì)變成一個(gè)不同的東西(Halevy,Norvig,andPereira2009)。讓我用我喜歡的一個(gè)類比來(lái)闡明這一觀點(diǎn):如果你能捕捉到一匹馬在某一刻的畫面,你便擁有了一張照片;而如果你在一秒內(nèi)捕捉到一匹馬的24個(gè)畫面,那么你便擁有了一部電影的片段。當(dāng)然,一部電影其實(shí)就是許多張照片,但只有頑固的懷疑論者才會(huì)堅(jiān)持聲稱照片和電影完全一樣。研究人員正在進(jìn)行一項(xiàng)類似于從攝影到拍電影的轉(zhuǎn)變,但這一轉(zhuǎn)變并不代表我們過(guò)去所學(xué)的所有東西都應(yīng)該被摒棄。正如攝影的原理會(huì)影響拍電影的原理一樣,那些在過(guò)去100年里發(fā)展起來(lái)的社會(huì)研究理論也會(huì)對(duì)未來(lái)100年的社會(huì)研究產(chǎn)生影響。這一轉(zhuǎn)變意味著我們不應(yīng)該一直做同樣的事情。相反,我們必須把過(guò)去的、現(xiàn)在的以及未來(lái)的方法結(jié)合起來(lái)。例如,喬舒亞·布盧門斯托克和同事所做的研究就結(jié)合了傳統(tǒng)的調(diào)查研究和一些人可能稱之為數(shù)據(jù)科學(xué)的方法。單憑調(diào)查研究或是單憑通話記錄都無(wú)法繪制出高分辨率的反映財(cái)富估值的地圖,這兩個(gè)是缺一不可的。更概括地說(shuō),社會(huì)研究人員需要將社會(huì)科學(xué)和數(shù)據(jù)科學(xué)的思想結(jié)合起來(lái),才能充分利用數(shù)字時(shí)代帶來(lái)的機(jī)會(huì),只靠其一是不夠的。1.3研究設(shè)計(jì)研究設(shè)計(jì)是將問(wèn)題和答案聯(lián)系起來(lái)。本書是為兩個(gè)群體所寫的,這兩個(gè)群體有很多需要互相學(xué)習(xí)的地方。一方面,這本書是寫給社會(huì)科學(xué)家的,他們接受過(guò)社會(huì)行為研究方面的訓(xùn)練,也有這方面的經(jīng)驗(yàn),但對(duì)數(shù)字時(shí)代所帶來(lái)的機(jī)會(huì)不是很熟悉。另一方面,這本書是寫給那些能得心應(yīng)手地使用數(shù)字時(shí)代工具,但對(duì)社會(huì)行為研究來(lái)說(shuō)是新手的研究人員的。這類研究人員不愿被冠以一個(gè)簡(jiǎn)單的稱謂,但我將把他們稱為數(shù)據(jù)科學(xué)家。這些數(shù)據(jù)科學(xué)家經(jīng)常會(huì)接受計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、信息科學(xué)、工程學(xué)和物理學(xué)等方面的訓(xùn)練,已成為最早開展數(shù)字時(shí)代社會(huì)研究的一群人,這部分是因?yàn)樗麄兡軌颢@得必要的數(shù)據(jù),同時(shí)也具備相應(yīng)的計(jì)算能力。本書試圖讓這兩個(gè)群體彼此合作,進(jìn)而創(chuàng)造出比單獨(dú)一個(gè)群體所能創(chuàng)造的更加豐富、更加有趣的東西。要實(shí)現(xiàn)這一強(qiáng)有力的合作,最好的方式不是專注于抽象的社會(huì)理論或是花哨的機(jī)器學(xué)習(xí)。最好的起點(diǎn)是研究設(shè)計(jì)。如果你將社會(huì)研究看作詢問(wèn)和回答有關(guān)人類行為問(wèn)題的過(guò)程,那么研究設(shè)計(jì)就是“結(jié)締組織”,它能將問(wèn)題和答案聯(lián)系起來(lái)。而建立正確的聯(lián)系是設(shè)計(jì)出令人信服的研究的關(guān)鍵。本書將重點(diǎn)介紹4種方法:觀察行為、提問(wèn)、開展實(shí)驗(yàn)以及與他人合作。這些方法你之前應(yīng)該已經(jīng)見過(guò)或可能用過(guò),但特別之處在于,數(shù)字時(shí)代為我們帶來(lái)了新的搜集和分析數(shù)據(jù)的機(jī)會(huì)。這些新機(jī)會(huì)要求我們將這些經(jīng)典的方法現(xiàn)代化,但不是要取代這些方法。1.4本書的主題本書的兩個(gè)主題分別是:(1)將現(xiàn)成品和定制物結(jié)合起來(lái);(2)道德倫理。這兩個(gè)主題將貫穿整本書,我之所以在這里強(qiáng)調(diào)它們,是為了讓你們?cè)谄浞磸?fù)出現(xiàn)時(shí)能夠注意到。第一個(gè)主題可以通過(guò)對(duì)比馬塞爾·杜尚(MarcelDuchamp)和米開朗琪羅(Michelangelo)這兩位偉人來(lái)闡述。杜尚主要是因?yàn)樗默F(xiàn)成品藝術(shù)作品(例如《泉》)而聞名,這些藝術(shù)作品都是普通物品經(jīng)他稍做修改而創(chuàng)造出來(lái)的。而米開朗琪羅則不是通過(guò)修改現(xiàn)成品進(jìn)行創(chuàng)作的。當(dāng)他想創(chuàng)作一尊大衛(wèi)的雕像時(shí),他并沒有去尋找一塊看起來(lái)像大衛(wèi)的大理石,而是花了三年的時(shí)間雕刻出了他的杰作。因此,《大衛(wèi)》不是一個(gè)現(xiàn)成品藝術(shù)作品,而是一個(gè)非現(xiàn)成品藝術(shù)作品(圖1.2)。這兩種風(fēng)格——現(xiàn)成品藝術(shù)作品和非現(xiàn)成品藝術(shù)作品,大致可以映射出數(shù)字時(shí)代的社會(huì)研究所采用的風(fēng)格。正如你們將要看到的,本書中的一些例子就涉及對(duì)某些大數(shù)據(jù)資源的巧妙的重新配置,而這些大數(shù)據(jù)資源最初是由公司或政府所創(chuàng)建的。在其他例子中,研究人員則從一個(gè)特定的問(wèn)題出發(fā),然后使用數(shù)字化工具創(chuàng)建出回答該問(wèn)題所需的數(shù)據(jù)。如果做得好的話,這兩種模式都非常強(qiáng)大。因此,數(shù)字時(shí)代的社會(huì)研究將既包括現(xiàn)成品作品又包括非現(xiàn)成品作品,既包括杜尚又包括米開朗琪羅。如果你們通常使用的是現(xiàn)成數(shù)據(jù),那么我希望這本書能告訴你們非現(xiàn)成數(shù)據(jù)的價(jià)值。同樣,如果你們通常使用的是非現(xiàn)成數(shù)據(jù),那么我希望這本書能告訴你們現(xiàn)成數(shù)據(jù)的價(jià)值。最后,也是最重要的,我希望這本書能告訴你將這兩種數(shù)據(jù)結(jié)合起來(lái)使用的價(jià)值。例如,喬舒亞·布盧門斯托克及其同事就是杜尚和米開朗琪羅的結(jié)合體:他們把通話內(nèi)容錄音(一個(gè)現(xiàn)成數(shù)據(jù))用于不同的用途,同時(shí)又創(chuàng)建了自己的調(diào)查數(shù)據(jù)(一個(gè)非現(xiàn)成數(shù)據(jù))。在整本書中,你們都將看到現(xiàn)成品與非現(xiàn)成品的結(jié)合,這種結(jié)合往往既需要社會(huì)科學(xué)的思想也需要數(shù)據(jù)科學(xué)的思想,并且這種結(jié)合常常會(huì)帶來(lái)最令人興奮的研究。圖1.2馬塞爾·杜尚的《泉》和米開朗琪羅的《大衛(wèi)》?!度肪褪且患F(xiàn)成品藝術(shù)作品,這類作品是藝術(shù)家對(duì)現(xiàn)實(shí)世界中已經(jīng)存在的東西進(jìn)行創(chuàng)造性加工修改后而產(chǎn)生的藝術(shù)品。而《大衛(wèi)》則是有意創(chuàng)造的藝術(shù)品,是一件非現(xiàn)成品藝術(shù)作品。數(shù)字時(shí)代的社會(huì)研究將既包括現(xiàn)成品作品又包括非現(xiàn)成品作品?!度酚砂瑺柛ダ椎隆な┑俑窭模ˋlfredStieglitz)攝于1917年(來(lái)源:TheBlindMan,no.2/WikimediaCommons)。《大衛(wèi)》由約爾格·比特納·翁納(J?rgBittnerUnna)攝于2008年(來(lái)源:Galleriadell’Accademia,Florence/WikimediaCommons)。貫穿本書的第二個(gè)主題是道德倫理。我將告訴你們,研究人員如何利用數(shù)字時(shí)代的機(jī)會(huì)開展令人興奮且意義重大的實(shí)驗(yàn)。同時(shí)我也將告訴你們,利用這些機(jī)會(huì)的研究人員將如何做出艱難的倫理決策。本書第6章全部是關(guān)于道德倫理的,但其他章節(jié)也會(huì)涉及這一話題,因?yàn)樵跀?shù)字時(shí)代,道德倫理將成為研究設(shè)計(jì)中越來(lái)越重要的一個(gè)部分。布盧門斯托克及同事的實(shí)驗(yàn)可以再次被用來(lái)證明這一點(diǎn)。150萬(wàn)人的通話記錄為他們的研究創(chuàng)造了很好的機(jī)會(huì),但同時(shí)也提供了造成傷害的機(jī)會(huì)。例如,喬納森·邁耶(JonathanMayer)及同事在2016年已經(jīng)表明,即使是對(duì)“匿名化”的通話內(nèi)容錄音(即沒有名字和地址的數(shù)據(jù)),在結(jié)合公開信息后,研究人員也可能從中識(shí)別出屬于某些特定人員的通話內(nèi)容,進(jìn)而推斷出有關(guān)他們的敏感信息,例如某些健康狀況的信息。也就是說(shuō),雖然布盧門斯托克及同事并未試圖找出某些特定的人并推斷有關(guān)他們的敏感信息,但這一可能性會(huì)讓他們很難拿到通話數(shù)據(jù),這迫使他們?cè)谶M(jìn)行研究時(shí)要采取全面的保護(hù)措施。除了詳細(xì)的通話記錄以外,數(shù)字時(shí)代的許多社會(huì)研究中都存在一個(gè)讓人很不安的根本性問(wèn)題:研究人員(經(jīng)常與公司和政府合作)對(duì)實(shí)驗(yàn)參與者的生活擁有越來(lái)越強(qiáng)的控制力。我所說(shuō)的控制力是指在未征得參與者同意,甚至在他們不知情的情況下,對(duì)他們做一些事情的能力。例如,研究人員現(xiàn)在可以觀察數(shù)百萬(wàn)人的行為,而且正如我后文將描述的,研究人員也可以讓數(shù)百萬(wàn)人參加大規(guī)模的實(shí)驗(yàn)。所有這些事情都可能在未征得當(dāng)事人同意或其不知情的情況下進(jìn)行。研究人員的控制力在不斷增強(qiáng),對(duì)如何使用這一控制力的規(guī)范卻沒有相應(yīng)地變得更加明確。也就是說(shuō),研究人員必須在彼此不一致、相互重疊的法律法規(guī)的基礎(chǔ)上決定他們?cè)撊绾涡惺惯@一控制力。因此,即便是善意的研究人員,在面對(duì)強(qiáng)大的控制力和模糊的指導(dǎo)方針時(shí),可能也會(huì)被迫去做一些艱難的抉擇。如果你們通常關(guān)注的是數(shù)字時(shí)代的社會(huì)研究所創(chuàng)造的新機(jī)會(huì),那么我希望這本書能讓你們明白這些機(jī)會(huì)也會(huì)帶來(lái)新的風(fēng)險(xiǎn)。同樣,如果你們通常關(guān)注的是這些風(fēng)險(xiǎn),那么我希望這本書能幫助你們發(fā)現(xiàn)新機(jī)會(huì)(需要冒險(xiǎn)的機(jī)會(huì))。最后,同時(shí)也是最重要的,我希望這本書能幫助大家負(fù)責(zé)任地平衡數(shù)字時(shí)代的社會(huì)研究所帶來(lái)的機(jī)會(huì)和風(fēng)險(xiǎn)。當(dāng)研究人員開始擁有更強(qiáng)的控制力時(shí),他們也必須承擔(dān)更大的社會(huì)責(zé)任。1.5本書梗概本書主要圍繞4種廣泛的研究方法展開:觀察行為、提問(wèn)、開展實(shí)驗(yàn)以及進(jìn)行大規(guī)模協(xié)作。不同的方法需要研究者和參與者之間建立起不同的關(guān)系,并且不同的方法能讓我們了解到不同的東西。也就是說(shuō),如果選擇對(duì)參與者提問(wèn),那我們將獲得僅通過(guò)觀察行為無(wú)法獲得的信息。同樣,如果選擇開展實(shí)驗(yàn),那我們將獲得僅通過(guò)觀察行為和提問(wèn)無(wú)法獲得的信息。最后,如果選擇和參與者協(xié)作,那我們將獲得僅通過(guò)觀察行為、提問(wèn)和開展實(shí)驗(yàn)無(wú)法獲得的信息。這4種方法在50年前就都被以某些形式采用了,我相信,在從現(xiàn)在起的50年里,它們?nèi)詫⒈灰阅承┬问讲捎谩?duì)每種方法我都將單獨(dú)用一章去闡述,同時(shí)探討圍繞該方法的倫理問(wèn)題。之后還會(huì)有專門針對(duì)道德倫理的一章。正如前言所述,我將盡可能使文字簡(jiǎn)潔,本書最后將以參考文獻(xiàn)結(jié)尾,這部分將包括重要的書目信息和更詳細(xì)的資料推薦。在第2章(觀察行為)中,我將闡述研究人員通過(guò)觀察人們的行為能了解到什么以及如何通過(guò)觀察行為獲取信息,尤其是通過(guò)公司和政府所創(chuàng)建的大數(shù)據(jù)資源。我不會(huì)描述任何一個(gè)特定資源的細(xì)節(jié),相反,我將描述大數(shù)據(jù)資源的10個(gè)共同特征以及這些特征對(duì)研究人員使用它們進(jìn)行研究的能力有何影響。然后,我將闡述三個(gè)策略,利用這些策略可以有效地從大數(shù)據(jù)資源中獲取有效信息。在第3章(提問(wèn))中,我首先將介紹,當(dāng)研究人員不局限于以前的大數(shù)據(jù)時(shí)能夠了解到什么。通過(guò)問(wèn)人們問(wèn)題,研究人員能夠了解到通過(guò)觀察行為無(wú)法輕易了解到的東西。為了系統(tǒng)地介紹數(shù)字時(shí)代帶來(lái)的機(jī)會(huì),我將對(duì)傳統(tǒng)的調(diào)查誤差總框架進(jìn)行回顧。然后,我將介紹數(shù)字時(shí)代如何為抽樣和面對(duì)面訪問(wèn)提供新方法。最后,我將介紹把調(diào)查數(shù)據(jù)和大數(shù)據(jù)資源結(jié)合起來(lái)的兩個(gè)策略。在第4章(開展實(shí)驗(yàn))中,我首先將介紹,當(dāng)研究人員不局限于觀察行為和提問(wèn)時(shí)能夠了解到什么。尤其是隨機(jī)對(duì)照實(shí)驗(yàn),它能夠讓研究人員弄清楚一些因果關(guān)系。在這種實(shí)驗(yàn)中,研究人員會(huì)采取非常具體的方式進(jìn)行干預(yù)。我會(huì)對(duì)過(guò)去我們能做的實(shí)驗(yàn)的種類和現(xiàn)在能做的實(shí)驗(yàn)的種類進(jìn)行對(duì)比。在此背景下,我將介紹開展數(shù)字實(shí)驗(yàn)的兩個(gè)主要策略所涉及的權(quán)衡問(wèn)題。最后,我將介紹如何利用數(shù)字實(shí)驗(yàn)的真正優(yōu)勢(shì)以及伴隨這些優(yōu)勢(shì)而來(lái)的責(zé)任。在第5章(進(jìn)行大規(guī)模協(xié)作)中,我將介紹研究人員怎樣才能進(jìn)行諸如眾包和公眾科學(xué)這樣的大規(guī)模協(xié)作,進(jìn)而完成社會(huì)研究。通過(guò)介紹成功的大規(guī)模協(xié)作項(xiàng)目以及一些關(guān)鍵組織原則,我希望能說(shuō)服你們相信以下兩件事情:第一,大規(guī)模協(xié)作可以被用來(lái)開展社會(huì)研究;第二,研究人員利用大規(guī)模協(xié)作能夠解決以前似乎不可能解決的問(wèn)題。在第6章(道德倫理)中,我將論述的觀點(diǎn)是:研究人員對(duì)參與者的控制力正在迅速增強(qiáng),且其增強(qiáng)速度超過(guò)了法律法規(guī)的更新速度。不斷增強(qiáng)的控制力以及缺乏如何使用這一控制力的共識(shí),使得善意的研究人員陷入兩難的境地。為解決這一問(wèn)題,我認(rèn)為研究人員應(yīng)該采用基于原則的方法。也就是說(shuō),研究人員應(yīng)該根據(jù)現(xiàn)有的規(guī)則條例(如果有的話)以及更普遍的原則評(píng)估他們的研究。我將介紹四個(gè)早已制定的原則和兩個(gè)倫理框架,幫助指導(dǎo)研究人員做出決策。最后,我將介紹一些我認(rèn)為研究人員在未來(lái)可能遇到的特定的倫理問(wèn)題,同時(shí)鑒于這一領(lǐng)域缺乏健全的倫理規(guī)范,我也會(huì)給出一些實(shí)用的建議。最后,在第7章(未來(lái))中,我將回顧貫穿全書的主題,然后通過(guò)它們預(yù)測(cè)未來(lái)重要的主題。數(shù)字時(shí)代的社會(huì)研究將融合過(guò)去我們所做的以及未來(lái)將賦予我們的截然不同的能力。因此,社會(huì)科學(xué)家和數(shù)據(jù)科學(xué)家都將影響社會(huì)研究的發(fā)展。每個(gè)群體都能做出自己的貢獻(xiàn),每個(gè)群體也都有需要學(xué)習(xí)的東西。第2章觀察行為2.1簡(jiǎn)介在模擬時(shí)代,搜集有關(guān)誰(shuí)在什么時(shí)間做了什么的行為數(shù)據(jù),代價(jià)是很高昂的,因此它們相對(duì)較稀少。在如今的數(shù)字時(shí)代,卻有數(shù)十億人的行為被記錄、存儲(chǔ)和分析。例如,每當(dāng)你點(diǎn)開一個(gè)網(wǎng)站,用手機(jī)打一個(gè)電話,或用信用卡付款,商家就會(huì)創(chuàng)建并存儲(chǔ)一條有關(guān)你行為的數(shù)字記錄。這些類型的數(shù)據(jù)是人們?nèi)粘P袨榈母碑a(chǎn)品,所以通常被稱為數(shù)字痕跡。除了商家所擁有的這些數(shù)字痕跡外,政府也擁有大量無(wú)比豐富的數(shù)據(jù)。這兩部分?jǐn)?shù)據(jù)結(jié)合起來(lái)通常被稱作大數(shù)據(jù)。不斷增加的海量大數(shù)據(jù)意味著我們已經(jīng)從一個(gè)缺乏行為數(shù)據(jù)的世界進(jìn)入一個(gè)行為數(shù)據(jù)極其豐富的世界。而要想從這些大數(shù)據(jù)中學(xué)到東西,第一步就是要認(rèn)識(shí)到大數(shù)據(jù)是更為廣泛的、多年被用來(lái)進(jìn)行社會(huì)研究的觀察數(shù)據(jù)的一部分。粗略地說(shuō),在不以某種方式進(jìn)行干擾的情況下,通過(guò)觀察某一社會(huì)系統(tǒng)所得來(lái)的任何數(shù)據(jù)都是觀察數(shù)據(jù)。我們可以粗略地把觀察數(shù)據(jù)想象成在獲取數(shù)據(jù)的過(guò)程中不涉及與人交談(例如第3章的主題——提問(wèn))或改變?nèi)藗兯幁h(huán)境(例如第4章的主題——實(shí)驗(yàn))的數(shù)據(jù)。因此,除了商家和政府所擁有的數(shù)字記錄外,觀察數(shù)據(jù)還包括報(bào)紙文章和衛(wèi)星照片等內(nèi)容。本章包含三個(gè)部分。首先,在2.2節(jié)中,我將更詳細(xì)地介紹大數(shù)據(jù)資源,闡明它與過(guò)去社會(huì)研究通常采用的數(shù)據(jù)的根本區(qū)別。緊接著,在2.3節(jié)中,我將介紹大數(shù)據(jù)資源的10個(gè)共有特征。理解這些特征能讓你們很快辨別出現(xiàn)有資源的優(yōu)缺點(diǎn),并幫助你們更好地利用將來(lái)可用的新資源。最后,在2.4節(jié)中,我將介紹三個(gè)主要的研究策略:計(jì)數(shù)、預(yù)測(cè)和近似實(shí)驗(yàn)。你們能利用這些策略從觀察數(shù)據(jù)中獲得有用的信息。2.2大數(shù)據(jù)大數(shù)據(jù)是由公司和政府為研究以外的目的而創(chuàng)建和搜集的。因此,如果要利用這些數(shù)據(jù)進(jìn)行研究,就需要對(duì)其稍做調(diào)整。許多人接觸到數(shù)字時(shí)代社會(huì)研究的第一種方式是通過(guò)人們通常所說(shuō)的大數(shù)據(jù)。盡管這一術(shù)語(yǔ)被廣泛使用,但人們對(duì)大數(shù)據(jù)到底是什么還沒有達(dá)成共識(shí)。大數(shù)據(jù)最常見的定義之一主要包含了3個(gè)“V”:Volume(大量)、Variety(多樣)、Velocity(高速)。粗略地說(shuō),大數(shù)據(jù)就是大量被不斷創(chuàng)建的各種類型的數(shù)據(jù)。一些大數(shù)據(jù)的倡導(dǎo)者還為這一定義增加了別的詞語(yǔ),例如Veracity(真實(shí)性)和Value(價(jià)值),而批評(píng)者則增加了諸如Vague(模糊)和Vacuous(空洞)這樣的詞語(yǔ)。但就社會(huì)研究這一目的來(lái)說(shuō),我認(rèn)為相比于上述幾個(gè)“V”,以下5個(gè)“W”才是更好的出發(fā)點(diǎn):Who(誰(shuí))、What(什么)、Where(在哪兒)、When(什么時(shí)間)以及Why(為什么)。事實(shí)上,我認(rèn)為大數(shù)據(jù)資源帶來(lái)的許多挑戰(zhàn)和機(jī)會(huì)都源于最后這個(gè)“W”:Why。在模擬時(shí)代,大多數(shù)用于社會(huì)研究的數(shù)據(jù)都是為了做研究而創(chuàng)建的。然而在數(shù)字時(shí)代,大量數(shù)據(jù)正在被公司和政府創(chuàng)建,但其不是為了做研究,而是為了提供服務(wù)、創(chuàng)造利潤(rùn)以及執(zhí)行法律等。但富有創(chuàng)造力的人已經(jīng)意識(shí)到,我們可以對(duì)公司和政府所創(chuàng)建的數(shù)據(jù)稍做調(diào)整,進(jìn)而將其用于研究?;叵胍幌碌?章中的藝術(shù)類比,就像杜尚通過(guò)對(duì)一個(gè)現(xiàn)成品稍做修改而創(chuàng)造了藝術(shù)品一樣,現(xiàn)在科學(xué)家也可以通過(guò)對(duì)現(xiàn)成數(shù)據(jù)稍做調(diào)整而將其用于研究。盡管對(duì)數(shù)據(jù)進(jìn)行再利用無(wú)疑有眾多機(jī)會(huì),但利用那些不是為研究而創(chuàng)建的數(shù)據(jù)也存在著很多挑戰(zhàn)。就以社交媒體(例如推特)以及傳統(tǒng)的民意調(diào)查(例如綜合社會(huì)調(diào)查)為例。推特的主要目的是通過(guò)為用戶提供某種服務(wù)來(lái)獲取利潤(rùn),而綜合社會(huì)調(diào)查則主要是為社會(huì)研究(尤其是民意調(diào)查)搜集通用數(shù)據(jù)。盡管這兩種數(shù)據(jù)都可被用來(lái)研究民意,但這種目的上的差異意味著它們具有不同的屬性。推特的用戶規(guī)模和更新速度是綜合社會(huì)調(diào)查無(wú)法比擬的,但推特沒有像綜合社會(huì)調(diào)查那樣對(duì)用戶進(jìn)行仔細(xì)的挑選,也沒有努力讓數(shù)據(jù)在一段時(shí)間內(nèi)具有可比性。因?yàn)檫@兩種數(shù)據(jù)資源十分不同,所以也沒辦法說(shuō)到底哪個(gè)更好。如果你想了解全球人民在一個(gè)小時(shí)內(nèi)的情緒狀態(tài)(例如GolderandMacy2011),那么推特將是最好的選擇。但如果你想了解美國(guó)民眾態(tài)度兩級(jí)分化的長(zhǎng)期變化(例如DiMaggio,Evans,andBryson1996),那么綜合社會(huì)調(diào)查將是最好的選擇??偟膩?lái)說(shuō),這一章將試圖闡明大數(shù)據(jù)資源更適合被用于哪種類型的研究問(wèn)題,以及對(duì)于哪種研究問(wèn)題不太理想,而不是試圖論證大數(shù)據(jù)資源要比其他類型的數(shù)據(jù)更好或更壞。當(dāng)想到大數(shù)據(jù)資源時(shí),許多研究人員會(huì)立即將注意力全部放在由公司創(chuàng)建和搜集的在線數(shù)據(jù)上,例如搜索引擎的日志和社交媒體上的帖子。但這種狹隘的關(guān)注范圍忽略了另外兩個(gè)很重要的大數(shù)據(jù)資源。首先是現(xiàn)實(shí)世界中數(shù)字設(shè)備所產(chǎn)生的越來(lái)越多的公司的大數(shù)據(jù)資源。例如,我在這一章中將提到一個(gè)研究,探討一個(gè)員工的工作效率如何受其同伴工作效率的影響(MasandMoretti2009),該研究就對(duì)超市的結(jié)賬數(shù)據(jù)進(jìn)行了再利用。之后的章節(jié)還將介紹一些利用手機(jī)通話記錄(Blumenstock,Cadamuro,andOn2015)和電力公司賬單數(shù)據(jù)(Allcott2015)開展的研究。這些事例表明,公司的大數(shù)據(jù)資源不僅僅是關(guān)于在線行為的。另外一個(gè)被忽略的重要的大數(shù)據(jù)資源是政府創(chuàng)建的數(shù)據(jù)。這些數(shù)據(jù)被研究人員稱為政府行政記錄,包括稅收記錄、學(xué)校記錄以及重要的統(tǒng)計(jì)記錄(例如出生和死亡登記)等。政府一直在創(chuàng)建該類型的數(shù)據(jù),有的記錄已經(jīng)持續(xù)了數(shù)百年,而社會(huì)科學(xué)方面也幾乎是從第一個(gè)社會(huì)科學(xué)家開始就在利用這些數(shù)據(jù)。但不同的是,數(shù)字化極大地簡(jiǎn)化了政府對(duì)數(shù)據(jù)的搜集、傳輸、存儲(chǔ)和分析工作。例如,我在這一章中將提到一個(gè)利用紐約市政府出租車計(jì)量器的數(shù)據(jù)開展的研究,該研究旨在解決勞動(dòng)經(jīng)濟(jì)學(xué)中的一個(gè)根本性爭(zhēng)論(Farber2015)。后面的章節(jié)還將分別介紹政府搜集的投票記錄如何在一項(xiàng)調(diào)查(AnsolabehereandHersh2012)和一個(gè)實(shí)驗(yàn)(Bondetal.2012)中被使用。我認(rèn)為,將數(shù)據(jù)稍做調(diào)整以用于研究這一想法是從大數(shù)據(jù)資源中獲得有用信息的基礎(chǔ),因此,在更具體地討論大數(shù)據(jù)資源的屬性(2.3節(jié))以及如何在研究中使用這些資源(2.4節(jié))之前,我想先就這一想法給出兩條常規(guī)建議。首先,關(guān)于我所提出的“發(fā)現(xiàn)”數(shù)據(jù)和“設(shè)計(jì)”數(shù)據(jù)之間的差異,這二者的差異很小,但也不是沒有。盡管從研究人員的視角來(lái)說(shuō),大數(shù)據(jù)資源是被發(fā)現(xiàn)的,但它們并不完全就是從天而降的。相反,研究人員發(fā)現(xiàn)的大數(shù)據(jù)資源也是某些人出于某些目的而設(shè)計(jì)的。因此,鑒于發(fā)現(xiàn)的數(shù)據(jù)也是由某些人所設(shè)計(jì)的,我通常建議盡量多地了解設(shè)計(jì)這些數(shù)據(jù)的人和流程。其次,當(dāng)你將數(shù)據(jù)稍做調(diào)整以用于研究時(shí),想象一下適用于你要解決的問(wèn)題的理想數(shù)據(jù)集應(yīng)該是什么樣的,這通常會(huì)非常有幫助,然后將理想的數(shù)據(jù)集與你正在使用的數(shù)據(jù)集進(jìn)行比較。如果數(shù)據(jù)不是你自己搜集的,那么你擁有的數(shù)據(jù)和你想要的數(shù)據(jù)之間可能會(huì)有很重要的差別,注意到這些差別將有助于你弄清楚哪些是可以通過(guò)現(xiàn)有數(shù)據(jù)獲得的,哪些是無(wú)法獲得的,同時(shí)這也可能透露出你還需要搜集哪些新數(shù)據(jù)。在我的經(jīng)驗(yàn)中,社會(huì)科學(xué)家和數(shù)據(jù)科學(xué)家傾向于以截然不同的方式看待將數(shù)據(jù)稍做調(diào)整以用于研究這件事。習(xí)慣于處理為研究而設(shè)計(jì)的數(shù)據(jù)的社會(huì)科學(xué)家,通常會(huì)快速地指出調(diào)整后再用于研究的數(shù)據(jù)的問(wèn)題,而忽略它的優(yōu)勢(shì)。而數(shù)據(jù)科學(xué)家則通常會(huì)快速地指出這類數(shù)據(jù)的優(yōu)勢(shì),并忽略它的劣勢(shì)。當(dāng)然,最好的方法就是上述兩種態(tài)度的結(jié)合。也就是說(shuō),研究人員需要了解大數(shù)據(jù)資源的特征,了解它的優(yōu)點(diǎn)和缺點(diǎn),然后弄清楚如何從中獲得有用的信息。這也是本章剩余部分所要探討的。在2.3節(jié)中,我將介紹大數(shù)據(jù)資源的10個(gè)共同特征。然后在2.4節(jié)中我將介紹三種能夠很好地處理這些數(shù)據(jù)的研究方法。2.3大數(shù)據(jù)的10個(gè)共同特征各種大數(shù)據(jù)資源往往具有許多共同的特征,其中一些有利于社會(huì)研究,另一些則相反。盡管每種大數(shù)據(jù)資源都是不同的,但它們往往會(huì)呈現(xiàn)出某些共同的特征,意識(shí)到這一點(diǎn)是很有幫助的。因此,我將介紹大數(shù)據(jù)資源的10個(gè)一般性特征,而不是采用一種平臺(tái)化的方法(例如分別介紹對(duì)推特、谷歌等平臺(tái),你需要知道什么)。從每個(gè)特定系統(tǒng)的細(xì)節(jié)中跳出來(lái),著眼于這些一般性特征,能夠讓研究人員很快從現(xiàn)有的數(shù)據(jù)資源中獲得有用的信息,并擁有一套可用于未來(lái)數(shù)據(jù)資源的可靠想法。盡管對(duì)一個(gè)數(shù)據(jù)資源的期望特征取決于研究目標(biāo),但我發(fā)現(xiàn)把這10個(gè)共同特征粗略地分為以下兩大類也是有幫助的:·通常情況下有利于研究的:海量性、持續(xù)性以及不反應(yīng)性;·通常情況下不利于研究的:不完整性、難以獲取、不具代表性、漂移、算法干擾、臟數(shù)據(jù)以及敏感性。2.3.1海量性大型數(shù)據(jù)集是實(shí)現(xiàn)目的的一種手段,其本身并不是最終目的。大數(shù)據(jù)資源最被廣為討論的特征就是其數(shù)據(jù)量是“海量的”。例如,許多論文會(huì)以詳述(有時(shí)是吹噓)其分析了多少數(shù)據(jù)作為開篇。例如在《科學(xué)》(Science)雜志上發(fā)表的一篇研究谷歌圖書(GoogleBooks)語(yǔ)料庫(kù)中詞匯使用趨勢(shì)的論文就包括了以下內(nèi)容(Micheletal.2011):我們的語(yǔ)料庫(kù)包含了超過(guò)5000億個(gè)單詞,有英語(yǔ)(3610億)、法語(yǔ)(450億)、西班牙語(yǔ)(450億)、德語(yǔ)(370億)、漢語(yǔ)(130億)、俄語(yǔ)(350億)以及希伯來(lái)語(yǔ)(20億),最古老的作品出版于16世紀(jì)。起初的幾十年里,語(yǔ)料庫(kù)每年僅收錄幾本書,包含的單詞量也就幾十萬(wàn)。到1800年,語(yǔ)料庫(kù)每年的單詞量增加到9800萬(wàn);到1900年,達(dá)到18億;2000年則達(dá)到110億。語(yǔ)料庫(kù)中的內(nèi)容一個(gè)人是無(wú)法讀完的。就算只閱讀2000年的英語(yǔ)詞條,以每分鐘200個(gè)單詞的合理速度計(jì)算,即便一個(gè)人不吃不睡也將需要約80年。由字母組成的序列要比人類的基因組長(zhǎng)1000倍,如果你將它們沿著一條直線全部寫出來(lái),其長(zhǎng)度大約可在地球和月球之間往返10次。該數(shù)據(jù)的規(guī)模無(wú)疑是很可觀的,而且我們都很幸運(yùn),因?yàn)楣雀鑸D書團(tuán)隊(duì)對(duì)公眾開放了這些數(shù)據(jù)。(事實(shí)上,本書末尾的一些“活動(dòng)”就利用了這一數(shù)據(jù)。)但是,每當(dāng)看到類似的數(shù)據(jù)時(shí),你都應(yīng)該提出這樣的問(wèn)題:這些數(shù)據(jù)真的有用嗎?如果數(shù)據(jù)的長(zhǎng)度只夠從地球到月球往返一次,那么人們還能做同樣的實(shí)驗(yàn)嗎?如果數(shù)據(jù)的長(zhǎng)度只能到達(dá)珠穆朗瑪峰的頂部或者埃菲爾鐵塔的頂部又會(huì)怎么樣呢?事實(shí)上,針對(duì)谷歌圖書語(yǔ)料庫(kù)的這一研究確實(shí)需要一個(gè)收錄有多年詞匯量的巨大語(yǔ)料庫(kù)。例如,他們的研究之一是語(yǔ)法的演變,尤其是不規(guī)則動(dòng)詞詞形變化率的改變。鑒于有些不規(guī)則動(dòng)詞非常罕見,因此需要大量的數(shù)據(jù)才能發(fā)現(xiàn)其隨時(shí)間的變化。但很多時(shí)候,研究人員似乎會(huì)把大數(shù)據(jù)資源的規(guī)模大小當(dāng)作一種目的,旨在告訴別人“看我能處理多少數(shù)據(jù)”,而不是將其看作實(shí)現(xiàn)某些更重要的科學(xué)目標(biāo)的手段。根據(jù)我的經(jīng)驗(yàn),大型數(shù)據(jù)集往往能讓研究人員實(shí)現(xiàn)三類科學(xué)目的,而對(duì)稀有事件的研究就是其中第一類。第二類是對(duì)異質(zhì)性的研究,正如拉伊·切蒂(RajChetty)和同事對(duì)美國(guó)社會(huì)流動(dòng)的研究(2014)。在過(guò)去,許多研究人員通過(guò)對(duì)比父母和孩子的人生成就來(lái)研究社會(huì)流動(dòng)。從有關(guān)這些研究的文獻(xiàn)資料中可以得出這樣一個(gè)結(jié)論:社會(huì)經(jīng)濟(jì)地位等處于優(yōu)勢(shì)的父母,他們的孩子也更容易獲得較高的社會(huì)經(jīng)濟(jì)地位,但在不同的時(shí)間、國(guó)家,這兩者之間的關(guān)聯(lián)度也是不同的(HoutandDiPrete2006)。最近,切蒂和同事利用4000萬(wàn)人的繳稅記錄對(duì)美國(guó)各地區(qū)代際流動(dòng)的異質(zhì)性水平進(jìn)行了估算。他們發(fā)現(xiàn),在加利福尼亞州圣何塞,如果一個(gè)小孩來(lái)自收入水平最低的家庭(共分為5個(gè)等級(jí)),那么他成為全國(guó)收入水平最高的1/5人口的概率約為13%,而在北卡羅來(lái)納州的夏洛特,這一概率僅為4%。你可能會(huì)有這樣的疑問(wèn),為什么有些地方的代際流動(dòng)要高于其他地方呢?切蒂和同事也有同樣的疑問(wèn),而且他們還發(fā)現(xiàn),流動(dòng)性高的地區(qū)居住區(qū)分割現(xiàn)象、收入不平等現(xiàn)象都較少,而且有更好的小學(xué)、社會(huì)資本,家庭穩(wěn)定性也更高。當(dāng)然,只有這些關(guān)聯(lián)還不足以表明這些因素能帶來(lái)高流動(dòng)性,但這也確實(shí)表明了其中可能存在著某些機(jī)制,需要進(jìn)一步的研究,而這也正是切蒂和同事接下來(lái)所做的。需要注意的是,數(shù)據(jù)規(guī)模的大小在上述項(xiàng)目中是非常重要的。如果切蒂和同事使用的是4萬(wàn)人而不是4000萬(wàn)人的繳稅記錄,就無(wú)法對(duì)區(qū)域異質(zhì)性的水平進(jìn)行估算,也完全不可能進(jìn)行后續(xù)的研究,找出導(dǎo)致區(qū)域差異的機(jī)制。最后,除了研究稀有事件和異質(zhì)性,大型數(shù)據(jù)集還能讓研究人員發(fā)現(xiàn)那些細(xì)微的差異。事實(shí)上,業(yè)界對(duì)大數(shù)據(jù)的關(guān)注大多數(shù)都是關(guān)于這些細(xì)微差異的:準(zhǔn)確地檢測(cè)到一個(gè)廣告1%的點(diǎn)擊率和1.1%的點(diǎn)擊率之間的差別,就能帶來(lái)數(shù)百萬(wàn)美元的額外收入。然而在一些科學(xué)背景下,這樣細(xì)微的差異可能就不是特別重要了,即便它們具有重要的統(tǒng)計(jì)學(xué)意義(PrenticeandMiller1992)。但對(duì)一些政策制定來(lái)說(shuō),當(dāng)考慮到最終的總的影響時(shí),這些細(xì)微差異也可能變得很重要。例如,如果有兩種公共衛(wèi)生干預(yù)措施,其中一種比另一種稍微更有效一些,那么選擇更有效的措施可能最終就能多挽救成千上萬(wàn)人的生命。使用正確的話,海量性通常來(lái)說(shuō)是一個(gè)有利的屬性,但我注意到它有時(shí)也會(huì)導(dǎo)致概念誤差。出于某些原因,海量性這一特征似乎會(huì)讓研究人員忽略他們的數(shù)據(jù)是如何產(chǎn)生的。盡管海量數(shù)據(jù)確實(shí)會(huì)減少隨機(jī)誤差出現(xiàn)的概率,但它實(shí)際上又增加了系統(tǒng)誤差出現(xiàn)的概率。接下來(lái)我就要介紹,因?qū)?shù)據(jù)產(chǎn)生方式認(rèn)識(shí)不足而造成的系統(tǒng)誤差。例如,在本章隨后介紹的一個(gè)項(xiàng)目中,研究人員利用2001年9月11日的信息制作了一個(gè)反映恐怖襲擊后人們反應(yīng)的高分辨率情緒時(shí)間表(Back,Küfner,andEgloff2010)。因?yàn)樗麄儞碛写罅康男畔?,所以沒必要擔(dān)心他們所發(fā)現(xiàn)的規(guī)律(即人們的憤怒情緒在一天之中不斷上漲)是否能用隨機(jī)變化來(lái)解釋。他們所擁有的信息量十分巨大,而且這一規(guī)律又非常明顯,所有的統(tǒng)計(jì)檢驗(yàn)都表明這是一條正確的規(guī)律。但這些統(tǒng)計(jì)檢驗(yàn)人員并不知道這些數(shù)據(jù)是如何產(chǎn)生的。事實(shí)上,他們發(fā)現(xiàn)的很多信息都是由一個(gè)自動(dòng)程序產(chǎn)生的,該程序在一天中會(huì)產(chǎn)生越來(lái)越多的無(wú)意義信息。因此刪除這一程序就會(huì)使論文中的某些關(guān)鍵發(fā)現(xiàn)不再成立(Pury2011;Back,Küfner,andEgloff2011)。簡(jiǎn)單地說(shuō),不考慮系統(tǒng)誤差的研究人員在使用大型數(shù)據(jù)集時(shí),其精確計(jì)算的對(duì)象可能是一個(gè)不重要的數(shù)據(jù),例如上述自動(dòng)程序產(chǎn)生的無(wú)意義信息中所包含的情緒內(nèi)容。綜上所述,大型數(shù)據(jù)集本身并不是目的,但它們能讓某些類型的研究成為可能,其中包括對(duì)稀有事件的研究、對(duì)異質(zhì)性水平的估算以及對(duì)細(xì)微差異的發(fā)現(xiàn)。但大型數(shù)據(jù)集似乎也會(huì)讓研究人員忽略他們的數(shù)據(jù)是如何產(chǎn)生的,進(jìn)而導(dǎo)致他們精確地計(jì)算不重要的數(shù)據(jù)。2.3.2持續(xù)性大數(shù)據(jù)系統(tǒng)的持續(xù)運(yùn)行使得研究突發(fā)事件和進(jìn)行實(shí)時(shí)監(jiān)測(cè)成為可能。許多大數(shù)據(jù)系統(tǒng)都是持續(xù)運(yùn)行的,它們?cè)诓粩嗟厮鸭鴶?shù)據(jù)。這一特征使研究人員能夠獲得縱向數(shù)據(jù)(即在一段時(shí)間內(nèi)的數(shù)據(jù)),它對(duì)研究有以下兩個(gè)重要的影響。首先,不間斷的數(shù)據(jù)采集使研究人員能以之前不可能的方式來(lái)研究突發(fā)事件。例如,對(duì)2013年夏天發(fā)生在土耳其的蓋齊公園示威活動(dòng)感興趣的研究人員通常會(huì)關(guān)注示威者在活動(dòng)期間的行為。而杰倫·布達(dá)克(CerenBudak)和鄧肯·瓦茨(DuncanWatts)憑借推特的持續(xù)運(yùn)行屬性,對(duì)在示威之前、期間以及之后使用推特的示威者進(jìn)行研究,并且創(chuàng)建了由未參加示威的人組成的對(duì)照組,對(duì)照組也分為示威之前、期間以及之后(圖2.1)。最終,他們的事后縱向數(shù)據(jù)(ex-postpanel)共搜集了30000人在兩年內(nèi)的所有推文。通過(guò)在研究人員常用示威者數(shù)據(jù)的基礎(chǔ)上增加這一額外的信息,布達(dá)克和瓦茨可以研究更多的內(nèi)容:評(píng)估什么類型的人更有可能參與蓋齊公園示威活動(dòng)以及參與者和非參與者在短期(對(duì)比示威之前和示威期間的數(shù)據(jù))和長(zhǎng)期(對(duì)比示威之前和示威之后的數(shù)據(jù))內(nèi)的態(tài)度變化。圖2.1布達(dá)克和瓦茨用來(lái)研究2013年夏天發(fā)生在土耳其的蓋齊公園示威活動(dòng)的設(shè)計(jì)。利用推特的持續(xù)運(yùn)行屬性,研究人員搜集了約30000人在兩年內(nèi)的推文,并將這一數(shù)據(jù)稱為事后縱向數(shù)據(jù)。與關(guān)注示威期間參與者的典型研究相比,事后縱向數(shù)據(jù)增加了:(1)示威前、后參與者的數(shù)據(jù);(2)示威前、中、后非參與者的數(shù)據(jù)。這一更豐富的數(shù)據(jù)使布達(dá)克和瓦茨能對(duì)“什么類型的人更有可能參加蓋齊公園示威活動(dòng)”以及參與者和非參與者在短期(對(duì)比示威之前和示威期間的數(shù)據(jù))和長(zhǎng)期(對(duì)比示威之前和示威之后的數(shù)據(jù))內(nèi)的態(tài)度變化進(jìn)行評(píng)估。懷疑論者可能會(huì)指出,即便沒有不間斷的數(shù)據(jù)采集資源,上述某些評(píng)估(例如長(zhǎng)期內(nèi)的態(tài)度變化)也是可以進(jìn)行的。這一觀點(diǎn)是正確的,盡管搜集30000人的數(shù)據(jù)成本相當(dāng)高昂,但只要有足夠的預(yù)算,這一問(wèn)題便能解決。然而我想不出有什么辦法能讓研究人員穿梭到過(guò)去,直接觀察參與者在過(guò)去的行為。最接近的辦法可能是搜集有關(guān)參與者行為的回顧性報(bào)告,但這些報(bào)告的粒度是有限的,準(zhǔn)確度也不高。表2.1列出了一些利用持續(xù)運(yùn)行的大數(shù)據(jù)系統(tǒng)進(jìn)行的突發(fā)事件研究。除了研究突發(fā)事件以外,持續(xù)運(yùn)行的大數(shù)據(jù)系統(tǒng)還能讓研究人員進(jìn)行實(shí)時(shí)評(píng)估。對(duì)政府或各行業(yè)的決策者來(lái)說(shuō),當(dāng)他們想要依據(jù)態(tài)勢(shì)感知確定應(yīng)對(duì)措施時(shí),這一點(diǎn)就會(huì)變得很重要。例如,利用社交媒體數(shù)據(jù)指導(dǎo)對(duì)自然災(zāi)害的應(yīng)急響應(yīng)(Castillo2016),利用各種不同的大數(shù)據(jù)資源對(duì)經(jīng)濟(jì)活動(dòng)進(jìn)行實(shí)時(shí)評(píng)估(ChoiandVarian2012)。綜上所述,持續(xù)運(yùn)行的大數(shù)據(jù)系統(tǒng)能讓研究人員對(duì)突發(fā)事件進(jìn)行研究,也能為決策者提供實(shí)時(shí)信息。但如果要追蹤很長(zhǎng)一段時(shí)間內(nèi)的變化,我認(rèn)為這些系統(tǒng)就不適用了。因?yàn)楹芏啻髷?shù)據(jù)系統(tǒng)是不斷變化的,我把這一過(guò)程稱為漂移,并將在后面的2.3.7小節(jié)中具體介紹。表2.1利用持續(xù)運(yùn)行的大數(shù)據(jù)系統(tǒng)進(jìn)行的突發(fā)事件研究2.3.3不反應(yīng)性大數(shù)據(jù)資源中的測(cè)量對(duì)象不太可能改變行為。社會(huì)研究面臨的一個(gè)挑戰(zhàn)是,當(dāng)知道自己正在被研究人員觀察時(shí),人們就會(huì)改變自己的行為。社會(huì)科學(xué)家通常把這一現(xiàn)象稱為反應(yīng)性(Webbetal.1966)。例如,在實(shí)驗(yàn)室研究中,人們會(huì)比在現(xiàn)場(chǎng)研究中表現(xiàn)得更慷慨,因?yàn)樵趯?shí)驗(yàn)室中,他們非常清楚自己正在被觀察(LevittandList2007a)。許多研究人員看好的大數(shù)據(jù)的一個(gè)方面是,參與者一般不會(huì)意識(shí)到他們的數(shù)據(jù)正在被捕獲,或者他們對(duì)這些數(shù)據(jù)采集已經(jīng)很習(xí)慣了,所以也不會(huì)改變自己的行為。由于參與者不會(huì)改變他們的行為,所以許多大數(shù)據(jù)資源可以被用來(lái)研究以前無(wú)法精確衡量的行為。例如,帶有種族歧視的詞匯在搜索引擎記錄中是非常普遍的,于是斯蒂芬斯–達(dá)維多維茨(Stephens-Davidowitz)就利用這一點(diǎn)衡量了美國(guó)不同地區(qū)的種族敵意。搜索數(shù)據(jù)的不反應(yīng)性和海量性這兩個(gè)屬性使很多通過(guò)其他方法(例如調(diào)查)難以進(jìn)行的測(cè)量成為可能。但不反應(yīng)性并不能確保這些數(shù)據(jù)就是人們行為或態(tài)度的直接反映。例如,在一項(xiàng)基于當(dāng)面訪問(wèn)的研究中,一位受訪者說(shuō):“我并不是沒有問(wèn)題,只是沒有把它們發(fā)在臉譜網(wǎng)上而已?!保∟ewmanetal.2011)換句話說(shuō),盡管一些大數(shù)據(jù)資源是不反應(yīng)的,但并不一定能避免社會(huì)期許誤差,即人們傾向于以盡可能好的方式呈現(xiàn)自己而帶來(lái)的誤差。此外,正如我在本章后續(xù)部分所描述的,從大數(shù)據(jù)資源中捕獲的行為有時(shí)會(huì)受到平臺(tái)所有者目標(biāo)的影響,我將之稱為算法干擾。最后,盡管不反應(yīng)性對(duì)開展研究是有利的,但在未征得參與者同意或在他們不知情的情況下追蹤其行為的做法,也會(huì)帶來(lái)一些道德倫理問(wèn)題,對(duì)此我將在第6章進(jìn)行描述。以上3個(gè)屬性——海量性、持續(xù)性以及不反應(yīng)性,一般來(lái)說(shuō)是有利于研究的,但也并非總是如此。接下來(lái),我將介紹大數(shù)據(jù)資源的另外7個(gè)屬性——不完整性、難以獲取、不具代表性、漂移、算法干擾、臟數(shù)據(jù)以及敏感性。在開展研究時(shí),這些屬性一般來(lái)說(shuō)會(huì)引發(fā)額外的問(wèn)題,但也并非總是如此。2.3.4不完整性不管你的大數(shù)據(jù)有多大規(guī)模,其中仍可能沒有你想要的信息。許多大數(shù)據(jù)資源中是沒有我們想要的研究數(shù)據(jù)的,從這個(gè)意義上講,大多數(shù)大數(shù)據(jù)資源是不完整的。這是出于研究以外的目的而創(chuàng)建的數(shù)據(jù)所共有的一個(gè)特征。許多社會(huì)科學(xué)家已經(jīng)擁有處理不完整數(shù)據(jù)的經(jīng)驗(yàn)了,例如某社會(huì)科學(xué)家獲得了一組現(xiàn)有的調(diào)查數(shù)據(jù),但其中未包含他要研究的問(wèn)題。遺憾的是,不完整的問(wèn)題在大數(shù)據(jù)中往往更加極端。根據(jù)我的經(jīng)驗(yàn),大數(shù)據(jù)通常缺少以下三種對(duì)社會(huì)研究有用的信息:有關(guān)參與者的統(tǒng)計(jì)信息、在其他平臺(tái)上的行為以及使理論構(gòu)念具有可操作性所需的數(shù)據(jù)。在上述三種缺失的信息中,缺失使理論構(gòu)念具有可操作性所需的數(shù)據(jù)是最難解決的。而且根據(jù)我的經(jīng)驗(yàn),這一問(wèn)題經(jīng)常會(huì)被忽略。粗略地說(shuō),理論構(gòu)念就是社會(huì)科學(xué)家所研究的抽象概念,而使一個(gè)理論構(gòu)念具有可操作性則意味著想辦法用可觀測(cè)的數(shù)據(jù)捕獲這一構(gòu)念。遺憾的是,這個(gè)聽起來(lái)簡(jiǎn)單的過(guò)程事實(shí)上往往相當(dāng)困難。試想一下,如果要用科學(xué)測(cè)驗(yàn)檢驗(yàn)“越聰明的人掙錢越多”這一看似簡(jiǎn)單的說(shuō)法,那么我們就需要對(duì)“智力”進(jìn)行測(cè)量。但什么是智力呢?霍華德·加德納(HowardGardner)曾提出,智力實(shí)際上有8種不同的形式。那有沒有能夠精確測(cè)量這些智力的程序呢?盡管心理學(xué)家在這方面做了大量的工作,但這個(gè)問(wèn)題還是沒有明確的答案。因此,即便是“越聰明的人掙錢越多”這樣相對(duì)簡(jiǎn)單的說(shuō)法,也可能很難用科學(xué)測(cè)驗(yàn)來(lái)對(duì)其進(jìn)行評(píng)定,因?yàn)橐胧估碚摌?gòu)念實(shí)現(xiàn)數(shù)據(jù)層面的可操作性是很困難的。其他一些重要卻難以實(shí)現(xiàn)可操作性的例子包括“規(guī)范”、“社會(huì)資本”和“民主”。社會(huì)科學(xué)家將理論構(gòu)念和數(shù)據(jù)之間的匹配程度稱為構(gòu)念效度(CronbachandMeehl1955)。正如上述幾個(gè)構(gòu)念所示,構(gòu)念效度問(wèn)題是社會(huì)科學(xué)家長(zhǎng)期以來(lái)一直在努力解決的問(wèn)題。但以我的經(jīng)驗(yàn)來(lái)看,當(dāng)使用不是為研究而創(chuàng)建的數(shù)據(jù)時(shí),構(gòu)念效度問(wèn)題就會(huì)變得更加難以解決(Lazer2015)。研究結(jié)果通常是用構(gòu)念來(lái)表述的,而利用研究所使用的數(shù)據(jù)對(duì)其進(jìn)行重新表述則是評(píng)估一項(xiàng)研究結(jié)果構(gòu)念效度的快速且有效的方法。例如,假設(shè)有兩個(gè)旨在證明“越聰明的人掙錢越多”的研究:在第一個(gè)研究中,研究人員發(fā)現(xiàn),在一項(xiàng)成熟的、測(cè)量分析性智力的瑞文推理測(cè)驗(yàn)(Carpenter,Just,andShell1990)中得分高的人,其納稅申報(bào)單中填報(bào)的個(gè)人收入也較高;在第二項(xiàng)研究中,研究人員發(fā)現(xiàn),在推特上使用更長(zhǎng)的單詞的人更有可能提到奢侈品牌。就這兩項(xiàng)研究而言,研究人員均聲稱他們已經(jīng)證明了“越聰明的人掙錢越多”。但在第一項(xiàng)研究中,研究人員通過(guò)相關(guān)數(shù)據(jù)對(duì)理論構(gòu)念進(jìn)行了充分的測(cè)量,而第二項(xiàng)研究沒有。此外,正如上述事例所示,更多的數(shù)據(jù)并不意味著構(gòu)念效度問(wèn)題就能迎刃而解。也就是說(shuō),無(wú)論第二個(gè)研究是基于100萬(wàn)條推文,1000萬(wàn)條推文,還是1萬(wàn)億條推文,我們對(duì)其結(jié)果都應(yīng)持懷疑態(tài)度。對(duì)不熟悉構(gòu)念效度的研究人員來(lái)說(shuō),可以參閱表2.2中使用數(shù)字痕跡測(cè)量理論構(gòu)念的研究實(shí)例。表2.2使用數(shù)字痕跡測(cè)量理論構(gòu)念的實(shí)例盡管反映理論構(gòu)念的完整數(shù)據(jù)很難找到,但對(duì)其他常見的不完整性問(wèn)題,比如不完整的人口統(tǒng)計(jì)信息和在其他平臺(tái)上的不完整的行為信息,我們還是有一些常見解決方案的。第一種解決方案是實(shí)際搜集自己所需的數(shù)據(jù),在第3章談到調(diào)查時(shí)我會(huì)對(duì)此進(jìn)行介紹。第二種主要方案是進(jìn)行數(shù)據(jù)科學(xué)家所說(shuō)的用戶屬性推斷,社會(huì)科學(xué)家則稱之為歸屬。采取該方案時(shí),研究人員需利用他們所掌握的一些人的信息來(lái)推斷其他人的屬性。第三種可能的解決方案是整合多個(gè)數(shù)據(jù)資源。這一過(guò)程被稱為記錄鏈接。我最喜歡的有關(guān)這一過(guò)程的比喻說(shuō)法出自艾伯特·鄧恩(HalbertDunn),他寫出了有史以來(lái)第一篇關(guān)于記錄鏈接的論文,他在第一段是這樣寫的:世界上的每一個(gè)人都在書寫一本生命之書。這本書從我們出生開始寫起,直到我們生命的終結(jié),每一頁(yè)都記錄了我們生命中的主要事件。而記錄鏈接就是將這些書頁(yè)裝訂成冊(cè)的過(guò)程。鄧恩寫這一段時(shí),想象著這本生命之書會(huì)記錄出生、結(jié)婚、離婚和死亡這樣的重大生活事件。但其實(shí)它所記錄的要遠(yuǎn)超過(guò)這些,因此,如果將這些不同的書頁(yè)(即我們的數(shù)字痕跡)整合在一起的話,這本生命之書將是一幅詳細(xì)的令人難以置信的畫像。這本生命之書對(duì)研究人員來(lái)說(shuō)是非常好的資源。但正如我在第6章中將描述的那樣,它也可以被用于各種不道德的用途,所以也可以被稱為毀滅性的數(shù)據(jù)庫(kù)(Ohm2010)。2.3.5難以獲取研究人員很難獲取公司和政府所持有的數(shù)據(jù)資源。2014年5月,美國(guó)國(guó)家安全局在猶他州的一個(gè)小鎮(zhèn)開設(shè)了一個(gè)名字很長(zhǎng)的數(shù)據(jù)中心——情報(bào)體系綜合性國(guó)家計(jì)算機(jī)安全計(jì)劃數(shù)據(jù)中心。然而據(jù)報(bào)道,這個(gè)習(xí)慣上被稱為猶他數(shù)據(jù)中心的地方擁有驚人的能力。一份報(bào)告稱,該數(shù)據(jù)中心能夠存儲(chǔ)和處理所有形式的通信信息,包括“私人電子郵件、手機(jī)通話和谷歌搜索的完整內(nèi)容,以及停車收據(jù)、旅行路線、書店采購(gòu)記錄和其他‘口袋垃圾’等各種形式的個(gè)人數(shù)字痕跡”(Bamford2012)。猶他數(shù)據(jù)中心存儲(chǔ)的大部分信息都是敏感信息,因此在引發(fā)擔(dān)憂之外,它也很好地詮釋了為什么有些豐富的數(shù)據(jù)資源是研究人員難以獲取的。更普遍地講,許多有用的大數(shù)據(jù)資源都被政府(例如稅收數(shù)據(jù)和教育數(shù)據(jù))和公司(例如搜索引擎記錄和通話記錄元數(shù)據(jù))控制和限制。因此,盡管這些數(shù)據(jù)是存在的,但對(duì)社會(huì)研究來(lái)說(shuō)是無(wú)用的,因?yàn)樗鼈兒茈y獲取。根據(jù)我的經(jīng)驗(yàn),許多大學(xué)研究人員都誤解了數(shù)據(jù)難以獲取的原因。這些數(shù)據(jù)難以獲取,不是因?yàn)楣竞驼娜擞薮馈卸杌蚶淠?,而是有?yán)格的法律、商業(yè)和倫理限制阻礙了數(shù)據(jù)的獲取。例如,一些網(wǎng)站的服務(wù)協(xié)議只允許員工使用數(shù)據(jù)或?qū)?shù)據(jù)用于改進(jìn)服務(wù)。因此,某些形式的數(shù)據(jù)共享可能會(huì)讓公司面臨來(lái)自客戶的法律訴訟。此外,共享數(shù)據(jù)也可能為公司帶來(lái)巨大的商業(yè)風(fēng)險(xiǎn)。試想一下,如果個(gè)人搜索數(shù)據(jù)意外從谷歌泄露,并被用于某項(xiàng)大學(xué)的研究,公眾的反應(yīng)會(huì)如何?類似這樣的數(shù)據(jù)外泄,如果嚴(yán)重的話,甚至可能威脅到公司的生存。因此,谷歌和大多數(shù)大公司為了規(guī)避風(fēng)險(xiǎn),都不愿與研究人員分享數(shù)據(jù)。事實(shí)上,幾乎所有有能力提供大量數(shù)據(jù)的人應(yīng)該都知道阿卜杜勒·喬杜里(AbdurChowdhury)的故事。2006年,時(shí)任AOL(美國(guó)在線)研究主管的喬杜里,有意向研究人員公布他認(rèn)為是匿名的65萬(wàn)名AOL用戶的搜索記錄。據(jù)我所知,喬杜里和AOL的研究人員是出于好意,而且他們認(rèn)為自己已經(jīng)對(duì)數(shù)據(jù)進(jìn)行了“匿名化”處理。但他們錯(cuò)了,這些數(shù)據(jù)很快被發(fā)現(xiàn)并沒有研究人員所想的那樣安全,而且,《紐約時(shí)報(bào)》的記者能夠很輕松地辨別出數(shù)據(jù)集中某一個(gè)人的身份(BarbaroandZeller2006)。這些問(wèn)題剛被發(fā)現(xiàn),喬杜里就移除了AOL網(wǎng)站上的相關(guān)數(shù)據(jù),但為時(shí)已晚,這些數(shù)據(jù)已被轉(zhuǎn)載到了其他網(wǎng)站上,在你讀這本書時(shí),可能這些數(shù)據(jù)仍然能被找到。最終,喬杜里被解雇了,AOL的首席技術(shù)官也辭職了(Hafner2006)。正如這個(gè)例子所示,公司內(nèi)部特定人員是有能力促進(jìn)數(shù)據(jù)共享的,但他們并不會(huì)因此而受益,相反還有可能要承擔(dān)極其嚴(yán)重的后果。然而,研究人員有時(shí)也能獲取普通大眾無(wú)法獲取的數(shù)據(jù)。一些政府有特定的程序,研究人員可以遵循這些程序,申請(qǐng)對(duì)數(shù)據(jù)的訪問(wèn)權(quán)。此外,正如本章后面的例子所示,研究人員有時(shí)也能獲得對(duì)公司數(shù)據(jù)的訪問(wèn)權(quán)。斯坦福大學(xué)經(jīng)濟(jì)學(xué)教授利蘭·埃納維(LiranEinav)等人就曾與易貝(eBay)的一位研究人員合作研究在線拍賣。有關(guān)這一合作研究的更多信息,我將在本章后面部分介紹,而我現(xiàn)在提及它是因?yàn)樗邆湮以诔晒Φ幕锇殛P(guān)系中所看到的4個(gè)要素:研究人員興趣、研究人員能力、公司興趣以及公司能力。我見過(guò)很多原本可能達(dá)成的合作最終以失敗告終,其原因就是研究人員或其合作對(duì)象(公司或政府)不具備上述某一要素。即便能與公司建立合作關(guān)系或能夠訪問(wèn)到受限制的政府?dāng)?shù)據(jù),你還是會(huì)面臨一些問(wèn)題。首先,你可能無(wú)法與其他研究人員共享你的數(shù)據(jù),這也就意味著其他研究人員將無(wú)法驗(yàn)證和擴(kuò)展你的研究結(jié)果。其次,你能提出的問(wèn)題可能是有限的,因?yàn)楣静惶赡茉试S你開展有損其形象的研究。最后,這些合作關(guān)系至少會(huì)引發(fā)有關(guān)利益沖突的問(wèn)題,即人們可能會(huì)認(rèn)為你的研究結(jié)果受到了合作關(guān)系的影響。所有這些問(wèn)題都是可以解決的,但重要的是你要認(rèn)識(shí)到,處理并非人人都能訪問(wèn)的數(shù)據(jù)是既有好處又有壞處的。綜上所述,研究人員在訪問(wèn)某些數(shù)據(jù)時(shí),會(huì)面臨來(lái)自法律、商業(yè)和道德倫理方面的層層限制,很多大數(shù)據(jù)資源都是他們難以獲取的。而且這些限制不會(huì)隨著技術(shù)的進(jìn)步而消失,因?yàn)樗鼈儾⒎羌夹g(shù)層面的限制。一些國(guó)家的政府已經(jīng)建立了相關(guān)的程序,以便讓研究人員能夠訪問(wèn)某些數(shù)據(jù)集,但未從國(guó)家和地區(qū)層面對(duì)具體過(guò)程進(jìn)行統(tǒng)一安排。此外,在某些情況下,研究人員可以通過(guò)與公司合作獲得數(shù)據(jù)的訪問(wèn)權(quán),但這也可能給研究人員和公司帶來(lái)各種各樣的問(wèn)題。2.3.6不具代表性不具代表性的數(shù)據(jù)不利于樣本外的泛化,但對(duì)樣本內(nèi)的對(duì)比是很有用的。一些社會(huì)科學(xué)家習(xí)慣于處理從明確的總體(例如某個(gè)國(guó)家的所有成年人)中抽取的隨機(jī)樣本數(shù)據(jù)。這類數(shù)據(jù)被稱作代表性數(shù)據(jù),因?yàn)檫@些樣本能夠代表總體的屬性。許多研究人員都認(rèn)為代表性數(shù)據(jù)很有價(jià)值,對(duì)他們中的一些人來(lái)說(shuō),代表性數(shù)據(jù)就是科學(xué)嚴(yán)謹(jǐn)性的代名詞,而不具代表性的數(shù)據(jù)則是雜亂的代名詞。在最極端的情況下,一些對(duì)不具代表性的數(shù)據(jù)持懷疑態(tài)度的人似乎認(rèn)為,從這些數(shù)據(jù)中學(xué)不到任何東西。如果這是真的,那么這將嚴(yán)重限制我們從大數(shù)據(jù)資源中可以學(xué)到的東西,因?yàn)樵S多大數(shù)據(jù)資源都不具代表性。幸運(yùn)的是,這些懷疑者只是部分正確。不具代表性的數(shù)據(jù)對(duì)有些研究目標(biāo)來(lái)說(shuō)顯然是不適用的,但對(duì)其他一些研究目標(biāo)來(lái)說(shuō)可能非常有用。讓我們通過(guò)一個(gè)經(jīng)典的科學(xué)研究,即約翰·斯諾(JohnSnow)對(duì)1853—1854年倫敦霍亂暴發(fā)的研究,來(lái)闡明這一區(qū)別。當(dāng)時(shí),許多醫(yī)生都認(rèn)為霍亂是由瘴氣引起的,但斯諾認(rèn)為霍亂是一種傳染病,它可能通過(guò)被病人排泄物污染的飲用水來(lái)傳播。為了驗(yàn)證這一想法,斯諾對(duì)比了由兩家不同的公司——蘭姆博斯(Lambeth)以及薩瑟克–沃克斯霍爾(Southwark&Vauxhall),供水的家庭的霍亂發(fā)病率,我們現(xiàn)在把這種實(shí)驗(yàn)稱作自然實(shí)驗(yàn)。這兩家公司分別為社會(huì)經(jīng)濟(jì)地位等相似的家庭供水,但它們有一個(gè)重要的區(qū)別:蘭姆博斯于1849年,即疫情開始的前幾年,從倫敦的主要污水排放處向上游移動(dòng)了它的進(jìn)水管道,而薩瑟克–沃克斯霍爾則依舊把進(jìn)水管道置于污水排放的下游。斯諾在比較由這兩家公司供水的家庭的霍亂死亡率時(shí)發(fā)現(xiàn),飲用由薩瑟克–沃克斯霍爾提供的被排泄物污染的水的用戶,其死于霍亂的可能性是由蘭姆博斯供水的用戶的10倍。盡管這一結(jié)果不是基于能夠代表所有倫敦人口的樣本所得出的,但它為斯諾有關(guān)霍亂起因的說(shuō)法提供了強(qiáng)有力的科學(xué)依據(jù)。然而,如果要回答另外一個(gè)也很重要的問(wèn)題——在疫情暴發(fā)期間,倫敦的霍亂患病率是多少,上述兩家公司的數(shù)據(jù)就不再適用了,我們需要的是一個(gè)能代表全倫敦人口的代表性樣本。正如斯諾的例子所表明的,不具代表性的數(shù)據(jù)對(duì)有些科學(xué)問(wèn)題來(lái)說(shuō)是非常有效的,但對(duì)其他一些科學(xué)問(wèn)題不太適用。區(qū)分這兩種問(wèn)題的一個(gè)粗略的辦法是,有些問(wèn)題是關(guān)于樣本內(nèi)比較的,而有些則是關(guān)于樣本外泛化的。這一區(qū)別可以通過(guò)另外一個(gè)流行病學(xué)的經(jīng)典研究案例來(lái)進(jìn)一步闡明。這項(xiàng)研究就是英國(guó)醫(yī)生研究(BritishDoctorsStudy),它在證明吸煙能導(dǎo)致癌癥方面發(fā)揮了重要的作用。在這項(xiàng)研究中,理查德·多爾(RichardDoll)和布拉德福德·希爾(A.BradfordHill)對(duì)約25000名男性醫(yī)生進(jìn)行了多年的追蹤,并根據(jù)研究開始時(shí)他們吸煙的數(shù)量比較其晚年的健康狀況。多爾和希爾發(fā)現(xiàn)了一個(gè)很強(qiáng)的“暴露–反應(yīng)關(guān)系”:抽煙越多的人,死于肺癌的可能性就越大。當(dāng)然,根據(jù)這組男性醫(yī)生的情況估算所有英國(guó)人的肺癌患病率顯然是不明智的,但樣本內(nèi)的比較能為證明吸煙致癌提供證據(jù)。鑒于我已經(jīng)闡明了樣本內(nèi)比較和樣本外泛化的區(qū)別,接下來(lái)便是兩個(gè)需要注意的地方。首先,肯定會(huì)產(chǎn)生這樣的問(wèn)題:在上述英國(guó)男性醫(yī)生的樣本中成立的某一關(guān)系,在由英國(guó)女性醫(yī)生、英國(guó)男性工人、德國(guó)女性工人或其他許多群體所構(gòu)成的樣本中,適用程度如何?這種問(wèn)題很有趣,也很重要,但它們與從樣本到總體的泛化程度的問(wèn)題不同。例如,你可能會(huì)認(rèn)為,在英國(guó)男性醫(yī)生中發(fā)現(xiàn)的吸煙與癌癥之間的關(guān)系在其他群體中可能也是類似的。但你的這一推斷并非來(lái)自英國(guó)男性醫(yī)生可被看作任何人群的隨機(jī)樣本;相反,它來(lái)自對(duì)吸煙和癌癥之間的聯(lián)系機(jī)制的理解。因此,從樣本到抽取樣本的目標(biāo)總體的泛化基本上是一個(gè)統(tǒng)計(jì)問(wèn)題,但有關(guān)在一個(gè)群體中所發(fā)現(xiàn)的規(guī)律到另一個(gè)群體的可移植性的問(wèn)題則基本上不屬于統(tǒng)計(jì)問(wèn)題(PearlandBareinboim2014;Pearl2015)。就這一點(diǎn)而言,持懷疑態(tài)度的人可能會(huì)說(shuō),大多數(shù)的社會(huì)規(guī)律在不同群體間的可移植性可能都要低于吸煙和癌癥之間關(guān)系的可移植性。這個(gè)觀點(diǎn)我是同意的。那么我們應(yīng)該期望這些規(guī)律具有多大的可移植性呢?這最終還是一個(gè)取決于理論和證據(jù)的科學(xué)問(wèn)題。這些規(guī)律不應(yīng)被自動(dòng)假定為可移植的,但也不應(yīng)被假定為不可移植的。你如果關(guān)注過(guò)圍繞研究人員通過(guò)研究本科生能對(duì)人類行為有多少了解的爭(zhēng)論(Sears1986,Henrich,Heine,andNorenzayan2010b),就會(huì)對(duì)這些有點(diǎn)抽象的關(guān)于可移植性的問(wèn)題感到熟悉。然而,盡管有這些爭(zhēng)論存在,你也不能說(shuō)研究人員通過(guò)研究本科生了解不到任何東西。第二個(gè)需要注意的問(wèn)題是,大多數(shù)擁有不具代表性數(shù)據(jù)的研究人員并不會(huì)像斯諾以及多爾和希爾那樣細(xì)心研究數(shù)據(jù)。因此,我將通過(guò)安德拉尼克·圖瑪斯嚴(yán)(AndranikTumasjan)和同事針對(duì)2009年的德國(guó)聯(lián)邦議會(huì)大選開展的研究,說(shuō)明研究人員在利用不具代表性的數(shù)據(jù)進(jìn)行樣本外泛化時(shí)可能出現(xiàn)的錯(cuò)誤。分析了10萬(wàn)多條推文后,圖瑪斯嚴(yán)和同事發(fā)現(xiàn),提及某一政黨的推文比例與該政黨在議會(huì)選舉中的得票比例是相匹配的(圖2.2)。換句話說(shuō),基本免費(fèi)的推特?cái)?shù)據(jù)似乎可以取代傳統(tǒng)的民意調(diào)查,傳統(tǒng)的民意調(diào)查往往比較昂貴,因?yàn)樗⒅厮鸭氖谴硇詳?shù)據(jù)??紤]到你可能很了解推特,估計(jì)你會(huì)立即對(duì)這個(gè)結(jié)果表示懷疑。首先,2009年使用推特的德國(guó)人并不能算是德國(guó)選民的隨機(jī)樣本。其次,一些政黨的支持者可能會(huì)比其他政黨的支持者更經(jīng)常地發(fā)表有關(guān)政治的推文。因此,當(dāng)最終結(jié)果是所有你能想象到的偏差都莫名其妙地相互抵消了,而推特的數(shù)據(jù)竟能直接反映德國(guó)選民的意愿時(shí),這似乎令人感到震驚。圖瑪斯嚴(yán)等人的研究發(fā)現(xiàn)令人難以置信。安德烈亞斯·容赫爾(AndreasJungherr)、帕斯卡爾·于爾根斯(PascalJürgens)以及哈拉爾德·舍恩(HaraldSchoen)在后續(xù)的一篇論文中指出,圖瑪斯嚴(yán)等人的分析并未包含在推特上出現(xiàn)率最高的政黨:盜版黨。這是一個(gè)反對(duì)政府監(jiān)管網(wǎng)絡(luò)的小黨。如果將盜版黨納入分析范圍的話,政黨在推特上的出現(xiàn)率與最終的選舉結(jié)果就大相徑庭了。正如這個(gè)例子所示,使用不具代表性的大數(shù)據(jù)資源進(jìn)行樣本外泛化可能會(huì)產(chǎn)生很大的錯(cuò)誤。此外還應(yīng)注意的是,分析了10萬(wàn)多條推文這一事實(shí)基本上是無(wú)關(guān)緊要的,因?yàn)榇罅坎痪叽硇缘臄?shù)據(jù)依然是不具代表性的,我在第3章談?wù)撜{(diào)查時(shí)將繼續(xù)這一話題。圖2.2政黨在推特中的出現(xiàn)率似乎可以預(yù)測(cè)2009年德國(guó)大選的最終結(jié)果(Tumasjanetal.2010),但需將出現(xiàn)率最高的盜版黨排除在外(Jungherr,Jürgens,andSchoen2012)。有關(guān)支持將盜版黨排除在外的論點(diǎn)可參見Tumasjanetal.(2012)。上圖改編自Tumasjanetal.(2010)的表4以及Jungherr,Jürgens,andSchoen(2012)的表2。綜上所述,許多大數(shù)據(jù)資源都不是從明確的總體中抽取的具有代表性的樣本。對(duì)那些需要將研究結(jié)果從樣本泛化到抽取樣本的目標(biāo)總體上的研究來(lái)說(shuō),這無(wú)疑是一個(gè)嚴(yán)重的問(wèn)題。但對(duì)需要進(jìn)行樣本內(nèi)比較的研究來(lái)說(shuō),不具代表性的數(shù)據(jù)又可以是非常有效的,只要研究人員清楚他們的樣本特征,并能為其研究結(jié)果的可移植性提供相應(yīng)的理論或?qū)嶒?yàn)證據(jù)即可。事實(shí)上,我希望大數(shù)據(jù)資源能讓研究人員在許多不具代表性的群體中進(jìn)行更多的樣本內(nèi)比較,我的猜測(cè)是,與基于一個(gè)隨機(jī)樣本而得出的單一結(jié)論相比,基于多個(gè)不同群體所得出的多個(gè)結(jié)論更能促進(jìn)社會(huì)研究的發(fā)展。2.3.7漂移用戶漂移、行為漂移以及系統(tǒng)漂移使利用大數(shù)據(jù)資源研究長(zhǎng)期趨勢(shì)變得困難。許多大數(shù)據(jù)資源的一大優(yōu)點(diǎn)是,它們搜集的是一段時(shí)間內(nèi)的數(shù)據(jù)。社會(huì)科學(xué)家把這種一段時(shí)間內(nèi)的數(shù)據(jù)稱為縱向數(shù)據(jù)。這種數(shù)據(jù)對(duì)研究變化當(dāng)然是非常重要的。但是,要想準(zhǔn)確地測(cè)量變化,就必須保證測(cè)量系統(tǒng)的穩(wěn)定性。引用社會(huì)學(xué)家奧蒂斯·達(dá)德利·鄧肯(OtisDudleyDuncan)的話就是:“你如果想測(cè)量變化,就不要改變測(cè)量過(guò)程。”(Fischer2011)遺憾的是,許多大數(shù)據(jù)系統(tǒng),尤其是商業(yè)系統(tǒng),都處于持續(xù)變化中。我將這一過(guò)程稱為“漂移”。具體而言,這些系統(tǒng)主要從三個(gè)方面發(fā)生變化:用戶漂移(使用系統(tǒng)的人的變化)、行為漂移(人們使用系統(tǒng)的方式的變化)以及系統(tǒng)漂移(系統(tǒng)本身的變化)。這三種漂移意味著某一大數(shù)據(jù)資源中的模式既可能是由世界上的一個(gè)重要變化所引起的,也可能是由某種形式的漂移所引起的。第一種漂移是用戶漂移,由使用系統(tǒng)的用戶的變化所引起,這些變化既可能是短期內(nèi)發(fā)生的也可能是長(zhǎng)期內(nèi)發(fā)生的。例如,在2012年美國(guó)總統(tǒng)大選期間,由女性所寫的有關(guān)政治的推文,比例每天都在波動(dòng)(Diazetal.2016)。因此,有時(shí)推特上推文的基調(diào)有所變化,實(shí)際上可能只是因?yàn)楫?dāng)時(shí)發(fā)推文的用戶改變了而已。除了這些短期的波動(dòng)以外,從長(zhǎng)期來(lái)看,某些人群還呈現(xiàn)出選用或棄用推特的趨勢(shì)。除了使用系統(tǒng)的用戶發(fā)生變化以外,使用系統(tǒng)的方式也會(huì)變化,我稱之為行為漂移。例如,在2013年土耳其的蓋齊公園示威活動(dòng)期間,隨著示威的演變,示威者改變了對(duì)標(biāo)簽的使用。以下是澤奈普·圖費(fèi)克奇(ZeynepTufekci)對(duì)這一行為漂移的描述,她之所以會(huì)得出這些發(fā)現(xiàn),是因?yàn)樗?dāng)時(shí)在推特和現(xiàn)實(shí)中觀察了人們的行為:事情的經(jīng)過(guò)是,當(dāng)示威變成熱門話題時(shí),很多人就停止使用旨在讓人們關(guān)注某一新現(xiàn)象的標(biāo)簽了。隨著示威的持續(xù),甚至愈演愈烈,有關(guān)這一話題的標(biāo)簽就逐漸消失了。我采訪人們,得出的兩個(gè)原因是:首先,推特是限制推文字符數(shù)的,所以一旦每個(gè)人都知道某個(gè)話題了,標(biāo)簽就變得多余了;其次,標(biāo)簽被認(rèn)為只有在吸引人們關(guān)注某一話題時(shí)有用,而對(duì)于討論某一話題則沒用。因此,這一行為漂移會(huì)讓一些研究人員對(duì)當(dāng)時(shí)所發(fā)生的事情形成扭曲的認(rèn)識(shí),他們通過(guò)分析為示威活動(dòng)相關(guān)內(nèi)容加標(biāo)簽的推文來(lái)研究這次活動(dòng)。例如,他們可能會(huì)認(rèn)為有關(guān)示威的討論減少了,但實(shí)際上,很長(zhǎng)一段時(shí)間之后,討論才減少。第三種漂移是系統(tǒng)漂移。在這一情況下,是系統(tǒng)本身,而非用戶或用戶的行為發(fā)生了改變。例如,隨著時(shí)間的推移,臉譜網(wǎng)增加了對(duì)狀態(tài)更新的字?jǐn)?shù)限制。這一系統(tǒng)變化影響了人們所發(fā)的狀態(tài),進(jìn)而影響所有針對(duì)臉譜網(wǎng)狀態(tài)更新的縱向研究。系統(tǒng)漂移與算法干擾緊密相連,我將在2.3.8小節(jié)中對(duì)算法干擾進(jìn)行介紹。綜上所述,許多大數(shù)據(jù)資源都存在漂移現(xiàn)象,因?yàn)槭褂盟鼈兊挠脩粼谧儯褂梅绞皆谧?,系統(tǒng)本身也在變。這些變化有時(shí)能成為非常有趣的研究問(wèn)題,但也讓使用大數(shù)據(jù)資源追蹤長(zhǎng)期變化變得更加復(fù)雜。2.3.8算法干擾大數(shù)據(jù)系統(tǒng)中的行為不是自然發(fā)生的,而是在系統(tǒng)設(shè)計(jì)目標(biāo)的驅(qū)使下發(fā)生的。盡管許多大數(shù)據(jù)資源是不反應(yīng)的,因?yàn)橛脩舨恢浪麄兊臄?shù)據(jù)正在被記錄(2.3.3小節(jié)),但研究人員也不能因此就認(rèn)為這些在線系統(tǒng)中的行為是“自然發(fā)生的”。事實(shí)上,記錄行為的數(shù)字系統(tǒng)都是經(jīng)過(guò)精心設(shè)計(jì)的,目的是誘導(dǎo)特定行為,例如點(diǎn)擊廣告或發(fā)布一些內(nèi)容。系統(tǒng)設(shè)計(jì)者的目標(biāo)能將模式引入數(shù)據(jù),這被稱為算法干擾。社會(huì)科學(xué)家相對(duì)而言不太了解算法干擾這個(gè)概念,但謹(jǐn)慎的數(shù)據(jù)科學(xué)家很關(guān)注這一問(wèn)題。而且,與用數(shù)字追蹤其他一些問(wèn)題不同的是,算法干擾在很大程度上是不可見的。一個(gè)相對(duì)簡(jiǎn)單的算法干擾的例子是,在臉譜網(wǎng)上,擁有約20個(gè)好友的用戶異常多,正如約翰·烏甘德(JohanUgander)和同事在2011年所發(fā)現(xiàn)的一樣。分析這一數(shù)據(jù)的科學(xué)家如果對(duì)臉譜網(wǎng)的工作原理一無(wú)所知,無(wú)疑會(huì)提出許多有關(guān)“‘20’是某種神奇的社交數(shù)字”的說(shuō)法。幸運(yùn)的是,烏甘德和同事對(duì)產(chǎn)生這一數(shù)據(jù)的過(guò)程十分了解,他們知道臉譜網(wǎng)會(huì)鼓勵(lì)那些好友較少的用戶多交朋友,直到他們有20個(gè)好友為止。盡管烏甘德和同事在其研究論文中沒有提及這一點(diǎn),但這一政策應(yīng)該是臉譜網(wǎng)為鼓勵(lì)新用戶變得更加活躍而創(chuàng)建的。如果不知道這一政策的存在,就很容易從數(shù)據(jù)中得出錯(cuò)誤的結(jié)論。換句話說(shuō),擁有約20個(gè)好友的用戶的數(shù)量異常多,但這一數(shù)據(jù)告訴我們的更多的是關(guān)于臉譜網(wǎng)的信息,而不是關(guān)于人類行為的信息。在上述例子中,算法干擾產(chǎn)生了一個(gè)奇怪的結(jié)果,一個(gè)細(xì)心的研究人員可能會(huì)發(fā)現(xiàn)并進(jìn)一步研究這一結(jié)果。然而,當(dāng)在線系統(tǒng)的設(shè)計(jì)者意識(shí)到社會(huì)理論的存在并將其錄入系統(tǒng)的運(yùn)行方式中時(shí),就會(huì)產(chǎn)生更為復(fù)雜的算法干擾。社會(huì)科學(xué)家稱之為述行性,即當(dāng)一個(gè)理論以使世界與理論更為符合為目的改變著世界時(shí),我們就說(shuō)該理論具有述行性。當(dāng)系統(tǒng)存在述行性算法干擾時(shí),數(shù)據(jù)的干擾性可能是不可見的。在線社交網(wǎng)絡(luò)中的可遷性是一種由述行性引發(fā)的規(guī)律。在20世紀(jì)七八十年代,研究人員屢次發(fā)現(xiàn),隨機(jī)選擇的名為艾麗斯和鮑勃的兩個(gè)人,如果他們同時(shí)是你的朋友,那么這兩個(gè)人將更容易成為朋友。研究人員在臉譜網(wǎng)的社交圖中也發(fā)現(xiàn)了這一規(guī)律(Uganderetal.2011)。因此,有人可能會(huì)得出這樣的結(jié)論:臉譜網(wǎng)上的交友模式復(fù)制了線下的交友模式,至少就可遷性而言是這樣的。然而,臉譜網(wǎng)社交圖中可遷性的強(qiáng)弱部分上是由算法干擾驅(qū)動(dòng)的。也就是說(shuō),臉譜網(wǎng)的數(shù)據(jù)科學(xué)家了解有關(guān)可遷性的實(shí)驗(yàn)研究和理論研究,并將其融入臉譜網(wǎng)的運(yùn)行程序中。臉譜網(wǎng)有一項(xiàng)功能是“可能認(rèn)識(shí)的人”,旨在向用戶推薦新的朋友,而決定向你推薦誰(shuí)的一個(gè)依據(jù)就是可遷性。也就是說(shuō),臉譜網(wǎng)更有可能將你朋友的朋友推薦給你。因此,這一功能還會(huì)增加臉譜網(wǎng)社交圖中的可遷性。換句話說(shuō),可遷性的理論讓世界變得更加符合這一理論的預(yù)測(cè)(Zignanietal.2014;Healy2015)。因此,當(dāng)大數(shù)據(jù)資源似乎印證了社會(huì)理論的預(yù)測(cè)時(shí),我們必須確保理論本身并沒有被納入系統(tǒng)的運(yùn)作方式。有人將通過(guò)大數(shù)據(jù)資源觀察人們比作在自然環(huán)境中觀察他們,但我認(rèn)為將其比作在賭場(chǎng)中觀察人們會(huì)更貼切。賭場(chǎng)是經(jīng)過(guò)精心設(shè)計(jì)的場(chǎng)所,旨在誘導(dǎo)特定的行為,研究人員肯定也不會(huì)期望在賭場(chǎng)中觀察到的行為能為他們研究人類行為提供一個(gè)不受限制的窗口。當(dāng)然,通過(guò)研究賭場(chǎng)中的人,你也能了解到一些關(guān)于人類行為的知識(shí),但如果你忽略了數(shù)據(jù)是在賭場(chǎng)中生成的,你就可能無(wú)法得出正確的結(jié)論。不幸的是,處理算法干擾是非常困難的,因?yàn)樵S多在線系統(tǒng)的功能都是專有的,缺乏文檔記錄,且不斷變化。例如,正如我在本章后續(xù)內(nèi)容中將解釋的那樣,算法干擾可能是導(dǎo)致谷歌流感趨勢(shì)(GoogleFluTrends)逐漸失靈的原因之一(2.4.2小節(jié)),但這一說(shuō)法很難得到驗(yàn)證,因?yàn)楣雀杷阉魉惴ǖ膬?nèi)部工作原理是專有的。具有動(dòng)態(tài)屬性的算法干擾也是一種系統(tǒng)漂移。算法干擾意味著,我們要對(duì)基于某個(gè)單一數(shù)字系統(tǒng)得出的有關(guān)人類行為的任何說(shuō)法都持謹(jǐn)慎態(tài)度,無(wú)論這個(gè)數(shù)字系統(tǒng)的規(guī)模有多大。2.3.9臟數(shù)據(jù)大數(shù)據(jù)中含有許多垃圾和重復(fù)數(shù)據(jù)。許多研究人員認(rèn)為大數(shù)據(jù)資源,尤其是在線資源,都是潔凈的,因?yàn)檫@些數(shù)據(jù)都是自動(dòng)搜集的。事實(shí)上,那些與大數(shù)據(jù)資源打交道的人都知道,在大多數(shù)情況下,這些資源都含有臟數(shù)據(jù)。也就是說(shuō),它們經(jīng)常包含研究人員不感興趣的數(shù)據(jù)。大多數(shù)社會(huì)科學(xué)家已經(jīng)熟悉了清理大規(guī)模社會(huì)調(diào)查數(shù)據(jù)的過(guò)程,但清理大數(shù)據(jù)資源似乎更加困難。我認(rèn)為造成這一困難的最終原因是,許多大數(shù)據(jù)資源從來(lái)都不是為了用于研究而存在的,因此其數(shù)據(jù)也沒有以方便清理的方式被搜集、存儲(chǔ)和記錄。我在本章前面章節(jié)中簡(jiǎn)要提及的米蒂亞·巴克(MitjaBack)和同事關(guān)于人們對(duì)2001年9月11日恐怖襲擊事件的情緒反應(yīng)的研究,可以證明臟數(shù)據(jù)的危險(xiǎn)性。研究人員一般會(huì)用通過(guò)數(shù)月甚至數(shù)年搜集而來(lái)的回顧性數(shù)據(jù)研究人們對(duì)悲慘事件的反應(yīng)。但巴克和同事發(fā)現(xiàn)了一個(gè)不間斷運(yùn)行的記錄數(shù)字痕跡的資源——標(biāo)有時(shí)間的、自動(dòng)記錄的85000個(gè)美國(guó)傳呼機(jī)的信息,這使他們能研究更小時(shí)間單位內(nèi)的情緒反應(yīng)。他們根據(jù)與(1)悲傷(例如“哭泣”和“悲痛”),(2)焦慮(例如“擔(dān)憂”和“恐懼”)以及(3)憤怒(例如“憎恨”和“批評(píng)”)相關(guān)詞匯的出現(xiàn)比例對(duì)傳呼機(jī)信息中的情緒內(nèi)容進(jìn)行了編碼,進(jìn)而制作了一個(gè)以分鐘為單位的2001年9月11日的情緒時(shí)間表。他們發(fā)現(xiàn),與悲傷和焦慮相關(guān)詞匯的出現(xiàn)比例全天都在波動(dòng),但沒有一個(gè)明顯的模式,與憤怒相關(guān)詞匯的出現(xiàn)比例在一天中卻有明顯的增加。這一研究似乎完美地詮釋了不間斷運(yùn)行的大數(shù)據(jù)資源的優(yōu)勢(shì),如果使用傳統(tǒng)的數(shù)據(jù)資源,就不可能獲得如此高分辨率的突發(fā)事件即時(shí)情緒反應(yīng)時(shí)間表。然而,僅僅一年之后,辛西婭·普利(CynthiaPury)更仔細(xì)地研究數(shù)據(jù)后發(fā)現(xiàn),大量原來(lái)被認(rèn)為包含與憤怒相關(guān)詞匯的信息都是由一個(gè)傳呼機(jī)產(chǎn)生的,而且內(nèi)容也完全相同。以下就是這些信息的內(nèi)容:“重啟在【位置】柜【名稱】?jī)?nèi)的NT機(jī)【名稱】,CRITICAL(情況危急),【日期和時(shí)間】?!边@些信息被認(rèn)為與憤怒相關(guān),因?yàn)槠浒恕癈RITICAL”這一單詞,而該單詞一般來(lái)說(shuō)具有憤怒地批評(píng)之意,但它在上面這句話中不是此意。將這一自動(dòng)傳呼機(jī)產(chǎn)生的信息刪除之后,憤怒情緒就沒有原來(lái)那么明顯的上漲趨勢(shì)了(圖2.3)。換句話說(shuō),米蒂亞·巴克、阿爾布雷希特·屈夫納(AlbrechtKüfner)以及鮑里斯·埃格洛夫(BorisEgloff)的主要發(fā)現(xiàn)其實(shí)是一個(gè)傳呼機(jī)的“杰作”。正如這個(gè)例子所示,對(duì)相對(duì)復(fù)雜和凌亂的數(shù)據(jù)進(jìn)行相對(duì)簡(jiǎn)單的分析,就很有可能出現(xiàn)嚴(yán)重的錯(cuò)誤。圖2.3基于85000個(gè)美國(guó)傳呼機(jī)而估算出的2001年9月11日當(dāng)天憤怒情緒的趨勢(shì)(Back,Küfner,andEgloff2010;Pury2011;Back,Küfner,andEgloff2011)。起初,三位研究人員稱,從全天來(lái)看,憤怒情緒呈現(xiàn)出不斷上漲的模式。然而,這些表面看起來(lái)包含憤怒情緒的信息大多是由一個(gè)自動(dòng)傳呼機(jī)產(chǎn)生的。將這一信息移除后,憤怒情緒的上漲趨勢(shì)便不那么明顯了(Pury2011;Back,Küfner,andEgloff2011)。改編自Pury(2011),圖1b。上述自動(dòng)傳呼機(jī)所產(chǎn)生的重啟信息并不是有意創(chuàng)建的臟數(shù)據(jù),就這樣的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度演唱會(huì)票務(wù)代理合同
- 二零二五年度科技創(chuàng)新私人廠房租賃服務(wù)協(xié)議
- 婚禮跟拍合同-2025年度獨(dú)家婚禮影像記錄
- 二零二五年度勞動(dòng)合同解除通知及離職手續(xù)辦理流程優(yōu)化范本
- 2025年度珠寶企業(yè)數(shù)字化轉(zhuǎn)型戰(zhàn)略合作合同
- 2025年度綠茶茶園承包合作種植與加工合同
- 二零二五年度家庭月嫂服務(wù)及培訓(xùn)合同
- 二零二五年度合伙購(gòu)車積分兌換協(xié)議
- 《物流系統(tǒng)分析》課件 項(xiàng)目二任務(wù)二 認(rèn)識(shí)物流需求分析
- 2025年重慶考貨運(yùn)上崗證試答題
- 2022年高考(全國(guó)甲卷)語(yǔ)文仿真模擬卷【含答案】
- 腸瘺治療PPT醫(yī)學(xué)課件(PPT 25頁(yè))
- 員工轉(zhuǎn)正評(píng)價(jià)表
- 道路交通事故責(zé)任認(rèn)定行政復(fù)議申請(qǐng)書范例
- 鄭州大學(xué)圖書館平立剖面效果圖
- 高效液相含量測(cè)定計(jì)算公式
- 公安機(jī)關(guān)通用告知書模板
- 《小學(xué)數(shù)學(xué)課程與教學(xué)》教學(xué)大綱
- 《手機(jī)攝影》全套課件(完整版)
- 礦井無(wú)計(jì)劃停電停風(fēng)安全技術(shù)措施
- 標(biāo)前合作合同協(xié)議書范本
評(píng)論
0/150
提交評(píng)論