防災(zāi)科技學(xué)院數(shù)據(jù)挖掘考點(diǎn)總結(jié)李忠_第1頁(yè)
防災(zāi)科技學(xué)院數(shù)據(jù)挖掘考點(diǎn)總結(jié)李忠_第2頁(yè)
防災(zāi)科技學(xué)院數(shù)據(jù)挖掘考點(diǎn)總結(jié)李忠_第3頁(yè)
防災(zāi)科技學(xué)院數(shù)據(jù)挖掘考點(diǎn)總結(jié)李忠_第4頁(yè)
防災(zāi)科技學(xué)院數(shù)據(jù)挖掘考點(diǎn)總結(jié)李忠_第5頁(yè)
已閱讀5頁(yè),還剩27頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

防災(zāi)科技學(xué)院數(shù)據(jù)挖掘考點(diǎn)總結(jié)李忠社交網(wǎng)絡(luò)新一代數(shù)據(jù)挖掘的金礦隨著Facebook的上市,社交網(wǎng)絡(luò)再次成為人們關(guān)注的焦點(diǎn)。與傳統(tǒng)的論壇、博客相比,社交網(wǎng)絡(luò)是虛擬世界與現(xiàn)實(shí)世界的橋梁,在互聯(lián)網(wǎng)上將現(xiàn)實(shí)生活中人與人之間的關(guān)系建立起來(lái)。從社交網(wǎng)絡(luò)的分類來(lái)看,F(xiàn)acebook、Twitter、LinkedIn分別代表三種不同的社交網(wǎng)絡(luò)。Facebook是基于朋友之間強(qiáng)關(guān)系的社交網(wǎng)絡(luò),有助于朋友之間關(guān)系的維系和改善;Twitter是基于單向關(guān)注的弱關(guān)系的社交網(wǎng)絡(luò),這樣的網(wǎng)絡(luò)有利于塑造意見(jiàn)領(lǐng)袖和消息的傳播;LinkedIn是面向商務(wù)人士的職業(yè)社交網(wǎng)絡(luò),幫助用戶利用社交關(guān)系進(jìn)行商務(wù)交流以及求職招聘。三種社交網(wǎng)絡(luò)每天都會(huì)產(chǎn)生大量的用戶數(shù)據(jù)(UGC,UserGeneratedContent),并且具有空前的規(guī)模性和群體性,吸引著無(wú)數(shù)研究者從無(wú)序的數(shù)據(jù)中發(fā)掘有價(jià)值的信息。這就像概率統(tǒng)計(jì)中經(jīng)常舉的投硬幣算其正反面概率的例子,從幾次的投擲結(jié)果中很難看到規(guī)律,但通過(guò)幾萬(wàn)次的大量投擲實(shí)驗(yàn),便很容易看出正反面的出現(xiàn)次數(shù)幾乎相等的規(guī)律。社交網(wǎng)絡(luò)上產(chǎn)生了大量的規(guī)?;?、群體化的數(shù)據(jù),吸引了包括計(jì)算機(jī)科學(xué)、心理學(xué)、社會(huì)學(xué)、新聞傳播學(xué)等領(lǐng)域?qū)<液蛯W(xué)者對(duì)其進(jìn)行研究和探索,希望能夠借助更強(qiáng)的社交網(wǎng)絡(luò)的分析和處理能力發(fā)現(xiàn)更多人類尚未探索出的規(guī)律。對(duì)于社交網(wǎng)絡(luò)的分析和研究范圍很廣,也存在著許多有意思的研究課題。例如,在社交網(wǎng)絡(luò)中社區(qū)圈子的識(shí)別(CommunityDetection)>社交網(wǎng)絡(luò)中人物影響力的計(jì)算、信息在社交網(wǎng)絡(luò)上的傳播模型、虛假信息和機(jī)器人賬號(hào)的識(shí)別、基于社交網(wǎng)絡(luò)信息對(duì)股市、大選以及傳染病的預(yù)測(cè)等。社交網(wǎng)絡(luò)的分析和研究是一個(gè)交叉領(lǐng)域的學(xué)科,所以在研究過(guò)程中,我們通常會(huì)利用社會(huì)學(xué)、心理學(xué)甚至是醫(yī)學(xué)上的基本結(jié)論和原理作為指導(dǎo),通過(guò)人工智能領(lǐng)域中使用的機(jī)器學(xué)習(xí)、圖論等算法對(duì)社交網(wǎng)絡(luò)中的行為和未來(lái)的趨勢(shì)進(jìn)行模擬和預(yù)測(cè)。社交圈子的識(shí)別與一般的以內(nèi)容為導(dǎo)向的論壇等社區(qū)不同,社交網(wǎng)絡(luò)最核心的就是人與人的關(guān)系,以及所形成的社交圈子(社區(qū)),然而每個(gè)人根據(jù)自己的關(guān)系不同及興趣不同可以屬于多個(gè)社交圈子。在社交網(wǎng)絡(luò)中我們發(fā)布的所有信息流,都是通過(guò)我們的關(guān)系圈,逐層向外傳播的;我們收到的消息也直接來(lái)自我們所關(guān)心的人,更外圍的消息也必須逐層傳播才能接觸到終端用戶。因此,如何發(fā)現(xiàn)社交圈子是社會(huì)關(guān)系網(wǎng)絡(luò)分析中一個(gè)很重要的基礎(chǔ)性的研究。社交圈子示例如圖1所示。圖1基于OSLOM算法的社區(qū)發(fā)現(xiàn)效果圖利用計(jì)算機(jī)來(lái)處理社交網(wǎng)絡(luò)往往會(huì)將整個(gè)社交網(wǎng)絡(luò)看作是一個(gè)圖的結(jié)構(gòu),每個(gè)用戶就是圖中的節(jié)點(diǎn),人與人之間的關(guān)系就是節(jié)點(diǎn)之間的邊,根據(jù)不同類型的社交網(wǎng)絡(luò),所構(gòu)成的圖可以是有向圖也可以是無(wú)向圖,關(guān)系的強(qiáng)弱也可以利用邊上不同的權(quán)重來(lái)體現(xiàn)。對(duì)于社交圈子的發(fā)現(xiàn)算法來(lái)說(shuō),社交圈子的質(zhì)量依賴于圈子內(nèi)成員的關(guān)系的緊致度以及不同圈子間的分離度。但對(duì)于數(shù)以億計(jì)的節(jié)點(diǎn)來(lái)說(shuō),目前的圈子發(fā)現(xiàn)算法還很難處理特大規(guī)模的數(shù)據(jù),因此很多研究者提出了啟發(fā)式的方法去減少程序處理的復(fù)雜性,對(duì)最終結(jié)果進(jìn)行近似的求解。然而實(shí)際的社交圈子是一個(gè)更為復(fù)雜的網(wǎng)絡(luò),因?yàn)橛脩魰?huì)具有多種興趣,可以屬于多個(gè)社交圈,發(fā)現(xiàn)這種圈子的研究也被稱為重疊社區(qū)的發(fā)現(xiàn)。一種比較簡(jiǎn)單的啟發(fā)式方法是,以網(wǎng)絡(luò)中度很大的節(jié)點(diǎn)作為初始的圈子,然后把對(duì)圈子貢獻(xiàn)最大的鄰接節(jié)點(diǎn)依次加入到圈子中,直到全局貢獻(xiàn)度達(dá)到極值,并形成一個(gè)圈子。如果存在對(duì)多個(gè)圈子貢獻(xiàn)度都很大的邊界節(jié)點(diǎn),則將其加入到多個(gè)圈子中。近期也有人提出了使用標(biāo)簽傳播(LabelPropagation)算法以及粒子群算法來(lái)解決重疊社區(qū)的發(fā)現(xiàn)算法。社交圈子發(fā)現(xiàn)算法并不僅局限在用戶主動(dòng)建立起的關(guān)系上,其更重要的價(jià)值在于對(duì)用戶非顯性的潛在關(guān)系發(fā)現(xiàn)。從社交圈子發(fā)現(xiàn)的結(jié)果中,我們能夠更加清楚地看出屬于一個(gè)圈子的人群。當(dāng)然,社交圈子也有多種劃分方式,例如關(guān)系型社交圈子、興趣型社交圈子等。在算法中以親密度為首要指標(biāo)和以興趣為首要指標(biāo),也會(huì)得到不同的社交圈子劃分。由此引申出的一個(gè)問(wèn)題是,線上的圈子與線下的真實(shí)社交圈子是否是一致的當(dāng)兩個(gè)人在社交網(wǎng)絡(luò)中互動(dòng)很頻繁時(shí),他們?cè)诰€下是否也是真實(shí)的好友從算法的角度來(lái)說(shuō),這是個(gè)很難解決的問(wèn)題,但如果我們換一個(gè)角度來(lái)思考這個(gè)問(wèn)題,想想我們的線下聯(lián)系方式,如果A跟B互相擁有對(duì)方的手機(jī)號(hào),那他們是線下真實(shí)好友的可能性就非常大了。包括飛信、米聊、微信等產(chǎn)品,如果真的能夠做成基于手機(jī)通訊錄的社交網(wǎng)絡(luò),我們就可以通過(guò)異構(gòu)的社交網(wǎng)絡(luò)對(duì)社交圈子進(jìn)行綜合性的判斷,其價(jià)值不可估量。影響力的計(jì)算在社交網(wǎng)絡(luò)中,意見(jiàn)領(lǐng)袖因?yàn)槠湓诰W(wǎng)絡(luò)上強(qiáng)大的影響力會(huì)對(duì)信息的傳播,以及普通用戶的行為造成巨大的影響。以新浪微博為例,最直觀的影響力表現(xiàn)之一就是加V認(rèn)證的名人,發(fā)一條正在吃飯的微博,也能得到數(shù)百次的轉(zhuǎn)發(fā),然而對(duì)于一般用戶,一條微博的轉(zhuǎn)發(fā)次數(shù)能上兩位數(shù),便足以為之歡呼雀躍了。因此,與現(xiàn)實(shí)社會(huì)一樣,社交網(wǎng)絡(luò)中的人也存在不同的階級(jí)和不同的影響力。然而影響力應(yīng)該如何來(lái)衡量和計(jì)算呢我們前面已經(jīng)提到,計(jì)算機(jī)在處理社交網(wǎng)絡(luò)時(shí),往往使用圖的結(jié)構(gòu),這與搜索引擎中的結(jié)構(gòu)相一致,如表1所示。因?yàn)樵谒阉饕嬷?,圖的節(jié)點(diǎn)是網(wǎng)頁(yè),邊是鏈接,然而搜索引擎中的PageRank算法是對(duì)網(wǎng)頁(yè)進(jìn)行排序的算法。如果我們將PageRank使用在社交網(wǎng)絡(luò)上,就可以對(duì)人的影響力進(jìn)行迭代的計(jì)算了。除了PageRank算法外,還有W-entropy等算法也被應(yīng)用在社交網(wǎng)絡(luò)的影響力計(jì)算當(dāng)中。表1社交網(wǎng)絡(luò)與搜索引擎對(duì)圖結(jié)構(gòu)的不同定義然而對(duì)于每個(gè)人來(lái)說(shuō),其在不同領(lǐng)域的影響力也是不一樣的。例如,李開(kāi)復(fù)的影響力主要在科技領(lǐng)域,黃健翔的影響力在體育領(lǐng)域,薛蠻子的影響力主要在投資和公益的領(lǐng)域。因此如何評(píng)價(jià)一個(gè)人在不同領(lǐng)域的影響力也是一個(gè)很重要的問(wèn)題,有學(xué)者提出了基于主題級(jí)別(TopicLevel)的影響力評(píng)價(jià)模型TAP(TopicAffinityPropagation)來(lái)嘗試解決這個(gè)問(wèn)題,該算法應(yīng)用在大規(guī)模社交網(wǎng)絡(luò)數(shù)據(jù)中顯現(xiàn)出了較好的效果。在國(guó)外,F(xiàn)amecount>Klout等公司設(shè)計(jì)了算法對(duì)社交網(wǎng)絡(luò)中每一個(gè)人的影響力進(jìn)行打分。有些公司甚至出現(xiàn)了根據(jù)個(gè)人網(wǎng)絡(luò)影響力的不同,在現(xiàn)實(shí)生活中提供差異化服務(wù)的模式,例如,香港國(guó)泰航空對(duì)Klout打分不低于40分的用戶,可以享受機(jī)場(chǎng)貴賓休息室。雖然該行為也遭到不少人質(zhì)疑,認(rèn)為這是“勢(shì)利”的做法,不過(guò)也可以將其看作是對(duì)網(wǎng)絡(luò)影響力應(yīng)用在商業(yè)模式上的一種新型探索。在國(guó)內(nèi),新浪的微數(shù)據(jù)和Miu也在微博的影響力計(jì)算中做出了一些探索,目前國(guó)內(nèi)在該領(lǐng)域還有較大的發(fā)展空間。信息傳播的建模在社交網(wǎng)絡(luò)上,每個(gè)人都是個(gè)自媒體。與傳統(tǒng)媒體依靠?jī)?nèi)容作為傳播主題的形式有所不同,社交網(wǎng)絡(luò)上的信息傳播,更加依賴于發(fā)布者的影響力以及社會(huì)關(guān)系,通過(guò)好友或粉絲的關(guān)系將信息擴(kuò)散到社交網(wǎng)絡(luò)中。這種信息在社交網(wǎng)絡(luò)中會(huì)被好友及粉絲看到。,并以一定的概率被分享和轉(zhuǎn)發(fā),從而進(jìn)行傳播。圖2對(duì)一條微博的傳播過(guò)程進(jìn)行了可視化的顯示。圖2單條微博信息的傳播圖(來(lái)自)部分學(xué)者用傳染病在人群中的傳播、謠言在社會(huì)中的傳播等現(xiàn)象來(lái)類比并刻畫(huà)社交網(wǎng)絡(luò)中信息的傳播,進(jìn)而利用傳染病動(dòng)力學(xué)及復(fù)雜網(wǎng)絡(luò)理論來(lái)對(duì)社交網(wǎng)絡(luò)的傳播行為進(jìn)行建模和預(yù)測(cè)。更直觀地說(shuō),如果將整個(gè)社交網(wǎng)絡(luò)看作一個(gè)圖的結(jié)構(gòu),把社交網(wǎng)絡(luò)中的用戶看成圖中的節(jié)點(diǎn),并將用戶之間的關(guān)系看為圖的邊,那么信息的傳播的過(guò)程就是從起點(diǎn)用戶的節(jié)點(diǎn)開(kāi)始,沿著相鄰邊進(jìn)行信息的傳播,相鄰的節(jié)點(diǎn)用戶會(huì)根據(jù)時(shí)間及主題不同,會(huì)以一定概率傳播或者終止該信息。對(duì)于傳染病動(dòng)力學(xué)模型來(lái)說(shuō),通常將網(wǎng)絡(luò)中的節(jié)點(diǎn)定義為三類傳播節(jié)點(diǎn)、未感染節(jié)點(diǎn)和免疫節(jié)點(diǎn)。傳播節(jié)點(diǎn)的特點(diǎn)是接受并有能力傳播鄰居節(jié)點(diǎn)信息;未感染節(jié)點(diǎn)沒(méi)有接受過(guò)來(lái)自鄰居節(jié)點(diǎn)的信息,但有機(jī)會(huì)接受信息,即有概率會(huì)被感染;免疫節(jié)點(diǎn)表示該節(jié)點(diǎn)已接受鄰居節(jié)點(diǎn)的信息,但不具有傳播能力,由此可以定義一些傳播規(guī)則?如果一個(gè)傳播節(jié)點(diǎn)與一個(gè)未感染節(jié)點(diǎn)接觸,則未感染節(jié)點(diǎn)會(huì)以概率成為傳播節(jié)點(diǎn);?如果一個(gè)傳播節(jié)點(diǎn)與一個(gè)免疫節(jié)點(diǎn)接觸,則傳播節(jié)點(diǎn)會(huì)以概率成為免疫節(jié)點(diǎn);?傳播節(jié)點(diǎn)不會(huì)無(wú)休止地傳播,會(huì)以一定速度停止傳播,變?yōu)槊庖吖?jié)點(diǎn),無(wú)需與其他節(jié)點(diǎn)接觸。由此便可以通過(guò)傳染病動(dòng)力學(xué)中的方法對(duì)信息的傳播過(guò)程建立狀態(tài)轉(zhuǎn)移方程。在確立傳播模型后,我們可以通過(guò)檢驗(yàn)起點(diǎn)傳播者節(jié)點(diǎn)的度(也就是好友或粉絲的數(shù)量)、關(guān)系強(qiáng)弱(邊的權(quán)值),對(duì)信息傳播造成的影響程度,從而發(fā)現(xiàn)信息在社交網(wǎng)絡(luò)傳播中的規(guī)律。虛假用戶的識(shí)別虛假信息和虛假用戶的識(shí)別在社交網(wǎng)絡(luò)的深入研究及實(shí)際應(yīng)用中是一項(xiàng)基礎(chǔ)性的工作,并具有重要的意義。信息在社交網(wǎng)絡(luò)上的傳播過(guò)程中,不免會(huì)遇到虛假內(nèi)容或虛假的水軍用戶進(jìn)行干擾。如果能夠識(shí)別出虛假用戶和虛假內(nèi)容可以更好地還原出輿論的真實(shí)想法和狀態(tài),為企業(yè)的市場(chǎng)營(yíng)銷以及政府了解民意提供更加真實(shí)有效的數(shù)據(jù)。一般來(lái)說(shuō),識(shí)別社交網(wǎng)絡(luò)的虛假用戶要比匿名論壇相對(duì)容易,因?yàn)榭梢詮母嗟木S度進(jìn)行考察。在社交網(wǎng)絡(luò)上,虛假賬號(hào)一般不會(huì)有真實(shí)的社交互動(dòng),關(guān)系網(wǎng)絡(luò)中大部分鏈接也都是虛假賬號(hào),此外通過(guò)賬號(hào)的轉(zhuǎn)發(fā)行為及內(nèi)容的識(shí)別判斷來(lái)有效地辨別虛假用戶。我們?cè)谛吕宋⒉┥蠈?duì)虛假用戶的判斷采用了以下8種用戶行為特征。?博主的創(chuàng)建時(shí)間的一致性?博主的頭像和名字?關(guān)注與粉絲比例?博主的粉絲質(zhì)量?發(fā)布微博數(shù)量?最近200次轉(zhuǎn)發(fā)的對(duì)象分布?轉(zhuǎn)發(fā)同一條微博的頻率?轉(zhuǎn)發(fā)時(shí)所寫(xiě)的內(nèi)容針對(duì)以上8種特征,利用機(jī)器學(xué)習(xí)的分類算法訓(xùn)練模型,并利用模型進(jìn)行后續(xù)虛假用戶的預(yù)測(cè),可以有效地發(fā)現(xiàn)虛假用戶,在輿情分析中將其剔除,還原出真實(shí)的信息傳播情況及輿情(公眾發(fā)表在網(wǎng)絡(luò)上的言論)狀態(tài)。用數(shù)據(jù)預(yù)測(cè)未來(lái)社交網(wǎng)絡(luò)數(shù)據(jù)最吸引人的研究工作就是對(duì)未來(lái)的預(yù)測(cè)。社交網(wǎng)絡(luò)每天吸引數(shù)億人在網(wǎng)絡(luò)上發(fā)布自己的數(shù)據(jù)、狀態(tài)、心情,這種規(guī)?;⒕哂腥后w性的海量數(shù)據(jù)給了數(shù)據(jù)科學(xué)家從海量數(shù)據(jù)中發(fā)現(xiàn)人類未知規(guī)律的機(jī)會(huì)。美國(guó)科學(xué)家通過(guò)監(jiān)控Twitter中公眾的情緒數(shù)據(jù),發(fā)現(xiàn)公眾的情緒數(shù)據(jù)與很多社會(huì)現(xiàn)象及事件具有很強(qiáng)的相關(guān)性。例如,有些研究者發(fā)現(xiàn)無(wú)論是“希望”的正面情緒,還是“害怕”的負(fù)面情緒的體現(xiàn)都預(yù)示著美國(guó)股市指數(shù)的下跌。有研究者認(rèn)為,只要有公眾在社交網(wǎng)絡(luò)的情緒突然改變,都會(huì)反映出對(duì)股市的不確定性,因此可以利用這種信號(hào)來(lái)預(yù)測(cè)股市未來(lái)的走向。在流行病預(yù)測(cè)方面,英國(guó)的科學(xué)家根據(jù)Twitter的數(shù)據(jù)來(lái)跟蹤流感的爆發(fā)。他們主要基于用戶發(fā)布信息中的關(guān)鍵詞,例如“我頭痛(Iamhavingaheadache)”等,并結(jié)合用戶的發(fā)布地點(diǎn),按區(qū)域與英國(guó)衛(wèi)生部的官方數(shù)據(jù)進(jìn)行了比較,最終建立起一個(gè)預(yù)測(cè)模型。創(chuàng)業(yè)團(tuán)隊(duì)“SickWeather”甚至以預(yù)測(cè)疾病為主題開(kāi)展了自己的創(chuàng)業(yè)項(xiàng)目。還有很多研究者也利用數(shù)據(jù)挖掘的方法對(duì)電影票房、美國(guó)大選的趨勢(shì)和結(jié)果進(jìn)行預(yù)測(cè),并取得了令人驚喜的成果。然而,我們對(duì)于利用社交網(wǎng)絡(luò)數(shù)據(jù)的預(yù)測(cè)能力的態(tài)度也不能過(guò)于樂(lè)觀,因?yàn)樯缃痪W(wǎng)絡(luò)的預(yù)測(cè)是基于海量數(shù)據(jù)的,但目前對(duì)于海量文本數(shù)據(jù)的分析算法尚未達(dá)到理想的準(zhǔn)確率。尤其對(duì)于從文本信息來(lái)進(jìn)行情緒判斷這個(gè)看似簡(jiǎn)單的問(wèn)題,其本質(zhì)是自然語(yǔ)言處理與情緒心理學(xué)的交叉問(wèn)題。但目前的自然語(yǔ)言處理方法主要利用概率統(tǒng)計(jì)的方法,以及詞法和句法的分析進(jìn)行解讀。對(duì)文本情緒的判斷也以基于詞庫(kù)及語(yǔ)法結(jié)構(gòu)的判斷和基于機(jī)器學(xué)習(xí)的方法為主。然而這些方法對(duì)于稍顯復(fù)雜的、尤其是帶有反諷和隱含意的語(yǔ)言很難進(jìn)行有效的判斷。此外,對(duì)于社交網(wǎng)絡(luò)的使用群體不能完全代表有效的人群,因?yàn)槭褂蒙缃痪W(wǎng)絡(luò)的人群與年齡、地域、種族等方面都有很大差異,因此僅利用社交網(wǎng)絡(luò)產(chǎn)生的數(shù)據(jù)進(jìn)行預(yù)測(cè)很可能會(huì)與最終結(jié)果產(chǎn)生偏差,所以從人群角度進(jìn)行科學(xué)有效的取樣方法對(duì)于社交網(wǎng)絡(luò)預(yù)測(cè)也是尤為重要的一個(gè)環(huán)節(jié)??偨Y(jié)人們對(duì)社交網(wǎng)絡(luò)數(shù)據(jù)的認(rèn)識(shí)和挖掘還處于相對(duì)初級(jí)的階段,對(duì)這種大規(guī)模、高維度數(shù)據(jù)的挖掘方法還在不斷地演化。目前來(lái)看,文本語(yǔ)言的情感分析、社交網(wǎng)絡(luò)的傳播預(yù)測(cè)等很多基礎(chǔ)性問(wèn)題還不能得到有效解決,對(duì)深入研究社交網(wǎng)絡(luò)造成了一些限制。但隨著人工智能研究水平的不斷提高,尤其是認(rèn)知神經(jīng)科學(xué)與人工智能技術(shù)相結(jié)合的研究,讓我們看到了人工智能的新希望。當(dāng)我們真正有能力解決這些問(wèn)題以后,社交網(wǎng)絡(luò)將會(huì)成為幫助我們預(yù)測(cè)未來(lái)趨勢(shì)的有利工具。然而,充分使用社交網(wǎng)絡(luò)數(shù)據(jù)也意味著暴露用戶越來(lái)越多的隱私,因此,如何能夠在用戶隱私和數(shù)據(jù)完整中找到一個(gè)平衡點(diǎn),也是今后數(shù)據(jù)工作者所要面臨的問(wèn)題數(shù)據(jù)之舞大數(shù)據(jù)與數(shù)據(jù)挖掘斯諾登泄露了什么秘密大數(shù)據(jù)會(huì)暴露隱私嗎什么是數(shù)據(jù)挖掘秦鵬2013-08-251940(文/DavidJ.TenenBaum)泄密者愛(ài)德華?斯諾登(EdwardSnowden)還在尋求容身之所的時(shí)候,美國(guó)國(guó)家安全局(NSA)全方位收集電話和電子郵件記錄之事經(jīng)過(guò)他的披露,已經(jīng)引發(fā)了不安和憤怒。奧巴馬當(dāng)局聲稱,監(jiān)聽(tīng)數(shù)據(jù)帶來(lái)了安全,然而左翼和右翼都在譴責(zé)這種窺探行為是對(duì)隱私的侵犯。數(shù)據(jù)不是信息,而是有待理解的原材料。但有一件事是確定無(wú)疑的當(dāng)NSA為了從其海量數(shù)據(jù)中“挖掘”出信息,耗資數(shù)十億改善新手段時(shí),它正受益于陡然降落的計(jì)算機(jī)存儲(chǔ)和處理價(jià)格。麻省理工學(xué)院的研究者約翰?古塔格(JohnGuttag)和柯林?斯塔爾茲(CollinStultz)創(chuàng)建了一個(gè)計(jì)算機(jī)模型來(lái)分析之心臟病病患丟棄的心電圖數(shù)據(jù)。他們利用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)在海量的數(shù)據(jù)中篩選,發(fā)現(xiàn)心電圖中出現(xiàn)三類異常者一年內(nèi)死于第二次心臟病發(fā)作的機(jī)率比未出現(xiàn)者高一至二倍。這種新方法能夠識(shí)別出更多的,無(wú)法通過(guò)現(xiàn)有的風(fēng)險(xiǎn)篩查被探查出的高危病人。圖片來(lái)源JasonGrow2012/HumanFaceofBigData數(shù)據(jù)挖掘這一術(shù)語(yǔ)含義廣泛,指代一些通常由軟件實(shí)現(xiàn)的機(jī)制,目的是從巨量數(shù)據(jù)中提取出信息。數(shù)據(jù)挖掘往往又被稱作算法。威斯康星探索學(xué)院主任大衛(wèi)?克拉考爾(DavidKrakauer)說(shuō),數(shù)據(jù)量的增長(zhǎng)以及提取信息的能力的提高也在影響著科學(xué)?!坝?jì)算機(jī)的處理能力和存儲(chǔ)空間在呈指數(shù)增長(zhǎng),成本卻在指數(shù)級(jí)下降。從這個(gè)意義上來(lái)講,很多科學(xué)研究如今也遵循摩爾定律。”在2005年,一塊1TB的硬盤(pán)價(jià)格大約為1,000美元,“但是現(xiàn)在一枚不到100美元的U盤(pán)就有那么大的容量?!毖芯恐悄苎莼目死紶栒f(shuō)。現(xiàn)下關(guān)于大數(shù)據(jù)和數(shù)據(jù)挖掘的討論“之所以發(fā)生是因?yàn)槲覀冋幱隗@天動(dòng)地的變革當(dāng)中,而且我們正以前所未有的方式感知它?!笨死瓌跔栒f(shuō)。隨著我們通過(guò)電話、信用卡、電子商務(wù)、互聯(lián)網(wǎng)和電子郵件留下更多的生活痕跡,大數(shù)據(jù)不斷增長(zhǎng)的商業(yè)影響也在如下時(shí)刻表現(xiàn)出來(lái)?你搜索一條飛往塔斯卡魯薩的航班,然后便看到網(wǎng)站上出現(xiàn)了塔斯卡魯薩的賓館打折信息?你觀賞的電影采用了以幾十萬(wàn)G數(shù)據(jù)為基礎(chǔ)的計(jì)算機(jī)圖形圖像技術(shù)?你光顧的商店在對(duì)顧客行為進(jìn)行數(shù)據(jù)挖掘的基礎(chǔ)上獲取最大化的利潤(rùn)?用算法預(yù)測(cè)人們購(gòu)票需求,航空公司以不可預(yù)知的方式調(diào)整價(jià)格?智能手機(jī)的應(yīng)用識(shí)別到你的位置,因此你收到附近餐廳的服務(wù)信息大數(shù)據(jù)在看著你嗎除了安全和商業(yè),大數(shù)據(jù)和數(shù)據(jù)挖掘在科研領(lǐng)域也正在風(fēng)起云涌。越來(lái)越多的設(shè)備帶著更加精密的傳感器,傳回愈發(fā)難以駕馭的數(shù)據(jù)流,于是人們需要日益強(qiáng)大的分析能力。在氣象學(xué)、石油勘探和天文學(xué)等領(lǐng)域,數(shù)據(jù)量的井噴式增長(zhǎng)對(duì)更高層次的分析和洞察提供了支持,甚至提出了要求。2005年6月至2007年12月海洋表面洋流示意圖。數(shù)據(jù)源海面高度數(shù)據(jù)來(lái)自美國(guó)航空航天局(NASA)的Topex/Poseidon衛(wèi)星、Jason-1衛(wèi)星,以及海形圖任務(wù)/Jason-2衛(wèi)星測(cè)高儀;重力數(shù)據(jù)來(lái)自NASA/德國(guó)航空航天中心的重力恢復(fù)及氣候?qū)嶒?yàn)任務(wù);表面風(fēng)壓數(shù)據(jù)來(lái)自NASA的QuikScat任務(wù);海平面溫度數(shù)據(jù)來(lái)自NASA/日本宇宙航空研究開(kāi)發(fā)機(jī)構(gòu)的先進(jìn)微波掃描輻射計(jì)-地球觀測(cè)系統(tǒng);海冰濃度和速度數(shù)據(jù)來(lái)自被動(dòng)微波輻射計(jì);溫度和咸度分布來(lái)自船載、系泊式測(cè)量?jī)x器,以及國(guó)際Argo海洋觀測(cè)系統(tǒng)。這幅2005年6月至2007年12月海洋表面洋流的示意圖集成了帶有數(shù)值模型的衛(wèi)星數(shù)據(jù)。漩渦和窄洋流在海洋中傳送熱量和碳。海洋環(huán)流和氣候評(píng)估項(xiàng)目提供了所有深度的洋流,但這里僅僅使用了表層洋流。這些示意圖用來(lái)測(cè)量海洋在全球碳循環(huán)中的作用,并監(jiān)測(cè)地球系統(tǒng)的不同部分內(nèi)部及之間的熱量、水和化學(xué)交換。在醫(yī)學(xué)領(lǐng)域,2003年算是大數(shù)據(jù)涌現(xiàn)過(guò)程中的一個(gè)里程碑。那一年第一例人類基因組完成了測(cè)序。那次突破性的進(jìn)展之后,數(shù)以千計(jì)人類、靈長(zhǎng)類、老鼠和細(xì)菌的基因組擴(kuò)充著人們所掌握的數(shù)據(jù)。每個(gè)基因組上有幾十億個(gè)“字母”,計(jì)算時(shí)出現(xiàn)紕漏的危險(xiǎn),催生了生物信息學(xué)。這一學(xué)科借助軟件、硬件以及復(fù)雜算法之力,支撐著新的科學(xué)類型。精神障礙通常是具體病例具體分析,但是一項(xiàng)對(duì)150萬(wàn)名病人病例的研究表明,相當(dāng)多的病人患有超過(guò)同一種疾病。芝加哥大學(xué)的西爾維奧?康特中心利用數(shù)據(jù)挖掘理解神經(jīng)精神障礙的成因以及之間的關(guān)系?!昂脦讉€(gè)(研究)團(tuán)隊(duì)都在致力于這個(gè)問(wèn)題的解決?!敝行闹魅伟驳铝?柴斯基(AndreyRzhetsky)說(shuō),“我們正試圖把它們?nèi)考{入模型,統(tǒng)一分析那些數(shù)據(jù)類型尋找可能的環(huán)境因素。”圖片來(lái)源AndreyRzhetsky,芝加哥大學(xué)另一例生物信息學(xué)的應(yīng)用來(lái)自美國(guó)國(guó)家癌癥研究所。該所的蘇珊?霍爾貝克(SusanHolbeck)在60種細(xì)胞系上測(cè)試了5000對(duì)美國(guó)食品和藥品管理局批準(zhǔn)的抗癌藥品。經(jīng)過(guò)30萬(wàn)次試驗(yàn)之后,霍爾貝克說(shuō)“我們知道每種細(xì)胞系里面每一條基因的RNA表達(dá)水平。我們掌握了序列數(shù)據(jù)、蛋白質(zhì)數(shù)據(jù),以及微觀RNA表達(dá)的數(shù)據(jù)。我們可以取用所有這些數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,看一看為什么一種細(xì)胞系對(duì)混合藥劑有良好的反應(yīng),而另一種沒(méi)有。我們可以抽取一對(duì)觀察結(jié)果,開(kāi)發(fā)出合適的靶向藥品,并在臨床測(cè)試?!被ヂ?lián)網(wǎng)上的火眼金睛當(dāng)醫(yī)學(xué)家忙于應(yīng)對(duì)癌癥、細(xì)菌和病毒之時(shí),互聯(lián)網(wǎng)上的政治言論已呈燎原之勢(shì)。整個(gè)推特圈上每天要出現(xiàn)超過(guò)5億條推文,其政治影響力與日俱增,使廉潔政府團(tuán)體面臨著數(shù)據(jù)挖掘技術(shù)帶來(lái)的巨大挑戰(zhàn)。印第安納大學(xué)Truthy(意可信)項(xiàng)目的目標(biāo)是從這種每日的信息泛濫中發(fā)掘出深層意義,博士后研究員埃米利奧?費(fèi)拉拉(EmilioFerrara)說(shuō)?!癟ruthy是一種能讓研究者研究推特上信息擴(kuò)散的工具。通過(guò)識(shí)別關(guān)鍵詞以及追蹤在線用戶的活動(dòng),我們研究正在進(jìn)行的討論?!盩ruthy是由印第安納研究者菲爾?孟澤(FilMenczer)和亞力桑德羅?弗拉米尼(AlessandroFlammini)開(kāi)發(fā)的。每一天,該項(xiàng)目的計(jì)算機(jī)過(guò)濾多達(dá)5千萬(wàn)條推文,試圖找出其中蘊(yùn)含的模式。大數(shù)據(jù)盯著“bigdata”(意為大數(shù)據(jù))。這些是在推特上發(fā)布過(guò)“bigdata”的用戶之間的連接,用戶圖標(biāo)的尺寸代表了其粉絲數(shù)多寡。藍(lán)線表示一次回復(fù)或者提及,綠線表示一個(gè)用戶是另一個(gè)的粉絲。圖片來(lái)源MarcSmith一個(gè)主要的興趣點(diǎn)是“水軍”,費(fèi)拉拉說(shuō)協(xié)調(diào)一致的造勢(shì)運(yùn)動(dòng)本應(yīng)來(lái)自草根階層,但實(shí)際上是由“熱衷傳播虛假信息的個(gè)人和組織”發(fā)起的。2012年美國(guó)大選期間,一系列推文聲稱共和黨總統(tǒng)候選人米特?羅姆尼(MittRomney)在臉譜網(wǎng)上獲得了可疑的大批粉絲?!罢{(diào)查者發(fā)現(xiàn)共和黨人和民主黨人皆與此事無(wú)關(guān)?!辟M(fèi)拉拉說(shuō),“幕后另有主使。這是一次旨在令人們相信羅姆尼在買(mǎi)粉從而抹黑他的造勢(shì)運(yùn)動(dòng)。”水軍的造勢(shì)運(yùn)動(dòng)通常很有特點(diǎn),費(fèi)拉拉說(shuō)?!耙氚l(fā)起一場(chǎng)大規(guī)模的抹黑運(yùn)動(dòng),你需要很多推特賬號(hào),”包括由程序自動(dòng)運(yùn)行、反復(fù)發(fā)布選定信息的假賬號(hào)?!拔覀兺ㄟ^(guò)分析推文的特征,能夠辨別出這種自動(dòng)行為?!蓖莆牡臄?shù)量年復(fù)一年地倍增,有什么能夠保證線上政治的透明呢“我們這個(gè)項(xiàng)目的目的是讓技術(shù)掌握一點(diǎn)這樣的信息?!辟M(fèi)拉拉說(shuō),“找到一切是不可能的,但哪怕我們能夠發(fā)現(xiàn)一點(diǎn),也比沒(méi)有強(qiáng)?!鳖^腦里的大數(shù)據(jù)人腦是終極的計(jì)算機(jī)器,也是終極的大數(shù)據(jù)困境,因?yàn)樵讵?dú)立的神經(jīng)元之間有無(wú)數(shù)可能的連接。人類連接組項(xiàng)目是一項(xiàng)雄心勃勃地試圖繪制出不同腦區(qū)之間相互作用的計(jì)劃。除了連接組,還有很多充滿數(shù)據(jù)的“組”?基因組由DNA編碼的,或者由RNA編碼的(比如病毒)全部基因信息?轉(zhuǎn)錄組由一個(gè)有機(jī)體的DNA產(chǎn)生的全套R(shí)NA“讀數(shù)”?蛋白質(zhì)組所有可以用基因表達(dá)的蛋白質(zhì)?代謝組一個(gè)有機(jī)體新陳代謝過(guò)程中的所有小分子,包括中間產(chǎn)物和最終產(chǎn)物連接組項(xiàng)目的目標(biāo)是“從1,200位神經(jīng)健康的人身上收集先進(jìn)的神經(jīng)影像數(shù)據(jù),以及認(rèn)知、行為和人口數(shù)據(jù)”,圣路易斯市華盛頓大學(xué)的連接組項(xiàng)目辦事處的信息學(xué)主任丹尼爾?馬庫(kù)斯(DanielMarcus)說(shuō)。項(xiàng)目使用三種磁共振造影觀察腦的結(jié)構(gòu)、功能和連接。根據(jù)馬庫(kù)斯的預(yù)期,兩年之后數(shù)據(jù)收集工作完成之時(shí),連接組研究人員將埋首于大約100萬(wàn)G數(shù)據(jù)。20名健康人類受試者處于休息狀態(tài)下接受核磁共振掃描,得到的大腦皮層不同區(qū)域間新陳代謝活動(dòng)的關(guān)聯(lián)關(guān)系,并用不同的顏色表現(xiàn)出來(lái)。黃色和紅色區(qū)域在功能上與右半腦頂葉中的“種子”位置(右上角黃斑)相關(guān)。綠色和藍(lán)色區(qū)域則與之關(guān)聯(lián)較弱或者根本沒(méi)有關(guān)聯(lián)。圖片來(lái)源M.F.GlasserandS.M.Smith繪制腦區(qū)分布圖的“分區(qū)”是一項(xiàng)關(guān)鍵的任務(wù),這些腦區(qū)最早于兩到三世紀(jì)之前通過(guò)對(duì)少量大腦染色被識(shí)別出來(lái)?!拔覀儗碛?,200個(gè)人的數(shù)據(jù),”馬庫(kù)斯說(shuō),“因此我們可以觀察個(gè)人之間腦區(qū)分布的差別,以及腦區(qū)之間是如何關(guān)聯(lián)的。”為了識(shí)別腦區(qū)之間的連接,馬庫(kù)斯說(shuō),“我們?cè)谑茉囌咝菹r(shí)獲取的掃描圖中,觀察腦中的自發(fā)活動(dòng)在不同區(qū)域之間有何關(guān)聯(lián)?!北热纾绻麉^(qū)域A和區(qū)域B自發(fā)地以每秒18個(gè)周期的頻率產(chǎn)生腦波,“這就說(shuō)明它們處于同一網(wǎng)絡(luò)中?!瘪R庫(kù)斯說(shuō)?!拔覀儗⒗谜麄€(gè)大腦中的這些關(guān)聯(lián)數(shù)據(jù)創(chuàng)建一個(gè)表現(xiàn)出腦中的每一個(gè)點(diǎn)如何與其他每一個(gè)點(diǎn)關(guān)聯(lián)的矩陣?!?這些點(diǎn)將比磁共振成像無(wú)法“看到”的細(xì)胞大得多。)星系動(dòng)物園把天空轉(zhuǎn)包給大眾星系動(dòng)物園項(xiàng)目打破了大數(shù)據(jù)的規(guī)矩它沒(méi)有對(duì)數(shù)據(jù)進(jìn)行大規(guī)模的計(jì)算機(jī)數(shù)據(jù)挖掘,而是把圖像交給活躍的志愿者,由他們對(duì)星系做基礎(chǔ)性的分類。該項(xiàng)目2007年啟動(dòng)于英國(guó)牛津,當(dāng)時(shí)天文學(xué)家凱文.沙文斯基(KevinSchawinski)剛剛蹬著眼睛瞧完了斯隆數(shù)字巡天計(jì)劃拍攝的5萬(wàn)張圖片。阿拉巴馬大學(xué)天文學(xué)教授、星系動(dòng)物園科學(xué)團(tuán)隊(duì)成員威廉.基爾(WilliamKeel)說(shuō),沙文斯基的導(dǎo)師建議他完成95萬(wàn)張圖像?!八难劬鄣每煲舫鲅鄹C了,便去了一家酒館。他在那里遇到了克里斯?林托特(ChrisLintott)。兩人以經(jīng)典的方式,在一張餐巾的背面畫(huà)出了星系動(dòng)物園的網(wǎng)絡(luò)結(jié)構(gòu)?!毙窍凳且粋€(gè)經(jīng)典的大數(shù)據(jù)問(wèn)題一臺(tái)最先進(jìn)的望遠(yuǎn)鏡掃描整個(gè)天空,可能會(huì)看到2000億個(gè)這樣的恒星世界。然而,“一系列與宇宙學(xué)和星系統(tǒng)計(jì)學(xué)相關(guān)的問(wèn)題可以通過(guò)讓許多人做相當(dāng)簡(jiǎn)單的分類工作得以解決?!被鶢栒f(shuō),“五分鐘的輔導(dǎo)過(guò)后,分類便是一項(xiàng)瑣碎的工作,直到今日也并不適合以算法實(shí)現(xiàn)?!毙窍祫?dòng)物園的啟動(dòng)相當(dāng)成功,用戶流量讓一臺(tái)服務(wù)器癱瘓了,基爾說(shuō)。斯隆巡天的全部95萬(wàn)張圖片平均每張被看過(guò)60次之后,動(dòng)物園的管理者們轉(zhuǎn)向了更大規(guī)模的巡天數(shù)據(jù)??茖W(xué)受益匪淺,基爾說(shuō)?!拔业暮芏嘀匾晒紒?lái)自人們發(fā)現(xiàn)的奇怪物體,”包括背光星系。這是星系動(dòng)物園志愿者們發(fā)現(xiàn)的差不多2000個(gè)背光星系之一。它被其后方的另一個(gè)星系照亮。來(lái)自背后的光令前景星系中的塵埃清晰可辨。星際塵埃在恒星的形成中扮演了關(guān)鍵的角色,但它本身也是由恒星制造的,因此檢測(cè)其數(shù)量和位置對(duì)于了解星系的歷史至關(guān)重要。圖片來(lái)源WIYN望遠(yuǎn)鏡,AnnaManning,ChrisLintott,WilliamKeel星系動(dòng)物園依賴統(tǒng)計(jì)學(xué)、眾多觀察者以及處理、檢查數(shù)據(jù)的邏輯。假如觀察某個(gè)特定星系的人增加時(shí),而認(rèn)為它是橢圓星系的人數(shù)比例保持不變,這個(gè)星系就不必再被觀察了。然而,對(duì)一些稀有的物體,基爾說(shuō),“你可能需要40至50名觀察者?!贝蟊娍茖W(xué)正在發(fā)展自己的法則,基爾補(bǔ)充道。志愿者們的工作“已經(jīng)對(duì)一個(gè)真實(shí)存在的重大問(wèn)題做出了貢獻(xiàn),是現(xiàn)存的任何軟件都無(wú)法實(shí)現(xiàn)的。鼠標(biāo)的點(diǎn)擊不該被浪費(fèi)。”這種動(dòng)物園方法在網(wǎng)站上得到了復(fù)制和優(yōu)化。這是一個(gè)運(yùn)行著大約20項(xiàng)目的機(jī)構(gòu),這些項(xiàng)目的處理對(duì)象包括熱帶氣旋、火星表面和船只航行日志上的氣象數(shù)據(jù)。最終,軟件可能會(huì)取代志愿者,基爾說(shuō)。但是計(jì)算機(jī)和人類之間的界線是可互換的。比如說(shuō)超新星動(dòng)物園項(xiàng)目在軟件學(xué)會(huì)了任務(wù)之后就關(guān)閉了。我們驚訝地得知志愿者們積累的龐大數(shù)據(jù)是計(jì)算機(jī)學(xué)習(xí)分類的理想材料?!耙恍┬窍祫?dòng)物園用戶真的很反感這一點(diǎn)?!被鶢栒f(shuō),“他們對(duì)于自己的點(diǎn)擊被用來(lái)訓(xùn)練軟件表達(dá)出明顯的怨恨。但是我們說(shuō),不要浪費(fèi)點(diǎn)擊。如果某人帶來(lái)了同樣有效的新算法,人們就不必做那些事情了?!睂W(xué)習(xí)的渴望人們長(zhǎng)久以來(lái)改進(jìn)對(duì)圖像和語(yǔ)音的模式識(shí)別的努力已經(jīng)受益于更多的訓(xùn)練,威斯康星大學(xué)麥迪遜分校的克拉考爾說(shuō)?!八粌H僅是有所改善,更是有了實(shí)際的效果。5到10年之前,iPhone上的Siri是個(gè)想都不敢想的點(diǎn)子,語(yǔ)音識(shí)別一塌糊涂。現(xiàn)在我們擁有了這樣一批龐大的數(shù)據(jù)來(lái)訓(xùn)練算法,忽然之間它們就管用了。”隨著數(shù)據(jù)及通訊價(jià)格持續(xù)下跌,新的思路和方法應(yīng)運(yùn)而生。如果你想了解你家中每一件設(shè)備消耗了多少水和能量,麥克阿瑟獎(jiǎng)獲得者西瓦塔克?帕特爾(ShwetakPatel)有個(gè)解決方案用無(wú)線傳感器識(shí)別每一臺(tái)設(shè)備的唯一數(shù)字簽名。帕特爾的智能算法配合外掛傳感器,以低廉的成本找到耗電多的電器。位于加利福尼亞州海沃德市的這個(gè)家庭驚訝地得知,錄像機(jī)消耗了他們家11的電力。圖片來(lái)源PeterMenzel/TheHumanFaceofBigData等到處理能力一次相對(duì)較小的改變令結(jié)果出現(xiàn)突破性的進(jìn)展,克拉考爾補(bǔ)充道,大數(shù)據(jù)的應(yīng)用可能會(huì)經(jīng)歷一次“相變”。“大數(shù)據(jù)”是一個(gè)相對(duì)的說(shuō)法,不是絕對(duì)的,克拉考爾指出?!按髷?shù)據(jù)可以被視作一種比率我們能計(jì)算的數(shù)據(jù)比上我們必須計(jì)算的數(shù)據(jù)。大數(shù)據(jù)一直存在。如果你想一下收集行星位置數(shù)據(jù)的丹麥天文學(xué)家第谷布拉赫(TychoBrahe,1546-1601),當(dāng)時(shí)還沒(méi)有解釋行星運(yùn)動(dòng)的開(kāi)普勒理論,因此這個(gè)比率是歪曲的。這是那個(gè)年代的大數(shù)據(jù)?!贝髷?shù)據(jù)成為問(wèn)題“是在技術(shù)允許我們收集和存儲(chǔ)的數(shù)據(jù)超過(guò)了我們對(duì)系統(tǒng)精推細(xì)研的能力之后?!笨死紶栒f(shuō)。我們好奇,當(dāng)軟件繼續(xù)在大到無(wú)法想象的數(shù)據(jù)庫(kù)上執(zhí)行復(fù)雜計(jì)算,以此為基礎(chǔ)在科學(xué)、商業(yè)和安全領(lǐng)域制定決策,我們是不是把過(guò)多的權(quán)力交給了機(jī)器。在我們無(wú)法覷探之處,決策在沒(méi)人理解輸入與輸出、數(shù)據(jù)與決策之間的關(guān)系的情況下被自動(dòng)做出?!斑@正是我所從事的領(lǐng)域,”克拉考爾回應(yīng)道,“我的研究對(duì)象是宇宙中的智能演化,從大爆炸到大腦。我毫不懷疑你說(shuō)的。數(shù)據(jù)挖掘考點(diǎn)總結(jié)版本號(hào)介紹數(shù)據(jù)挖掘的定義Hand等人200年給了簡(jiǎn)明定義數(shù)據(jù)挖掘就是從大型數(shù)據(jù)集合里挖掘出有用的信息。還有一個(gè)定義來(lái)源于一家信息技術(shù)研究公司加特那集團(tuán)數(shù)據(jù)挖掘是從大量的存儲(chǔ)數(shù)據(jù)里進(jìn)行篩選,采用模式識(shí)別技術(shù)以及統(tǒng)計(jì)和數(shù)學(xué)技巧,發(fā)現(xiàn)有意義的新的相互關(guān)系、模式以及趨勢(shì)的過(guò)程。數(shù)據(jù)挖掘處于統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)(也稱人工智能)領(lǐng)域的交叉點(diǎn)上。經(jīng)典統(tǒng)計(jì)學(xué)的兩個(gè)核心難點(diǎn)計(jì)算復(fù)雜、數(shù)據(jù)稀少。DarylPregibon把數(shù)據(jù)挖掘描述為“建立在規(guī)模和速度上的統(tǒng)計(jì)學(xué)”。有人把這一說(shuō)法推廣數(shù)據(jù)挖掘是“建立在規(guī)模、速度和簡(jiǎn)單化上的統(tǒng)計(jì)學(xué)”。過(guò)度擬合過(guò)度擬合指的是現(xiàn)有樣本跟一個(gè)模型擬合太過(guò),以至于模型不僅描述數(shù)據(jù)的根本特性,而且也描述了其隨機(jī)特性。按工程上的術(shù)語(yǔ)指這個(gè)模型不光是擬合信號(hào),還擬合噪聲。算法算法指的是用于實(shí)現(xiàn)某一數(shù)據(jù)挖掘技術(shù)如分類樹(shù)、辨識(shí)分析等的特定程序。有約束學(xué)習(xí)有約束學(xué)習(xí)指的是用已有記錄得到算法(邏輯回歸、回歸樹(shù)等)的過(guò)程。無(wú)約束學(xué)習(xí)無(wú)約束學(xué)習(xí)指的是人們?cè)噲D從數(shù)據(jù)中了解一些東西的分析,而不是預(yù)測(cè)感興趣的輸出值(例如輸出結(jié)果是否屬于某個(gè)聚類)?;蛟S挖動(dòng)數(shù)據(jù)挖掘發(fā)展的最重要的因素是數(shù)據(jù)的增長(zhǎng)。數(shù)據(jù)倉(cāng)庫(kù)一個(gè)把企業(yè)的決策系統(tǒng)結(jié)合在一起的大型綜合數(shù)據(jù)存儲(chǔ)系統(tǒng)。計(jì)算能力方面的持續(xù)迅速的改進(jìn)是數(shù)據(jù)挖掘發(fā)展的一個(gè)基本動(dòng)力。大數(shù)據(jù)的特征數(shù)據(jù)量大、種類多、讀取速率快、價(jià)值密度小數(shù)據(jù)挖掘過(guò)程概覽數(shù)據(jù)挖掘的一項(xiàng)基本任務(wù)就是用類別已知的數(shù)據(jù)找出規(guī)則,然后把這些規(guī)則用在未進(jìn)行分類的數(shù)據(jù)上。預(yù)測(cè)和分類相似,差別在于我們是預(yù)測(cè)一個(gè)變量的數(shù)值,而不是一個(gè)類別。當(dāng)然,在分類時(shí)我們?cè)噲D去預(yù)測(cè)一個(gè)類別,而“預(yù)測(cè)”(在本書(shū))是指預(yù)測(cè)一個(gè)連續(xù)變量的數(shù)值。各數(shù)據(jù)挖掘技術(shù)之間的一個(gè)基本區(qū)別在于是否采用了有約束學(xué)習(xí)方法。訓(xùn)練數(shù)據(jù)是分類和預(yù)測(cè)算法用來(lái)“學(xué)習(xí)”預(yù)測(cè)變量和結(jié)果變量之間的關(guān)系(或稱為模型)。驗(yàn)證數(shù)據(jù)以檢驗(yàn)其是否比其他模型好。測(cè)試數(shù)據(jù)用于檢測(cè)最后選擇的模型的優(yōu)劣。無(wú)約束學(xué)習(xí)算法是在沒(méi)有結(jié)果變量去預(yù)測(cè)或者分類時(shí)的算法。關(guān)聯(lián)分析、數(shù)據(jù)精簡(jiǎn)和聚類技術(shù)都是無(wú)約束學(xué)習(xí)方法。當(dāng)算法涉及到有約束學(xué)習(xí)時(shí),我們要把總的數(shù)據(jù)集合分成訓(xùn)練、驗(yàn)證和測(cè)試數(shù)據(jù)三個(gè)子集合。SEMMASample采樣Explore探索Modify調(diào)整Model建模Assess評(píng)估多少變量和多大數(shù)據(jù)合適一條經(jīng)驗(yàn)法則認(rèn)為對(duì)應(yīng)每一個(gè)預(yù)測(cè)變量要有10條記錄,這應(yīng)該是合理的。Delmater和Hancock在其分類任務(wù)里使用的另一法則是,觀測(cè)記錄數(shù)量至少要有6*M*N。(M,輸出變量類別的數(shù)目;N,變量的數(shù)目)原則上,預(yù)測(cè)變量少是模型的一個(gè)好特征。奇異值遠(yuǎn)離大塊數(shù)據(jù)的數(shù)值稱為奇異值。有的分析人員采用這樣的經(jīng)驗(yàn)法則“離均值3個(gè)標(biāo)準(zhǔn)差之外的點(diǎn)事奇異值”。數(shù)據(jù)標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化數(shù)據(jù)一般指的是從每一個(gè)值減去平均值,然后除以距離平均值的偏差的標(biāo)準(zhǔn)差。為什么即需要一個(gè)驗(yàn)證塊還要一個(gè)測(cè)試塊呢(驗(yàn)證塊與測(cè)試塊異同點(diǎn))因?yàn)轵?yàn)證數(shù)據(jù)增強(qiáng)了所選擇模型性能的現(xiàn)象是隨機(jī)的,在模型被應(yīng)用到新數(shù)據(jù)上時(shí)其好的性能將不存在,因此我們可能高估了模型的精度。我們測(cè)試的模型越多,就越有可能會(huì)選擇那個(gè)把驗(yàn)證數(shù)據(jù)的噪聲擬合得最好的模型。把模型用在以前未出現(xiàn)過(guò)的測(cè)試數(shù)據(jù)上將會(huì)產(chǎn)生模型在新數(shù)據(jù)上的無(wú)偏估計(jì)。分塊的過(guò)程應(yīng)該是隨機(jī)的以避免產(chǎn)生偏差的劃分。建立模型目的獲取數(shù)據(jù)探索、清理和預(yù)處理數(shù)據(jù)精簡(jiǎn)數(shù)據(jù)和把它劃分成訓(xùn)練、驗(yàn)證以及測(cè)試數(shù)據(jù)塊決定數(shù)據(jù)挖掘任務(wù)選擇技術(shù)用算法去執(zhí)行這個(gè)任務(wù)解釋結(jié)果應(yīng)用模型有約束學(xué)習(xí)分類和預(yù)測(cè)判斷一個(gè)分類法效果的自然標(biāo)準(zhǔn)是它錯(cuò)誤分類的概率。在此,我們希望使用分類法的效果能比使用“粗暴”法則“把所有記錄劃分到記錄最多的類里去”得到的效果要好一點(diǎn)。一個(gè)分類法的精度特別依賴與這兩個(gè)類(由分類法使用的預(yù)測(cè)變量而顯示出)的間隔。貝葉斯法則的一個(gè)重要優(yōu)點(diǎn)是,在給一個(gè)記錄分類的同時(shí),我們可以計(jì)算該記錄屬于每一個(gè)類的條件概率。它的好處是我們可以用這一個(gè)概率作為我們要分類的每一個(gè)記錄的“分?jǐn)?shù)”我們可以為任一記錄計(jì)算期望的利益或者損失。什么是三分Triage策略【簡(jiǎn)答題】見(jiàn)書(shū)P37多元線性回歸經(jīng)典的多元線性回歸分析包括模型假設(shè)、系數(shù)估計(jì)和檢驗(yàn)、方差分析、變量子集選擇等許多方面。而數(shù)據(jù)挖掘中的多元線性回歸放寬了模型的假設(shè)條件,模型對(duì)未來(lái)數(shù)據(jù)進(jìn)行預(yù)測(cè)的誤差估計(jì)由在驗(yàn)證數(shù)據(jù)上的誤差分析直觀給出。因此數(shù)據(jù)挖掘中的多元線性回歸是“數(shù)據(jù)挖掘是簡(jiǎn)單化了的統(tǒng)計(jì)學(xué)”這一說(shuō)法的一個(gè)體現(xiàn)。多元線性回歸的模型和思想【重點(diǎn)、大題】〈模型的建立〉對(duì)驗(yàn)證數(shù)據(jù)的每一個(gè)記錄比較結(jié)果變量的預(yù)測(cè)值和實(shí)際觀測(cè)值。這一誤差平方的平均值可用來(lái)比較不同的模型和評(píng)價(jià)用模型進(jìn)行預(yù)測(cè)的精度。4.3線性回歸的自變量選擇對(duì)此一個(gè)經(jīng)驗(yàn)法則是n5k2(n記錄個(gè)數(shù),k自變量個(gè)數(shù))線性回歸分析的一般步驟【簡(jiǎn)答題、說(shuō)清楚各部步驟】獲取模型系數(shù)和統(tǒng)計(jì)量診斷模型是否滿足假設(shè)條件,如果有問(wèn)題就要采取補(bǔ)救措施使用模型統(tǒng)計(jì)量評(píng)價(jià)模型擬合狀況如果模型通過(guò)了一系列的評(píng)價(jià)測(cè)試,我們就可以用這個(gè)模型來(lái)解釋各自變量的作用以及用這個(gè)模型產(chǎn)生預(yù)測(cè)。Logistic回歸Logistic回歸的思想由多元線性回歸發(fā)展而來(lái),它使用的情形是因變量(或稱作被解釋變量)y是二值(我們經(jīng)常將這兩個(gè)值編碼為0和1)情況。用于描述選擇行為的Logistic模型,是根據(jù)Manski提出的隨機(jī)效用理論建立的,該理論是對(duì)標(biāo)準(zhǔn)的消費(fèi)者行為理論的擴(kuò)展。消費(fèi)者行為

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論