數(shù)據(jù)科學-鄂維南_第1頁
數(shù)據(jù)科學-鄂維南_第2頁
數(shù)據(jù)科學-鄂維南_第3頁
數(shù)據(jù)科學-鄂維南_第4頁
數(shù)據(jù)科學-鄂維南_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)科學——鄂維南一、數(shù)據(jù)科學的基本內(nèi)容大數(shù)據(jù)時代在科學領域里的表現(xiàn)是數(shù)據(jù)科學的興起。常常聽到有人問:多大才算是“大數(shù)據(jù)”?“大數(shù)據(jù)”和“海量數(shù)據(jù)”有什么區(qū)別?其實根本沒有必要為“大數(shù)據(jù)”這個名詞的確切含義而糾結。“大數(shù)據(jù)”是一個熱點名詞,它代表的是一種潮流、一個時代,它可以有多方面的含義?!昂A繑?shù)據(jù)”是一個技術名詞,它強調(diào)數(shù)據(jù)量之大。而數(shù)據(jù)科學則是一個學科、一門新興的學科。為什么要強調(diào)數(shù)據(jù)科學?它和已有的信息科學、統(tǒng)計學、機器學習等學科有什么不一樣?作為一門學科,數(shù)據(jù)科學所依賴的兩個因素是數(shù)據(jù)的廣泛性和多樣性,以及數(shù)據(jù)研究的共性。現(xiàn)代社會的各行各業(yè)都充滿了數(shù)據(jù),而且這些數(shù)據(jù)也是多種多樣,不僅包括傳統(tǒng)的結構型數(shù)據(jù),也包括象網(wǎng)頁、文本、圖像、視頻、語音等非結構型數(shù)據(jù)。正如我們后面將要討論到的,數(shù)據(jù)分析本質(zhì)上都是在解反問題,而且是隨機模型的反問題。所以,對它們的研究有著很多的共性。比方說自然語言處理和生物大分子模型里都用到隱式馬氏過程和動態(tài)規(guī)劃方法,其最根本的原因是它們處理的都是一維的隨機信號。再如圖像處理和統(tǒng)計學習中都用到的正則化方法,也是處理反問題的數(shù)學模型中最常用的一種手段。所以,用于圖像處理的算法和用于壓縮感知的算法有著許多共同之處。這在新加坡國立大學沈佐偉教授的工作中就可以很明顯地看出來。除了新興的學科如計算廣告學之外,數(shù)據(jù)科學主要包括兩個方面:用數(shù)據(jù)的方法來研究科學和用科學的方法來研究數(shù)據(jù),前者包括象生物信息學、天體信息學、數(shù)字地球等領域,后者包括統(tǒng)計學、機器學習、數(shù)據(jù)挖掘、數(shù)據(jù)庫等領域,這些學科都是數(shù)據(jù)科學的重要組成部分,但只有把它們有機地放在一起,才能形成整個數(shù)據(jù)科學的全貌。用數(shù)據(jù)的方法來研究科學,最典型的例子是開普勒關于行星運動的三大定律。開普勒的三大定律是根據(jù)他的前任,一位叫第谷的天文學家留給他的觀察數(shù)據(jù)總結出來的,表9-1是一個典型的例子。這里列出的數(shù)據(jù)是行星繞太陽一周所需要的時間(以年為單位)和行星離太陽的平均距離(以地球與太陽的平均距離為單位)。從這組數(shù)據(jù)可以看出,行星繞太陽運行的周期的平方和行星離太陽的平均距離的立方成正比,這就是開普勒的第三定律。表9-1太陽系八大行星繞太陽運動的數(shù)據(jù)行星周期(年)平均距離周期2/距離2水星金星地球火星木星土星天王星海王星0.2410.6151.0001.88011.80029.50084.010165.0000.390.721.001.525.209.549.1830.060.981.011.001.010.991.001.001.00開普勒雖然總結出他的三大定律,但他并不理解其內(nèi)涵。牛頓則不然,牛頓用他的第二定律和萬有引力定律把行星運動歸結成一個純粹的數(shù)學問題,即一個常微分方程組。如果忽略行星之間的相互作用,那么這就成了一個兩體問題。因此很容易求出這個常微分方程組的解,并由此推出開普勒的三大定律。牛頓運用的是尋求基本原理的方法,它遠比開普勒的方法深刻。牛頓不僅知其然,而且知其所以然,所以牛頓開創(chuàng)的尋求基本原理的方法成了科學研究的首選模式。這種方法在上個世紀初期達到了頂峰:在它的指導下,物理學家們發(fā)現(xiàn)了量子力學。原則上來講,我們?nèi)粘I钪兴龅降淖匀滑F(xiàn)象都可以從量子力學出發(fā)得到解決,量子力學提供了研究化學、材料科學、工程科學、生命科學等幾乎所有自然和工程學科的基本原理,這應該說是很成功,但事情遠非這么簡單。正如狄拉克指出的那樣,如果以量子力學的基本原理為出發(fā)點去解決這些問題,那么其中的數(shù)學問題太困難了。所以,如果要想有進展,還是必須做妥協(xié),也就是說要對基本原理作近似。再舉另外一個例子,表9-2中形象地描述了一組人類基因組的SNP數(shù)據(jù)(SingleNucleotidePolymorphismdata)。一組研究人員在全世界挑選出1064個志愿者,并把他們的SNP數(shù)據(jù)數(shù)字化,也就是把每個位置上可能出現(xiàn)的10種堿基對用數(shù)字來代表,對這組數(shù)據(jù)作主組分分析,就可以得到圖9-1中的結果。其中橫軸和縱軸代表的是第一和第二奇異值所對應的特征向量。這些向量一共有1064個分量,對應1064個志愿者。值得注意的是這組點的顏色所代表的意義。可以看出,人類進化的過程可以從這組數(shù)據(jù)中通過最常見的統(tǒng)計分析的方法,即主組分分析而展示出來。主組分分析是一種最簡單的數(shù)據(jù)分析方法,它的做法是對數(shù)據(jù)的協(xié)方差矩陣作對角分解。表9-2SNP數(shù)據(jù)的示意圖SNP1SNP2……SNPm志愿者1志愿者2志愿者3?志愿者n01……002……119……1其中:n=1064,m=644258,0,1,…,9分別代表堿基對是AA,AC,CC,…。參見:JunZ.Lietal,“Worldwidehumanrelationshipsinferredfromgenome-widepatternsofvariation”,Science,22,F(xiàn)eburary,2008.圖9-1對SNP數(shù)據(jù)作主組分分析的結果告訴我們?nèi)祟愡M化的過程這里橫軸和縱軸分別表示最大奇異值和第二大奇異值所對應的特征向量。此結果系姚遠等根據(jù)JunZ.Li等人文章中的結果重新制作。這樣的問題,如果采用從基本原理出發(fā)的牛頓模式,則基本上是沒法解決的,而基于數(shù)據(jù)的開普勒模式則是行之有效。盡管牛頓模式很深刻,但對復雜的問題,開普勒模式往往更有效,開普勒模式最成功的例子是生物信息學和人類基因組工程。正是因為它們的成功,材料基因組工程等類似的項目也被提上了議事日程。同樣,天體信息學、計算社會學等等也成了熱門學科。這些都是用數(shù)據(jù)的方法來研究科學問題的例子。圖像處理是另外一個典型的例子,圖像處理是否成功是由人的視覺系統(tǒng)決定的。所以,要從根本上解決圖像處理的問題,就需要從理解人的視覺系統(tǒng)著手,并了解不同質(zhì)量的圖像,對人的視覺系統(tǒng)產(chǎn)生什么樣的影響。這樣的理解當然很深刻,而且也許是我們最終所需要的。但從目前來看,它過于困難也過于復雜。解決很多實際問題時,并不需要它,而是一些更為簡單的數(shù)學模型就足夠了。用數(shù)據(jù)的方法來研究科學問題,并不意味著就不需要模型,只是模型的出發(fā)點不一樣,不是從基本原理的角度去找模型。就拿圖像處理的例子來說,基于基本原理的模型需要描述人的視覺系統(tǒng)以及它與圖像之間的關系,而通常的方法則可以是基于更為簡單的數(shù)學模型,如函數(shù)逼近的模型。怎樣用科學的方法來研究數(shù)據(jù)?這包括以下幾個方面的內(nèi)容:數(shù)據(jù)的獲取,存儲,和數(shù)據(jù)的分析,下面我們將主要討論數(shù)據(jù)的分析。二、數(shù)據(jù)分析的中心問題比較常見的數(shù)據(jù)有以下幾類:1)表格。這是最為經(jīng)典的數(shù)據(jù)。2)點集(pointcloud)。很多數(shù)據(jù)都可以看成是某種空間的一堆點。3)時間序列。文本,通話,DNA序列等都可以看成是時間序列。它們也是一個變量(通??梢钥闯墒菚r間)的函數(shù)。4)圖像??梢钥闯墒莾蓚€變量的函數(shù)。5)視頻。時間和空間坐標的函數(shù)。6)網(wǎng)頁,報紙等。雖然網(wǎng)頁或報紙上的每篇文章都可以看成是時間序列,但整個網(wǎng)頁或報紙又具有空間結構。7)網(wǎng)絡數(shù)據(jù)。還可以考慮更高層次的數(shù)據(jù),如圖像集,時間序列集,表格序列等等。數(shù)據(jù)分析的基本假設就是觀察到的數(shù)據(jù)都是由背后的一個模型產(chǎn)生的,數(shù)據(jù)分析的基本問題就是找出這個模型。由于數(shù)據(jù)采集過程中不可避免地會引入噪聲,通常這些模型都是隨機模型。表9-3常見的數(shù)學模型數(shù)據(jù)類型模型點集時間序列圖像網(wǎng)絡概率分布隨機過程(如隱式馬氏過程等)隨機場(如吉布斯隨機場)圖模型,貝葉斯模型當然,在大部分情況下,我們并不感興趣整個模型,而只是希望找到模型的一部分內(nèi)容,如:1)相關性。判斷兩組數(shù)據(jù)是不是相關的。2)排序。比方說對網(wǎng)頁作排序。3)分類、聚類。把數(shù)據(jù)分成幾類。很多情況下,我們還需要對隨機模型作近似,最常見的是把隨機模型近似為確定型模型,所有的回歸模型都采用了這樣的近似,基于變分原理的圖像處理模型也采用了同樣的近似。另一類方法是對其分布作近似,例如假設概率密度是正態(tài)分布,或假設時間序列是馬爾可夫鏈等等。分析數(shù)據(jù)的第一步是賦予數(shù)據(jù)一定的數(shù)學結構,這種結構包括:1)度量結構。在數(shù)據(jù)集上引進度量,也就是距離,使之成為一個度量空間。文本處理中的余弦距離函數(shù)就是一個典型的例子。2)網(wǎng)絡結構。有些數(shù)據(jù)本身就具有網(wǎng)絡結構,如社交網(wǎng)絡。有些數(shù)據(jù)本身沒有網(wǎng)絡結構,但可以附加上一個網(wǎng)絡結構。比方說度量空間的點集,我們可以根據(jù)點與點之間的距離來決定是否把兩個點連接起來,這樣就得到一個網(wǎng)絡結構。3)代數(shù)結構。比方說我們可以把數(shù)據(jù)看成是向量,或矩陣,或更高階的張量。有些數(shù)據(jù)集具有隱含的對稱性。這也可以用代數(shù)的方法表達出來。在這基礎上,我們可以問更進一步的問題。例如:1)拓撲結構。從不同的尺度去看數(shù)據(jù)集,得到的拓撲結構可能是不一樣的。最著名的例子是3×3的自然圖像數(shù)據(jù)集里面隱含著一個2維的克萊因瓶。(參見:RobertGhrist,BARCODES:THEPERSISTENTTOPOLOGYOFDATA,BULLETIN(NewSeries)OFTHEAMERICANMATHEMATICALSOCIETY,Volume45,Number1,January2008,Pages61-75)。2)函數(shù)結構。尤其對點集而言,尋找其中的函數(shù)結構是統(tǒng)計學的基本問題。這里的函數(shù)結構包括:線性函數(shù),用于線性回歸;分片常數(shù),用于聚類或分類;分片多項式,如樣條函數(shù);其他函數(shù)如小波展開等。三、數(shù)據(jù)分析的主要困難我們碰到的數(shù)據(jù)通常有這樣幾個特點:一是數(shù)據(jù)量大,大家只要想一想,萬維網(wǎng)上有多少網(wǎng)頁,這些網(wǎng)頁上有多少數(shù)據(jù),就可以對現(xiàn)在碰到的數(shù)據(jù)量之大有點感覺了;第二是維數(shù)高,前面提到的SNP數(shù)據(jù)是64萬維的;第三是類型復雜,比方說這些數(shù)據(jù)可以是網(wǎng)頁或報紙,也可以是圖像,視頻;第四是噪音大。這里面最核心的困難是維數(shù)高,維數(shù)高給我們帶來的是維數(shù)詛咒(curseofdimension):模型的復雜度和計算量隨著維數(shù)的增加而指數(shù)增長。例如非參數(shù)化的模型中參數(shù)的個數(shù)會隨著維數(shù)的增加而指數(shù)增長。怎樣克服維數(shù)高帶來的困難?通常有兩類方法:一類方法就是將數(shù)學模型限制在一個極小的特殊類里面,如線性模型,如假設概率密度遵循正態(tài)分布,如假設觀測到的時間序列是隱式馬氏過程等;另一類方法是利用數(shù)據(jù)可能有的特殊結構,例如稀疏性,低維或低秩,光滑性等等。這些特性可以通過對模型作適當?shù)恼齽t化而實現(xiàn)。當然,降維方法也是主要方法之一??偠灾瑪?shù)據(jù)分析本質(zhì)上是一個反問題。因此,處理反問題的許多想法,如正則化,在數(shù)據(jù)分析中扮演了很重要的角色,這也正是統(tǒng)計學與統(tǒng)計力學的不同之處。統(tǒng)計力學處理的是正問題,統(tǒng)計學處理的是反問題。四、算法的重要性跟模型相輔相成的是算法以及這些算法在計算機上的實現(xiàn),特別是在數(shù)據(jù)量很大的情況下,算法的重要性就顯得尤為突出。從算法的角度來看,處理大數(shù)據(jù)主要有兩條思路。一是降低算法的復雜度,即計算量。通常我們要求算法的計算量是線性標度的,也就是說計算量跟數(shù)據(jù)量成線性關系。但很多關鍵的算法,尤其是優(yōu)化方法,還達不到這個要求。對特別大的數(shù)據(jù)集,例如說萬維網(wǎng)上的數(shù)據(jù)或社交網(wǎng)絡數(shù)據(jù),我們希望能有次線性標度的算法,也就是說計算量遠小于數(shù)據(jù)量。這就要求我們采用抽樣的方法。但怎樣對這樣的數(shù)據(jù)進行抽樣,比方說對社交網(wǎng)絡進行抽樣,仍還是一個未解決的問題。第二條思路是云計算,或并行計算,它的基本想法是把一個大問題分解成很多小問題,然后分而治之。著名的MapReduce軟件就是一個這樣的例子。下面舉幾個典型的算法方面的例子,這些例子來自于2006年IEEE國際數(shù)據(jù)挖掘會議所選舉出來的數(shù)據(jù)挖掘領域中的10個最重要的算法。1)k-平均(k-means)方法。這是對數(shù)據(jù)作聚類的最簡單有效的方法。2)支持向量機。一種基于變分(或優(yōu)化)模型的分類算法。3)期望最大化(EM)算法。這個算法的應用很廣,典型的是基于極大似然方法(maximumlikelihood)的參數(shù)估計。4)谷歌的網(wǎng)頁排序算法,PageRank。它的基本想法是:網(wǎng)頁的排序應該是由網(wǎng)頁在整個互聯(lián)網(wǎng)中的重要性決定,從而把排序問題轉換成一個矩陣的特征值問題。5)貝葉斯方法。這是概率模型中最一般的迭代法框架之一,它告訴我們怎樣從一個先驗的概率密度模型,結合已知的數(shù)據(jù)來得到一個后驗的概率密度模型。6)k-最近鄰域方法。用鄰域的信息來作分類,跟支持向量機相比,這種方法側重局部的信息,支持向量機則更側重整體的趨勢。7)AdaBoost。這個方法通過變換權重,重新運用數(shù)據(jù)的辦法,把一個弱分類器變成一個強分類器。其它的方法如決策樹方法和用于市場分析的Apriori算法,以及用于推薦系統(tǒng)的合作過濾方法等。就現(xiàn)階段而言,對算法的研究被分散在兩個基本不相往來的領域里:計算數(shù)學和計算機科學。計算數(shù)學研究的算法基本上是針對像函數(shù)這樣的連續(xù)結構,其主要的應用對象是微分方程等,計算機科學處理的主要是離散結構,如網(wǎng)絡,而數(shù)據(jù)的特點介于兩者之間。數(shù)據(jù)本身當然是離散的,但往往數(shù)據(jù)的背后有一個連續(xù)的模型。所以要發(fā)展針對數(shù)據(jù)的算法,就必須把計算數(shù)學和計算機科學研究的算法有效地結合起來。五、對學科發(fā)展的影響回到本章的主題,數(shù)據(jù)科學對學科發(fā)展提供了前所未有的機遇和挑戰(zhàn),要充分利用好這個機會,我們就必須建立起一套新的科學和教育體系。在大學的層面,要賦予數(shù)據(jù)科學其應有的地位,建立起跨學科,全方位的數(shù)據(jù)科學研究平臺;進一步完善和企業(yè)合作創(chuàng)新的機制;培養(yǎng)適應學術界和企業(yè)界需求的數(shù)據(jù)科學人才。數(shù)據(jù)科學也將對許多傳統(tǒng)學科的發(fā)展帶來極大的影響。首先是對數(shù)學,數(shù)學的發(fā)展主要來自兩個方面的推動力:一是來自數(shù)學內(nèi)部,學科自身的完善帶來的推動;二是來自外部,由其它學科,社會或工業(yè)發(fā)展的需要而帶來的推動。就目前的現(xiàn)狀而言,第一方面的推動力對數(shù)學的影響要遠遠超過第二方面的推動力,這樣造成的結果是,一方面,數(shù)學作為一門學科,其重要性已經(jīng)得到廣泛的認可,而另一方面,數(shù)學家作為一個群體,其對社會和科學整體發(fā)展的影響卻難以得到承認。在很多學校以及在整個科學界,數(shù)學家這個群體正顯得越來越孤立,這就是為什么數(shù)學家們經(jīng)常發(fā)現(xiàn)自己處在一個很尷尬的位置,這是一件極為不幸的事情,它不僅大大影響了數(shù)學的發(fā)展,更是影響其它學科、技術乃至社會的發(fā)展。事實上,至少在理論研究方面,很多學科的瓶頸問題都是數(shù)學問題,這在近一百年前狄拉克就已經(jīng)指出來了(參見前文)。所以在很多學科里,我們看見的都是非數(shù)學出生的科學家在進行數(shù)學方面的研究。數(shù)學家們?yōu)槭裁床簧糜趲椭鉀Q其它學科的問題呢?在自然科學領域,有一個基本的原因,那就是要解決自然科學的問題,首先要有基本原理,也就是通常所說的模型,我們把它們叫做數(shù)學模型。但實際上這些模型都是來自于物理學的基本原理,對數(shù)學家們來說,這是一個基本障礙。數(shù)據(jù)科學不一樣,如前所述,數(shù)據(jù)科學的基本原理本身就來自于數(shù)學。所以數(shù)據(jù)科學在數(shù)學和實際應用之間建立起了一個直接的橋梁。而這些實際應用正是來自于象信息服務等現(xiàn)代產(chǎn)業(yè)中最為活躍的一部分,這對數(shù)學來說,實在是一個千載難逢的機會。不僅如此,數(shù)據(jù)的分析幾乎涉及到了現(xiàn)代數(shù)學的所有分支,甚至于像表示論這樣的極其抽象的分支,在數(shù)據(jù)的領域也有其發(fā)揮作用的余地。所以數(shù)據(jù)科學對數(shù)學的要求和推動是全面的,而不是僅僅局限在幾個領域。數(shù)據(jù)應該成為數(shù)、圖形和方程之外數(shù)學研究的基本對象之一。數(shù)據(jù)科學對計算機科學的發(fā)展也會帶來很大的影響,圖靈獎得主JohnHopcroft曾經(jīng)指出,在過去的幾十年里,計算機科學的研究對象主要是計算機本身,包括硬件和軟件,以后計算機科學的發(fā)展將主要圍繞著應用展開,而從計算機科學自身來看,這些應用領域提供的主要研究對象就是數(shù)據(jù)。雖然計算機科學一貫重視數(shù)據(jù)的研究,但數(shù)據(jù)在其中的地位將會得到更進一步的加強。再看統(tǒng)計,統(tǒng)計一直就是一門研究數(shù)據(jù)的學科,所以它也是數(shù)據(jù)科學最核心的部分之一。但在數(shù)據(jù)科學的框架之下,統(tǒng)計的發(fā)展也會受到很大的沖擊,這種沖擊至少表現(xiàn)在兩個方面。一是關于數(shù)據(jù)的模型將會跳出傳統(tǒng)的統(tǒng)計模型的框架。更一般的數(shù)學概念,如拓撲、幾何和隨機場的概念將會在數(shù)據(jù)分析中扮演重要的角色。二是算法和計算機上的實現(xiàn)將成為研究的中心課題之一,這在前面已經(jīng)討論過,這里不再重復。應該說,在很長的一段時間里,統(tǒng)計這門學科沒有受到足夠的重視。普林斯頓大學還取消了統(tǒng)計系。近年來,學術界和應用領域都已經(jīng)逐漸地認識到統(tǒng)計的重要性,許多學校都有計劃要發(fā)展統(tǒng)計,但苦于難以吸引到高質(zhì)量的統(tǒng)計人才。如果把視野拓寬一點,我們就會發(fā)現(xiàn),發(fā)展數(shù)據(jù)科學則是更加有利的做法,因為它既更加適應未來的需要,又能盡快地把應用數(shù)學、計算數(shù)學和計算機科學等學科中的有生力量調(diào)動起來以開展工作。表9-4數(shù)據(jù)科學的學科框架生物信息學,計算社會學,天體信息學,金融學生物信息學,計算社會學,天體信息學,金融學數(shù)學,計算機科學,統(tǒng)計六、對傳統(tǒng)學科的沖擊這里我們舉兩個例子。一個是社會學的例子,作為社會科學的一個分支,社會學一直是一門基于數(shù)據(jù)的學科,大到國家和社會層面的數(shù)據(jù),小到家庭和個人的數(shù)據(jù),這些是社會學研究的基本資料,從這個角度來看,社會學和數(shù)據(jù)之間的關系不是什么新的現(xiàn)象。但即便如此,數(shù)據(jù)科學的興起仍然對社會學的研究有著巨大的影響,這至少表現(xiàn)在如下幾個分面:一是社交網(wǎng)絡的產(chǎn)生和網(wǎng)絡科學的研究為社會學帶來了一個新的研究層面,即介觀層面。這不僅給社會學提供了新的研究方向,而且也給社會學的研究提供了新的實用價值,如信息傳播,廣告投放,熱點分析等。二是使社會學的研究進一步量化、去經(jīng)驗化。在過去很長的時間里,由于數(shù)據(jù)的稀缺,社會學在很大程度上是一門經(jīng)驗科學,大量數(shù)據(jù)資源的獲取為社會學的更進一步量化提供了可靠的途徑。三是更多更加嚴密和系統(tǒng)的科學方法被引進到社會學的研究中,如數(shù)據(jù)采集的方法。北京大學中國社會調(diào)查中心所開展的家庭訪問調(diào)查就是一個很好的例子,他們不但注重調(diào)查中問答的結果,同時也記錄了調(diào)查過程的數(shù)據(jù),這樣嚴密的科學方法一定會給社會學的研究帶來極大的影響。在人們眼里,社會學往往不是一門技術型的或實用型的學科,但隨著社會學的進一步的量化,人們對社會學的看法將會發(fā)生很大的變化,在不遠的未來,社會學的研究將對產(chǎn)品推銷,信息傳播和輿情預警等實用領域產(chǎn)生深刻的影響。我們要談的第二個例子是語言學。跟社會學一樣,語言學在歷史上也是一個離實用技術比較遠的學科,但近年來蓬勃發(fā)展起來的機器翻譯,自然語言處理,語言識別,文本分析等技術給語言學的實際應用提供了一個絕好的機會。但值得注意的是,在所有這些領域,基于概率模型的處理方法的有效性遠遠超過了基于文法的處理方法的有效性,這對傳統(tǒng)的語言學來說,不能不說是一個非常令人失望的結果。在麻省理工學院成立一百五十周年的一個紀念會上,當代語言學的奠基人喬姆斯基教授針對這一問題提出了他的看法,他認為概率模型的成功是有限的,而且其成功只是僅僅局限于逼近未被分析的數(shù)據(jù)這一方面。他的言下之意是說概率模型只是技術上的成功,不能算作是傳統(tǒng)科學意義上的成功,因為它沒有給傳統(tǒng)的語言學問題如文法問題,帶來新的認識。應該說,這種看法是比較保守的,按照這種邏輯,生物信息學也只是工程上的成功,不是科學意義上的成功。按照前文的說法,自然語言的概率模型可以看成是一種開普勒模式的做法,而喬姆斯基只認可牛頓模式??茖W發(fā)展的歷史已經(jīng)告訴我們,這兩種模式都十分重要,而具體到語言學來說,承認并認真應對概率模型的成功才是真正可取的方法。七、新學科的誕生:計算廣告學廣告有著十分悠久的歷史,但它一直都很難算得上是一門科學,尤其是在中國,由于管理上的漏洞,最典型的廣告,就是在媒體上,特別是在電視上,由各種各樣的明星說上幾句不負責任的話。近年來,由于雅虎,谷歌等搜索引擎選擇商業(yè)廣告作為其主要贏利模式,一門新的學科,計算廣告學,由此而誕生。計算廣告學所處理的主要問題是怎樣有針對性地投放廣告?;ヂ?lián)網(wǎng)上的廣告有兩個最基本的指標:點擊率和轉換率。點擊率是廣告被點擊的概率。轉換率是廣告被點擊以后引起商品成交的概率。由于后者更難估計,所以互聯(lián)網(wǎng)上的廣告往往以點擊率作為主要指標。這就要求我們根據(jù)用戶提供的信息,比方說其所輸入的關鍵詞,預測不同廣告的點擊率。這是計算廣告學的一個基本問題。解決這個問題的主要想法就是構造一個utility函數(shù)來估計用戶對不同廣告感興趣的程度。目前像斯坦福大學,加州大學伯克利分校等重要學校都已開設了計算廣告學這門課。美國國家基金委所屬的幾個數(shù)學研究所之一,地處北卡州的統(tǒng)計與應用數(shù)學研究所也針對計算廣告學舉辦了專題研討會。八、科學能從谷歌那兒學到什么?這是2008年美國“連線”雜志(WiredMagzine)主編安德森在他的一篇評論文章(Theendoftheory:Thedatadelugemakesthescientificmethodobsolete,WiredMagazine,06.23.08)結尾時的問話。的確,谷歌不僅僅是信息產(chǎn)業(yè)界成功的典范,同時還是數(shù)據(jù)科學領域的先鋒和開拓者。谷歌的成長史是一部創(chuàng)新和開拓的歷史。谷歌的起步是關于網(wǎng)頁搜索排序的新概念和算法。谷歌之前,已經(jīng)有了其它的搜索引擎,最著名的是雅虎。但所有這些引擎都沒有解決好對搜索結果作排序的問題,佩奇和布林的想法是把網(wǎng)絡的結構利用起來。事實上,每個網(wǎng)頁都是互聯(lián)網(wǎng)上的一個節(jié)點,他們不是孤立的,不同的網(wǎng)頁之間通過超鏈接聯(lián)系在一起。如果一個網(wǎng)頁有很多超鏈接指向它,就說明它具有權威性,應該排在前面。怎樣給網(wǎng)頁的權威性一個定量的刻劃呢?設想一個醉漢在互聯(lián)網(wǎng)上作隨機游動,他訪問得最多的網(wǎng)頁就最具有權威性。這樣就可以把網(wǎng)頁排序的問題描述成為一個由互聯(lián)網(wǎng)結構而派生出來的馬氏鏈的不變測度的問題,也就是一個轉移矩陣的特征值問題,這就是佩奇關于網(wǎng)頁排序的基本想法。通過這種想法,佩奇和布林大大提高了互聯(lián)網(wǎng)搜索結果的質(zhì)量。谷歌也是第一個將云計算由概念變?yōu)楝F(xiàn)實的企業(yè)。不言而喻,谷歌從一開始就需要處理大量的網(wǎng)頁。它最初開發(fā)云計算的目的是建立一個能把大量的廉價服務器集合在一起,以完成大型計算和存儲的功能,這個平臺必須是可擴展的,并行的,并且允許其中一些服務器出現(xiàn)故障。為了達到這一目的,谷歌開發(fā)了一系列的新技術和新的數(shù)據(jù)存儲模式,其中包括谷歌文件系統(tǒng)(GoogleFileSystem),MapReduce等。這些新概念和新技術已成為大數(shù)據(jù)處理的標準方法。與此同時,谷歌也建立起了面向未來的數(shù)據(jù)中心和云計算平臺。這些基礎設施使得谷歌在信息服務產(chǎn)業(yè)高居著一個得天獨厚的位置。谷歌之所以能做到這些,最根本的一點是它高瞻遠矚的眼光和胸懷。谷歌創(chuàng)始人佩奇和布林認識到,谷歌的根本利益在于互聯(lián)網(wǎng)能否成為普通大眾生活中必不可少的工具。做好了這一點,谷歌的商業(yè)利益就自然而然地來了。為做到這一點,谷歌堅持了由雅虎開創(chuàng)的互聯(lián)網(wǎng)免費的原則,這個原則對互聯(lián)網(wǎng)的普及起到了最為關鍵的作用。事實上,谷歌的商業(yè)模式也是可圈可點的,它的贏利是靠互聯(lián)網(wǎng)廣告,而不是靠對用戶的收費。在谷歌之前,Overture公司就已經(jīng)在開展互聯(lián)網(wǎng)廣告業(yè)務,但谷歌把互聯(lián)網(wǎng)廣告推到了更高的層次。谷歌開發(fā)的Adwords系統(tǒng),是計算廣告學最早的實踐典范?;ヂ?lián)網(wǎng)是一個極大的資源,一個由全世界的億萬網(wǎng)民共同構建的資源。而谷歌這樣的公司,通過構建一系列新的概念和技術平臺,十分有效地把這些資源變成了他們自己的資源。而在此同時,又給全世界的網(wǎng)民提供了十分有益的服務。谷歌的例子,是創(chuàng)新和產(chǎn)業(yè)發(fā)展密切結合、相互推動最成功的例子。九、數(shù)據(jù)科學的教育體系在數(shù)據(jù)科學領域里工作的人才需要具備兩方面的素質(zhì):一是概念性的,主要是對模型的理解和運用;二是實踐性的,主要是處理實際數(shù)據(jù)的能力。培養(yǎng)這樣的人才,需要數(shù)學、統(tǒng)計和計算機科學等學科之間的密切合作,同時也需要和產(chǎn)業(yè)界或其他擁有數(shù)據(jù)的部門之間的合作。目前還沒有任何一所高校具有這樣的平臺。數(shù)據(jù)科學的教育體系應該包括如下幾方面的內(nèi)容:1)數(shù)學的基礎知識。除了微積分、線性代數(shù)和概率論這三大基礎中的基礎以外,還需要隨機過程、函數(shù)逼近論、圖論、拓撲學、幾何、變分法、群論等方面的基礎知識。目前,可能還不是所有人都能看到這些內(nèi)容跟數(shù)據(jù)的直接關系。但隨著數(shù)據(jù)科學的不斷深入發(fā)展,他們的作用會越來越明顯。這些內(nèi)容也不需要一門一門地教。數(shù)學系應該開出一些新的“高等數(shù)學”課程來覆蓋這些方面的內(nèi)容。2)計算機科學的基本知識,如計算機語言、數(shù)據(jù)庫、數(shù)據(jù)結構、可視化技術等。3)算法方面的基本知識,包括數(shù)值代數(shù)、函數(shù)逼近、優(yōu)化、蒙特卡洛方法、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論