機器學習研究引言_第1頁
機器學習研究引言_第2頁
機器學習研究引言_第3頁
機器學習研究引言_第4頁
機器學習研究引言_第5頁
已閱讀5頁,還剩90頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

中國科學院自動化研究所NII計劃與現(xiàn)實不分地域地、方便地獲得與傳輸信息。不分地域地、有效地共享硬軟資源。有效地利用信息,以提高生產(chǎn)率。保證信息安全。以瀏覽器為核心技術的“方便獲得信息”的研究,使得人們已可以從不同地域方便地獲得信息。但是,在網(wǎng)絡上與提高生產(chǎn)率有關的信息的有效使用率甚至低于1%。安全沒有保證?!拔覀冃畔⒑芏?,但是,知識很少”。中國科學院自動化研究所挑戰(zhàn)的問題我們面臨挑戰(zhàn)性問題——“如何有效將信息轉變?yōu)榭梢岳玫闹R”根據(jù)不同需求,獲得有用信息,過濾無用信息機器學習是解決這個問題的重要途徑之一中國科學院自動化研究所機器學習與美國的PAL計劃2001年,美國航空航天局JPL實驗室的科學家在《Science》上撰文指出:機器學習對科學研究的整個過程正起到越來越大的支持作用,……,該領域在今后的若干年內將取得穩(wěn)定而快速的發(fā)展。中國科學院自動化研究所討論的問題機器學習的一般說明機器學習發(fā)展中的重要結果近期機器學習的發(fā)展趨勢機器學習研究中的難題激動人心的時代與危險課程設置中國科學院自動化研究所經(jīng)典機器學習的基本假設基本假設:假設y=F(x)是問題世界的模型,z=N(x)是觀測環(huán)境噪音,樣本集是在噪音環(huán)境下,經(jīng)過有限次觀察,從問題世界獲得的一組觀測數(shù)據(jù),記為,S(z,{xk,yk})。它是問題世界所有可能觀測數(shù)據(jù)的一個子集。幾乎所有經(jīng)典機器學習算法需要滿足這個基本假設中國科學院自動化研究所經(jīng)典機器學習的基本任務機器學習:從樣本集S(z,{xk,yk})學習(估計)一個假設f(x),使得f(x)是問題世界模型F(x)的一個近似。機器學習的任務:從S計算一個f(x),使得在輸入輸出意義下逼近F(x)。過濾觀測環(huán)境附加在數(shù)據(jù)上的噪音。中國科學院自動化研究所對經(jīng)典機器學習假設的解釋樣本集僅僅是定義在確定問題世界上的特例,除了獨立于問題世界的觀測噪音,不包含其他信息(精心設計實驗)。數(shù)據(jù)單純解答是問題世界的近似,即,對特定目標過濾噪音后的最優(yōu)解(建模與過濾)。樣本集是從確定問題世界獲得,是在統(tǒng)計意義下可以覆蓋問題世界的特例集合(數(shù)量與分布)。樣本稠密解答最優(yōu)樣本集格式標準,可使用命題形式表述。格式標準中國科學院自動化研究所機器學習方法涉及下述三個要素:(1)觀測對象;(2)觀測對象構成的樣本集合。(3)獲得模型。中國科學院自動化研究所對象對問題世界的一次觀察的記錄,稱為這個問題世界中的一個對象。中國科學院自動化研究所樣本集合令W是問題世界的有限或無限所有對象的集合,由于我們觀察能力的限制,我們只能獲得這個世界的一個有限的子集QW,稱為樣本集(訓練集)。中國科學院自動化研究所機器學習的說明機器學習就是根據(jù)樣本集,推算這個世界的模型,使其對這個世界W在一定概率下為真。中國科學院自動化研究所“模型”的注釋:數(shù)學模型:黑箱方法(機器學習)。物理模型:白箱方法。其區(qū)別:(1)更為簡潔且模型的每個部分與物理世界相對應。(2)對世界確定為真。中國科學院自動化研究所“說明”暗示的三個問題一致性假設:機器學習的條件。建立模型:決定模型對樣本集合的有效性。泛化能力:決定模型對世界的有效性。中國科學院自動化研究所三個問題一致性假設建立模型泛化能力假設世界W與樣本集Q有相同的性質。例如,iid條件。原則上,存在各種一致性假設。假設一個基函數(shù),計算其參數(shù),獲得對樣本集合的模型,使得模型對給定目標函數(shù)誤差最小。從有限樣本集合,計算一個模型,泛化能力是這個模型對世界為真程度的指標。中國科學院自動化研究所建立模型的問題分類問題算法基礎:樣本集放到n維空間,找一個決策分界面,使得問題決定的不同對象分在不相交的區(qū)域。假設從樣本集合估計的模型為Y=f(

X)。Y定義的空間不同將導致完全不同的學習類型。回歸問題算法基礎:樣本集放到一個n維空間,計算一個曲面,使得所有對象與這個曲面的距離之和最小。Y定義為空集:無監(jiān)督學習。Y定義為有限整數(shù)集:分類學習。Y定義為實數(shù)域:回歸學習。Y定義為有缺損:半監(jiān)督學習。Y定義為序集合:LearningforRanking。中國科學院自動化研究所不同時期,關注不同早期研究主要集中在建立模型上近期的研究,在考慮高效建立模型(多項式算法)的基礎上,要求模型必須滿足泛化能力的條件未來的研究,必須考慮一致性假設中國科學院自動化研究所討論的問題機器學習的一般說明機器學習發(fā)展中的重要結果近期機器學習的發(fā)展趨勢機器學習研究中的難題激動人心的時代與危險課程設置中國科學院自動化研究所機器學習的神經(jīng)科學基礎19世紀末,James的神經(jīng)系統(tǒng)結構。20世紀中期,McCulloch和Pitts的神經(jīng)元工作方式。20世紀中期,Hebb的學習律。中國科學院自動化研究所James對計算的意義神經(jīng)系統(tǒng)的結構:神經(jīng)元是互相連接。這個事實使得我們可以建立基于神經(jīng)系統(tǒng)機器學習的的數(shù)學模型。Y=WX其中,X是多個神經(jīng)元的輸入矢量,Y是神經(jīng)元輸出,W是輸入與輸出神經(jīng)元之間聯(lián)結強度的矢量(矩陣)。中國科學院自動化研究所MP對計算的意義神經(jīng)元的工作方式是“興奮”和“抑制”。這個發(fā)現(xiàn)不僅對神經(jīng)科學有重要的科學意義,而且是近代技術的科學基礎,特別是計算機科學,0與1表示就受啟于此。由此,機器學習模型變?yōu)椋篩=sign(WX)中國科學院自動化研究所Hebb對計算的意義如果兩個神經(jīng)元之間的連接對正確識別有利,增強其連接強度(w>0),反之,減弱其連接強度(w<0)。wj+1=wj+w其中,w=(t-o)xi,稱為學習率。中國科學院自動化研究所機器學習早期研究Rosenblatt的感知機(1956)Widrow的Madline

(1960)Samuel的符號機器學習(1965)Minsky的“Perceptron”著作(1969,1988)中國科學院自動化研究所感知機模型根據(jù)樣本集合,計算一個決策平面(線性),將屬于不同類別的樣本劃分到空間的不同區(qū)域。Hebb學習律暗示可以使用調整神經(jīng)元連接權值的方法,達到上述目的。其缺點是:不能解決線性不可分問題。中國科學院自動化研究所對感知機的批評(Minsky)不能解決復雜問題的方法是無用的(必須解決非線性問題)。只能解決玩具世界問題的算法是無用的(必須解決大規(guī)模問題)。這是兩個相互矛盾的目標!中國科學院自動化研究所Madline模型在數(shù)學上,其本質是放棄感知機對樣本空間劃分的決策分界面需要滿足連續(xù)且光滑的條件,代之分段的決策分界面。中國科學院自動化研究所對Madline模型的批評在平面存在n個點,總可以最多使用n-1條線將其分開。解可能是平凡的。不存在對時間與空間是多項式復雜性的算法,使得對空間上樣本的劃分所使用的決策分界面?zhèn)€數(shù)最少。中國科學院自動化研究所符號機器學習的歷史1959年,Solomonoff關于文法歸納的研究應該是最早的符號機器學習。1967年,Gold證明,這是不可能的實現(xiàn)的。1967年,Samuel將分段劃分引入對符號域的數(shù)據(jù)分析。由此,演變?yōu)橐活惢诜枖?shù)據(jù)集合的約簡算法,這是現(xiàn)代符號機器學習的基礎。中國科學院自動化研究所符號機器學習的限制算法定義在符號域,連續(xù)量必須被映射到這樣的域上,算法才有效。然而,設計一個普適的映射十分困難,甚至是不可能的。學習算法泛化能力的刻畫,依賴模型的描述長度,描述長度越短,覆蓋對象越多,泛化能力越強。中國科學院自動化研究所“Percetron”1969年,Minsky與Papert出版了引起機器學習領域以后近二十年研究方向巨變的著作:“Perceptron”。誤解:這本書中提出了XOR這個open問題,從而終止了感知機的研究方向。中國科學院自動化研究所Minsky的建議與理想直觀性:算法設計應基于幾何方法,而不是代數(shù)方法。有效性:算法的時間空間復雜性是多項式的,以使之可以解決實際世界中的問題,而不是玩具世界中的問題。暗示:不依賴領域知識的機器學習的一般性方法,可能均將遇到困難。中國科學院自動化研究所重要貢獻盡管Minsky沒有涉及“泛化對算法設計指導”的問題,但是,暗示“以劃分為基礎的算法應該在線性空間設計”的主張足以使他在機器學習發(fā)展史中占有重要的一席之地。暗示,領域知識在建立模型的重要性。中國科學院自動化研究所二十世紀八十年代的研究主要集中在以非線性劃分算法為目標的研究。蘊含著機器學習新的統(tǒng)計方法。中國科學院自動化研究所三個重要進展符號機器學習取得進展。神經(jīng)網(wǎng)絡的研究。計算學習理論---PAC(概率近似正確)。中國科學院自動化研究所符號機器學習進展帶等號的邏輯演算算法(AQ11),稱為覆蓋算法(Michalski,1979)。基于距離方法:基于拓撲(劃分)方法:樹結構表示的概念學習系統(tǒng)(Hunt,1966)。決策樹算法(ID3,C4.5),稱為分治算法(Quinlan,1986)。中國科學院自動化研究所神經(jīng)網(wǎng)絡Hopfield模型。Kohonen模型。Goldberg的ART模型。……。最有影響的是Remulhart等人提出的BP算法(1986)。中國科學院自動化研究所BP算法轟動與引人注目的原因:解決了Minsky提出的關于機器學習的open問題(Minsky不以為然)。這項研究的意義是為研究者回歸感知機做好了輿論的準備。其在科學上的意義,遠不如提示人們再次注意感知機的作用更大。中國科學院自動化研究所計算學習理論1984年,Valiant提出機器學習應該以模型概率近似正確(1-

)為指標,而不是以概率為1為指標。學習算法復雜性必須對樣本集合的規(guī)模呈多項式。統(tǒng)計機器學習、集群機器學習等方法的理論基礎。連接機器學習符號機器學習遺傳機器學習分析機器學習機器學習研究的變遷統(tǒng)計機器學習集群機器學習符號機器學習增強機器學習Carbonell(1989)展望Dietterich(1997)展望?流形機器學習半監(jiān)督機器學習關系學習多實例機器學習Ranking機器學習規(guī)則+例外學習數(shù)據(jù)流機器學習應用驅動的機器學習研究中國科學院自動化研究所對符號機器學習的說明盡管經(jīng)過十年,符號機器學習被保留,然而,其目標已發(fā)生很大的變化。泛化目標變?yōu)閿?shù)據(jù)描述(符號數(shù)據(jù)分析)。對算法處理能力:一般規(guī)模的數(shù)據(jù)集合變?yōu)榫哂猩习賹傩猿^十萬對象的數(shù)據(jù)集合。中國科學院自動化研究所對統(tǒng)計機器學習的說明從神經(jīng)網(wǎng)絡的研究變?yōu)榻y(tǒng)計機器學習與集群機器學習。從非線性算法變?yōu)橐跃€性算法為主。必須考慮泛化能力。中國科學院自動化研究所對增強機器學習的說明十年前的遺傳算法被考慮為增強機器學習的一個子類。更加關注隨時間變化數(shù)據(jù)的分析與建模。過程分析成為主流:Markov與其他方法被使用,例如,GameTheory。中國科學院自動化研究所分析機器學習被拋棄分析機器學習對背景知識的要求,使得它成為推理的研究課題,逐漸淡出機器學習研究的視野(有時會以其他形式出現(xiàn))。大量其他方法提出:流形機器學習以及各種任務驅動的機器學習正在研究。中國科學院自動化研究所討論的問題機器學習的一般說明機器學習發(fā)展中的重要結果近期機器學習的發(fā)展趨勢機器學習研究中的難題激動人心的時代與危險課程設置中國科學院自動化研究所近期機器學習研究理論驅動(1)表示問題(2)泛化問題(3)先驗知識問題(4)快速計算問題問題驅動(1)自然語言、DNA數(shù)據(jù)、網(wǎng)絡與電信數(shù)據(jù)、圖像數(shù)據(jù)、金融與經(jīng)濟數(shù)據(jù)、零售業(yè)數(shù)據(jù)、情報等領域的數(shù)據(jù)分析。(2)Web信息的有效獲取(新一代搜索引擎)。問題驅動的機器學習研究(基礎類型)觀測數(shù)據(jù)不能決定其類別標號,需要根據(jù)已知類別標號的樣本與領域知識來推測。例如,醫(yī)學影像,質譜蛋白質結構分析。半監(jiān)督學習Semi-supervisedlearning

很多問題的表示方法,使得信息十分稀疏,且具有強的非線性特性,將信息稠密化、可視化是重要任務。例如,圖像、文本等處理。流形學習ManifoldLearning數(shù)據(jù)存儲在關系數(shù)據(jù)庫中,它們不能表示為屬性-值表形式。只能使用一階謂詞來描述,例如,金融數(shù)據(jù)分析。關系學習Relationallearning

問題驅動的機器學習研究(應用類型)一個對象同時有多個描述,不知道哪個描述是決定對象性質(例如類別),“對象:描述:類別”之間呈現(xiàn)1:N:1關系。例如,基因功能分析。假設用戶的需求不能簡單地表示為“喜歡”或“不喜歡”,而需要將“喜歡”表示為一個順序,如何學習獲得這個“喜歡”順序的模型。例如,信息檢索。多示例學習Multi-instancelearning

Ranking學習Learningforranking

從用戶節(jié)點流過的數(shù)據(jù)巨大,但大多數(shù)無意義,例如,網(wǎng)絡信息分析。數(shù)據(jù)流學習Datastreamlearning

模型重要,不滿足模型的個例更為重要,例外相對特定模型存在。例如,科學與情報數(shù)據(jù)分析。規(guī)則+例外學習Rule+ExceptionLearning中國科學院自動化研究所研究現(xiàn)狀上述的機器學習范式還處于實驗觀察階段,沒有堅實的理論基礎!這些范式主要以任務為驅動力,大多數(shù)采用的方法是傳統(tǒng)機器學習的方法應用效果還不十分明顯中國科學院自動化研究所理論問題驅動表示問題:某個問題世界已被我們認識,即找到了一個空間,這個問題世界可以在這個空間上線性表示。泛化問題:某個算法保證從有限數(shù)據(jù)集合建立的模型,在一定概率意義下,對問題世界為真。先驗知識問題:沒有免費的午餐!不能指望存在對所有問題世界普適的一般方法??焖儆嬎銌栴}:數(shù)學工具的選擇?!巴負?劃分)”保證對數(shù)據(jù)內在結構的刻畫,“距離”保證局部的計算。中國科學院自動化研究所表示問題---線性表示計算:非線性算法一般是NP完全的假設空間:使得非線性問題在這個空間上線性表示。尋找具有一般意義的線性空間(方法)。目前,機器學習主要采用兩種方法:整體線性,分段線性化(類似)。中國科學院自動化研究所例子1牛頓萬有引力定律:映射:線性表示:中國科學院自動化研究所例子2xy0001例子:XOR問題:映射:(x,y)(x,xy,y)線形表示:中國科學院自動化研究所例子3由多個局部模型(只對問題世界某個局部為真的模型)構成一個空間(每個局部模型為這個空間的一個維度)。問題世界表示為這些局部模型的線性組合。例如,三個局部模型的情況。F(x)=f1(x)+f2(x)+f3(x)在一定條件下,這就是集群學習的基本思想。中國科學院自動化研究所SVM方法---核映射選擇映射,將在原空間(歐氏空間)的非線性問題映射到另一個空間(假設空間),使得這個非線性問題可以在假設空間上線性描述。這就是核映射的基礎。目前,主要是多項式基的Hilbert空間。似乎非線性問題已經(jīng)解決???中國科學院自動化研究所問題解決了嗎?線性化的代價?假設空間的維數(shù)需要多大的規(guī)模?例如,對n-XOR問題,如果在假設空間上的系數(shù)定義在{0,1}上,其維數(shù)是2n量級。維數(shù)災難!如果考慮系數(shù)定義在實數(shù)域上(使用BP解XOR問題就是一個例子),可以根據(jù)數(shù)據(jù)性質選擇映射,使得假設空間的維數(shù)可接受。這就是模型選擇問題。中國科學院自動化研究所DonaldO.HebbDonaldO.Hebb

1904---1985Hebb倡導多細胞集群學說,主張視覺客體是由相互關聯(lián)的神經(jīng)元集群來表象,并稱其為集群(ensemble)。Hebb關于神經(jīng)集群表象客體的學說是各種機器學習理論與技術的神經(jīng)科學基礎。集群之間學習率的研究至今還是神經(jīng)科學的熱門話題。我們企望獲得更多神經(jīng)科學的啟示。中國科學院自動化研究所Hebb啟示---兩類理念對機器學習,Hebb的啟示導致兩類理念。在數(shù)據(jù)集合定義的空間上,集群多個簡單神經(jīng)元,例如,MP神經(jīng)元,構成神經(jīng)網(wǎng)絡,形成問題世界模型。將數(shù)據(jù)集合通過不同模型(例如,神經(jīng)網(wǎng)絡)映射到假設空間,集群這些模型,構成問題世界模型。在神經(jīng)科學,上述兩種方法均可以稱為神經(jīng)元集群。對機器學習算法設計,則是兩件完全不同的事情!中國科學院自動化研究所數(shù)據(jù)空間的集群{,}…x1x2xkw1w2wky…x1x2xk{,}y1Rosenblatt的感知機(BP)Hebb的多個神經(jīng)元集群MP的神經(jīng)元集群ym{,}……假設MP模型為神經(jīng)元基本模型。感知機是對多個MP神經(jīng)元的集群。中國科學院自動化研究所假設空間的集群集群學習流形學習符號學習,等等。神經(jīng)元群集群假設1…x1x2xk{,}y1ym{,}……假設2…x1x2xk{,}y1ym{,}……假設3…x1x2xk{,}y1ym{,}……假設感知機(類似機制)模型為神經(jīng)元基本模型。集群學習是對多個感知機(類似機制)的集群。中國科學院自動化研究所總結性說明“非線性”是人們對未知事情的“統(tǒng)稱”,如果說某事已被理解,是說找到一個空間,在這個空間上,這件事情可以線性表述。據(jù)此,存在兩種不同的解決非線性問題的方法。尋找一個空間,將問題映射到這個空間,使得在這個空間上,問題呈現(xiàn)線性形式。尋找一個空間,問題的各子部分向這個空間的不同維上投影。使得在這個空間上,問題呈線性形式。升維降維中國科學院自動化研究所空間機器學習研究最本質的問題之一是問題描述空間問題。被選擇的映射空間不同,學習方法不同。例如:多項式基的Hilbert空間統(tǒng)計機器學習局部假設為基的空間集群機器學習保持拓撲的嵌入空間流形機器學習中國科學院自動化研究所理論問題驅動表示問題:某個問題世界已被我們認識,即找到了一個空間,這個問題世界可以在這個空間上線性表示。泛化問題:某個算法保證從有限數(shù)據(jù)集合建立的模型,在一定概率意義下,對問題世界為真。先驗知識問題:沒有免費的午餐!不能指望存在對所有問題世界普適的一般方法??焖儆嬎銌栴}:數(shù)學工具的選擇?!巴負?劃分)”保證對數(shù)據(jù)內在結構的刻畫,“距離”保證局部的計算。泛化問題---變遷Duda(1973)Vapnik(1971)樣本集:樣本個數(shù)趨近無窮大有限樣本,樣本集內部結構(VC維)泛化關系:模型與泛化隨機選擇樣本集的隨機變量樣本集、模型與泛化泛化能力描述:以概率為1成立以概率1-

成立泛化不等式:?(無法指導算法設計)最大邊緣(指導算法設計)中國科學院自動化研究所Duda的泛化能力描述(1973)以樣本個數(shù)趨近無窮大來描述模型的泛化能力。泛化能力需要使用世界W來刻畫(而不是有限觀測的樣本集)。不依賴樣本集合,是模型與泛化之間的關系。這是無法構造的判據(jù)。中國科學院自動化研究所Duda泛化理論的意義盡管,基于Duda泛化理論無法指導機器學習算法的設計,但是,它為模型檢驗奠定了統(tǒng)計的理論基礎。中國科學院自動化研究所有限樣本集的統(tǒng)計理論(Vapnik[1971])這個統(tǒng)計理論是從“有限樣本”建立模型,以估計其對世界為真的程度。關鍵:泛化誤差考慮為一個依賴從問題世界隨機選擇樣本集的隨機變量。樣本集和模型與誤差之間的關系,即,需要確定模型泛化誤差的界。研究泛化誤差界的目的,除了泛化能力估計之外,主要為了指導算法設計。中國科學院自動化研究所泛化能力研究的變遷主要反映在Duda與Vapnik兩種泛化能力的研究中:Duda:以樣本個數(shù)趨近無窮大來描述模型的泛化能力。泛化能力需要使用世界W來刻畫(而不是有限觀測的樣本集)。Vapnik:從“有限樣本”建立模型,以估計其對世界為真的程度。中國科學院自動化研究所Duda與Vapnik基于Vapnik的統(tǒng)計理論的泛化不等式,為在泛化指標下設計算法奠定了理論基礎然而,由于這個泛化不等式是在概率1-

成立(Duda理論是依概率1成立),因此,它不能代替Duda理論這暗示,Duda的對算法的檢驗步驟不能取消中國科學院自動化研究所最大邊緣(ShaweTaylor[1998])M>0,邊緣不能等于零。這意味著,樣本集合必須是可劃分的。邊緣最大,誤差界最小,泛化能力最強。泛化能力可以使用樣本集合的邊緣刻畫這個不等式依賴于邊緣M。貢獻:給出了有幾何直觀的界描述,從而為算法設計奠定基礎在算法設計上,我們的進步是什么?Duda條件樣本、屬性獨立同分布數(shù)據(jù)模型形式確定Vapnik條件樣本、屬性獨立同分布數(shù)據(jù)模型形式不確定(有限樣本)這就是我們的進步?!我們有效利用了這個進步嗎?我們利用庫函數(shù)計算高斯類核映射時,“進步”化為烏有!邊緣計算使得算法設計不必局限在代數(shù)方法上,直觀的幾何方法可以成為其基礎。另外,核映射方法可以部分糾正領域知識使用的隨意性。這些就是最重要的進步。中國科學院自動化研究所定理:如果一個概念是弱可學習的,充要條件是它是強可學習的這個定理證明是構造性的,派生了弱分類器的概念,即,比隨機猜想稍好的分類器這個定理說明:多個弱分類器可以集群為一個強分類器1990年,Schapire證明了一個定理,由此,奠定了集群機器學習的理論基礎弱分類器理論中國科學院自動化研究所

設D是原始樣本集合(1)從D中選取子集D1,根據(jù)D1訓練第一個分類器C1,只需其是一個弱分類器。(2)拋硬幣決定第二個樣本集D2.如果是正面,選取D中剩余的樣本用C1分類,一個被錯分的樣本加入D2;如果是反面,則選取一個被C1正確分類樣本。這樣,D2中一定在概率上有一半的樣本可以被C1正確分類,而另一半被C1錯誤分類。然后,利用D2訓練一個新的分類器C2.(3)構造第三個樣本D3.在D剩余的樣本中選取樣本,用C1和C2進行分類,如果C1和C2的分類結果不同,則把這個樣本加入D3,否則忽略此樣本。使用D3訓練新的分類器C3.遞歸地使用上述三個步驟.弱分類器的構造過程

中國科學院自動化研究所理論問題驅動表示問題:某個問題世界已被我們認識,即找到了一個空間,這個問題世界可以在這個空間上線性表示。泛化問題:某個算法保證從有限數(shù)據(jù)集合建立的模型,在一定概率意義下,對問題世界為真。先驗知識問題:沒有免費的午餐!不能指望存在對所有問題世界普適的一般方法??焖儆嬎銌栴}:數(shù)學工具的選擇?!巴負?劃分)”保證對數(shù)據(jù)內在結構的刻畫,“距離”保證局部的計算。中國科學院自動化研究所先驗知識必要性:維數(shù)災難。方法:拍腦袋方法(經(jīng)驗)對給定問題,尋找領域專家,請求這些專家提供他們的經(jīng)驗,以獲得知識。數(shù)據(jù)分析方法(數(shù)學)根據(jù)統(tǒng)計理論,對給定數(shù)據(jù)集合分析,給出合理的對特定數(shù)據(jù)集合有益的知識。盡管這是令計算機科學家相當厭惡的方法,但是,有時,我們不得不承認其有效性。中國科學院自動化研究所統(tǒng)計建模的兩種文化2001年,UCBerkeley的LeoBreiman在StatisticalScience上發(fā)表了一篇文章,“StatisticalModeling:TheTwoCultures”數(shù)據(jù)建模文化:經(jīng)典統(tǒng)計分析,98%贊同。算法建模文化:機器學習,2%贊同。

中國科學院自動化研究所說明文章的本意是向統(tǒng)計學家呼吁,鑒于各個領域對問題世界模型的關注,請他們關注統(tǒng)計建模的算法文化。我們的思考是:兩種文化的融合可能更為重要,其關鍵原因是,統(tǒng)計建模的算法文化受到維數(shù)災難的約束,它不得不求助于統(tǒng)計建模的數(shù)據(jù)文化,以獲得先驗知識。中國科學院自動化研究所理論問題驅動表示問題:某個問題世界已被我們認識,即找到了一個空間,這個問題世界可以在這個空間上線性表示。泛化問題:某個算法保證從有限數(shù)據(jù)集合建立的模型,在一定概率意義下,對問題世界為真。先驗知識問題:沒有免費的午餐!不能指望存在對所有問題世界普適的一般方法??焖儆嬎銌栴}:數(shù)學工具的選擇?!巴負?劃分)”保證對數(shù)據(jù)內在結構的刻畫,“距離”保證局部的計算。中國科學院自動化研究所拓撲結構與對象距離刻畫數(shù)據(jù)集合中樣本之間的拓撲結構與對象之間的距離是機器學習算法設計的基礎?;谕負浣Y構的算法基于距離的算法統(tǒng)計機器學習符號機器學習SMO經(jīng)典支持向量機樹結構算法,C4.5AQ11,差別矩陣序貫最小優(yōu)化(sequentialminimaloptimization,簡稱SMO)算法

中國科學院自動化研究所結合對算法設計,在數(shù)據(jù)集合的拓撲結構(樹或圖)上,將距離嵌入上述拓撲結構的某些局部。加入向低維空間的同胚映射,就是流形。優(yōu)點:對n>>m的情況,可以獲得快速算法。理由是考慮拓撲結構就意味著,有些樣本之間的距離無需計算,例如,SVM,“遠離”支持向量的樣本無需與其它樣本比較(計算距離),“遠離”就是拓撲結構。中國科學院自動化研究所討論的問題機器學習的一般說明機器學習發(fā)展中的重要結果近期機器學習的發(fā)展趨勢機器學習研究中的難題激動人心的時代與危險課程設置中國科學院自動化研究所困難問題信息稀疏問題。關系數(shù)據(jù)問題。需求問題。例外問題。等等維數(shù)災難:滿足一定統(tǒng)計指標(期望與方差)的模型(精度),需要的樣本數(shù)量將隨著維數(shù)的增加,指數(shù)增長(或模型復雜程度,或模型表示長度指數(shù)增長)。維數(shù)災難問題!(Curseofdimensionality,Bellman,1961)生物、金融與網(wǎng)絡等領域如此。中國科學院自動化研究所信息稀疏問題屬性巨大,樣本稀少。表現(xiàn)形式任務根據(jù)特定問題降維,使得信息稠密。是從數(shù)據(jù)集合中剝離一個稠密的問題世界。信息顆粒太細,解釋太多,維數(shù)災難!中國科學院自動化研究所關系數(shù)據(jù)問題任務對一階謂詞約束,以表示特定問題關系。為了表示簡潔,數(shù)據(jù)不能表示為屬性-值表的形式,需要關系數(shù)據(jù)形式。表現(xiàn)形式數(shù)據(jù)不能表示為命題形式,只能表示為一階謂詞形式。如果將其變換為命題表示,信息稀疏!中國科學院自動化研究所需求問題任務(1)無法精確描述需求,非精確到精確描述(2)對解空間有效搜索,以獲得需要的解答數(shù)據(jù)集合中包含多個有意義的解答。表現(xiàn)形式不同需求,目標函數(shù)不同,表示形式也不同(半監(jiān)督、Ranking、數(shù)據(jù)流、多示例等)。多個需求疊加的“平均”,無人需要!無人喝彩!中國科學院自動化研究所例外問題任務在特定需求下,建立不同信息長度的模型,并同時派生例外。模型與例外構成伴生形式。例外相對特定模型存在經(jīng)典方法是將不滿足模型的個例考

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論