機(jī)器學(xué)習(xí)大作業(yè)_第1頁
機(jī)器學(xué)習(xí)大作業(yè)_第2頁
機(jī)器學(xué)習(xí)大作業(yè)_第3頁
機(jī)器學(xué)習(xí)大作業(yè)_第4頁
機(jī)器學(xué)習(xí)大作業(yè)_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

機(jī)器學(xué)習(xí)大作業(yè)題目機(jī)器學(xué)習(xí)大報(bào)告學(xué)院電子工程學(xué)院專業(yè)學(xué)生姓名學(xué)號(hào)目錄TOC\u\t"標(biāo)題1,2,標(biāo)題2,3,標(biāo)題3,1"第一章機(jī)器學(xué)習(xí)的基本理論及算法 31.1機(jī)器學(xué)習(xí)的基本理論 31.1.1機(jī)器學(xué)習(xí)的概念 31.1.2機(jī)器學(xué)習(xí)的發(fā)展歷程 31.1.3機(jī)器學(xué)習(xí)的模型 41.2機(jī)器學(xué)習(xí)主要算法 51.2.1決策樹算法 51.2.2人工神經(jīng)網(wǎng)絡(luò) 61.2.3貝葉斯學(xué)習(xí)算法 71.2.4遺傳算法 81.2.5支持向量機(jī) 9第二章支持向量機(jī)(SVM)原理 112.1SVM的產(chǎn)生與發(fā)展 112.2統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ) 122.3SVM原理 122.3.1.最優(yōu)分類面和廣義最優(yōu)分類面 132.3.2SVM的非線性映射 162.3.3.核函數(shù) 17第三章支持向量機(jī)的應(yīng)用研究現(xiàn)狀 193.1應(yīng)用概述 193.2支持向量機(jī)的應(yīng)用 193.2.1人臉檢測(cè)、驗(yàn)證和識(shí)別 193.2.2說話人/語音識(shí)別 203.2.3文字/手寫體識(shí)別 203.2.4圖像處理 203.2.5其他應(yīng)用研究 21第四章基于SVM的實(shí)例及仿真結(jié)果 234.116棋盤格數(shù)據(jù)分類 234.2UCI中iris數(shù)據(jù)分類 25第一章機(jī)器學(xué)習(xí)的基本理論及算法1.1機(jī)器學(xué)習(xí)的基本理論1.1.1機(jī)器學(xué)習(xí)的概念機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,是現(xiàn)代計(jì)算機(jī)技術(shù)研究一個(gè)重點(diǎn)也是熱點(diǎn)問題。顧名思義,機(jī)器學(xué)習(xí)就是計(jì)算機(jī)模仿人類獲取知識(shí)的模式,通過建立相應(yīng)的模型,對(duì)外界輸入通過記憶"歸納"推理等等方式,獲得有效的信息和經(jīng)驗(yàn)總結(jié),進(jìn)而不斷的自我完善,提高系統(tǒng)的功能。目前,機(jī)器學(xué)習(xí)的定義尚不統(tǒng)一,不同專業(yè)背景的學(xué)者出于不同的立場(chǎng),對(duì)于機(jī)器學(xué)習(xí)的看法是不同的。下面主要介紹兩位機(jī)器學(xué)習(xí)專業(yè)研究者賦予機(jī)器學(xué)習(xí)的定義。蘭利(P.Langley)認(rèn)為:“機(jī)器學(xué)習(xí)是一門人工智能的科學(xué),該領(lǐng)域的主要研究對(duì)象是人工智能,特別是如何在經(jīng)驗(yàn)學(xué)習(xí)中改善具體算法的性能”。米切爾(T.M.Mitchell)在其著作《機(jī)器學(xué)習(xí)》中談到“機(jī)器學(xué)習(xí)”關(guān)注的問題是“計(jì)算機(jī)程序如何隨著經(jīng)驗(yàn)積累自動(dòng)提高自身的性能”,也就是主要指的是歸納學(xué)習(xí),另外“分析學(xué)習(xí)和增強(qiáng)學(xué)習(xí)也是學(xué)習(xí)的一個(gè)不可或缺組成部分”。兩位學(xué)者的觀點(diǎn)類似,都把機(jī)器學(xué)習(xí)看成是計(jì)算機(jī)或人工智能的一個(gè)分支學(xué)科,都強(qiáng)調(diào)的是歸納學(xué)習(xí)算法。機(jī)器學(xué)習(xí)在人工智能領(lǐng)域中是一個(gè)相對(duì)比較活躍的研究領(lǐng)域,其研究目的就是要促進(jìn)機(jī)器像人樣可以源源不斷獲取外界的知識(shí),建立相關(guān)學(xué)習(xí)的理論,構(gòu)建學(xué)習(xí)系統(tǒng),并將這些發(fā)明應(yīng)用于各個(gè)領(lǐng)域。1.1.2機(jī)器學(xué)習(xí)的發(fā)展歷程機(jī)器學(xué)習(xí)(machinelearning)是繼專家系統(tǒng)之后人工智能應(yīng)用的又一重要研究領(lǐng)域,也是人工智能和神經(jīng)計(jì)算的核心研究課題之一。作為人工智能研究的一個(gè)新崛起的分支,機(jī)器學(xué)習(xí)的發(fā)展歷程大至可分為如下幾個(gè)時(shí)期:(1)熱烈時(shí)期:20世紀(jì)50年代的神經(jīng)模擬和決策理論技術(shù),學(xué)習(xí)系統(tǒng)在運(yùn)行時(shí)很少具有結(jié)構(gòu)或知識(shí)。主要是建造神經(jīng)網(wǎng)絡(luò)和自組織學(xué)習(xí)系統(tǒng),學(xué)習(xí)表現(xiàn)為閾值邏輯單元傳送信號(hào)的反饋調(diào)整。(2)冷靜時(shí)期:20世紀(jì)60年代早期開始研究面向概念的學(xué)習(xí),即符號(hào)學(xué)習(xí)。使用的工具是語義網(wǎng)絡(luò)或謂詞邏輯,不再是數(shù)值或者統(tǒng)計(jì)方法。在概念獲取中,學(xué)習(xí)系統(tǒng)通過分析相關(guān)概念的大量正例和反例來構(gòu)造概念的符號(hào)表示。在這一階段,人們認(rèn)識(shí)到學(xué)習(xí)是個(gè)復(fù)雜而循序漸進(jìn)的過程;如果不要任何初始知識(shí),則學(xué)習(xí)系統(tǒng)無法學(xué)到高層次的概念。(3)復(fù)興時(shí)期:20世紀(jì)70年代中期,研究活動(dòng)日趨興旺,各種學(xué)習(xí)方法不斷推出,實(shí)驗(yàn)系統(tǒng)大量涌現(xiàn),1980年在卡內(nèi)基·梅隆大學(xué)(CMU)召開的第一屆機(jī)器學(xué)習(xí)專題研討會(huì),標(biāo)志著機(jī)器學(xué)習(xí)正式成為人工智能的一個(gè)獨(dú)立研究領(lǐng)域。(4)蓬勃發(fā)展時(shí)期:從20世紀(jì)80年代中后期到現(xiàn)在,可以認(rèn)為機(jī)器學(xué)習(xí)研究進(jìn)入一個(gè)新階段,已經(jīng)趨向成熟。神經(jīng)網(wǎng)絡(luò)的復(fù)蘇,帶動(dòng)著各種非符號(hào)學(xué)習(xí)方法與符號(hào)學(xué)習(xí)并駕齊驅(qū),并且已超越研究范圍,進(jìn)入到自動(dòng)化及模式識(shí)別等領(lǐng)域,掀起一場(chǎng)聯(lián)結(jié)主義的熱潮,各種學(xué)習(xí)方法開始繼承,多策略學(xué)習(xí)已經(jīng)使學(xué)習(xí)系統(tǒng)愈具有應(yīng)用價(jià)值,開始從實(shí)驗(yàn)室走向應(yīng)用領(lǐng)域。1.1.3機(jī)器學(xué)習(xí)的模型機(jī)器學(xué)習(xí)系統(tǒng)主要由三個(gè)部分構(gòu)成:環(huán)境、知識(shí)庫和執(zhí)行部分,如圖1.1所示。環(huán)境是信息的提供者,它向智能系統(tǒng)的學(xué)習(xí)部分提供所需信息,學(xué)習(xí)部分利用所得信息對(duì)知識(shí)庫進(jìn)行修改,不斷地完善知識(shí)庫,從而促使執(zhí)行部分更加有效地完成任務(wù),同時(shí)執(zhí)行部分再把信息反饋給學(xué)習(xí)部分。圖1.1影響學(xué)習(xí)系統(tǒng)設(shè)計(jì)的最重要的因素是環(huán)境向系統(tǒng)提供的信息。知識(shí)庫里存放的是指導(dǎo)執(zhí)行部分動(dòng)作的一般原則,但環(huán)境向?qū)W習(xí)系統(tǒng)提供的信息卻是各種各樣的。如果信息的質(zhì)量較高,與一般原則的差別較小,則學(xué)習(xí)部分比較容易處理。如果向?qū)W習(xí)系統(tǒng)提供的是雜亂無章的指導(dǎo)執(zhí)行具體動(dòng)作的具體信息,則學(xué)習(xí)系統(tǒng)需要在獲得足夠數(shù)據(jù)之后,刪除不必要的細(xì)節(jié),進(jìn)行總結(jié)推廣,形成指導(dǎo)動(dòng)作的一般原則,放入知識(shí)庫。這樣,學(xué)習(xí)部分的任務(wù)就比較繁重,設(shè)計(jì)起來也較為困難。影響學(xué)習(xí)系統(tǒng)設(shè)計(jì)的第二個(gè)因素是知識(shí)庫。知識(shí)的表示有多種形式,比如特征向量、一階邏輯語句、產(chǎn)生式規(guī)則、語義網(wǎng)絡(luò)和框架等。這些表示方式各有特點(diǎn),在選擇時(shí)要兼顧4個(gè)方面:表達(dá)能力強(qiáng);易于推理;容易修改知識(shí)庫;知識(shí)表示易于擴(kuò)展。學(xué)習(xí)系統(tǒng)在沒有任何先驗(yàn)知識(shí)的前提下不能憑空獲取知識(shí),它需要環(huán)境為其提供一定的知識(shí)作為基礎(chǔ),然后對(duì)其進(jìn)行擴(kuò)展和完善,從而完成學(xué)習(xí)。整個(gè)學(xué)習(xí)系統(tǒng)的關(guān)鍵在于執(zhí)行,從而確定了執(zhí)行部分的核心地位。學(xué)習(xí)部分進(jìn)行學(xué)習(xí)的目標(biāo)就是改進(jìn)和完善執(zhí)行部分的動(dòng)作。1.2機(jī)器學(xué)習(xí)主要算法1.2.1決策樹算法決策樹可看作一個(gè)樹狀預(yù)測(cè)模型,它通過把實(shí)例從根節(jié)點(diǎn)排列到某個(gè)葉子節(jié)點(diǎn)來分類實(shí)例,葉子節(jié)點(diǎn)即為實(shí)例所屬的分類。決策樹的核心問題是選擇分裂屬性和決策樹的剪枝。決策樹的算法有很多,有ID3、C4.5、CART等等。這些算法均采用自頂向下的貪婪算法,每個(gè)節(jié)點(diǎn)選擇分類效果最好的屬性將節(jié)點(diǎn)分裂為2個(gè)或多個(gè)子結(jié)點(diǎn),繼續(xù)這一過程直到這棵樹能準(zhǔn)確地分類訓(xùn)練集,或所有屬性都已被使用過。下面簡單介紹最常用的決策樹算法—分類回歸樹(CART)。分類回歸樹(CART)是機(jī)器學(xué)習(xí)中的一種分類和回歸算法。設(shè)訓(xùn)練樣本集L={x1,x2,…,xn,Y}。其中,xi(i=1,2,…,n)稱為屬性向量;Y稱為標(biāo)簽向量或類別向量。當(dāng)Y是有序的數(shù)量值時(shí),稱為回歸樹;當(dāng)Y是離散值時(shí),稱為分類樹。在樹的根節(jié)點(diǎn)t1處,搜索問題集(數(shù)據(jù)集合空間),找到使得下一代子節(jié)點(diǎn)中數(shù)據(jù)集的非純度下降最大的最優(yōu)分裂變量和相應(yīng)的分裂閾值。在這里非純度指標(biāo)用Gini指數(shù)來衡量,它定義為:其中,i(t)是節(jié)點(diǎn)t的Gini指數(shù),p(i/t)表示在節(jié)點(diǎn)t中屬于i類的樣本所占的比例,p(j/t)是節(jié)點(diǎn)t中屬于j類的樣本所占的比例。用該分裂變量和分裂閾值把根節(jié)點(diǎn)t1分裂成t2和t3,如果在某個(gè)節(jié)點(diǎn)ti處,不可能再有進(jìn)一步非純度的顯著降低,則該節(jié)點(diǎn)ti成為葉結(jié)點(diǎn),否則繼續(xù)尋找它的最優(yōu)分裂變量和分裂閾值進(jìn)行分裂。對(duì)于分類問題,當(dāng)葉節(jié)點(diǎn)中只有一個(gè)類,那么這個(gè)類就作為葉節(jié)點(diǎn)所屬的類,若節(jié)點(diǎn)中有多個(gè)類中的樣本存在,根據(jù)葉節(jié)點(diǎn)中樣本最多的那個(gè)類來確定節(jié)點(diǎn)所屬的類別;對(duì)于回歸問題,則取其數(shù)量值的平均值。很明顯,一棵很大的樹可能過分?jǐn)M合數(shù)據(jù),但較小的樹又可能無法捕獲重要的結(jié)構(gòu)。樹的最佳大小是控制模型復(fù)雜性的調(diào)整參數(shù),它應(yīng)該由數(shù)據(jù)自適應(yīng)的選擇。一種可取的策略是增長一棵較大的樹T0,僅當(dāng)達(dá)到最小節(jié)點(diǎn)大小(比如5)時(shí)才停止分裂過程。然后利用剪枝策略和5折或10折交叉驗(yàn)證相結(jié)合的方法來修剪這棵樹,從而將一些噪聲和干擾數(shù)據(jù)排除,獲得最優(yōu)樹。1.2.2人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)提供了一種普遍而且實(shí)用的方法,來從樣例中學(xué)習(xí)值為實(shí)數(shù)、離散或向量的函數(shù)。ANN學(xué)習(xí)對(duì)于訓(xùn)練數(shù)據(jù)中的擬合效果很好,且已經(jīng)成功地涉及到醫(yī)學(xué)、生理學(xué)、哲學(xué)、信息學(xué)、計(jì)算機(jī)科學(xué)等眾多學(xué)科領(lǐng)域,這些領(lǐng)域互相結(jié)合、相互滲透并相互推動(dòng)。不同領(lǐng)域的科學(xué)家從各自學(xué)科的特點(diǎn)出發(fā),提出問題并進(jìn)行了研究。ANN的研究始于1943年,心理學(xué)家W.Mcculloch和數(shù)理邏輯學(xué)家W.Pitts首先提出了神經(jīng)元的數(shù)學(xué)模型。此模型直接影響著這一領(lǐng)域研究的進(jìn)展。1948年,馮·諾依曼在研究中提出了以簡單神經(jīng)元構(gòu)成的再生自動(dòng)機(jī)網(wǎng)絡(luò)結(jié)構(gòu);20世紀(jì)50年代末,F(xiàn).Rosenblatt設(shè)計(jì)制作了“感知機(jī)”,它是一種多層的神經(jīng)網(wǎng)絡(luò),這項(xiàng)工作首次把人工神經(jīng)網(wǎng)絡(luò)的研究從理論探討付諸工程實(shí)踐;60年代初期,Widrow提出了自適應(yīng)線性元件網(wǎng)絡(luò),這是一種連續(xù)取值的線性加權(quán)求和閾值網(wǎng)絡(luò),在此基礎(chǔ)上發(fā)展了非線性多層自適應(yīng)網(wǎng)絡(luò)。這些實(shí)際上就是一種ANN模型;80年代初期,美國物理學(xué)家Hopfield發(fā)表了兩篇關(guān)于ANN研究的論文,引起了巨大的反響。人們重新認(rèn)識(shí)到神經(jīng)網(wǎng)絡(luò)的威力以及付諸應(yīng)用的現(xiàn)實(shí)性。隨即,研究人員圍繞著Hop-field提出的方法展開了進(jìn)一步的研究工作,形成了80年代中期以來ANN的研究熱潮。人工神經(jīng)網(wǎng)絡(luò)的研究在一定程度上受到了生物學(xué)的啟發(fā),因?yàn)樯锏膶W(xué)習(xí)系統(tǒng)是由相互連接的神經(jīng)元(Neuron)組成的異常復(fù)雜的網(wǎng)絡(luò)。而人工神經(jīng)網(wǎng)絡(luò)與此大體相似,它是由一系列簡單單元相互密集連接構(gòu)成,其中每一個(gè)單元有一定數(shù)量的實(shí)值輸入(可能是其他單元的輸出),并產(chǎn)生單一的實(shí)數(shù)值輸出(可能成為其他很多單元的輸入)。在ANN的研究中提出了很多模型,它們之間的差異主要表現(xiàn)在研究途徑、網(wǎng)絡(luò)結(jié)構(gòu)、運(yùn)行方式、學(xué)習(xí)算法及其應(yīng)用上。常見的ANN模型有:多層前向神經(jīng)網(wǎng)絡(luò)MLFN、自組織神經(jīng)網(wǎng)絡(luò)—SOM和ART、Hopfield神經(jīng)網(wǎng)絡(luò)、模糊神經(jīng)網(wǎng)絡(luò)FNN等。人工神經(jīng)網(wǎng)絡(luò)算法的重點(diǎn)是構(gòu)造閾值邏輯單元,一個(gè)值邏輯單元是一個(gè)對(duì)象,它可以輸入一組加權(quán)系數(shù)的量,對(duì)它們進(jìn)行求和,如果這個(gè)和達(dá)到或者超過了某個(gè)閾值,輸出一個(gè)量。如有輸入值X1,X2,…,Xn和它們的權(quán)系數(shù):W1,W2,…,Wn,求和計(jì)算出的Xi×Wi,產(chǎn)生了激發(fā)層a=(X1×W1)+(X2×W2)+…+(Xi×Wi)+…+(Xn×Wn),其中Xi是各條記錄出現(xiàn)頻率或其他參數(shù),Wi是實(shí)時(shí)特征評(píng)估模型中得到的權(quán)系數(shù)。神經(jīng)網(wǎng)絡(luò)是基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則的學(xué)習(xí)算法,有一些固有的缺陷,比如層數(shù)和神經(jīng)元個(gè)數(shù)難以確定,容易陷入局部極小,還有過學(xué)習(xí)現(xiàn)象,這些本身的缺陷在SVM算法中可以得到很好的解決。1.2.3貝葉斯學(xué)習(xí)算法Bayes法是一種在已知先驗(yàn)概率與類條件概率的情況下的模式分類方法,待分樣本的分類結(jié)果取決于各類域中樣本的全體。設(shè)訓(xùn)練樣本集分為M類,記為C={c1,…,ci,…,cM},每類的先驗(yàn)概率為P(ci),i=1,2,…,M。當(dāng)樣本集非常大時(shí),可以認(rèn)為P(ci)=ci類樣本數(shù)/總樣本數(shù)。對(duì)于一個(gè)待分樣本X,其歸于ci類的類條件概率是P(X/ci),則根據(jù)Bayes定理,可得到ci類的后驗(yàn)概率P(ci/X):(5)若,則有X∈ci。(6)式(6)是最大后驗(yàn)概率判決準(zhǔn)則,將式(5)代入式(6),則有:若;;j=1,2,…,M,則X∈ci。這就是最大后驗(yàn)概率判決準(zhǔn)則,這就是常用到的Bayes分類判決準(zhǔn)則。經(jīng)過長期的研究,Bayes分類方法在理論上論證得比較充分,在應(yīng)用上也是非常廣泛的。Bayes方法的薄弱環(huán)節(jié)在于實(shí)際情況下,類別總體的概率分布和各類樣本的概率分布函數(shù)(或密度函數(shù))常常是不知道的。為了獲得它們,就要求樣本足夠大。此外,當(dāng)用于文本分類時(shí),Bayes法要求表達(dá)文本的主題詞相互獨(dú)立,這樣的條件在實(shí)際文本中一般很難滿足,因此該方法往往在效果上難以達(dá)到理論上的最大值。1.2.4遺傳算法遺傳算法(GeneticAlgorithm,GA)最早由Holland于1975年首次提出。它是一種模擬達(dá)爾文進(jìn)化論的自然選擇和遺傳機(jī)制的隨機(jī)優(yōu)化搜索方法。其主要性質(zhì)可以描述如下:1.直接對(duì)結(jié)構(gòu)性對(duì)象進(jìn)行操作,不存在求導(dǎo)和函數(shù)連續(xù)性限定。2.具有隱并行性和全局搜索能力。3.采用概率化的尋優(yōu)方法,能夠自動(dòng)獲取和指導(dǎo)優(yōu)化的搜索空間,自適應(yīng)調(diào)整搜索方向,不需要確定的規(guī)則。由于遺傳算法具有這些性質(zhì),它已經(jīng)被廣泛地應(yīng)用于組合優(yōu)化、信號(hào)處理、自適應(yīng)控制和人工生命等領(lǐng)域。在用遺傳算法求解問題時(shí),問題的每一個(gè)候選解都被編碼成一個(gè)“染色體”,即個(gè)體。若干個(gè)體構(gòu)成了群體。遺傳算法初始時(shí),隨機(jī)產(chǎn)生一些個(gè)體。并根據(jù)目標(biāo)函數(shù)對(duì)每個(gè)個(gè)體進(jìn)行評(píng)估,計(jì)算出適應(yīng)度值。根據(jù)適應(yīng)度值,選擇個(gè)體來通過交叉、變異等遺傳操作來生成下一代群體。遺傳算法可以看做是有若干可行解組成的群體逐步進(jìn)化的過程。圖1.2描述了遺傳算法的基本流程。該圖給出了遺傳算法求解優(yōu)化問題的基本框架,大多數(shù)遺傳算法均可包含于此框架內(nèi)。圖支持向量機(jī)支持向量機(jī)是Vapnik等人于1995年根據(jù)統(tǒng)計(jì)學(xué)習(xí)理論提出的一種學(xué)習(xí)方法。它是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上,根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折衷,以獲得最好的推廣能力。其基本思想是:首先選擇一個(gè)非線性映射,將輸入空間映射到一個(gè)高維特征空間,在此高維空間中,利用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,構(gòu)造最優(yōu)決策函數(shù),尋找輸入變量和輸出變量之間的非線性關(guān)系。非線性支持向量分類機(jī)的數(shù)學(xué)模型可以描述如下:設(shè)給定訓(xùn)練集為{(x1,y1),(x2,y2),?,(xl,yl)},xi∈Rn為輸入向量,yi∈{?1,1},(1≤i≤l)為樣本類別標(biāo)志,l為樣本總數(shù)。用非線性映射φ(?)將樣本從原空間Rn映射到高維特征空間,在此高維空間中構(gòu)造最優(yōu)線性決策函數(shù)y(x)=sgn[w?φ(x)+b]。其中w為權(quán)向量,b為常數(shù)。求解支持向量機(jī)決策函數(shù)的參數(shù)可以通過求解對(duì)偶問題得到,即:最大化公式得到解參數(shù),對(duì)非支持向量數(shù)據(jù)點(diǎn)對(duì)應(yīng)的αi,取值為0。以上算法是為二值分類問題設(shè)計(jì)的,當(dāng)處理多類問題時(shí),就需要構(gòu)造多類分類器。構(gòu)造支持向量機(jī)多類分類器的方法有兩大類:一類方法是直接法,直接在目標(biāo)函數(shù)上進(jìn)行修改,將多個(gè)分類面的參數(shù)求解合并到一個(gè)最優(yōu)化問題中,通過求解該最優(yōu)化問題實(shí)現(xiàn)多分類。這類方法看似簡單,但其計(jì)算復(fù)雜度比較高,實(shí)現(xiàn)起來就比較困難。另一類方法是間接法,主要是通過組合多個(gè)二分類器來實(shí)現(xiàn)多分類器的構(gòu)造,常見的方法有一對(duì)多法和一對(duì)一法兩種:1.一對(duì)多法(oneagainstall)。訓(xùn)練時(shí)一次把某個(gè)類別的樣本歸為一類,其它剩余的樣本歸為另一類。這樣k個(gè)類別的樣本構(gòu)造出k個(gè)支持向量機(jī)。分類時(shí)將未知樣本分類為具有最大分類函數(shù)值的那一類。2.一對(duì)一法(oneagainstone)。其做法是在任意兩類樣本之間設(shè)計(jì)一個(gè)支持向量機(jī),k類樣本需要設(shè)計(jì)k(k?1)/2個(gè)支持向量機(jī)。當(dāng)對(duì)一個(gè)未知樣本進(jìn)行分類時(shí),得到k(k?1)/2個(gè)分類結(jié)果,分類時(shí)采用一種投票策略,最后得票最多的類別即為該樣本的類別。

第二章支持向量機(jī)(SVM)原理2.1SVM的產(chǎn)生與發(fā)展支持向量機(jī)(SupportVectorMachine)是Cortes和Vapnik于1995年首先提出的,它在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì),并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問題中。支持向量機(jī)方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復(fù)雜性(即對(duì)特定訓(xùn)練樣本的學(xué)習(xí)精度,Accuracy)和學(xué)習(xí)能力(即無錯(cuò)誤地識(shí)別任意樣本的能力)之間尋求最佳折衷,以期獲得最好的推廣能力(或稱泛化能力)。自1995年Vapnik在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上提出SVM作為模式識(shí)別的新方法之后,SVM一直倍受關(guān)注。同年,Vapnik和Cortes提出軟間隔(softmargin)SVM,通過引進(jìn)松弛變量度量數(shù)據(jù)的誤分類(分類出現(xiàn)錯(cuò)誤時(shí)大于0),同時(shí)在目標(biāo)函數(shù)中增加一個(gè)分量用來懲罰非零松弛變量(即代價(jià)函數(shù)),SVM的尋優(yōu)過程即是大的分隔間距和小的誤差補(bǔ)償之間的平衡過程;1996年,Vapnik等人又提出支持向量回歸(SupportVectorRegression,SVR)的方法用于解決擬合問題。SVR同SVM的出發(fā)點(diǎn)都是尋找最優(yōu)超平面,但SVR的目的不是找到兩種數(shù)據(jù)的分割平面,而是找到能準(zhǔn)確預(yù)測(cè)數(shù)據(jù)分布的平面,兩者最終都轉(zhuǎn)換為最優(yōu)化問題的求解;1998年,Weston等人根據(jù)SVM原理提出了用于解決多類分類的SVM方法(Multi-ClassSupportVectorMachines,Multi-SVM),通過將多類分類轉(zhuǎn)化成二類分類,將SVM應(yīng)用于多分類問題的判斷:此外,在SVM算法的基本框架下,研究者針對(duì)不同的方面提出了很多相關(guān)的改進(jìn)算法。例如,Suykens提出的最小二乘支持向量機(jī)(LeastSquareSupportVectorMachine,LS—SVM)算法,Joachims等人提出的SVM-1ight,張學(xué)工提出的中心支持向量機(jī)(CentralSupportVectorMachine,CSVM),Scholkoph和Smola基于二次規(guī)劃提出的v-SVM等。此后,臺(tái)灣大學(xué)林智仁(LinChih-Jen)教授等對(duì)SVM的典型應(yīng)用進(jìn)行總結(jié),并設(shè)計(jì)開發(fā)出較為完善的SVM工具包,也就是LIBSVM(ALibraryforSupportVectorMachines)。上述改進(jìn)模型中,v-SVM是一種軟間隔分類器模型,其原理是通過引進(jìn)參數(shù)v,來調(diào)整支持向量數(shù)占輸入數(shù)據(jù)比例的下限,以及參數(shù)來度量超平面偏差,代替通常依靠經(jīng)驗(yàn)選取的軟間隔分類懲罰參數(shù),改善分類效果;LS-SVM則是用等式約束代替?zhèn)鹘y(tǒng)SVM中的不等式約束,將求解QP問題變成解一組等式方程來提高算法效率;LIBSVM是一個(gè)通用的SVM軟件包,可以解決分類、回歸以及分布估計(jì)等問題,它提供常用的幾種核函數(shù)可由用戶選擇,并且具有不平衡樣本加權(quán)和多類分類等功能,此外,交叉驗(yàn)證(crossvalidation)方法也是LIBSVM對(duì)核函數(shù)參數(shù)選取問題所做的一個(gè)突出貢獻(xiàn);SVM-1ight的特點(diǎn)則是通過引進(jìn)縮水(shrinking)逐步簡化QP問題,以及緩存(caching)技術(shù)降低迭代運(yùn)算的計(jì)算代價(jià)來解決大規(guī)模樣本條件下SVM學(xué)習(xí)的復(fù)雜性問題。2.2統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)與傳統(tǒng)統(tǒng)計(jì)學(xué)理論相比,統(tǒng)計(jì)學(xué)習(xí)理論(Statisticallearningtheory或SLT)是一種專門研究小樣本條件下機(jī)器學(xué)習(xí)規(guī)律的理論。該理論是針對(duì)小樣本統(tǒng)計(jì)問題建立起的一套新型理論體系,在該體系下的統(tǒng)計(jì)推理規(guī)則不僅考慮了對(duì)漸近性能的要求,而且追求在有限信息條件下得到最優(yōu)結(jié)果。Vapnik等人從上世紀(jì)六、七十年代開始致力于該領(lǐng)域研究,直到九十年代中期,有限樣本條件下的機(jī)器學(xué)習(xí)理論才逐漸成熟起來,形成了比較完善的理論體系——統(tǒng)計(jì)學(xué)習(xí)理論。統(tǒng)計(jì)學(xué)習(xí)理論的主要核心內(nèi)容包括:(1)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化準(zhǔn)則下統(tǒng)計(jì)學(xué)習(xí)一致性條件;(2)這些條件下關(guān)于統(tǒng)計(jì)學(xué)習(xí)方法推廣性的界的結(jié)論;(3)這些界的基礎(chǔ)上建立的小樣本歸納推理準(zhǔn)則;(4)發(fā)現(xiàn)新的準(zhǔn)則的實(shí)際方法(算法)2.3SVM原理SVM方法是20世紀(jì)90年代初Vapnik等人根據(jù)統(tǒng)計(jì)學(xué)習(xí)理論提出的一種新的機(jī)器學(xué)習(xí)方法,它以結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則為理論基礎(chǔ),通過適當(dāng)?shù)剡x擇函數(shù)子集及該子集中的判別函數(shù),使學(xué)習(xí)機(jī)器的實(shí)際風(fēng)險(xiǎn)達(dá)到最小,保證了通過有限訓(xùn)練樣本得到的小誤差分類器,對(duì)獨(dú)立測(cè)試集的測(cè)試誤差仍然較小。支持向量機(jī)的基本思想是:首先,在線性可分情況下,在原空間尋找兩類樣本的最優(yōu)分類超平面。在線性不可分的情況下,加入了松弛變量進(jìn)行分析,通過使用非線性映射將低維輸入空間的樣本映射到高維屬性空間使其變?yōu)榫€性情況,從而使得在高維屬性空間采用線性算法對(duì)樣本的非線性進(jìn)行分析成為可能,并在該特征空間中尋找最優(yōu)分類超平面。其次,它通過使用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理在屬性空間構(gòu)建最優(yōu)分類超平面,使得分類器得到全局最優(yōu),并在整個(gè)樣本空間的期望風(fēng)險(xiǎn)以某個(gè)概率滿足一定上界。其突出的優(yōu)點(diǎn)表現(xiàn)在:(1)基于統(tǒng)計(jì)學(xué)習(xí)理論中結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則和VC維理論,具有良好的泛化能力,即由有限的訓(xùn)練樣本得到的小的誤差能夠保證使獨(dú)立的測(cè)試集仍保持小的誤差。(2)支持向量機(jī)的求解問題對(duì)應(yīng)的是一個(gè)凸優(yōu)化問題,因此局部最優(yōu)解一定是全局最優(yōu)解。(3)核函數(shù)的成功應(yīng)用,將非線性問題轉(zhuǎn)化為線性問題求解。(4)分類間隔的最大化,使得支持向量機(jī)算法具有較好的魯棒性。由于SVM自身的突出優(yōu)勢(shì),因此被越來越多的研究人員作為強(qiáng)有力的學(xué)習(xí)工具,以解決模式識(shí)別、回歸估計(jì)等領(lǐng)域的難題。2.3.1.最優(yōu)分類面和廣義最優(yōu)分類面SVM是從線性可分情況下的最優(yōu)分類面發(fā)展而來的,基本思想可用圖1來說明。對(duì)于一維空間中的點(diǎn),二維空間中的直線,三維空間中的平面,以及高維空間中的超平面,圖中實(shí)心點(diǎn)和空心點(diǎn)代表兩類樣本,H為它們之間的分類超平面,H1,H2分別為過各類中離分類面最近的樣本且平行于分類面的超平面,它們之間的距離△叫做分類間隔(margin)。圖2.1最優(yōu)分類面示意圖所謂最優(yōu)分類面要求分類面不但能將兩類正確分開,而且使分類間隔最大。將兩類正確分開是為了保證訓(xùn)練錯(cuò)誤率為0,也就是經(jīng)驗(yàn)風(fēng)險(xiǎn)最小(為O)。使分類空隙最大實(shí)際上就是使推廣性的界中的置信范圍最小,從而使真實(shí)風(fēng)險(xiǎn)最小。推廣到高維空間,最優(yōu)分類線就成為最優(yōu)分類面。設(shè)線性可分樣本集為是類別符號(hào)。d維空間中線性判別函數(shù)的一般形式為是類別符號(hào)。d維空間中線性判別函數(shù)的一般形式為,分類線方程為。將判別函數(shù)進(jìn)行歸一化,使兩類所有樣本都滿足,也就是使離分類面最近的樣本的,此時(shí)分類間隔等于,因此使間隔最大等價(jià)于使(或)最小。要求分類線對(duì)所有樣本正確分類,就是要求它滿足(2-1)滿足上述條件(2-1),并且使最小的分類面就叫做最優(yōu)分類面,過兩類樣本中離分類面最近的點(diǎn)且平行于最優(yōu)分類面的超平面H1,H2上的訓(xùn)練樣本點(diǎn)就稱作支持向量(supportvector),因?yàn)樗鼈儭爸С帧绷俗顑?yōu)分類面。利用Lagrange優(yōu)化方法可以把上述最優(yōu)分類面問題轉(zhuǎn)化為如下這種較簡單的對(duì)偶問題,即:在約束條件,(2-2a)(2-2b)下面對(duì)求解下列函數(shù)的最大值:(2-3)若為最優(yōu)解,則(2-4)即最優(yōu)分類面的權(quán)系數(shù)向量是訓(xùn)練樣本向量的線性組合。這是一個(gè)不等式約束下的二次函數(shù)極值問題,存在唯一解。根據(jù)kühn-Tucker條件,解中將只有一部分(通常是很少一部分)不為零,這些不為0解所對(duì)應(yīng)的樣本就是支持向量。求解上述問題后得到的最優(yōu)分類函數(shù)是:(2-5)根據(jù)前面的分析,非支持向量對(duì)應(yīng)的均為0,因此上式中的求和實(shí)際上只對(duì)支持向量進(jìn)行。是分類閾值,可以由任意一個(gè)支持向量通過式(2-1)求得(只有支持向量才滿足其中的等號(hào)條件),或通過兩類中任意一對(duì)支持向量取中值求得。從前面的分析可以看出,最優(yōu)分類面是在線性可分的前提下討論的,在線性不可分的情況下,就是某些訓(xùn)練樣本不能滿足式(2-1)的條件,因此可以在條件中增加一個(gè)松弛項(xiàng)參數(shù),變成:(2-6)對(duì)于足夠小的s>0,只要使(2-7)最小就可以使錯(cuò)分樣本數(shù)最小。對(duì)應(yīng)線性可分情況下的使分類間隔最大,在線性不可分情況下可引入約束:(2-8)在約束條件(2-6)冪1(2-8)下對(duì)式(2-7)求極小,就得到了線性不可分情況下的最優(yōu)分類面,稱作廣義最優(yōu)分類面。為方便計(jì)算,取s=1。為使計(jì)算進(jìn)一步簡化,廣義最優(yōu)分類面問題可以迸一步演化成在條件(2-6)的約束條件下求下列函數(shù)的極小值:(2-9)其中C為某個(gè)指定的常數(shù),它實(shí)際上起控制對(duì)錈分樣本懲罰的程度的作用,實(shí)現(xiàn)在錯(cuò)分樣本的比例與算法復(fù)雜度之間的折衷。求解這一優(yōu)化問題的方法與求解最優(yōu)分類面時(shí)的方法相同,都是轉(zhuǎn)化為一個(gè)二次函數(shù)極值問題,其結(jié)果與可分情況下得到的(1-2)到(1-5)幾乎完全相同,但是條件(1-2b)變?yōu)椋?2-10)2.3.2SVM的非線性映射對(duì)于非線性問題,可以通過非線性交換轉(zhuǎn)化為某個(gè)高維空間中的線性問題,在變換空間求最優(yōu)分類超平面。這種變換可能比較復(fù)雜,因此這種思路在一般情況下不易實(shí)現(xiàn)。但是我們可以看到,在上面對(duì)偶問題中,不論是尋優(yōu)目標(biāo)函數(shù)(1-3)還是分類函數(shù)(1-5)都只涉及訓(xùn)練樣本之間的內(nèi)積運(yùn)算。設(shè)有非線性映射將輸入空間的樣本映射到高維(可能是無窮維)的特征空間H中,當(dāng)在特征空間H中構(gòu)造最優(yōu)超平面時(shí),訓(xùn)練算法僅使用空間中的點(diǎn)積,即,而沒有單獨(dú)的出現(xiàn)。因此,如果能夠找到一個(gè)函數(shù)K使得(2-11)這樣在高維空間實(shí)際上只需進(jìn)行內(nèi)積運(yùn)算,而這種內(nèi)積運(yùn)算是可以用原空間中的函數(shù)實(shí)現(xiàn)的,我們甚至沒有必要知道變換中的形式。根據(jù)泛函的有關(guān)理論,只要一種核函數(shù)滿足Mercer條件,它就對(duì)應(yīng)某一變換空間中的內(nèi)積。因此,在最優(yōu)超平面中采用適當(dāng)?shù)膬?nèi)積函數(shù)就可以實(shí)現(xiàn)某一非線性變換后的線性分類,而計(jì)算復(fù)雜度卻沒有增加。此時(shí)目標(biāo)函數(shù)(2-3)變?yōu)椋?2-12)而相應(yīng)的分類函數(shù)也變?yōu)?2-13)算法的其他條件不變,這就是SVM。概括地說SVM就是通過某種事先選擇的非線性映射將輸入向量映射到一個(gè)高維特征空間,在這個(gè)特征空間中構(gòu)造最優(yōu)分類超平面。在形式上SVM分類函數(shù)類似于一個(gè)神經(jīng)網(wǎng)絡(luò),輸出是中間節(jié)點(diǎn)的線性組合,每個(gè)中間節(jié)點(diǎn)對(duì)應(yīng)于一個(gè)支持向量,如圖2.3所示圖2.3SVM示意圖其中,輸出(決策規(guī)則):,權(quán)值,為基于s個(gè)支持向量的非線性變換(內(nèi)積),為輸入向量。2.3.3.核函數(shù)選擇滿足Mercer條件的不同內(nèi)積核丞數(shù),就構(gòu)造了不同的SVM,這樣也就形成了不同的算法。目前研究最多的核函數(shù)主要有三類:(1)多頊?zhǔn)胶撕瘮?shù)(2-14)其中q是多項(xiàng)式的階次,所得到的是q階多項(xiàng)式分類器。(2)徑向基函數(shù)(RBF)(2-15)所得的SVM是一種徑向基分類器,它與傳統(tǒng)徑向基函數(shù)方法的基本區(qū)別是,這里每一個(gè)基函數(shù)的中心對(duì)應(yīng)于一個(gè)支持向量,它們以及輸出權(quán)值都是由算法自動(dòng)確定的。徑向基形式的內(nèi)積函數(shù)類似人的視覺特性,在實(shí)際應(yīng)用中經(jīng)常用到,但是需要注意的是,選擇不同的S參數(shù)值,相應(yīng)的分類面會(huì)有很大差別。(3)S形核函數(shù)(2-16)這時(shí)的SVM算法中包含了一個(gè)隱層的多層感知器網(wǎng)絡(luò),不但網(wǎng)絡(luò)的權(quán)值、而且網(wǎng)絡(luò)的隱層結(jié)點(diǎn)數(shù)也是由算法自動(dòng)確定的,而不像傳統(tǒng)的感知器網(wǎng)絡(luò)那樣由人憑借經(jīng)驗(yàn)確定。此外,該算法不存在困擾神經(jīng)網(wǎng)絡(luò)的局部極小點(diǎn)的問題。在上述幾種常用的核函數(shù)中,最為常用的是多項(xiàng)式核函數(shù)和徑向基核函數(shù)。除了上面提到的三種核函數(shù)外,還有指數(shù)徑向基核函數(shù)、小波核函數(shù)等其它一些核函數(shù),應(yīng)用相對(duì)較少。事實(shí)上,需要進(jìn)行訓(xùn)練的樣本集有各式各樣,核函數(shù)也各有優(yōu)劣。B.Bacsens和S.Viaene等人曾利用LS-SVM分類器,采用UCI數(shù)據(jù)庫,對(duì)線性核函數(shù)、多項(xiàng)式核函數(shù)和徑向基核函數(shù)進(jìn)行了實(shí)驗(yàn)比較,從實(shí)驗(yàn)結(jié)果來看,對(duì)不同的數(shù)據(jù)庫,不同的核函數(shù)各有優(yōu)劣,而徑向基核函數(shù)在多數(shù)數(shù)據(jù)庫上得到略為優(yōu)良的性能。

第三章支持向量機(jī)的應(yīng)用研究現(xiàn)狀3.1應(yīng)用概述SVM方法在理論上具有突出的優(yōu)勢(shì),貝爾實(shí)驗(yàn)室率先對(duì)美國郵政手寫數(shù)字庫識(shí)別研究方面應(yīng)用了SVM方法,取得了較大的成功。在隨后的近幾年內(nèi),有關(guān)SVM的應(yīng)用研究得到了很多領(lǐng)域的學(xué)者的重視,在人臉檢測(cè)、驗(yàn)證和識(shí)別、說話人/語音識(shí)別、文字/手寫體識(shí)別、圖像處理、及其他應(yīng)用研究等方面取得了大量的研究成果,從最初的簡單模式輸入的直接的SVM方法研究,進(jìn)入到多種方法取長補(bǔ)短的聯(lián)合應(yīng)用研究,對(duì)SVM方法也有了很多改進(jìn)。3.2支持向量機(jī)的應(yīng)用3.2.1人臉檢測(cè)、驗(yàn)證和識(shí)別Osuna最早將SVM應(yīng)用于人臉檢測(cè).并取得了較好的效果。其方法是汽接訓(xùn)練非線性SVM分類器完成人臉與非人臉的分類。由于SVM的訓(xùn)練需要大量的存儲(chǔ)空間,并且非線性SVM分類器需要較多的支持向量,速度很慢。為此,馬勇等提出了一種層次型結(jié)構(gòu)的SVM分類器,它由一個(gè)線性SVM組合和一個(gè)非線性SVM組成。檢測(cè)時(shí),由前者快速排除掉圖像中絕大部分背景窗口,而后者只需對(duì)少量的候選區(qū)域做出確認(rèn);訓(xùn)練時(shí),在線性SVM組臺(tái)的限定下,與“自舉(bootstrapping)”方法相結(jié)合可收集到訓(xùn)練非線性SVM的更有效的非人臉樣本,簡化SVM訓(xùn)練的難度,大量實(shí)驗(yàn)結(jié)果表明這種方法不僅具有較高的檢測(cè)率和較低的誤檢率,而且具有較快的速度。人臉檢測(cè)研究中更復(fù)雜的情況是姿態(tài)的變化。葉航軍等提出了利用支持向量機(jī)方法進(jìn)行人臉姿態(tài)的判定,將人臉姿態(tài)劃分成6個(gè)類別,從一個(gè)多姿態(tài)人臉庫中手工標(biāo)定訓(xùn)練樣本集和測(cè)試樣本集,訓(xùn)練基于支持向量機(jī)姿態(tài)分類器,分類錯(cuò)誤率降低到1.67%。明顯優(yōu)于在傳統(tǒng)方法中效果最好的人工神經(jīng)元網(wǎng)絡(luò)方法。在人臉識(shí)別中,面部特征的提取和識(shí)別可看作是對(duì)3D物體的2D投影圖像進(jìn)行匹配的問題。由于許多不確定性因素的影響,特征的選取與識(shí)別就成為一個(gè)難點(diǎn)。凌旭峰等及張燕昆等分別提出基于PCA與SVM相結(jié)合的人臉識(shí)別算法,充分利用了PCA在特征提取方面的有效性以及SVM在處理小樣本問題和泛化能力強(qiáng)等方面的優(yōu)勢(shì),通過SVM與最近鄰距離分類器相結(jié)合,使得所提出的算法具有比傳統(tǒng)最近鄰分類器和BP網(wǎng)絡(luò)分類器更高的識(shí)別率。王宏漫等在PCA基礎(chǔ)上進(jìn)一步做ICA,提取更加有利于分類的面部特征的主要獨(dú)立成分;然后采用分階段淘汰的支持向量機(jī)分類機(jī)制進(jìn)行識(shí)別。對(duì)兩組人臉圖像庫的測(cè)試結(jié)果表明,基于SVM的方法在識(shí)別率和識(shí)別時(shí)間等方面都取得了較好的效果。3.2.2說話人/語音識(shí)別說話人識(shí)別屬于連續(xù)輸入信號(hào)的分類問題,SVM是一個(gè)很好的分類器,但不適合處理連續(xù)輸入樣本。為此,忻棟等引入隱式馬爾可夫模型HMM,建立了SVM和HMM的混合模型。HMM適合處理連續(xù)信號(hào),而SVM適臺(tái)于分類問題;HMM的結(jié)果反映了同類樣本的相似度,而SVM的輸出結(jié)果則體現(xiàn)了異類樣本間的差異。為了方便與HMM組成混合模型,首先將SVM的輸出形式改為概率輸出。實(shí)驗(yàn)中使用YOHO數(shù)據(jù)庫,特征提取采用12階的線性預(yù)測(cè)系數(shù)分析及其微分,組成24維的特征向量。實(shí)驗(yàn)表明HMM和SVM的結(jié)合達(dá)到了很好的效果。3.2.3文字/手寫體識(shí)別貝爾實(shí)驗(yàn)室對(duì)美國郵政手寫數(shù)字庫進(jìn)行的實(shí)驗(yàn),人工識(shí)別平均錯(cuò)誤率是2.5%,專門針對(duì)該特定問題設(shè)計(jì)的5層神經(jīng)網(wǎng)絡(luò)錯(cuò)誤率為5.1%(其中利用了大量先驗(yàn)知識(shí)),而用3種SVM方法(采用3種核函數(shù))得到的錯(cuò)誤率分別為4.0%、4.1%和4.2%,且是直接采用16×16的字符點(diǎn)陣作為輸入,表明了SVM的優(yōu)越性能。手寫體數(shù)字O~9的特征可以分為結(jié)構(gòu)特征、統(tǒng)計(jì)特征等。柳回春等在UK心理測(cè)試自動(dòng)分析系統(tǒng)中組合SVM和其他方法成功地進(jìn)行了手寫數(shù)字的識(shí)別實(shí)驗(yàn)。另外,在手寫漢字識(shí)別方面,高學(xué)等提出了一種基于SVM的手寫漢字的識(shí)別方法,表明了SVM對(duì)手寫漢字識(shí)別的有效性。3.2.4圖像處理(1)圖像過濾。一般的互聯(lián)網(wǎng)色情網(wǎng)圖像過濾軟件主要采用網(wǎng)址庫的形式來封鎖色情網(wǎng)址或采用入工智能方法對(duì)接收到的中、英文信息進(jìn)行分析甄別。段立娟等提出一種多層次特定類型圖像過濾法,即以綜合膚色模型檢驗(yàn),支持向量機(jī)分類和最近鄰方法校驗(yàn)的多層次圖像處理框架,達(dá)到85%以上的準(zhǔn)確率。(2)視頻字幕提取。攬頻字幕蘊(yùn)含了豐富語義,可用于對(duì)相應(yīng)視頻流進(jìn)行高級(jí)語義標(biāo)注。莊越挺等提出并實(shí)踐了基于SVM的視頻字幕自動(dòng)定位和提取的方法。該方法首先將原始圖像幀分割為N*N的子塊,提取每個(gè)子塊的灰度特征;然后使用預(yù)先訓(xùn)練好的SVM分類機(jī)進(jìn)行字幕子塊和非字幕子塊的分類;最后結(jié)合金字塔模型和后期處理過程,實(shí)現(xiàn)視頻圖像字幕區(qū)域的自動(dòng)定位提取。實(shí)驗(yàn)表明該方法取得了良好的效果。(3)圖像分類和檢索。由于計(jì)算機(jī)自動(dòng)抽取的圖像特征和人所理解的語義間存在巨大的差距,圖像檢索結(jié)果難以令人滿意。近年來出現(xiàn)了相關(guān)反饋方法,張磊等以SVM為分類器,在每次反饋中對(duì)用戶標(biāo)記的正例和反例樣本進(jìn)行學(xué)習(xí),并根據(jù)學(xué)習(xí)所得的模型進(jìn)行檢索,使用由9918幅圖像組成的圖像庫進(jìn)行實(shí)驗(yàn),結(jié)果表明,在有限訓(xùn)練樣本情況下具有良好的泛化能力。目前3D虛擬物體圖像應(yīng)用越來越廣泛,肖俊等提出了一種基于SVM對(duì)相似3D物體識(shí)別與檢索的算法。該算法首先使用細(xì)節(jié)層次模型對(duì)3D物體進(jìn)行三角面片數(shù)量的約減,然后提取3D物體的特征,由于所提取的特征維數(shù)很大,因此先用獨(dú)立成分分析進(jìn)行特征約減,然后使用SVM進(jìn)行識(shí)別與檢索。將該算法用于3D丘陵與山地的地形識(shí)別中,取得了良好效果。3.2.5其他應(yīng)用研究(1)由于SVM的優(yōu)越性,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論