人工智能-幾種主要的分類算法課件_第1頁
人工智能-幾種主要的分類算法課件_第2頁
人工智能-幾種主要的分類算法課件_第3頁
人工智能-幾種主要的分類算法課件_第4頁
人工智能-幾種主要的分類算法課件_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、幾種主要的分類算法授課人:目錄01決策樹02最近鄰分類器神經(jīng)網(wǎng)絡(luò)030405支持向量機貝葉斯分類器PART 01決策樹 顧名思義,決策樹(Decision Tree)是用于決策的一棵樹,從根節(jié)點出發(fā),通過決策節(jié)點對樣本的不同特征屬性進(jìn)行劃分,按照結(jié)果進(jìn)入不同的分支,最終達(dá)到某一葉子節(jié)點,獲得分類結(jié)果。以下是一個簡單的垃圾郵件分類決策樹。 樣本集 左述決策樹對郵件的標(biāo)題、內(nèi)容分詞和分詞頻率分別進(jìn)行評估,然后進(jìn)入不同的選擇分支,最終完成分類??梢?,決策樹的構(gòu)建過程是按照樣本特征的優(yōu)先級或重要性確定樹的層次結(jié)構(gòu),使其葉子節(jié)點盡可能屬于同一類別。決策樹常用于基于規(guī)則的等級評估、比賽結(jié)果預(yù)測和風(fēng)險研判等

2、。決策樹PART 02貝葉斯分類器 在一些應(yīng)用中,特征集和類變量之間的關(guān)系是不確定的,也就是說,我們很難通過一些先驗知識直接預(yù)測它的類標(biāo)號,這種情況產(chǎn)生的原因可能是多方面的,如噪音、主要變量的缺失等。對于這類求解問題,可以將其視為一個隨機過程,使用概率理論來分析,例如,我們不能直接預(yù)測隨意一次投幣的結(jié)果是正面(類1)還是方面(類0),但我們可以計算出它是正面或方面的概率。貝葉斯(Bayes Classifier)分類器就是對于給定的分類項,利用下式貝葉斯定律,求解該分類項在條件下各類別中出現(xiàn)的概率,哪個概率最大,就將其劃分為哪個類別。 上式的解釋是:X,Y是一對隨機變量,X出現(xiàn)的前提下Y發(fā)生的

3、概率P(Y X )等于Y出現(xiàn)的前提下X發(fā)生的概率P(Y X )與Y出現(xiàn)的概率P(Y )的乘積然后再除以X出現(xiàn)的概率P(X )。貝葉斯分類器 仍以垃圾郵件過濾為例,使用貝葉斯方法通過考慮關(guān)鍵詞在郵件中出現(xiàn)的概率來辨別垃圾郵件。假設(shè)收到一封由n個關(guān)鍵詞組成的郵件E,x=1,0分別表示正常郵件和垃圾郵件,那么就可以根據(jù)n個關(guān)鍵詞出現(xiàn)在以往郵件中的正常郵件概率p(x=1|E)和這n個關(guān)鍵詞出現(xiàn)在以往郵件中的垃圾郵件概率p(x=0|E)的大小來判定該郵件是否為垃圾郵件,如果:p(x=1|E) p(x=0|E),則為正常郵件,否則為垃圾郵件。貝葉斯分類器根據(jù)貝葉斯定理, 上式中p(x=1)和p(x=0)可

4、以根據(jù)郵箱中正常郵件和垃圾郵件的個數(shù)計算出來,而p(E)的計算則是根據(jù)貝葉斯分類假設(shè),所有的特征變量(關(guān)鍵詞)都是獨立作用于決策變量,因此有: 上式中的 p(Ei) 表示所有郵件中關(guān)鍵詞 Ei 的概率,于是就根據(jù)貝葉斯分類器解決了此垃圾郵件分類問題。由于貝葉斯分類器有堅實的數(shù)學(xué)基礎(chǔ)作為支撐,模型參數(shù)較少,對缺失數(shù)據(jù)不敏感,其分類效率穩(wěn)定,在文本分類、圖像識別和網(wǎng)絡(luò)入侵檢測等方面得到廣泛應(yīng)用。貝葉斯分類器PART 03最近鄰分類器 我們把每個具有n個特征的樣本看作n維空間的一個點,對于給定的新樣本,先計算該點與其它樣本點的距離(相似度),然后將新樣本指派為周圍k個最近鄰的多數(shù)類,這種分類器稱為最

5、近鄰方法(k-Nearest Neighbor,KNN)。該分類器的合理性可以用人們的常規(guī)認(rèn)知來說明:判別一個人是好人還是壞人,可以從跟他走得最近的k個人來判斷,如果k個人多數(shù)是好人,那么可以指派他為好人,否則他是壞人。在下圖中,求待分類樣本x的類別。 一個實例的最近鄰 由圖可知,如果取k=3個最近鄰,則x被指派為正方形類;如果取k=5個最近鄰,則x被指派為三角形類。由此可見,k的取值大小對分類結(jié)果是有影響的,另外,當(dāng)樣本數(shù)據(jù)較大時,計算相似度所消耗的時間和空間較高,導(dǎo)致分類效率低。還有,從上圖可以看出,采用多數(shù)表決方法來判別x的類別,是沒有考慮與x不同距離的近鄰對其影響的程度,顯然,一個遠(yuǎn)離

6、x的近鄰對x的影響是要弱于離它近的近鄰的。盡管k近鄰分類器有諸如上述缺點,但該分類技術(shù)是基于具體的訓(xùn)練實例進(jìn)行預(yù)測,不必為訓(xùn)練集建立模型,還可以生成任何形狀的決策邊界,從而能提供靈活的模型表示,在數(shù)字和像識別等方面得到較好的應(yīng)用。最近鄰分類器PART 04支持向量機 支持向量機(Support Vector Machine,SVM)的基本思想是通過非線性映射,把樣本空間映射到一個高維的特征空間,將原本空間線性不可分的問題,轉(zhuǎn)化成在高維空間通過一個線性超平面將樣本完全劃分開。例如,在下圖中,左邊二維空間的樣本點,無法線性劃分,但通過映射到三維空間,卻可以用一個平面將這些樣本完全分開。樣本點升維后

7、變成線性可分 SVM是一種有堅實統(tǒng)計學(xué)理論支撐的機器學(xué)習(xí)方法,其最終的決策函數(shù)只由位于超平面附件的幾個支持向量決定,該方法不僅算法簡單,而且具有較好的魯棒性,特別適合解決樣本數(shù)據(jù)較少、先驗干預(yù)少的非線性分類、回歸等問題。支持向量機PART 05神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)(Neural Network)分類器由輸入層、隱藏層和輸出層構(gòu)成,是通過模仿人腦神經(jīng)系統(tǒng)的組織結(jié)構(gòu)及其某些活動機理,來呈現(xiàn)人腦的許多特征。其基本結(jié)構(gòu)如下圖所示。神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖 上圖中每個節(jié)點代表一個神經(jīng)元,節(jié)點之間的連線對應(yīng)權(quán)重值w,輸入變量x經(jīng)過神經(jīng)元時被激活函數(shù)賦予權(quán)重并加上偏置,將運算結(jié)果傳遞到下層網(wǎng)絡(luò)的神經(jīng)元,在輸出層中,神經(jīng)元對各個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論