分類技術概論及前沿問題_第1頁
分類技術概論及前沿問題_第2頁
分類技術概論及前沿問題_第3頁
分類技術概論及前沿問題_第4頁
分類技術概論及前沿問題_第5頁
已閱讀5頁,還剩27頁未讀 繼續(xù)免費閱讀

VIP免費下載

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、分類技術概論及前沿問題,2020/7/30,1,主要內容,2020/7/30,2,數(shù)據(jù)分類的簡含義,我們都曾經有這樣的經驗,在人流攢動的電影院門口等待相約而至的朋友,通過找尋與識別,能夠在人群中一下子發(fā)現(xiàn)熟悉的臉,其實這個過程就是一個數(shù)據(jù)分類的過程。 相較于要發(fā)現(xiàn)的知識完全未知的無監(jiān)督學習,數(shù)據(jù)分類是一種典型的有監(jiān)督的機器學習方法,目的是從一組已知類別的數(shù)據(jù)中發(fā)現(xiàn)分類模型,以預測新數(shù)據(jù)的未知類別。,2020/7/30,3,2020/7/30,4,用剛才我們提到的尋找朋友的過程舉例,首先從自己熟知的朋友身上提取特點,比如臉型、身材、穿著等,這就形成了一個簡單的分類模型。 然后在電影院門前對每一個

2、發(fā)現(xiàn)的陌生人進行判斷,“是朋友”或者“不是朋友”,從而對新數(shù)據(jù)進行了預測。,x,x,分類技術的應用,2020/7/30,5,信用卡審批,科學研究,銀行,醫(yī)療,商業(yè),圖形處理,有效性分析,故障檢測,醫(yī)療診斷,目標市場定位,工業(yè),數(shù)據(jù)分類技術,數(shù)據(jù)分類的過程,2020/7/30,6,一個完整的數(shù)據(jù)分類過程一般包括模型構造、模型測試和模型應用三個步驟,具體來說,我們可以將數(shù)據(jù)分成兩個數(shù)據(jù)集,分別是訓練集和測試集,用于模型構造和模型測試。整體的步驟說明如下。,2020/7/30,7,數(shù)據(jù)分類的過程詳解,2020/7/30,8,數(shù)據(jù)分類方法介紹,現(xiàn)在我們使用的分類方法中比較常用的有決策樹方法、神經網(wǎng)絡方

3、法、遺傳算法、支持向量機,除此以外還有粗糙集理論以及貝葉斯分類等方法,上圖詳細列出了現(xiàn)階段正在使用的各種分類方法,下面將對重要方法進行介紹。,2020/7/30,9,2020/7/30,10,決策樹分類法,所謂“決策樹”,顧名思義,它具有樹狀結構,根據(jù)層次的不同,節(jié)點分為根節(jié)點、內部節(jié)點和葉節(jié)點三類,每個節(jié)點對應一個樣本集,根節(jié)點作為“樹根”,對應的是整個樣本集,內部節(jié)點類似于樹干枝杈,對應樣本子集,葉節(jié)點就相當于樹葉了,對應一個類標志。根節(jié)點和內部節(jié)點含有一個對于樣本屬性的測試,根據(jù)測試的結果將樣本集劃分為兩個或者多個子集,每個子集形成一個分支,由葉節(jié)點內的類標志來標識,就像樹不斷分散的枝杈

4、莖葉一樣,如右圖所示。,我們用制造廠商經常使用會員分類案例來進一步說明決策樹的使用方法,在分類模型中,以年齡作為屬性,根節(jié)點對應的是整個樣本集即所有參與某自行車廠商調查的顧客,內部節(jié)點對應樣本子集,比如年齡在67歲以上的顧客群體。根節(jié)點和內部節(jié)點含有一個對于樣本屬性的測試,即對年齡加以限制的測試。 使用1000個會員事例訓練模型后得到的決策樹分類如下:,2020/7/30,11,圖中矩形表示一個拆分節(jié)點,矩形中文字是拆分條件。矩形顏色深淺代表此節(jié)點包含事例的數(shù)量,顏色越深包含的事例越多,如全部節(jié)點包含所有的1000個事例,顏色最深。,節(jié)點中的條包含兩種顏色,紅色和藍色,分別表示此節(jié)點中的事例購

5、買和不購買自行車的比例。這樣一來,便可以通過條件得出在哪個年齡段的哪些地區(qū)的人,最容易購買自行車,至此建立了模型。,隨后可以從新導入一批已知數(shù)據(jù)進行模型測試,完成這個步驟,如果模型可用,便將其他的會員在分類模型中查找就可預測會員購買自行車的概率有多大,隨后自行車廠商就可以有選擇性的投遞廣告冊。,神經網(wǎng)絡分類法,人類的大腦有近1000億個神經元和十倍于此的神經膠質細胞。神經網(wǎng)絡是一種具有若干連續(xù)處理結點的并行計算系統(tǒng),它建立了一種數(shù)學模型,試圖去模仿人類的大腦。 神經網(wǎng)絡將每一個連接看作一個處理單元,這些處理單元結點通常稱作神經元,來表明腦神經之間的關系。,2020/7/30,12,2020/7

6、/30,13,神經元采用一系列數(shù)學函數(shù),通過匯總和轉換對數(shù)據(jù)進行處理,一個神經元的功能有限,但若干個神經元連接起來形成系統(tǒng)后,就可以創(chuàng)建一個智能模型,神經元可以有許多種不同的方式互連,為了更精確地擬合需要對建立模型的數(shù)據(jù)反復訓練若干次,甚至上千次。 下圖是神經網(wǎng)絡算法模擬人類大腦神經元的詳細示例。,2020/7/30,14,為了更具體地明確神經網(wǎng)絡算法的概念,我們用銀行對用戶劃分推廣不同的信用卡案例做分析。下圖中每個橢圓型節(jié)點接受輸入數(shù)據(jù),將數(shù)據(jù)處理后輸出。輸入層節(jié)點接受客戶信息的輸入,然后將數(shù)據(jù)傳遞給隱藏層,隱藏層將數(shù)據(jù)傳遞給輸出層,輸出層輸出客戶屬于哪類信用卡。這類似于人腦神經元受到刺激時

7、,神經脈沖從一個神經元傳遞到另一個神經元。,在大量客戶事例輸入后,模型會不斷調整,使之更吻合真實情況,就像是人腦通過在同一脈沖反復刺激下改變神經鍵連接強度來進行學習。,2020/7/30,15,遺傳算法,“物競天擇,適者生存”是達爾文生物進化論的基本原理,解釋了物種總是向著更適應自然界的方向進化的規(guī)律,只有適應自然環(huán)境的個體才能幸存下來,繁衍后代,適應力差的會在競爭中被淘汰。遺傳算法(Genetic Algorithms)從字面上看便是繼承生物學的,它模擬大自然中種群在選擇壓力下的演化,從而得到問題的一個近似解。,2020/7/30,16,遺傳算法流程,在遺傳算法中,對于一個最優(yōu)化問題,一定數(shù)

8、量的候選解(稱為個體)的抽象表示(稱為染色體)使得種群向更好的解進化。進化從完全隨機個體的種群開始,之后一代一代發(fā)生。在每一代中,整個種群的適應度被評價,從當前種群中隨機地選擇多個個體,通過自然選擇和突變產生新的生命種群,該種群在算法的下一次迭代中成為當前種群,具體的流程見右圖。,2020/7/30,17,為了使理解更加容易,我們引用網(wǎng)絡上面一個有趣的例子。首先,我們知道生物個體長什么樣子很大程度上是由染色體上的基因決定的。同樣,如果我們把100個半透明三角形組成的東西看成一個生物個體,比如扇貝,我們也可以說它的樣子是由這些三角形的具體位置和顏色決定的。所以,我們可以把一個一個的半透明三角形看

9、作是這些扇貝的“基因”。而組成扇貝的這100個基因就組成了每個扇貝個體的“染色體”。,程序的目的,是讓由100個三角形組成的扇貝,最終看上去像是Firefox的圖標,我們模擬生物界的繁衍行為,選擇兩個原有的扇貝,然后從這兩個扇貝的染色體中隨機選取一共100個基因組成新個體的染色體。在定義好基因,寫好繁衍、變異、評價適應性、淘汰和終止的代碼之后,我們隨機產生一個適當大小的種群,然后讓它這樣一代代的繁衍、變異和淘汰下去,到最后終止時會看到右上角圖的結果。,2020/7/30,18,支持向量機,簡單概括,支持向量機用線性分類器劃分樣本空間,但是也可以處理線性不可分的情況。可分的時候存在超平面把訓練集

10、一分為二,支持向量機能找到一個最優(yōu)的決策面,把訓練集最好地分割成兩類樣本,對于線性不可分的情況則是用核函數(shù)把樣本映射到一個高維空間中,然后在這個空間中尋找超平面分割兩種類別,正如右圖所示,左邊的是復雜的低維空間樣本分散,線性不可分,但通過核函數(shù)的映射,可以建立一個簡單的高維空間,在里面尋找到超平面。,2020/7/30,19,統(tǒng)計分類法,統(tǒng)計分類,貝葉斯分類算法,回歸算法,貝葉斯網(wǎng)絡,線性回歸,邏輯回歸,樸素貝葉斯,2020/7/30,20,粗糙集理論,1982年,波蘭科學家Z.Pawlak提出了粗糙集理論,用來表示不精確或者不確定的概念。眾所周知,精確的概念有確定的邊界或者說外延,比如說“人

11、”,而不精確的概念外延是沒有確定邊界的,比如“發(fā)達國家”。粗糙集理論把一個集合的個體分為肯定屬于、肯定不屬于以及無法確定三類,通過上近似和下近似(見下圖)運算,一個不精確的概念可以用一組精確的概念表示出來。,2020/7/30,21,K-近鄰算法,K-近鄰算法把一組已知類別的歷史數(shù)據(jù)作為訓練樣本集,根據(jù)已知樣本的類別對新樣本進行分類。 它的思想如下:首先,計算新樣本與訓練樣本之間的距離,找到距離最近的K個鄰居,然后根據(jù)這些鄰居所屬的類別來判斷新樣本的類別,如果它們都屬于同一個類別,那么新樣本也是這個類別的,否則,對每個候選類別進行評分,按照某種規(guī)則確定新樣本的類別。下圖以不同像素焦距的相機價格

12、舉例,要求出新樣本的價格,可以通過訓練樣本的值進行判斷。,2020/7/30,22,2020/7/30,23,評價分類方法的標準,上文中介紹了許多分類方法,不同的分類方法有自己的特點,分類的效果和數(shù)據(jù)有關,有的數(shù)據(jù)噪聲大,有的存在缺失,有的分布系數(shù),有的屬性間的相關性強,有的屬性是離散的,有的屬性是連續(xù)的或者混合的,因此,通用的分類方法并不存在。對于一個分類方法進行評價要考慮一下幾個方面的問題。,2020/7/30,24,常用分類方法評述,2020/7/30,25,2020/7/30,26,2020/7/30,27,2020/7/30,28,人臉識別系統(tǒng)定義,人臉識別作為圖像分析與理解的一個應

13、用領域,在近些年得到了研究界及向光領域的充分重視,在公安(罪犯識別等)、安全驗證系統(tǒng)、信用卡驗證、醫(yī)學、檔案管理、視頻會議、人機交互系統(tǒng)等方面都有著巨大應用前景。特別是在奧運會中,人臉識別技術了很大發(fā)展。右圖是北京奧運會中人臉識別系統(tǒng)的日常運行。,2020/7/30,29,人臉識別的步驟,在人臉識別領域內,近期比較前沿的技術為S.Rowels等人提出的LLE算法,此算法主要在特征提取中起作用,不僅能夠有效地發(fā)現(xiàn)數(shù)據(jù)的非線性結構,同時還具有平移、旋轉不變性。四川大學采用這種非線性降維方法提取人臉特征,然后將提取出來的特征輸入到BP神經網(wǎng)絡進行訓練得到人臉的類間判別信息,最后進行人臉識別,該方法承接國家自然科學基金委的奧運重點項目,研究結果已經在北京奧運會中得以體現(xiàn)。,2020/7/30,30,四川大學LLE與BP神經網(wǎng)絡算法流程,利用四川大學的新近研究方法進行人臉識別的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論