版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
機器學習的導學匯報人:顧松敏導師:王琢2016.10.12目錄1引言2基本概念與學習系統(tǒng)3機器學習主要策略及R演示機器學習(ML)4發(fā)展與展望1引言隨著信息技術的發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)及資源呈現(xiàn)海量特征。為了有效地管理和利用這些分布的海量信息,如何使機器具有認識問題和解決問題的能力,就是讓機器如何更聰明、更具有人的智能,這就是機器學習。ML基本概念機器學習的核心是學習。學習是一種多方面、綜合性的心理活動,它與記憶、思維、知覺、感覺等多種心理行為都有著密切的聯(lián)系2基本概念與學習系統(tǒng)
目前在機器學習研究領域影響較大的是H.Simon的觀點:學習是系統(tǒng)中的任何改進,這種改進使得系統(tǒng)在重復同樣的工作或進行類似的工作時,能完成得更好。機器學習研究的就是如何使機器通過識別和利用現(xiàn)有知識來獲取新知識和新技能。機器學習是一門多領域交叉學科機器學習的一個形象描述基本概念研究一種算法:1)提高它的性能(P)2)在某項任務中(T)3)利用一些經(jīng)驗(E)well-definedlearningtask:<P,T,E>目前在眾多涉及計算機處理的技術應用中,機器學習在許多領域都取得了很大的進步,如用于人工智能、數(shù)據(jù)挖掘、自然語言處理、漢字識別、機器翻譯、專家系統(tǒng)以及商業(yè)領域等。機器學習應用學習系統(tǒng)學習系統(tǒng)為了使計算機系統(tǒng)具有某種程度的學習能力,使它能通過學習增長知識,改善性能,提高智能水平,需要為它建立相應的學習系統(tǒng)。一個學習系統(tǒng)一般應該由環(huán)境、學習、知識庫、執(zhí)行與評價四個基本部分組成。環(huán)境學習知識庫執(zhí)行與評價學習、學習、再學習!機器學習的發(fā)展極為迅速,應用也亦日益廣泛,其中有很多優(yōu)秀的機器學習算法。算法基本上可以分為基于有監(jiān)督、無監(jiān)督、半監(jiān)督和強化學習這四大類。
3機器學習主要策略及R演示
有監(jiān)督學習分為學習和預測兩個過程,對具有標記的訓練樣本進行學習,學習到一種模型后以盡可能對訓練樣本集外的數(shù)據(jù)進行標記預測。這里,所有的標記是已知的。因此,訓練樣本的岐義性低。有監(jiān)督學習
有監(jiān)督學習X1X2X3X4Y0.100.010.930.2500.740.870.910.2710.130.210.870.250...............0.120.210.880.1500.840.12...0.210.12...0.430.12...0.340.12...10...0.700.050.930.281訓練集測試集原始數(shù)據(jù)集預測集0.110.070.920.15?0.850.450.560.01?.....
無監(jiān)督學習無監(jiān)督學習對沒有概念標記的訓練樣本進行學習,以發(fā)現(xiàn)訓練樣本集中的結構性知識。這里,所有的標記是未知的。因此,訓練樣本的岐義性高。關聯(lián)規(guī)則和聚類就是典型的無監(jiān)督學習。最近鄰神經(jīng)網(wǎng)絡回歸樹模型樹分類器線性回歸
主要學習策略ML主要策略支持向量機關聯(lián)規(guī)則樸素貝葉斯決策樹k均值聚類雙重用處支持向量機神經(jīng)網(wǎng)絡分類決策樹最近鄰樸素貝葉斯數(shù)值預測回歸樹按學習任務分類——有監(jiān)督分類器模型樹線性回歸模式識別關聯(lián)規(guī)則按學習任務分類——無監(jiān)督聚類K均值聚類R語言簡介R是用于統(tǒng)計分析、繪圖的語言和操作環(huán)境。R是屬于GNU系統(tǒng)的一個自由、免費、源代碼開放的軟件,它是一個用于統(tǒng)計計算和統(tǒng)計制圖的優(yōu)秀工具。R語言的優(yōu)缺
最近鄰算法(KNN)就是將待分類樣本點決策為距離它最近的已知類別樣本點所屬的類別。K近鄰算法步奏如下描述:(1)計算已知類別數(shù)據(jù)集中的點與當前點的距離(2)按距離遞增次序排序(3)選取與當前點距離最小的k個點(4)確定前K個點所在類別出現(xiàn)的頻率(5)返回頻率最高的類別作為當前類別的預測
最近鄰算法最近鄰算法蛋白質(zhì)水果蔬菜最近鄰算法種類甜度脆度食物類型蘋果109水果培根14蛋白質(zhì)芹菜310蔬菜香蕉101水果奶酪11蛋白質(zhì)............甜度脆度蘋果葡萄培根胡蘿卜香蕉橙子梨奶酪魚芹菜豌豆生菜黃瓜蝦西紅柿最近鄰算法如何選擇一個合適的K?K近鄰算法步奏如下描述:(1)計算已知類別數(shù)據(jù)集中的點與當前點的距離(2)按距離遞增次序排序(3)選取與當前點距離最小的k個點(4)確定前K個點所在類別出現(xiàn)的頻率(5)返回頻率最高的類別作為當前類別的預測
最近鄰算法最近鄰算法
距離的度量:
特征空間中兩個例點的距離是它們相似程度的反映。K近鄰模型的特征空間一般是n維實數(shù)向量空間,可以使用歐氏距離,但也可以使用更一般的LP距離。最近鄰算法最近鄰算法
最近鄰算法是一種基于實例的算法,也是一種懶惰學習算法。在訓練階段比渴望學習算法(如決策樹,神經(jīng)網(wǎng)絡等)有更少的計算時間,簡單有效,對數(shù)據(jù)的分布沒有要求,訓練階段很快。但在分類過程中需要更多的計算時間,需要大量的內(nèi)存,不產(chǎn)生模型并且在發(fā)現(xiàn)特征之間關系上能力有限。該我表演啦!R樸素貝葉斯樸素貝葉斯;發(fā)現(xiàn)屬性變量之間的依賴相對于屬性變量與類變量之間的依賴是可以忽略的。樸素貝葉斯具有如下三個特點:(1)樸素貝葉斯并不把一個對象絕對地指派給某一類,而是通過計算得出屬于某一類的概率,具有最大概率的類便是該對象所屬的類;(2)一般情況下在樸素貝葉斯中所有的屬性都潛在的起作用,即并不是一個或幾個屬性決定分類,而是所有的屬性都參與分類;(3)樸素貝葉斯的對象的屬性可以是離散的、連續(xù)的、也可以是混合的。樸素貝葉斯決策樹
決策樹就是根據(jù)特征值對實例進行分類。決定樹中的每個節(jié)點代表待分類實例的一個特征,每個分支代表該節(jié)點可以假設的一個值。
決策樹模型決策樹決策樹可看作一個樹狀預測模型,它通過把實例從根節(jié)點排列到某個葉子節(jié)點來分類實例,葉子節(jié)點即為實例所屬的分類。決策樹的核心問題是選擇分裂屬性和決策樹的剪枝。決策樹的算法有很多,有ID3、C4.5、CART等等。這些算法均采用自頂向下的貪婪算法,每個節(jié)點選擇分類效果最好的屬性將節(jié)點分裂為2個或多個子結點,繼續(xù)這一過程直到這棵樹能準確地分類訓練集,或所有屬性都已被使用過。
決定樹最有用的特性之一是其可理解性。人們可以很容易地理解為什么一顆決策樹把一個實例分類歸類到一個特定的類。決策樹原理及優(yōu)點
一個連接模型(神經(jīng)網(wǎng)絡)是由一些簡單的類似神經(jīng)元的單元以及單元間帶權的連接組成。每個單元具有一個狀態(tài),這個狀態(tài)是由與這個單元相連接的其他單元的輸入決定的。連接學習通過使用各類例子來訓練網(wǎng)絡,產(chǎn)生網(wǎng)絡的內(nèi)部表示,并用來識別其他輸入例子。學習主要表現(xiàn)在調(diào)整網(wǎng)絡中的連接權,這種學習是非符號的,并且具有高度并行分布式處理的能力。
一個人工神經(jīng)網(wǎng)絡是由大量神經(jīng)元節(jié)點經(jīng)廣泛互連而組成的復雜網(wǎng)絡拓撲,用于模擬人類進行知識和信息表示、存儲和計算行為。人工神經(jīng)網(wǎng)絡學習的工作原理是:一個人工神經(jīng)網(wǎng)絡的工作由學習和使用兩個非線性的過程組成。從本質(zhì)上講,人工神經(jīng)網(wǎng)絡學習是一種歸納學習,它通過對大量實例的反復運行,經(jīng)過內(nèi)部自適應過程不斷修改權值分布,將網(wǎng)絡穩(wěn)定在一定的狀態(tài)下。
比較出名的網(wǎng)絡模型和學習算法有單層感知器(Perceptron)、Hopfield網(wǎng)絡、Boltzmann機和反向傳播算法(BackPropagation,BP)。人工神經(jīng)網(wǎng)絡ANN原理人工神經(jīng)網(wǎng)絡
是一個正數(shù)(為學習率),它決定梯度下降搜索的步長。一個較大的值使反向傳播以更快的速度向目標權重配置移動,但同時也增加了不能達到這個目標的幾率。對于輸出神元,
是第j個神經(jīng)元的期望輸出對于內(nèi)部(隱藏)神經(jīng)元,更新權重的一般規(guī)則是:其中:是第i個神經(jīng)元的計算輸出反向傳播ANN權重計算在神經(jīng)網(wǎng)絡中,因為缺乏問題的先驗知識,往往需要經(jīng)過大量費力費時的試驗摸索才能確定合適的神經(jīng)網(wǎng)絡模型、算法以及參數(shù)設置,其應用效果完全取決于使用者的經(jīng)驗。基于此原因,于1990年,Hansen和Salamon開創(chuàng)性地提出了神經(jīng)網(wǎng)絡集成(NeuralNetworkEnsemble)方法。該技術來源于機器學習界目前極熱門的Boosting方法,也已成為當前研究的熱點。神經(jīng)網(wǎng)絡的另一大缺陷就是其典型的“黑箱性”,即訓練好的神經(jīng)網(wǎng)絡學到的知識難以被人理解,神經(jīng)網(wǎng)絡集成又加深了這一缺陷。神經(jīng)網(wǎng)絡是基于經(jīng)驗風險最小化原則的學習算法,有一些固有的缺陷,比如層數(shù)和神經(jīng)元個數(shù)難以確定,容易陷入局部極小,還有過學習現(xiàn)象,這些本身的缺陷在SVM算法中可以得到很好的解決。人工神經(jīng)網(wǎng)絡ANN缺陷
支持向量機是Vapnik等人提出的一類新型的機器學習算法。SVM算法的目的在于尋找一個超平面H(d),該超平面可以將訓練集中的數(shù)據(jù)分開,且與類域邊界的沿垂直于該超平面方向的距離最大,故SVM法亦被稱為最大邊緣(MaximumMargin)算法。所謂最優(yōu)超平面就是要求超平面不但能將兩類正確分開,而且使分類間隔最大;使分類間隔最大實際上就是對模型推廣能力的控制,這正是SVM的核心思想所在??偟膩碚f,支持向量機就是首先通過用核函數(shù)定義的非線性變換將輸入空間變換到一個高維空間,在這個空間中求(廣義)最優(yōu)分類面。SVMs分類函數(shù)形式上類似于一個神經(jīng)網(wǎng)絡,輸出是中間節(jié)點的線性組合,每個中間節(jié)點對應一個支持向量,如圖所示。選擇不同的核函數(shù)就可以生成不同的支持向量機。常用的核包括:多項式核、高斯(徑向基函數(shù))核、二層神經(jīng)網(wǎng)絡核等。目前支持向量機的訓練算法是以序貫最小最優(yōu)化(SMO)為代表的,其中工作集的選擇是實現(xiàn)SMO算法的關鍵。支持向量機SVM算法實現(xiàn)基于統(tǒng)計學習理論的支持向量機(SVM)方法,與傳統(tǒng)的基于經(jīng)驗風險最小化原則的學習方法不同,SVM基于結構風險最小化,能在訓練誤差和分類器容量之間達到一個較好的平衡,它具有全局最優(yōu)、適應性強、推廣能力強等優(yōu)點。但是直到目前為止,支持向量機方法還存在一些問題,例如訓練時間過長、核參數(shù)的選擇等,成為限制支持向量機應用的瓶頸。支持向量機SVM模型及優(yōu)缺點機器學習算法的拓展在人工智能、數(shù)據(jù)挖掘、模式識別和機器學習中有許多的應用都要進行模型的參數(shù)估計,也就是要進行極大似然估計或極大后驗似然估計。一種非常流行的極大似然估計方法是EM算法。算法的命名,是因為算法的每一迭代包括兩步:第一步求期望(ExpectationStep),稱為E步;第二步求極大值(MaximizationStep),稱為M步。EM算法主要用來計算基于不完全數(shù)據(jù)的極大似然估計。EM算法的特點是簡單和穩(wěn)定,
特別是每一次迭代能保證觀察數(shù)據(jù)對數(shù)后驗似然是單調(diào)不減的。EM算法EM算法遺傳算法
遺傳算法(GA)是建立在自然選擇和群體遺傳學機理基礎上的隨機迭代和進化,具有廣泛適用性的搜索方法,具有很強的全局優(yōu)化搜索能力。它模擬了自然選擇和自然遺傳過程中發(fā)生的繁殖、交配和變異現(xiàn)象,根據(jù)適者生存、優(yōu)勝劣汰的自然法則,利用遺傳算子選擇、交叉和變異逐代產(chǎn)生優(yōu)選個體(即候選解),最終搜索到較優(yōu)的個體。遺傳算法本質(zhì)上是基于自然進化原理提出的一種優(yōu)化策略,在求解過程中,通過最好解的選擇和彼此組合,則可以期望解的集合將會愈來愈好。遺傳算法受到研究人員廣泛重視是由于它采用隨機搜索方法,其特點是幾乎不需要所求問題的任何信息而僅需要目標函數(shù)的信息,不受搜索空間是否連續(xù)或可微的限制就可找到最優(yōu)解,具有強的適應能力和便于并行計算。遺傳算法介紹遺傳算法遺傳算法是一種種群型操作,該操作以種群中的所有個體為對象。具體求解步驟如下:(1)創(chuàng)建初始種群(2)循環(huán):產(chǎn)生下一代(3)評價種群中的個體適應度(4)定義選擇的適應度函數(shù)(5)改變該種群(交叉和變異)(6)返回第二步(7)滿足終止條件結束GA適用于解決復雜的非線性和多維空間尋優(yōu)問題。經(jīng)典遺傳算法的缺點是:有時計算時間過長,不能保證解是全局最優(yōu)的。遺傳算法步驟及優(yōu)缺點初始種群產(chǎn)生下一代自然選擇個體適應度交叉和變異終止適應度函數(shù)繁殖滿足終止條件集成學習集成學習提出
集成學習(EnsembleLearning)始于Hansen和Salamon的開創(chuàng)性工作。他們研究發(fā)現(xiàn),通過訓練多個神經(jīng)網(wǎng)絡并將其結果按照一定的規(guī)則進行組合,就能顯著提高整個學習系統(tǒng)的泛化性能。之后有人通過構造性方法提出Boosting算法,證明了這一點。集成學習通過訓練和組合多個準確而有差異的分類器,提高了分類系統(tǒng)的泛化能力,成為近十年來機器學習領域最主要的研究方向之一。目前,國內(nèi)外以神經(jīng)網(wǎng)絡、決策樹等為基分類器的集成學習研究已經(jīng)取得了很大的進展。在分類時,采用投票的方式?jīng)Q定新樣本屬于哪一類。
集成學習示意圖集成學習由于每個分類器的分類能力不同,在集成時,需要對所有分類器加權均,以決定分哪類。集成學習構造集成學習基分類器的構造方法:1)采用不同訓練樣本集2)采用不同輸入特征子集3)輸出編碼分解方法4)引入隨機性5)多種方法相結合分類器的輸出信息可以分為抽象層、排序層和度量層三個層次。基分類器的組合方法有:a)排序層組合方法b)抽象層組合方法c)度量層組合方法根據(jù)基分類器是否屬于相同類型,可以分為同類分類器集成和異類分類器集成。根據(jù)基分類器是否由集
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年特定區(qū)域獨家銷售代表合同版B版
- 城市物流園區(qū)停車場施工合同
- 隧道建設三方施工合同
- 臨時文化展覽館租賃合同
- 自行車店防火門安裝協(xié)議
- 農(nóng)村自建房屋協(xié)議
- 限時優(yōu)惠促銷二手房買賣合同
- 旅游景區(qū)供水井施工合同
- 城市公交站設施安全合同樣本
- 快遞公司配送司機勞動合同
- 知名汽車公司APQP質(zhì)量門檢查表
- 圓柱齒輪精度設計與檢測課件
- 《生產(chǎn)運作管理(第6版)》讀書筆記模板
- 退伙入伙協(xié)議
- 錨索張拉方案正
- 【機械手】-基于PLC機械手控制系統(tǒng)設計
- 城市停車特許經(jīng)營投標技術方案
- “紅領巾獎章”章樣圖案及說明
- 化學平衡常數(shù)及計算復習教學設計(方良成)
- 中國體育科學學會《運動處方標準格式》
- GB/T 16496-1996化學試劑硫酸鉀
評論
0/150
提交評論