機器學習期末復習_第1頁
機器學習期末復習_第2頁
機器學習期末復習_第3頁
機器學習期末復習_第4頁
機器學習期末復習_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

機器學習期末復習機器學習期末復習機器學習期末復習機器學習期末復習編制僅供參考審核批準生效日期地址:電話:傳真:郵編:機器學習是怎樣的學科:致力于研究如何通過計算的手段,利用經(jīng)驗來改善系統(tǒng)自身的性能。機器學習主要分為兩大類:監(jiān)督學習、非監(jiān)督學、強化學習(AlphaGo)、半監(jiān)督學習。機器學習所要研究的主要內容是關于計算機在從數(shù)據(jù)中產生“模型”的算法,即“學習算法”。(有了學習算法,我們把經(jīng)驗提供給它,他就能基于這些數(shù)據(jù)產生模型)。學習的特點:數(shù)據(jù)驅動,以方法為中心,概率統(tǒng)計優(yōu)化為基礎。從數(shù)據(jù)中學得模型的過程稱為“學習”或“訓練”,這個過程通過執(zhí)行某個學習算法來完成。訓練過程中使用的數(shù)據(jù)稱為“訓練數(shù)據(jù)”,每一個樣本稱為“訓練樣本”,訓練樣本組成的集合稱為“訓練集”。三要素:模型、策略、算法。學得模型后,使用其進行預測得過程稱為“測試”。被測樣本稱為“測試樣本”。機器學習的目標是使學得的模型能很好地適用于“新樣本”。獨立同分布學得模型適用于新樣本的能力,稱為“泛化”能力。具有強泛化能力的模型能很好地適用于整個樣本空間?!皧W卡姆剃刀”原則,是一種常用地、自然科學研究中最基礎地原則,即“諾有多個假設與觀察一致,則選最簡單地那個”。(采用這個原則,則所描繪地曲線更平滑,更簡單)。20世紀50年代-70年代初,人工智能處于“推理期”。20世紀70年代中期開始,人工智能進入“知識期”。20世紀80年代:被研究最多的應用最廣的是“從樣本中學習”,其中的兩個主流技術:符號主義學習(決策樹,ILP:歸納邏輯程序設計),基于神經(jīng)網(wǎng)絡的連接主義學習20世紀90年代中期:統(tǒng)計學習:代表性技術,支持向量機21世紀以來,連接主義學習“深度學習”即很多層的神經(jīng)網(wǎng)絡1980年夏,美國卡耐基梅隆大學舉辦了第一屆機器學習研討會(IWML)。同年《策略分析與信息系統(tǒng)》連出三期機器學習專輯。1986年,第一本機器學習專業(yè)期刊MachineLearning創(chuàng)刊。1989年,人工智能領域地權威期刊ArtificialIntelligence出版機器學習專輯。2006年,卡耐基梅隆大學宣告成立世界上第一個“機器學習系”。經(jīng)驗誤差:學習器在訓練集上的誤差稱為“訓練誤差”或“經(jīng)驗誤差”。泛化誤差:在新樣本上的誤差稱為“泛化誤差”。“測試誤差”作為泛化誤差的近似。模型評估時用來測試模型的數(shù)據(jù)集叫什么集:A訓練集B測試集C評估集D驗證集(訓練集是用來訓練模型的,通過嘗試不同的方法和思路使用訓練集來訓練不同的模型,再通過驗證集使用交叉驗證來挑選最優(yōu)的模型,通過不斷的迭代來改善模型在驗證集上的性能,最后再通過測試集來評估模型的性能。將一個數(shù)據(jù)集D分為訓練集S和測試集T的方法:留出法:直接將數(shù)據(jù)集D劃分為兩個互斥的集合,其中一個作為S一個作為T。注意點:訓練/測試集的劃分要盡可能保持數(shù)據(jù)分布一致。單次使用留出法得到的估計結果往往不夠穩(wěn)定可靠。一般采用若干次隨機劃分、重復進行實驗評估后取平均值作為結果。常見做法是將大約2/3~4/5的樣本用于訓練剩余樣本用于測試。保留類別比例的采樣方式通常稱為“分層采樣”。交叉驗證法:(可能大題)將數(shù)據(jù)集D劃分為k個大小相似的的互斥子集,每個子集盡可能保持數(shù)據(jù)分布的一致性,即通過分層采樣得到。然后每次用k-1個子集的并集作為訓練集,余下的一個子集作為測試集并進行K次訓練和測試。例如:5折交叉驗證,D分為D1~D5,第一次取4個子集的并集,D2-D5作為訓練集,D1作為測試集。第二次取D1、D3、D4、D5的并集作為訓練集,D2作為測試集。以此類推,最后將5次測試結果平均得到返回結果。其中,如果D一共有m個樣本,k=m,則得到交叉驗證法的特例:留一法。因為m個樣本只有唯一的劃分方式,即劃分為m個子集,每一個子集只有一個樣本。這樣所用的訓練集只比原數(shù)據(jù)少一個樣本。留一法的優(yōu)點:評估結果往往被認為比較精確(并非最精確),缺點:數(shù)據(jù)集較大時,訓練m個模型的計算開銷可能難以忍受。自助法:(這種方法有一些樣本永遠取不到)建立一個新的數(shù)據(jù)集D’在D中隨機取一個樣本復制到D’中,進行m次后,D’中的樣本數(shù)量和D一樣,這時將D’作為訓練集D\D’(表示D中不包括D’的部分)作為測試集。因為是復制到D’中所以D中的一部分樣本會取不到,則不被取到的概率為(1-1/m)^m取極限得到=1/e≈0.368,即數(shù)據(jù)集D中約有36.8%的樣本未出現(xiàn)在D’中。得到結果也稱為“包外估計”。在數(shù)據(jù)集較小、難以有效劃分訓練/測試集時很有用此外,自助法能從初始數(shù)據(jù)集中產生多個不同的訓練集,對集成學習有很大好處。但是自助法改變了初始數(shù)據(jù)集的分布,這會引入估計偏差。所以數(shù)據(jù)足夠多的時候其他兩種方法更加常用。錯誤率與精度錯誤率:分類錯誤的樣本占樣本總數(shù)的比例。精度:分類正確的樣本數(shù)占樣本總數(shù)的比例。查準率、查全率與F1認為是正例的樣本中:真正例TP假正例FP認為是假例的樣本中:假反例FN真反例TN查準率P:TP/(TP+FP)即在查到的正例中正確的占比。查全率R:TP/(TP+FN)即在所有正確的例子中查到的正例的占比。一般來說,查準率高,查全率偏低,查全率高,查準率偏低。根據(jù)這一現(xiàn)象可以得到“P-R曲線”,當R(X軸)相同時,P(Y軸)越大越好。曲線和P=R的直線的交點稱為平衡點。越大越優(yōu)。因為平衡點過于簡化,所以用F1來衡量優(yōu)劣:F1=(2*P*R)/(P+R)=(2*TP)/(樣本總數(shù)+TP-TN)=>1/F1=1/2*(1/P+1/R)有時因為場景的需要,可能回偏向查全率或者查準率,則有了F1的變形:FβFβ=((1+β2)*P*R)/((β2*P)+R)當β=1時,則為標準的F1;β>1時查全率有更大影響;β<1時查準率有更大影響。線性模型:給定d個描述x=(x1;x2x3...xd)(例如西瓜顏色、形狀2個描述,d=2),xi是x在第i個屬性上的取值(即顏色=x1;形狀=x2)。從而有線性模型的基本形式f(x)=wTx+b加粗表示向量線性回歸這里的數(shù)據(jù)集為D={(x1,y1),(x2,y2),...,(xm,ym)},其中xi=(xi1,xi2,...,xid)即線性模型的描述。此處的y應該是判斷結果,我猜測為正確答案。簡單化xi,將其中的值縮減到1個,則D={(xi,yi)}i=1m。同時,若屬性間存在“序”,并且為離散值,則可以將輸入變?yōu)轭愃粕砀?>{1,0}其中1表示高,0表示矮。如果不存在“序”關系,k個屬性就用k維向量表示。線性回歸目的是求出f(x)=wTx+b的函數(shù)使得帶入的值經(jīng)過函數(shù)計算后得到的f(x)與預測的y近似。所以為了近似,則需要做差最小。使用均方誤差得到:(w*,b*)=argminΣ(i=1~m)(f(xi)-yi)2不方便同時做上下標簡單表示=argminΣ(i=1~m)(yi-wxi-b)2這里我理解的是承接上面簡化屬性值僅有一個分別對w和b做偏導得到書上P51的3.5和3.6,然后兩個式子=0,解后得到3.7和3.8的解。(過程作業(yè)有寫,需要熟悉)此時如果使用原本的數(shù)據(jù)集,而不簡化,即f(x)=wTx+b≈yi稱為“多元線性回歸”最小二乘法就是通過使兩個式子的均方誤差最小化,來求得函數(shù)的未知值。來近似標準函數(shù),可以百度關鍵詞“最小二乘法”,其中原理的部分較好理解。對數(shù)線性回歸:即之前的線性回歸是為了逼近y值,如果要使得函數(shù)逼近與y相關的值,例如lny,就是改變指數(shù)尺度=>lny=wTx+b這一式子則稱為對數(shù)線性回歸,本質是使得e底的wTx+b逼近y。該式子在本質上仍然是線性回歸。P56圖3.1表現(xiàn)得較為明顯。如果有g(.)使得y=g-1(wTx+b)這樣得到得模型稱為“廣義線性模型”,函數(shù)g(.)稱為“聯(lián)系函數(shù)”,則對數(shù)線性回歸是廣義線性模型在g(.)=ln(.)時得特例。我這里認為g(.)中.表示輸入值。對數(shù)幾率回歸:是分類問題通過找一個單調可微函數(shù)g(.)將分類任務的真實標記y與線性回歸模型的預測值f(x)聯(lián)系起來。設預測值z=wTx+b則將z的值通過“單位越階函數(shù)”P57(3.16)與輸出標記y一致。即通過g(.)獲取到的函數(shù)為P57圖3.2中的黑線。紅色部分則為判斷的輸出標記。因為希望函數(shù)值接近0或1,所用用y=1/1+e-z作為“替代函數(shù)”且可微。帶入z=wTx+b,得到P58(3.18)(3.19)則為了求“對數(shù)幾率”,最后就是求ln(y/1-y),將y和1-y分別視為為1和為0的概率,則有P59(3.23)(3.24)作業(yè)有相關內容。熵模型:百度內容:給定一個\t"/item/%E6%9C%80%E5%A4%A7%E7%86%B5%E6%A8%A1%E5%9E%8B/_blank"概率分布,則熵的定義為:Hp=?p(x)\t"/item/%E6%9C%80%E5%A4%A7%E7%86%B5%E6%A8%A1%E5%9E%8B/_blank"logp(x)放到作業(yè)中即-plnq大致意思是要求一個函數(shù)的最小值就取它的負,這樣反過來求它的最大值。線性判別分析:是一種經(jīng)典的線性學習方法,再二分類問題上提出。簡稱LDA:給定訓練集例集,設法將樣例投影到一條直線上,使得同類的樣例的投影盡可能得靠近,異類樣例盡可能遠離;對新樣本進行分析時,將樣本投影到這條直線上,再根據(jù)位置判斷類別。快速判斷是否可以線性可分:將兩類樣本包起來,類似連接每類樣例的最外層樣本,形成一個封閉的圖形,如果兩個類別不重疊,則可以線性可分,反之不可。多類別學習:有些二分類學習方法可直接推廣到多分類,但是再更多情形下,我們是基于一些基本策略,利用二類學習器來解決多分類問題。即多次利用二分類來解決多分類。最經(jīng)典的拆分策略有三種:“一對一”(OvO),“一對其余”(OvR)和“多對多”(MvM)。OvR只需要N個分類器,OvO需要N(N-1)/2個分類器。通常,OvO的存儲開銷和測試時間開銷比OvR更大,但是OvO每次只用到兩類樣例,OvR則是全部樣例。所以在類別多的的情況下OvO的訓練時間開銷通常比OvR更小。取決于具體數(shù)據(jù)分布。P64圖3.4(大題)信息增益:信息熵:是度量樣本集合純度最常用的一種指標。集合D的信息熵定義為Ent(D)值越小表示純度越高。神經(jīng)元模型:“M-P神經(jīng)元模型”P97圖5.1xi為輸入y為輸出Wi為對應xi的連接權重激勵函數(shù):類似神經(jīng)傳播,當一個電位超過一定值,則激活神經(jīng)元,從而進行再傳遞。類似地接收到帶權重地輸入信號,將總輸入值和閥值進行比較,然后通過“激勵函數(shù)”處理產生輸出。所以這里地激勵函數(shù)最好是躍階函數(shù)(即只有y=1或y=0)但是實際用Sigmoid函數(shù)將值壓縮在0-1之間。(1表示興奮,0表示抑制)把許多個這樣地神經(jīng)元按一定地層次結構連接起來,就得到了神經(jīng)網(wǎng)絡。感知機和多層網(wǎng)絡:要求會計算“與”、“或”、“非”:這里用躍階函數(shù)計算。wi和θ的值是可變化的,設定值后。帶入x1和x2計算,達到x1與x2x1或x2非x的效果。y=f(Σiwi*xi-θ)深度學習:“深”在哪里?參數(shù)越多、“容量”越大、復雜模型典型的深度學習模型就是很深層的神經(jīng)網(wǎng)絡,顯然,對神經(jīng)網(wǎng)絡模型,提高容量的一個簡單辦法是增加隱層的數(shù)目=>隱層數(shù)目大?!岸嚯[層”是指三個及以上隱層。深度學習通常有八九層甚至更多隱層。支持向量機:兩大重點:最大間隔、核技巧在樣本空間中,劃分超平面可通過如下線性方程描述:wTx+b=0間隔:距離超平面最近的幾個訓練樣本點中,兩個異類支持向量到超平面的距離之和稱為“間隔”。最大間隔:找到滿足式子P122(6.3)中約束的參數(shù)w和b,使得間隔最大。支持向量機(SVM)的基本型:P123(6.6)函數(shù)間隔:實際上是|wTx+b|,函數(shù)間隔代表了我們認為特征是正例還是反例的確信度。針對全局樣本的定義的函數(shù)間隔:意思就是找到訓練樣本中函數(shù)間隔最小的那個樣本,并且要讓它的函數(shù)間隔最大。幾何間隔:幾何間隔首先簡單一點說就是點到直線距離。在式子中的表現(xiàn)為||w||。硬間隔:要求所有樣本均滿足約束。P122(6.3)軟間隔:允許某些樣本不滿足約束。P130(6.28)常用的“軟間隔支持向量機”在P130P131min和s.t.部分。線性間隔:不需要升維,就可以找到一個超平面將訓練樣本正確分類。非線性間隔:需要升維,才能將訓練樣本分類。組合,有線性軟間隔、線性硬間隔、非線性軟間隔、非線性硬間隔。對偶問題:作業(yè)大題。主要還是求偏導。因為在解對偶問題時,有用到二次規(guī)劃算法,該問題的規(guī)模正比于訓練樣本數(shù),這會在實際任務中造成很大的開銷。為了避開這個障礙,人們通過利用問題本身的特性,提出了很多高效算法,SMO(SequentialMinimalOptimization)是其中一個著名的代表。核函數(shù):在樣本無法線性可分的情況下,可以將原始空間映射到一個更高維的特征空間,使得樣本在這個空間內線性可分。在將其轉換為對偶問題時??梢栽O想一個函數(shù)k(xi,xj)用來計算xi與xj在特征空間的內積。這函數(shù)稱為“核函數(shù)”,這一方法稱為“核技巧”。核方法:是解決非線性問題模式分析問題的一種有效途徑,其核心思想是:首先,通過某種非線性映射將原始數(shù)據(jù)嵌入到合適的高維特征空間;然后,利用通用的線性學習器在這個新的空間中分析和處理模式。其表現(xiàn)形式:P137(6.58)高斯核:高斯核函數(shù)(Gaussiankernel),也稱徑向基(RBF)函數(shù),是常用的一種核函數(shù)。它可以將有限維數(shù)據(jù)映射到高維空間,我們來看一下高斯核函數(shù)的定義:上述公式涉及到兩個向量的歐式距離(2范數(shù))計算,而且,高斯核函數(shù)是兩個向量歐式距離的單調函數(shù)。σσ是帶寬,控制徑向作用范圍,換句話說,σσ控制高斯核函數(shù)的局部作用范圍。當xx和x′x′的歐式距離處于

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論