《機器學習技術(shù)》課件 第一章 機器學習導(dǎo)引_第1頁
《機器學習技術(shù)》課件 第一章 機器學習導(dǎo)引_第2頁
《機器學習技術(shù)》課件 第一章 機器學習導(dǎo)引_第3頁
《機器學習技術(shù)》課件 第一章 機器學習導(dǎo)引_第4頁
《機器學習技術(shù)》課件 第一章 機器學習導(dǎo)引_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

單元1機器學習導(dǎo)引機器學習電氣與信息工程系CONTENTS

目錄01020304機器學習概述機器學習的發(fā)展歷程與趨勢機器學習的分類模型訓(xùn)練與評估方法PART01機器學習概述01機器學習概述什么是機器學習?從廣義上來說,機器學習是一種能夠賦予機器學習的能力以此讓它完成直接編程無法完成的功能的方法。從實踐的意義上來說,機器學習是一種通過利用數(shù)據(jù),訓(xùn)練出模型,然后使用模型預(yù)測的一種方法。

01機器學習概述機器學習(MachineLearning)是一門多領(lǐng)域交叉學科,它是人工智能的核心,是使計算機具有智能的根本途徑。其包含大量的學習算法。不同的學習算法在不同的行業(yè)及應(yīng)用中能夠表現(xiàn)出不同的性能和優(yōu)勢。PART02機器學習的發(fā)展歷程與分類02機器學習發(fā)展歷程智能集合體02機器學習發(fā)展歷程A.知識推理期B.知識工程期C.淺層學習D深度學習(1)機器學習經(jīng)歷了哪幾個發(fā)展階段?(2)機器學習是一門()的學科?A.人工智能B.計算機C.網(wǎng)格D.統(tǒng)計學PART03機器學習的分類02機器學習分類學習目標分類判別式模型,又稱非概率模型,是指通過學習輸入和輸出之間的映射關(guān)系來建立模型y=f(x),然后利用該模型來預(yù)測新的輸出。判別式模型的典型代表是支持向量機模型,該模型通過學習輸入和輸出之間的映射關(guān)系來建立分類模型,然后利用該模型來預(yù)測新的分類結(jié)果。

生成式模型,又稱概率模型,是指通過學習數(shù)據(jù)的分布來建立模型P(y|x),然后利用該模型來生成新的數(shù)據(jù)。生成式模型的典型代表是樸素貝葉斯模型,該模型通過學習數(shù)據(jù)的分布來建立概率模型,然后利用該模型來生成新的數(shù)據(jù)。

02機器學習分類生成式模型是所有變量的全概率模型,而判別模型是在給定觀測變量值的前提下目標變量的條件概率模型。因此,生成式模型能夠用于模擬(即生成)模型中任意變量的分布情況,而判別模型只能根據(jù)觀測變量得到目標變量的采樣值。判別模型不對觀測變量的分布建模。因此,它不能表達觀測變量與目標變量之間更復(fù)雜的關(guān)系。生成式模型更普適;判別式模型更直接,目標性更強。生成式模型關(guān)注數(shù)據(jù)是如何產(chǎn)生的,尋找的是數(shù)據(jù)分布模型;判別式模型關(guān)注數(shù)據(jù)的差異性,尋找的是分類面,由生成式模型可以產(chǎn)生判別式模型,但是由判別式模型沒法產(chǎn)生生成式模型。判別式模型和生成式模型的區(qū)別02機器學習分類①對條件概率進行建模,學習不同類別之間的最佳邊界。②捕捉不同類別特征的差異信息,不學習本身分布信息,無法反映數(shù)據(jù)本身的特性。③學習成本較低,需要的計算資源較少。④需要的樣本數(shù)可以較少,少樣本也能很好地學習。⑤預(yù)測時擁有較好性能。⑥無法轉(zhuǎn)換成生成式。①對聯(lián)合概率進行建模,學習所有分類數(shù)據(jù)的分布。②學習到的數(shù)據(jù)本身的信息更多,能反應(yīng)數(shù)據(jù)本身的特性。③學習成本較高,需要更多的計算資源。④需要的樣本數(shù)更多,當樣本較少時,學習效果較差。⑤推斷時性能較差。02機器學習分類學習方法分類監(jiān)督學習、無監(jiān)督學習、半監(jiān)督學習、強化學習、對抗學習5種。

監(jiān)督學習是機器學習中的一種訓(xùn)練方式/學習方式。它是通過機器學習中大量帶有標簽的樣本數(shù)據(jù),訓(xùn)練出一個模型,并使該模型可以根據(jù)輸入得到相應(yīng)輸出的過程。監(jiān)督學習02機器學習分類常見的監(jiān)督學習有分類和回歸。分類(Classification)是將一些實例數(shù)據(jù)分到合適的類別中,它的預(yù)測結(jié)果是離散的。回歸(Regression)是將數(shù)據(jù)歸到一條“線”上,即離散數(shù)據(jù)生成擬合曲線,因此其預(yù)測結(jié)果是連續(xù)的。02機器學習分類無監(jiān)督學習無監(jiān)督學習表示機器學習的數(shù)據(jù)是沒有標記的。機器從無標記的數(shù)據(jù)中探索并推斷出潛在數(shù)據(jù)之間的聯(lián)系。聚類降維(手寫數(shù)字28*28)異常點檢測02機器學習分類半監(jiān)督學習

半監(jiān)督學習是模式識別和機器學習領(lǐng)域研究的重點,是監(jiān)督學習與無監(jiān)督學習相結(jié)合的一種學習方法。標記軟件02機器學習分類對抗學習對抗學習實現(xiàn)的方法是讓兩個網(wǎng)絡(luò)相互競爭對抗。其中一個是生成器網(wǎng)絡(luò),它不斷捕捉訓(xùn)練庫里真實數(shù)據(jù)的概率分布,將輸入的隨機噪聲轉(zhuǎn)變成新的樣本(即假數(shù)據(jù));另一個是判別器網(wǎng)絡(luò),它可以同時觀察真實和假造的數(shù)據(jù),判斷這個數(shù)據(jù)到底是不是真的。通過反復(fù)對抗,生成器和判別器的能力都會不斷增強,直到達成一種平衡,最后生成器可生成高質(zhì)量的、以假亂真的數(shù)據(jù)。02機器學習分類應(yīng)用方向分類分類、聚類、回歸、排序和序列標注5種。分類是一個有監(jiān)督的學習過程,目標數(shù)據(jù)庫中有些類別是已知的,分類過程需要做的就是把每條記錄歸到對應(yīng)的類別之中。由于必須事先知道各個類別的信息,并且所有待分類的數(shù)據(jù)條目都默認有對應(yīng)的類別,因此分類算法也有其局限性,當上述條件無法滿足時,我們就需要嘗試使用聚類分析。聚類試圖將數(shù)據(jù)集中的樣本劃分為若干通常不相交的子集,每個子集稱為一個簇(Cluster)。每個簇可能對應(yīng)一些潛在的概念,這些概念對聚類算法而言,事先是未知的,聚類過程僅能自動形成簇結(jié)構(gòu),簇所對應(yīng)的概念語義需由使用者來把握和命名?;貧w從一組數(shù)據(jù)出發(fā),確定某些變量之間的定量關(guān)系式,也就是建立數(shù)學模型并估計未知參數(shù)?;貧w的目的是預(yù)測數(shù)值型的目標值,它的目標是接收連續(xù)數(shù)據(jù),尋找最適合數(shù)據(jù)的方程,并能對特定的值進行預(yù)測。其中,所尋求的方程叫作回歸方程。02機器學習分類排序以特征和數(shù)據(jù)為輸入,通過機器學習或者神經(jīng)網(wǎng)絡(luò),輸出對于某個查詢,每個數(shù)據(jù)的相關(guān)度分數(shù),進而實現(xiàn)對數(shù)據(jù)的排序。應(yīng)用方向分類序列標注指給定一個序列,找出序列中每個元素對應(yīng)標簽的問題。其中,標簽所有可能的取值集合稱為標注集。它可用于解決一系列對字符進行分類的問題,如分詞、詞性標注、命名實體識別、關(guān)系抽取等。02機器學習分類(3)下列說法中正確的是()生成式模型是所有變量的全概率模型可用于模擬(即生成)模型中任意變量的分布情況B.判別模型是在給定觀測變量值的前提下目標變量的條件概率模型,只能根據(jù)觀測變量得到目標變量的采樣值。C.判別模型不對觀測變量的分布建模。因此,它不能表達觀測變量與目標變量之間更復(fù)雜的關(guān)系D.生成式模型關(guān)注數(shù)據(jù)是如何產(chǎn)生的,尋找的是數(shù)據(jù)分布模型E.判別式模型關(guān)注數(shù)據(jù)的差異性,尋找的是分類面,由生成式模型可以產(chǎn)生判別式模型,但是由判別式模型沒法產(chǎn)生生成式模型。02機器學習分類(4)關(guān)于監(jiān)督學習,下列說法中正確的是()監(jiān)督學習的數(shù)據(jù)是不帶標記的分類將實例數(shù)據(jù)分到合適的類別中,其預(yù)測結(jié)果是離散的回歸其預(yù)測結(jié)果是連續(xù)的監(jiān)督學習過程能一次性生成魯棒的預(yù)測模型(5)按照應(yīng)用方向,機器學習可以分為哪幾類?()分類聚類回歸排序序列標注02機器學習分類(6)機器學習的核心要素包括()數(shù)據(jù)操作人員算法算力(7)數(shù)據(jù)分類是一個兩階段過程,包括()和分類階段分析階段學習階段預(yù)測階段實驗階段PART04模型訓(xùn)練與評估方法04模型訓(xùn)練(1)模型訓(xùn)練數(shù)據(jù)集、探索性數(shù)據(jù)分析(EDA)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分割、模型建立5個過程。04模型訓(xùn)練1.數(shù)據(jù)集數(shù)據(jù)集本質(zhì)上是一個M×N矩陣,其中,M代表列(特征),N代表行(樣本)。列可以分解為X和Y,其中,X是幾個術(shù)語[如特征(Feature)、獨立變量(IndependentVariable)和輸入變量(InputVariable)]的同義詞;Y也是幾個術(shù)語[如類標簽(ClassLabel)、因變量(DependentVariable)和輸出變量(OutputVariable)]的同義詞。04模型訓(xùn)練2.探索性數(shù)據(jù)分析進行探索性數(shù)據(jù)分析是為了獲得對數(shù)據(jù)的初步了解。常用的探索性數(shù)據(jù)分析方法如下:描述性統(tǒng)計:統(tǒng)計平均數(shù)、中位數(shù)、模式、標準差。數(shù)據(jù)可視化:辨別特征內(nèi)部相關(guān)性的熱圖,體現(xiàn)可視化群體差異的箱形圖,體現(xiàn)可視化特征之間相關(guān)性的散點圖,可視化數(shù)據(jù)集中呈現(xiàn)的聚類分布的主成分分析圖等。其中,箱型圖如圖1-6所示,主成分分析圖如圖1-7所示。數(shù)據(jù)整形:對數(shù)據(jù)進行透視、分組、過濾等。3.數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理又稱數(shù)據(jù)清理、數(shù)據(jù)整理或數(shù)據(jù)處理,是指對數(shù)據(jù)進行各種檢查和審查的過程,具有糾正缺失值、拼寫錯誤(使數(shù)值正?;?標準化,以使其具有可比性)、轉(zhuǎn)換數(shù)據(jù)(如對數(shù)轉(zhuǎn)換)等作用。04模型訓(xùn)練4.數(shù)據(jù)分割①數(shù)據(jù)集訓(xùn)練-測試分割②數(shù)據(jù)集訓(xùn)練-驗證-測試分割訓(xùn)練集用于訓(xùn)練模型,驗證集用于選擇最佳的超參數(shù)和評估模型的性能,測試集用于評估模型的泛化性能。04模型訓(xùn)練③CV(交叉驗證)最常用的交叉驗證是

k折交叉驗證(k-foldcross-validation),其中k是由用戶指定的數(shù)字,通常取5或10。5折交叉驗證:

1、將數(shù)據(jù)劃分為(大致)相等的5部分,每一部分叫作折(fold)

2、訓(xùn)練一系列模型,每折輪流作為測試集評估精度,其他作為訓(xùn)練集訓(xùn)練模型04模型訓(xùn)練5.模型建立使用準備的數(shù)據(jù)來建立模型。我們要根據(jù)目標變量(通常稱為Y變量)的數(shù)據(jù)類型(定性或定量),建立一個分類(如果Y是定性的)模型或回歸(如果Y是定量的)模型。1.參數(shù)調(diào)優(yōu)超參數(shù)本質(zhì)上是機器學習算法的參數(shù),直接影響學習過程和預(yù)測性能。由于沒有“一刀切”的超參數(shù)設(shè)置來普遍適用于所有數(shù)據(jù)集,因此需要進行超參數(shù)優(yōu)化(也稱為超參數(shù)調(diào)整或模型調(diào)整)。(2)學習算法優(yōu)化04模型訓(xùn)練

(3)模型評估2.特征選擇特征選擇是特征工程里的一個重要問題,其目標是尋找最優(yōu)特征子集。特征選擇能剔除不相關(guān)(irrelevant)或冗余(redundant)的特征,從而達到減少特征個數(shù),提高模型精確度,減少運行時間的目的。針對分類、排序、回歸、序列預(yù)測等不同類型的機器學習問題,評估指標的選擇也有所不同。1.評估指標分類分類模型的常用評估指標有準確率、精確率、召回率、F1—Score、ROC曲線等。04模型訓(xùn)練

TP就是樣本是正例的且用學習器分類出來也是正例的

FN就是樣本是正例的但學習器分類出來是反例的

FP是在樣本是反例的但學習器分類出來是正例的

TN是在樣本是反例的且學習器分類出來是反例的混淆矩陣混淆矩陣的每一列代表了預(yù)測類別,每一列的總數(shù)表示預(yù)測為該類別的數(shù)據(jù)的數(shù)目;每一行代表了數(shù)據(jù)的真實歸屬類別,每一行的數(shù)據(jù)總數(shù)表示該類別的數(shù)據(jù)實例的數(shù)目;每一列中的數(shù)值表示真實數(shù)據(jù)被預(yù)測為該類的數(shù)目。04模型訓(xùn)練①準確率。準確率是指正確分類的樣本數(shù)占總樣本數(shù)的比例,其計算公式為②

精確率。精確率是指預(yù)測為正例的樣本數(shù)中真實正例的樣本數(shù)所占的比例,其計算公式為③召回率。召回率是指真實正例的樣本數(shù)中預(yù)測為正例的樣本數(shù)所占的比例,其計算公式為04模型訓(xùn)練④P-R(Precision-Recall)曲線。P-R曲線的橫坐標是召回率,縱坐標是精確率。對一個排序模型來說,其P-R曲線上的一個點代表在某一閾值下,模型將大于該閾值的結(jié)果判定為正樣本,將小于該閾值的結(jié)果判定為負樣本,此時返回結(jié)果對應(yīng)的召回率和精確率。04模型訓(xùn)練⑤F1分數(shù)(F1Score),是統(tǒng)計學中用來衡量二分類(或多任務(wù)二分類)模型精確度的一種指標。它同時兼顧了分類模型的準確率和召回率。F1分數(shù)可以看作是模型準確率和召回率的一種加權(quán)平均,它的最大值是1,最小值是0,值越大意味著模型越好⑥ROC曲線。ROC曲線即曲線下面積(AreaUndertheCurve,AUC),是評估二元分類器的重要指標之一。ROC曲線的橫坐標是假正例率(FPR),縱坐標是真正例率(TPR)。TPR和FPR的計算公式如下:04模型訓(xùn)練2.回歸問題由于回歸模型的輸出值為連續(xù)值,其模型的評估與分類模型評估有所差異,一般采用平均絕對誤差(MAE)、均方誤差(MSE)、均方根誤差(RMSE)等。①平均絕對誤差(MAE)。MAE被稱為L1,其計算公式為②均方誤差(MSE)。MSE被稱為L2,其計算公式為04模型訓(xùn)練③均方根誤差(RMSE)。RMSE能很好地反映回歸模型預(yù)測值與真實值的偏離程度。但在實際問題中,如果存在個別偏移程度非常大的離群點,即使離群點的數(shù)量非常少,也會讓RMSE指標變得很差。02機器學習分類(8)模型訓(xùn)練主要包括哪幾個過程?()數(shù)據(jù)集探索性數(shù)據(jù)分析數(shù)據(jù)分割模型建立數(shù)據(jù)預(yù)處理(9)關(guān)于模型評估,下列說法中正確的是()所有機器學習模型使用的評估方法是相同的模型評估主要分為離線評估和在線評估兩個階段準確率是分類問題中最簡單也最直觀的評估指標,但其存在明顯的缺陷只用某個點對應(yīng)的準確率和召回率不能全面地衡量模型的性能02機器學習分類(1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論