大數(shù)據(jù)基礎(chǔ)培訓(xùn)系列機(jī)器學(xué)習(xí)算法課件_第1頁(yè)
大數(shù)據(jù)基礎(chǔ)培訓(xùn)系列機(jī)器學(xué)習(xí)算法課件_第2頁(yè)
大數(shù)據(jù)基礎(chǔ)培訓(xùn)系列機(jī)器學(xué)習(xí)算法課件_第3頁(yè)
大數(shù)據(jù)基礎(chǔ)培訓(xùn)系列機(jī)器學(xué)習(xí)算法課件_第4頁(yè)
大數(shù)據(jù)基礎(chǔ)培訓(xùn)系列機(jī)器學(xué)習(xí)算法課件_第5頁(yè)
已閱讀5頁(yè),還剩12頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

目錄

1.概念及術(shù)語(yǔ)

2.有監(jiān)督學(xué)習(xí)算法匯總

3.無監(jiān)督學(xué)習(xí)算法匯總

4.經(jīng)典算法之CART5.經(jīng)典算法之k-meansclustering6.經(jīng)典算法之SupportVectorMachine7.經(jīng)典算法之Apriori8.經(jīng)典算法之ExpectationMaximization9.經(jīng)典算法之PageRank10.經(jīng)典算法之AdaBoost11.經(jīng)典算法之kNN12.經(jīng)典算法之NaiveBayes11.概念及術(shù)語(yǔ)

機(jī)器學(xué)習(xí):機(jī)器學(xué)習(xí)(MachineLearning,ML)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。它是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑,其應(yīng)用遍及人工智能的各個(gè)領(lǐng)域,它主要使用歸納、綜合而不是演繹。

機(jī)器學(xué)習(xí)是用于解答學(xué)習(xí)問題的算法。

學(xué)習(xí)問題:給定具有m個(gè)特征(feature/attribute)n個(gè)樣本(sample/entry),并預(yù)測(cè)未知數(shù)據(jù)的性質(zhì)。

有監(jiān)督學(xué)習(xí)

(supervisedlearning)無監(jiān)督學(xué)習(xí)(unsupervisedlearning)?Classification?Clustering?Regression?Biclustering?Densityestimation?Manifoldlearning?MatrixFactorization?Covarianceestimation?NoveltyandOutlierDetection22.有監(jiān)督學(xué)習(xí)算法匯總

?Regression?Classification①OrdinaryLeastSquares②ElasticNet③OrthogonalMatchingPursuit④BayesianRegression⑤RandomSampleConsensus⑥Polynomialregression⑦KernelRidgeRegression⑧SupportvectorRegression⑨StochasticGradientDescent⑩NearestNeighbors11GaussianProcessRegression12DecisionTrees13RandomForest14AdaBoost15GradientTreeBoosting16Labelpropagation17Neuralnetworkmodels①LinearDiscriminantAnalysis②QuadraticDiscriminantAnalysis③LogisticRegression④SupportVectorClassification⑤StochasticGradientDescent⑥NearestNeighbors⑦Na?veBayes⑧DecisionTrees⑨RandomForest⑩AdaBoost11GradientTreeBoosting12Neuralnetworkmodels33.無監(jiān)督學(xué)習(xí)算法匯總

?Clustering①K-Means②Affinitypropagation③Mean-shift④SpectralClustering⑤WardHierarchicalClustering⑥AgglomerativeClustering⑦DBSCAN⑧GaussianMixtures⑨BirchMatrixFactorization①Principalcomponentanalysis②Truncatedsingularvaluedecomposition③DictionaryLearning④FactorAnalysis⑤Independentcomponentanalysis⑥Non-negativematrixfactorization⑦LatentDirichletAllocation?CovarianceEstimation①EmpiricalCovariance②ShrunkCovariance③SparseInverseCovariance④RobustCovariance?ManifoldLearing①Isomap②LocallyLinearEmbedding③HessianEigenmapping④SpectralEmbedding⑤LocalTangentSpace⑥Multi-dimensionalScaling⑦T-distributedStochastic?Biclustering①SpectralCo-Clustring②SpectralBiclustering?NoveltyandOutlierDetection①One-classSVM②Ellipticenvelope③IsolatingForest④Localoutlierfactor?DensityEstimation①KernelDensityEstimation4?4.經(jīng)典算法之CART

ID31986年由RossQuinlan提出,從根節(jié)點(diǎn)(rootnode)開始,對(duì)節(jié)點(diǎn)計(jì)算所有可能的特征的信息增益,選擇使信息增益最大的特征作為節(jié)點(diǎn)的特征,由該特征的不同取值建立子節(jié)點(diǎn),再對(duì)子節(jié)點(diǎn)遞歸地調(diào)用以上方法,構(gòu)建決策樹,直到所有特征的信息增益均很小或沒有特征可以選擇為止。然后,以葉節(jié)點(diǎn)數(shù)為約束,采用懲罰函數(shù)法建立損失函數(shù),以損失函數(shù)最小為準(zhǔn)則剪枝。ID3相當(dāng)于用極大似然法進(jìn)行概率模型的選擇。

C4.5繼承自ID3,增加對(duì)連續(xù)變量離散化的支持,采用信息增益比為特征選擇準(zhǔn)則。

C5.0繼承自C4.5,適用于處理大數(shù)據(jù)集,改進(jìn)了執(zhí)行效率及內(nèi)存占用率。

CART遞歸構(gòu)建二叉樹。對(duì)回歸樹采用L1或L2損失函數(shù)最小化作為分裂準(zhǔn)則,對(duì)分類樹用基尼不純度最小化或信息增益最大化作為分裂準(zhǔn)則

案例:17年8月,針對(duì)實(shí)驗(yàn)中心曹受天提供宇通及競(jìng)爭(zhēng)車型的縱向加速度數(shù)據(jù)(五個(gè)測(cè)點(diǎn))進(jìn)行了分析,找出區(qū)分度最大的條件,從而了解與競(jìng)爭(zhēng)車型之間的區(qū)別。

55.經(jīng)典算法之k-meansclustering

給定的樣本及聚類中心數(shù)k,找到最k個(gè)中心點(diǎn)μi,將所有樣本點(diǎn)劃分到距離最近的中心點(diǎn)。如廣場(chǎng)上有100個(gè)大媽在跳廣場(chǎng)舞,選擇5個(gè)特征,即曲風(fēng)、胖瘦、高矮、衣服顏色、年齡,將他們劃分為5個(gè)類別,但并不事先對(duì)張三、李四指定類別,我們只是是定類別數(shù)量,最終聚類結(jié)果由算法自動(dòng)給出。

聚類算法工作過程

三種不同距離的圖像及定義

66.經(jīng)典算法之SupportVectorMachine

如下圖所示,最簡(jiǎn)單的SVM就是一根直線,他把歸屬于兩類的廣場(chǎng)舞大媽劃分成紅派及綠派。我們預(yù)判,如果又來了幾個(gè)大媽,如果他是紅派的,那么會(huì)站在藍(lán)線下方,如果是綠派大媽會(huì)站在藍(lán)線上方。距離這根線最近的大媽稱為支持向量supportvector。牛逼吧?然而,面對(duì)右邊的場(chǎng)景,如何用直線把美女圈出來呢?…….答案是不可能。這時(shí)候你需要核函數(shù)kernelfunction,它能把圈美女問題變換成紅藍(lán)派劃分問題。

RBF核函數(shù)原坐標(biāo)的橢圓變換成新坐標(biāo)空間的直線

77.經(jīng)典算法之Apriori

Apriori算法學(xué)習(xí)數(shù)據(jù)的關(guān)聯(lián)規(guī)則(associationrules),適用于包含大量事務(wù)(transcation)的數(shù)據(jù)庫(kù)。

什么是關(guān)聯(lián)規(guī)則?關(guān)聯(lián)規(guī)則學(xué)習(xí)是學(xué)習(xí)數(shù)據(jù)庫(kù)中不同變量中的相互關(guān)系的一種數(shù)據(jù)挖掘技術(shù)。

假設(shè)有一個(gè)充滿超市交易數(shù)據(jù)的數(shù)據(jù)庫(kù),可以把數(shù)據(jù)庫(kù)想象成一個(gè)巨大的電子數(shù)據(jù)表,如下。

表里每一行是一個(gè)顧客的交易情況,每一列代表不用的貨物項(xiàng)。通過使用Apriori算法,我們就知道了同時(shí)被購(gòu)買的貨物項(xiàng)(關(guān)聯(lián)規(guī)則)。

觀察商標(biāo),你能發(fā)現(xiàn)相比較其他貨物來說,有一些貨物更頻繁的被同時(shí)購(gòu)買(終極目的是讓購(gòu)物者買更多的東西)。這些常被一起購(gòu)買的貨物項(xiàng)被稱為項(xiàng)集(itemset),如“薯?xiàng)l+蘸醬”和“薯?xiàng)l+蘇打水”的組合頻繁的一起出現(xiàn)。這些組合被稱為2-itemsets。在一個(gè)足夠大的數(shù)據(jù)集中,就會(huì)很難“看到”這些關(guān)系了,尤其當(dāng)還要處理3-itemset或者更多項(xiàng)集的時(shí)候。這正是Apriori可以幫忙的地方。

基本的Apriori算法有三步:

掃描一遍整個(gè)數(shù)據(jù)庫(kù),剪滿足支持度和可信度重復(fù),對(duì)于每種水平的計(jì)算1-itemsets出現(xiàn)的的這些1-itemsets移動(dòng)項(xiàng)集

一直重復(fù)計(jì)算,頻率。

到下一輪流程,再尋找知道我們之前定義的項(xiàng)出現(xiàn)的2-itemsets。

集大小為止。

88.經(jīng)典算法之ExpectationMaximization

98.經(jīng)典算法之ExpectationMaximization

98.經(jīng)典算法之ExpectationMaximization

98.經(jīng)典算法之ExpectationMaximization

98.經(jīng)典算法之ExpectationMaximization

99.經(jīng)典算法之PageRank

PageRank是SergeyBrin與LarryPage于1998年在WWW7會(huì)議上提出來的,用來解決鏈接分析中網(wǎng)頁(yè)排名的問題。在衡量一個(gè)網(wǎng)頁(yè)的排名時(shí):

?當(dāng)一個(gè)網(wǎng)頁(yè)被更多網(wǎng)頁(yè)所鏈接時(shí),其排名會(huì)越靠前;

?排名高的網(wǎng)頁(yè)應(yīng)具有更大的表決權(quán),即當(dāng)一個(gè)網(wǎng)頁(yè)被排名高的網(wǎng)頁(yè)所鏈接時(shí),其重要性也應(yīng)對(duì)應(yīng)提高。

以上兩點(diǎn)就是PageRank的基本思想:一個(gè)網(wǎng)頁(yè)的排名等于所有鏈接到該網(wǎng)頁(yè)的網(wǎng)頁(yè)的加權(quán)排名之和:

PRi表示第i個(gè)網(wǎng)頁(yè)的PageRank值,用以衡量每一個(gè)網(wǎng)頁(yè)的排名;若排名越高,則其PageRank值越大。網(wǎng)頁(yè)之間的鏈接關(guān)系可以表示成一個(gè)有向圖G=(V,E),邊(j,i)代表了網(wǎng)頁(yè)j鏈接到了網(wǎng)頁(yè)i;Oj為網(wǎng)頁(yè)j的出度,也可看作網(wǎng)頁(yè)j的外鏈數(shù)(thenumberofout-links)。記P=(PR1,PR2,?,PRn)T為n維PageRank值向量,A為有向圖G所對(duì)應(yīng)的轉(zhuǎn)移矩陣,則元PRi可以寫成矩陣形式:

但是,為了獲得某個(gè)網(wǎng)頁(yè)的排名,而需要知道其他網(wǎng)頁(yè)的排名,這不就等同于“是先有雞還是先有蛋”的問題了么?幸運(yùn)的是,PageRank采用poweriteration方法破解了這個(gè)問題怪圈。

1010.經(jīng)典算法之AdaBoost

集成方法(ensemblemethods)結(jié)合了不同預(yù)測(cè)模型的結(jié)果,相較于單預(yù)測(cè)模型魯棒性或泛化能力更強(qiáng)。時(shí)下流行的集成方法有兩類,一類是平均方法,如baggingmethods、forestsofrandomizedtrees,通過對(duì)各個(gè)獨(dú)立的模型預(yù)測(cè)結(jié)果求平均減弱過擬合,適用于復(fù)雜的模型,如fullydevelopeddecisiontrees;另一類是增強(qiáng)方法(boostingmethods),如AdaBoost、GradientTreeBoosting,通過順序建立預(yù)測(cè)模型集合降低偏差,適用于弱模型,如shallowdecisiontrees.

α1+α2+α3

1111.經(jīng)典算法之kNN

KNN是通過測(cè)量不同特征值之間的距離進(jìn)行分類。它的的思路是:如果一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別。K通常是不大于20的整數(shù)。KNN算法中,所選擇的鄰居都是已經(jīng)正確分類的對(duì)象。該方法在定類決策上

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論