版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
目錄
1.概念及術(shù)語(yǔ)
2.有監(jiān)督學(xué)習(xí)算法匯總
3.無監(jiān)督學(xué)習(xí)算法匯總
4.經(jīng)典算法之CART5.經(jīng)典算法之k-meansclustering6.經(jīng)典算法之SupportVectorMachine7.經(jīng)典算法之Apriori8.經(jīng)典算法之ExpectationMaximization9.經(jīng)典算法之PageRank10.經(jīng)典算法之AdaBoost11.經(jīng)典算法之kNN12.經(jīng)典算法之NaiveBayes11.概念及術(shù)語(yǔ)
機(jī)器學(xué)習(xí):機(jī)器學(xué)習(xí)(MachineLearning,ML)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。它是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑,其應(yīng)用遍及人工智能的各個(gè)領(lǐng)域,它主要使用歸納、綜合而不是演繹。
機(jī)器學(xué)習(xí)是用于解答學(xué)習(xí)問題的算法。
學(xué)習(xí)問題:給定具有m個(gè)特征(feature/attribute)n個(gè)樣本(sample/entry),并預(yù)測(cè)未知數(shù)據(jù)的性質(zhì)。
有監(jiān)督學(xué)習(xí)
(supervisedlearning)無監(jiān)督學(xué)習(xí)(unsupervisedlearning)?Classification?Clustering?Regression?Biclustering?Densityestimation?Manifoldlearning?MatrixFactorization?Covarianceestimation?NoveltyandOutlierDetection22.有監(jiān)督學(xué)習(xí)算法匯總
?Regression?Classification①OrdinaryLeastSquares②ElasticNet③OrthogonalMatchingPursuit④BayesianRegression⑤RandomSampleConsensus⑥Polynomialregression⑦KernelRidgeRegression⑧SupportvectorRegression⑨StochasticGradientDescent⑩NearestNeighbors11GaussianProcessRegression12DecisionTrees13RandomForest14AdaBoost15GradientTreeBoosting16Labelpropagation17Neuralnetworkmodels①LinearDiscriminantAnalysis②QuadraticDiscriminantAnalysis③LogisticRegression④SupportVectorClassification⑤StochasticGradientDescent⑥NearestNeighbors⑦Na?veBayes⑧DecisionTrees⑨RandomForest⑩AdaBoost11GradientTreeBoosting12Neuralnetworkmodels33.無監(jiān)督學(xué)習(xí)算法匯總
?Clustering①K-Means②Affinitypropagation③Mean-shift④SpectralClustering⑤WardHierarchicalClustering⑥AgglomerativeClustering⑦DBSCAN⑧GaussianMixtures⑨BirchMatrixFactorization①Principalcomponentanalysis②Truncatedsingularvaluedecomposition③DictionaryLearning④FactorAnalysis⑤Independentcomponentanalysis⑥Non-negativematrixfactorization⑦LatentDirichletAllocation?CovarianceEstimation①EmpiricalCovariance②ShrunkCovariance③SparseInverseCovariance④RobustCovariance?ManifoldLearing①Isomap②LocallyLinearEmbedding③HessianEigenmapping④SpectralEmbedding⑤LocalTangentSpace⑥Multi-dimensionalScaling⑦T-distributedStochastic?Biclustering①SpectralCo-Clustring②SpectralBiclustering?NoveltyandOutlierDetection①One-classSVM②Ellipticenvelope③IsolatingForest④Localoutlierfactor?DensityEstimation①KernelDensityEstimation4?4.經(jīng)典算法之CART
ID31986年由RossQuinlan提出,從根節(jié)點(diǎn)(rootnode)開始,對(duì)節(jié)點(diǎn)計(jì)算所有可能的特征的信息增益,選擇使信息增益最大的特征作為節(jié)點(diǎn)的特征,由該特征的不同取值建立子節(jié)點(diǎn),再對(duì)子節(jié)點(diǎn)遞歸地調(diào)用以上方法,構(gòu)建決策樹,直到所有特征的信息增益均很小或沒有特征可以選擇為止。然后,以葉節(jié)點(diǎn)數(shù)為約束,采用懲罰函數(shù)法建立損失函數(shù),以損失函數(shù)最小為準(zhǔn)則剪枝。ID3相當(dāng)于用極大似然法進(jìn)行概率模型的選擇。
C4.5繼承自ID3,增加對(duì)連續(xù)變量離散化的支持,采用信息增益比為特征選擇準(zhǔn)則。
C5.0繼承自C4.5,適用于處理大數(shù)據(jù)集,改進(jìn)了執(zhí)行效率及內(nèi)存占用率。
CART遞歸構(gòu)建二叉樹。對(duì)回歸樹采用L1或L2損失函數(shù)最小化作為分裂準(zhǔn)則,對(duì)分類樹用基尼不純度最小化或信息增益最大化作為分裂準(zhǔn)則
案例:17年8月,針對(duì)實(shí)驗(yàn)中心曹受天提供宇通及競(jìng)爭(zhēng)車型的縱向加速度數(shù)據(jù)(五個(gè)測(cè)點(diǎn))進(jìn)行了分析,找出區(qū)分度最大的條件,從而了解與競(jìng)爭(zhēng)車型之間的區(qū)別。
55.經(jīng)典算法之k-meansclustering
給定的樣本及聚類中心數(shù)k,找到最k個(gè)中心點(diǎn)μi,將所有樣本點(diǎn)劃分到距離最近的中心點(diǎn)。如廣場(chǎng)上有100個(gè)大媽在跳廣場(chǎng)舞,選擇5個(gè)特征,即曲風(fēng)、胖瘦、高矮、衣服顏色、年齡,將他們劃分為5個(gè)類別,但并不事先對(duì)張三、李四指定類別,我們只是是定類別數(shù)量,最終聚類結(jié)果由算法自動(dòng)給出。
聚類算法工作過程
三種不同距離的圖像及定義
66.經(jīng)典算法之SupportVectorMachine
如下圖所示,最簡(jiǎn)單的SVM就是一根直線,他把歸屬于兩類的廣場(chǎng)舞大媽劃分成紅派及綠派。我們預(yù)判,如果又來了幾個(gè)大媽,如果他是紅派的,那么會(huì)站在藍(lán)線下方,如果是綠派大媽會(huì)站在藍(lán)線上方。距離這根線最近的大媽稱為支持向量supportvector。牛逼吧?然而,面對(duì)右邊的場(chǎng)景,如何用直線把美女圈出來呢?…….答案是不可能。這時(shí)候你需要核函數(shù)kernelfunction,它能把圈美女問題變換成紅藍(lán)派劃分問題。
RBF核函數(shù)原坐標(biāo)的橢圓變換成新坐標(biāo)空間的直線
77.經(jīng)典算法之Apriori
Apriori算法學(xué)習(xí)數(shù)據(jù)的關(guān)聯(lián)規(guī)則(associationrules),適用于包含大量事務(wù)(transcation)的數(shù)據(jù)庫(kù)。
什么是關(guān)聯(lián)規(guī)則?關(guān)聯(lián)規(guī)則學(xué)習(xí)是學(xué)習(xí)數(shù)據(jù)庫(kù)中不同變量中的相互關(guān)系的一種數(shù)據(jù)挖掘技術(shù)。
假設(shè)有一個(gè)充滿超市交易數(shù)據(jù)的數(shù)據(jù)庫(kù),可以把數(shù)據(jù)庫(kù)想象成一個(gè)巨大的電子數(shù)據(jù)表,如下。
表里每一行是一個(gè)顧客的交易情況,每一列代表不用的貨物項(xiàng)。通過使用Apriori算法,我們就知道了同時(shí)被購(gòu)買的貨物項(xiàng)(關(guān)聯(lián)規(guī)則)。
觀察商標(biāo),你能發(fā)現(xiàn)相比較其他貨物來說,有一些貨物更頻繁的被同時(shí)購(gòu)買(終極目的是讓購(gòu)物者買更多的東西)。這些常被一起購(gòu)買的貨物項(xiàng)被稱為項(xiàng)集(itemset),如“薯?xiàng)l+蘸醬”和“薯?xiàng)l+蘇打水”的組合頻繁的一起出現(xiàn)。這些組合被稱為2-itemsets。在一個(gè)足夠大的數(shù)據(jù)集中,就會(huì)很難“看到”這些關(guān)系了,尤其當(dāng)還要處理3-itemset或者更多項(xiàng)集的時(shí)候。這正是Apriori可以幫忙的地方。
基本的Apriori算法有三步:
掃描一遍整個(gè)數(shù)據(jù)庫(kù),剪滿足支持度和可信度重復(fù),對(duì)于每種水平的計(jì)算1-itemsets出現(xiàn)的的這些1-itemsets移動(dòng)項(xiàng)集
一直重復(fù)計(jì)算,頻率。
到下一輪流程,再尋找知道我們之前定義的項(xiàng)出現(xiàn)的2-itemsets。
集大小為止。
88.經(jīng)典算法之ExpectationMaximization
98.經(jīng)典算法之ExpectationMaximization
98.經(jīng)典算法之ExpectationMaximization
98.經(jīng)典算法之ExpectationMaximization
98.經(jīng)典算法之ExpectationMaximization
99.經(jīng)典算法之PageRank
PageRank是SergeyBrin與LarryPage于1998年在WWW7會(huì)議上提出來的,用來解決鏈接分析中網(wǎng)頁(yè)排名的問題。在衡量一個(gè)網(wǎng)頁(yè)的排名時(shí):
?當(dāng)一個(gè)網(wǎng)頁(yè)被更多網(wǎng)頁(yè)所鏈接時(shí),其排名會(huì)越靠前;
?排名高的網(wǎng)頁(yè)應(yīng)具有更大的表決權(quán),即當(dāng)一個(gè)網(wǎng)頁(yè)被排名高的網(wǎng)頁(yè)所鏈接時(shí),其重要性也應(yīng)對(duì)應(yīng)提高。
以上兩點(diǎn)就是PageRank的基本思想:一個(gè)網(wǎng)頁(yè)的排名等于所有鏈接到該網(wǎng)頁(yè)的網(wǎng)頁(yè)的加權(quán)排名之和:
PRi表示第i個(gè)網(wǎng)頁(yè)的PageRank值,用以衡量每一個(gè)網(wǎng)頁(yè)的排名;若排名越高,則其PageRank值越大。網(wǎng)頁(yè)之間的鏈接關(guān)系可以表示成一個(gè)有向圖G=(V,E),邊(j,i)代表了網(wǎng)頁(yè)j鏈接到了網(wǎng)頁(yè)i;Oj為網(wǎng)頁(yè)j的出度,也可看作網(wǎng)頁(yè)j的外鏈數(shù)(thenumberofout-links)。記P=(PR1,PR2,?,PRn)T為n維PageRank值向量,A為有向圖G所對(duì)應(yīng)的轉(zhuǎn)移矩陣,則元PRi可以寫成矩陣形式:
但是,為了獲得某個(gè)網(wǎng)頁(yè)的排名,而需要知道其他網(wǎng)頁(yè)的排名,這不就等同于“是先有雞還是先有蛋”的問題了么?幸運(yùn)的是,PageRank采用poweriteration方法破解了這個(gè)問題怪圈。
1010.經(jīng)典算法之AdaBoost
集成方法(ensemblemethods)結(jié)合了不同預(yù)測(cè)模型的結(jié)果,相較于單預(yù)測(cè)模型魯棒性或泛化能力更強(qiáng)。時(shí)下流行的集成方法有兩類,一類是平均方法,如baggingmethods、forestsofrandomizedtrees,通過對(duì)各個(gè)獨(dú)立的模型預(yù)測(cè)結(jié)果求平均減弱過擬合,適用于復(fù)雜的模型,如fullydevelopeddecisiontrees;另一類是增強(qiáng)方法(boostingmethods),如AdaBoost、GradientTreeBoosting,通過順序建立預(yù)測(cè)模型集合降低偏差,適用于弱模型,如shallowdecisiontrees.
α1+α2+α3
1111.經(jīng)典算法之kNN
KNN是通過測(cè)量不同特征值之間的距離進(jìn)行分類。它的的思路是:如果一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別。K通常是不大于20的整數(shù)。KNN算法中,所選擇的鄰居都是已經(jīng)正確分類的對(duì)象。該方法在定類決策上
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2023年紡織服裝資金需求報(bào)告
- 銀行合規(guī)審核制度
- 酒店餐飲食品質(zhì)量管理制度
- 中原地產(chǎn)樓盤項(xiàng)目銷售經(jīng)驗(yàn)分享
- 市區(qū)二手房屋買賣協(xié)議書(33篇)
- 《設(shè)計(jì)初步建筑實(shí)例》課件
- 投中統(tǒng)計(jì):IPO發(fā)行連續(xù)三年下降 港主板賬面退出居首位 202412
- 智能手機(jī)體驗(yàn)式銷售
- 當(dāng)代大學(xué)生戀愛心理研究
- 2024年重氮化工藝考題及解析
- NB-T31003.2-2022風(fēng)電場(chǎng)接入電力系統(tǒng)設(shè)計(jì)技術(shù)規(guī)范第2部分:海上風(fēng)電
- 弱電智能化工程技術(shù)方案
- TZSA 225-2024 高導(dǎo)熱膜用石墨烯材料應(yīng)用指南
- 第七課《循環(huán)程序》教學(xué)設(shè)計(jì) 2023-2024學(xué)年新世紀(jì)版(2018)初中信息技術(shù)八年級(jí)上冊(cè)
- 人教版八年級(jí)音樂上冊(cè) 第二單元 《動(dòng)物世界》片頭曲教案
- 編輯出版實(shí)務(wù)與技能(僅供參考)
- 《乳品加工工》技師培訓(xùn)課件-項(xiàng)目五 乳制品加工工藝及設(shè)備
- 2024-2025北師大版八年級(jí)上數(shù)學(xué)期末測(cè)試題及答案
- 曲式與作品分析智慧樹知到期末考試答案章節(jié)答案2024年內(nèi)蒙古藝術(shù)學(xué)院
- 人工智能與未來教育智慧樹知到期末考試答案章節(jié)答案2024年麗水學(xué)院
- 2024年中考英語(yǔ)二輪復(fù)習(xí):語(yǔ)法填空講解
評(píng)論
0/150
提交評(píng)論