數(shù)據(jù)挖掘的10大算法

上傳人：6*** IP屬地：湖北上傳時(shí)間：2022-03-07 格式：PPT 頁(yè)數(shù)：42 大小：1.73MB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩37頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘的10大經(jīng)典算法1，Apriori算法 Apriori算法使用的是一種逐層搜索的迭代是方法首先，通過(guò)掃描數(shù)據(jù)庫(kù)，累計(jì)每個(gè)項(xiàng)的個(gè)數(shù)，并搜集滿足最小支持度的項(xiàng)，形成頻繁1項(xiàng)集L1。通過(guò)L1，在數(shù)據(jù)庫(kù)中尋找頻繁2項(xiàng)集L2，直至不能找到更多項(xiàng)的平凡項(xiàng)集。最小支持度為22%數(shù)據(jù)庫(kù)中有9條數(shù)據(jù)，最小支持度就是9*22%=2掃描數(shù)據(jù)庫(kù)根究最小支持度，得出頻繁1項(xiàng)集C1.根據(jù)C1掃描數(shù)據(jù)庫(kù)得到2項(xiàng)集C2，比較最小支持度，刪除不頻繁項(xiàng)，得到頻繁2項(xiàng)集L2.根據(jù)排列組合，3項(xiàng)集應(yīng)該如第一個(gè)集合顯示的。如果基數(shù)很大的話，組合的數(shù)目應(yīng)該很大。Apriori算法有個(gè)規(guī)則，如果一個(gè)k項(xiàng)集不是頻繁項(xiàng)集，那么k+1

2、項(xiàng)集也就不是頻繁項(xiàng)集。根據(jù)頻繁2項(xiàng)集排列組合得出中間的集合，然后掃描數(shù)據(jù)庫(kù)，得出頻繁3項(xiàng)集。每找一次頻繁k項(xiàng)集就要掃描一次數(shù)據(jù)庫(kù)，每次都會(huì)生成大量的候選項(xiàng)集。2，k-means 選取k個(gè)中心點(diǎn) 計(jì)算所有數(shù)據(jù)到中心點(diǎn)的距離（歐幾里得距離），并把距某個(gè)中心點(diǎn)最近的點(diǎn)歸到一類。計(jì)算一個(gè)聚類里面的點(diǎn)的平均值，然后把平均值作為新的中心點(diǎn) 重復(fù)上面兩步，直至收斂。在樣本集中隨機(jī)的選擇兩個(gè)中心點(diǎn)計(jì)算到中心點(diǎn)的歐幾里得距離，把離同一個(gè)中心點(diǎn)最近的點(diǎn)歸到一類中，計(jì)算聚類中點(diǎn)的平均值，作為新的中心點(diǎn)不停地迭代，直至中心點(diǎn)收斂為止，得到最終的聚類結(jié)果需要提前估計(jì)K點(diǎn)，比較困難，選擇的不好的話，聚類效果會(huì)受到一定

3、的影響。計(jì)算量大，時(shí)間消耗比較大。KNN，K最近鄰分類法一個(gè)樣本空間里的樣本分成很幾個(gè)類型，然后，給定一個(gè)待分類的數(shù)據(jù)，通過(guò)計(jì)算接近自己最近的K個(gè)樣本來(lái)判斷這個(gè)待分類數(shù)據(jù)屬于哪個(gè)分類。一個(gè)數(shù)據(jù)放到測(cè)試數(shù)據(jù)中，k=3時(shí)，計(jì)算歐幾里得距離，最靠近測(cè)試數(shù)據(jù)的有3個(gè)點(diǎn)，紅的2個(gè)，藍(lán)的一個(gè)，我們就把測(cè)試數(shù)據(jù)歸到紅色的類中 k=5時(shí)，計(jì)算歐幾里得距離，最靠近測(cè)試數(shù)據(jù)的有5個(gè)點(diǎn)，紅的2個(gè)，藍(lán)的3個(gè)，我們就把測(cè)試數(shù)據(jù)歸到藍(lán)色色的類中當(dāng)一個(gè)數(shù)據(jù)v過(guò)大時(shí)，通過(guò)公式 v=(v-min(a)/(max(a)-min(a)保證范圍在0-1之間計(jì)算量大，空間開銷大，當(dāng)樣本不平衡時(shí)，在一定情況下，分類結(jié)果會(huì)出現(xiàn)誤

4、差4，Nave Bayes樸素貝葉斯P(A|B,C)=P(B|A)* P(C|A)* P(A)/(P(B)*P(C) 在計(jì)算概率的時(shí)候，如果某個(gè)屬性出現(xiàn)的次數(shù)0，則在對(duì)應(yīng)得屬性出現(xiàn)次數(shù)上都加上15，CART 是基于決策樹的一種算法，將當(dāng)前樣本集分為兩個(gè)樣本集，使得每個(gè)沒葉子節(jié)點(diǎn)都有兩個(gè)分支，所以CART算法生成的決策樹都是二叉樹6，C4.57,Adaboost 是一種迭代算法，核心是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練成不同的弱分類器，再把弱分類器組合成一個(gè)最終分類器。8，PageRank PageRank算法計(jì)算每一個(gè)網(wǎng)頁(yè)的PageRank值，然后根據(jù)這個(gè)值的大小對(duì)網(wǎng)頁(yè)的重要性進(jìn)行排序。一個(gè)網(wǎng)頁(yè)可能只有如鏈，而出鏈也是指向自己，這就可能導(dǎo)致最終迭代結(jié)果是該頁(yè)面的pagerank值為1，其他為0一個(gè)網(wǎng)頁(yè)可能只有如鏈，沒有出鏈，這就可能導(dǎo)致最終迭代結(jié)果是所有頁(yè)面的pagerank值為0 每一步，上網(wǎng)者可能都不想看當(dāng)前網(wǎng)頁(yè)了，不看當(dāng)前網(wǎng)頁(yè)也就不會(huì)點(diǎn)擊上面的連接，而上悄悄地在地址欄輸入另外一個(gè)地址，而在地址欄輸入而跳轉(zhuǎn)到各個(gè)網(wǎng)頁(yè)的概率是1/n。假設(shè)上網(wǎng)者每一步查看當(dāng)前網(wǎng)頁(yè)的概率為a，那么他從瀏覽器地址欄跳轉(zhuǎn)的概率為(1-a)，于是原來(lái)的迭代公式轉(zhuǎn)化為：9，最大期望EM 取對(duì)數(shù)似然函數(shù)的最大值，代入1,2迭代直至收斂10，SVM支持向量機(jī) 支持向量機(jī)將向量映射到一個(gè)更高維的空

人人文庫(kù)> 全部分類> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘的10大算法

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)挖掘的10大算法

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔