數(shù)據(jù)挖掘的10大算法_第1頁(yè)
數(shù)據(jù)挖掘的10大算法_第2頁(yè)
數(shù)據(jù)挖掘的10大算法_第3頁(yè)
數(shù)據(jù)挖掘的10大算法_第4頁(yè)
數(shù)據(jù)挖掘的10大算法_第5頁(yè)
已閱讀5頁(yè),還剩37頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘的10大經(jīng)典算法1,Apriori算法 Apriori算法使用的是一種逐層搜索的迭代是方法 首先,通過(guò)掃描數(shù)據(jù)庫(kù),累計(jì)每個(gè)項(xiàng)的個(gè)數(shù),并搜集滿(mǎn)足最小支持度的項(xiàng),形成頻繁1項(xiàng)集L1。通過(guò)L1,在數(shù)據(jù)庫(kù)中尋找頻繁2項(xiàng)集L2,直至不能找到更多項(xiàng)的平凡項(xiàng)集。最小支持度為22%數(shù)據(jù)庫(kù)中有9條數(shù)據(jù),最小支持度就是9*22%=2掃描數(shù)據(jù)庫(kù)根究最小支持度,得出頻繁1項(xiàng)集C1.根據(jù)C1掃描數(shù)據(jù)庫(kù)得到2項(xiàng)集C2,比較最小支持度,刪除不頻繁項(xiàng),得到頻繁2項(xiàng)集L2.根據(jù)排列組合,3項(xiàng)集應(yīng)該如第一個(gè)集合顯示的。如果基數(shù)很大的話(huà),組合的數(shù)目應(yīng)該很大。Apriori算法有個(gè)規(guī)則,如果一個(gè)k項(xiàng)集不是頻繁項(xiàng)集,那么k+1

2、項(xiàng)集也就不是頻繁項(xiàng)集。根據(jù)頻繁2項(xiàng)集排列組合得出中間的集合,然后掃描數(shù)據(jù)庫(kù),得出頻繁3項(xiàng)集。每找一次頻繁k項(xiàng)集就要掃描一次數(shù)據(jù)庫(kù),每次都會(huì)生成大量的候選項(xiàng)集。2,k-means 選取k個(gè)中心點(diǎn) 計(jì)算所有數(shù)據(jù)到中心點(diǎn)的距離(歐幾里得距離),并把距某個(gè)中心點(diǎn)最近的點(diǎn)歸到一類(lèi)。 計(jì)算一個(gè)聚類(lèi)里面的點(diǎn)的平均值,然后把平均值作為新的中心點(diǎn) 重復(fù)上面兩步,直至收斂。在樣本集中隨機(jī)的選擇兩個(gè)中心點(diǎn)計(jì)算到中心點(diǎn)的歐幾里得距離,把離同一個(gè)中心點(diǎn)最近的點(diǎn)歸到一類(lèi)中,計(jì)算聚類(lèi)中點(diǎn)的平均值,作為新的中心點(diǎn)不停地迭代,直至中心點(diǎn)收斂為止,得到最終的聚類(lèi)結(jié)果 需要提前估計(jì)K點(diǎn),比較困難,選擇的不好的話(huà),聚類(lèi)效果會(huì)受到一定

3、的影響。 計(jì)算量大,時(shí)間消耗比較大。KNN,K最近鄰分類(lèi)法 一個(gè)樣本空間里的樣本分成很幾個(gè)類(lèi)型,然后,給定一個(gè)待分類(lèi)的數(shù)據(jù),通過(guò)計(jì)算接近自己最近的K個(gè)樣本來(lái)判斷這個(gè)待分類(lèi)數(shù)據(jù)屬于哪個(gè)分類(lèi)。 一個(gè)數(shù)據(jù)放到測(cè)試數(shù)據(jù)中,k=3時(shí),計(jì)算歐幾里得距離,最靠近測(cè)試數(shù)據(jù)的有3個(gè)點(diǎn),紅的2個(gè),藍(lán)的一個(gè),我們就把測(cè)試數(shù)據(jù)歸到紅色的類(lèi)中 k=5時(shí),計(jì)算歐幾里得距離,最靠近測(cè)試數(shù)據(jù)的有5個(gè)點(diǎn),紅的2個(gè),藍(lán)的3個(gè),我們就把測(cè)試數(shù)據(jù)歸到藍(lán)色色的類(lèi)中 當(dāng)一個(gè)數(shù)據(jù)v過(guò)大時(shí),通過(guò)公式 v=(v-min(a)/(max(a)-min(a)保證范圍在0-1之間 計(jì)算量大,空間開(kāi)銷(xiāo)大,當(dāng)樣本不平衡時(shí),在一定情況下,分類(lèi)結(jié)果會(huì)出現(xiàn)誤

4、差4,Nave Bayes樸素貝葉斯P(A|B,C)=P(B|A)* P(C|A)* P(A)/(P(B)*P(C) 在計(jì)算概率的時(shí)候,如果某個(gè)屬性出現(xiàn)的次數(shù)0,則在對(duì)應(yīng)得屬性出現(xiàn)次數(shù)上都加上15,CART 是基于決策樹(shù)的一種算法,將當(dāng)前樣本集分為兩個(gè)樣本集,使得每個(gè)沒(méi)葉子節(jié)點(diǎn)都有兩個(gè)分支,所以CART算法生成的決策樹(shù)都是二叉樹(shù)6,C4.57,Adaboost 是一種迭代算法,核心是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練成不同的弱分類(lèi)器,再把弱分類(lèi)器組合成一個(gè)最終分類(lèi)器。8,PageRank PageRank算法計(jì)算每一個(gè)網(wǎng)頁(yè)的PageRank值,然后根據(jù)這個(gè)值的大小對(duì)網(wǎng)頁(yè)的重要性進(jìn)行排序。一個(gè)網(wǎng)頁(yè)可能只有如鏈,而出鏈也是指向自己,這就可能導(dǎo)致最終迭代結(jié)果是該頁(yè)面的pagerank值為1,其他為0一個(gè)網(wǎng)頁(yè)可能只有如鏈,沒(méi)有出鏈,這就可能導(dǎo)致最終迭代結(jié)果是所有頁(yè)面的pagerank值為0 每一步,上網(wǎng)者可能都不想看當(dāng)前網(wǎng)頁(yè)了,不看當(dāng)前網(wǎng)頁(yè)也就不會(huì)點(diǎn)擊上面的連接,而上悄悄地在地址欄輸入另外一個(gè)地址,而在地址欄輸入而跳轉(zhuǎn)到各個(gè)網(wǎng)頁(yè)的概率是1/n。假設(shè)上網(wǎng)者每一步查看當(dāng)前網(wǎng)頁(yè)的概率為a,那么他從瀏覽器地址欄跳轉(zhuǎn)的概率為(1-a),于是原來(lái)的迭代公式轉(zhuǎn)化為:9,最大期望EM 取對(duì)數(shù)似然函數(shù)的最大值,代入1,2迭代直至收斂10,SVM支持向量機(jī) 支持向量機(jī)將向量映射到一個(gè)更高維的空

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論