數(shù)據(jù)挖掘算法

上傳人：程*** IP屬地：四川上傳時(shí)間：2022-09-18 格式：DOCX 頁(yè)數(shù)：13 大?。?5.11KB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩8頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、iorialgorithm Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART. hines 高維的空間里，在這個(gè)空間里建立有一個(gè)最大間隔超。假定平行超平面間的距離或差距越大，分類器的。在統(tǒng)計(jì)計(jì)算中，最大期望(EM，Expectation Maximization)算法是在概率無(wú)法觀測(cè)的隱藏變量(Latent Variabl)。最大期望經(jīng)常用在機(jī)器學(xué)習(xí)和計(jì)算機(jī) 視覺(jué)的數(shù)據(jù)集聚(Data Clustering)領(lǐng)域。訓(xùn)練集之中每上次的總體分類的準(zhǔn)確率，來(lái)確定每個(gè)樣本的權(quán) arestneighborclassifica

2、tion 最為廣泛的兩種分類模型是決策樹(shù)模型(Decision Tree Model)和樸素貝葉斯模型(Naive Bayesian Model，NBC)。樸素貝葉斯數(shù)據(jù)挖掘十大經(jīng)典算法(1) C4.5 ID3 根節(jié)點(diǎn)到該葉節(jié)點(diǎn)所經(jīng)歷的路徑所表示的對(duì)象的。了。分類決策樹(shù)算法是從大量事例中進(jìn)行提取分類規(guī)則的自上而下的決策樹(shù).決策樹(shù)的各部分是:根: 學(xué)習(xí)的事例集.枝: 分類的判定條件. 啟發(fā)式標(biāo)準(zhǔn):只跟本身與其子樹(shù)有關(guān),采取信息理論用熵來(lái)量度.選擇自由度的量度,其計(jì)算方法為P = freq(Cj,S)/|S|;GainXInfoXInfox(X);X Gain(S)最小的的特征來(lái)生成子樹(shù)

3、.2. 所有的訓(xùn)練例的所有屬性必須有一個(gè)明確的值.3. 相同的因素必須得到相同的結(jié)論且訓(xùn)練例必須唯一.樹(shù)的信息.SplitInfoxXSUM (|T|/|Ti| ) *LOG(|Ti|/GainratioX Gain(X)/Split Infox(X); 作離散量進(jìn)行處理,但結(jié)論屬性的值必須是離散值.可以是不確定的,以 ? 表示,但結(jié)論必須3. 對(duì)已生成的決策樹(shù)進(jìn)行裁剪,減小生成樹(shù)的規(guī)模.數(shù)據(jù)挖掘十大經(jīng)典算法(2) The k-means algorithm 到離它最近的中心，重新確定分組。繼續(xù)重復(fù)不斷地實(shí)際上收斂于錯(cuò)誤的結(jié)果。(上面函數(shù)中存在的不同的最優(yōu)解) 。數(shù)據(jù)挖掘十大經(jīng)典算法(3)

4、Support vector machines 稱 SVM)。它是一種監(jiān)督式學(xué)習(xí)的方法，它廣泛的應(yīng)用于統(tǒng)計(jì)分類以及回歸分析類器.他們也可以認(rèn)為是提克洛夫規(guī)范化 (TikhonovRegularization) 方法的一個(gè)特例.這族分類器的特點(diǎn)是他們能夠同差與最大化幾何邊緣區(qū).因此支持向量機(jī)也被稱為最大邊緣區(qū)分類器。在統(tǒng)計(jì)計(jì)算中，最大期望(EM)算法是在概率(probabilistic)模型中然估計(jì)的算法，其中概率模型依賴于無(wú)法觀測(cè)的隱藏變量 E 期望值；另外一步是最大化(M)，也就是最大化在 E 步上找到的最大似然的期 Vapnik等人在多年研究統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上對(duì)線性分類器提出了另

5、一種設(shè)計(jì)最佳準(zhǔn)則。其原理也從線性可分說(shuō)起，然后擴(kuò)展到線性不可分的情況。甚至擴(kuò)展到使用非線性函數(shù)中年來(lái)提出的一種新方法。SVM 的主要思想可以概括為兩點(diǎn)： (1) 它是針對(duì)線性可分情況進(jìn)行分析，對(duì)于線性不間使其線性可分，從而使得高維特征空間采用線性算法對(duì)樣本的非線性特征進(jìn)行線性分析成為可能； (2) 它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論之上在特征空間中建構(gòu)最優(yōu)分割超平面，使得學(xué) 習(xí)器得到全局最優(yōu)化,并且在整個(gè)樣本空間的期望風(fēng)險(xiǎn)以某個(gè)概率滿足一定上界。單情況討論起，在沒(méi)有弄懂其原理之前，不要急于學(xué)習(xí)線性不可分等較復(fù)雜的情況，支持向量機(jī)在設(shè)計(jì)時(shí)，需要用到條件極值問(wèn)題的求解，因此需用拉格朗日乘子理論，但對(duì)多數(shù) 須滿足的條件，此時(shí)只要了解拉格朗日理論的有關(guān)結(jié)論就行。有很多個(gè)分類器(超平面)可以把數(shù)據(jù)分開(kāi)，但是只有一個(gè)能夠達(dá)到最大分割。設(shè)樣本屬于兩個(gè)類，用該樣本訓(xùn)練 svm 得到的最大間隔超平面。在超平面上的樣本點(diǎn)也稱為支持向量.mathbfxcmathbfxcldots,(mathbf(x)_n,c_n)機(jī)科學(xué)符號(hào)) 維向量，其每個(gè)元素都被縮放到0,1或- 1,1.縮放的目的是防止方差大的隨機(jī) 變量

人人文庫(kù)> 全部分類> 教育資料 > 英語(yǔ)等級(jí)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘算法

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)挖掘算法

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔