數(shù)據(jù)挖掘算法_第1頁(yè)
數(shù)據(jù)挖掘算法_第2頁(yè)
數(shù)據(jù)挖掘算法_第3頁(yè)
數(shù)據(jù)挖掘算法_第4頁(yè)
數(shù)據(jù)挖掘算法_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、iorialgorithm Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART. hines 高維的空間里,在這個(gè)空間里建立有一個(gè)最大間隔超 。假 定平行超平面間的距離或差距越大,分類器的 。在統(tǒng)計(jì)計(jì)算中,最大期望(EM,Expectation Maximization)算法是在概率 無(wú)法觀測(cè)的隱藏變量(Latent Variabl)。最大期望經(jīng)常用在機(jī)器學(xué)習(xí)和計(jì)算機(jī) 視覺(jué)的數(shù)據(jù)集聚(Data Clustering)領(lǐng)域。 訓(xùn)練集之中每 上次的總體分類的準(zhǔn)確率,來(lái)確定每個(gè)樣本的權(quán) arestneighborclassifica

2、tion 最為廣泛的兩種分類模型是決策樹(shù)模型(Decision Tree Model)和樸素貝葉斯模型(Naive Bayesian Model,NBC)。 樸素貝葉斯 數(shù)據(jù)挖掘十大經(jīng)典算法(1) C4.5 ID3 根節(jié)點(diǎn)到該葉節(jié)點(diǎn)所經(jīng)歷的路徑所表示的對(duì)象的 。 了。 分類決策樹(shù)算法是從大量事例中進(jìn)行提取分類規(guī)則的自上而下的決策樹(shù).決策樹(shù)的各部分是:根: 學(xué)習(xí)的事例集.枝: 分類的判定條件. 啟發(fā)式標(biāo)準(zhǔn):只跟本身與其子樹(shù)有關(guān),采取信息理論用熵來(lái)量度.選擇自由度的量度,其計(jì)算方法為P = freq(Cj,S)/|S|;GainXInfoXInfox(X);X Gain(S)最小的的特征來(lái)生成子樹(shù)

3、.2. 所有的訓(xùn)練例的所有屬性必須有一個(gè)明確的值.3. 相同的因素必須得到相同的結(jié)論且訓(xùn)練例必須唯一.樹(shù)的信息.SplitInfoxXSUM (|T|/|Ti| ) *LOG(|Ti|/GainratioX Gain(X)/Split Infox(X); 作離散量進(jìn)行處理,但結(jié)論屬性的值必須是離散值.可以是不確定的,以 ? 表示,但結(jié)論必須3. 對(duì)已生成的決策樹(shù)進(jìn)行裁剪,減小生成樹(shù)的規(guī)模.數(shù)據(jù)挖掘十大經(jīng)典算法(2) The k-means algorithm 到離它最近的中心,重新確定分組。繼續(xù)重復(fù)不斷地 實(shí)際上收斂于錯(cuò)誤的結(jié)果。(上面函數(shù)中存在的不同的最優(yōu)解) 。數(shù)據(jù)挖掘十大經(jīng)典算法(3)

4、Support vector machines 稱 SVM)。它是一種監(jiān)督式學(xué)習(xí)的方法,它廣泛的應(yīng)用于統(tǒng)計(jì)分類以及回歸分析 類器.他們也可以認(rèn)為是提克洛夫規(guī)范化 (TikhonovRegularization) 方法的一個(gè)特例.這族分類器的特點(diǎn)是他們能夠同 差與最大化幾何邊緣區(qū).因此支持向量機(jī)也被稱為最大邊緣區(qū)分 類器。在統(tǒng)計(jì)計(jì)算中,最大期望(EM)算法是在概率(probabilistic)模型中 然估計(jì)的算法,其中概率模型依賴于無(wú)法觀測(cè)的隱藏 變量 E 期望值;另外一步是最大化(M),也就是最大化在 E 步上找到的最大似然的期 Vapnik等人在多年研究統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上對(duì)線性分類器提出了另

5、一種設(shè)計(jì)最佳準(zhǔn)則。 其原理也從線性可分說(shuō)起,然后擴(kuò)展到線性不可分的情況。甚至擴(kuò)展到 使用非線性函數(shù)中 年來(lái)提出的一種新方法。SVM 的主要思想可以概括為兩點(diǎn): (1) 它是針對(duì)線性可分情況進(jìn)行分析,對(duì)于線性不 間使其線性可分,從而 使得高維特征空間采用線性算法對(duì)樣本的非線性特征進(jìn)行線性分析 成為可能; (2) 它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論之上在特征空間中建構(gòu)最優(yōu)分割超平面,使得學(xué) 習(xí)器得到全局最優(yōu)化,并且在整個(gè)樣本空間的期望風(fēng)險(xiǎn)以某個(gè)概率滿足一定上界。 單情況討論 起,在沒(méi)有弄懂其原理之前,不要急于學(xué)習(xí)線性不可分等較復(fù)雜的情況,支持 向量機(jī)在設(shè)計(jì)時(shí),需要用到條件極值問(wèn)題的求解,因此需用拉格朗日乘子理論,但對(duì)多 數(shù) 須滿足的條件,此時(shí)只要了解拉格朗日理論的有關(guān)結(jié)論就行。 有很多個(gè)分類器(超平面)可以把數(shù)據(jù)分開(kāi),但是只有一個(gè)能夠達(dá)到最大分割。 設(shè)樣本屬于兩個(gè)類,用該樣本訓(xùn)練 svm 得到的最大間隔超平面。在超平面上的樣本點(diǎn)也稱 為支持向量.mathbfxcmathbfxcldots,(mathbf(x)_n,c_n)機(jī)科學(xué)符號(hào)) 維向量,其每個(gè)元素都被縮放到0,1或- 1,1.縮放的目的是防止方差大的隨機(jī) 變量

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論