數(shù)據(jù)挖掘淺析_第1頁(yè)
數(shù)據(jù)挖掘淺析_第2頁(yè)
數(shù)據(jù)挖掘淺析_第3頁(yè)
數(shù)據(jù)挖掘淺析_第4頁(yè)
數(shù)據(jù)挖掘淺析_第5頁(yè)
已閱讀5頁(yè),還剩39頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘常用方法淺析徐進(jìn)主要內(nèi)容背景知識(shí)數(shù)據(jù)積累與技術(shù)進(jìn)步,挖掘數(shù)據(jù)中的“寶藏”成為可能常用場(chǎng)景分類聚類推薦2數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘(DataMining),是從大量數(shù)據(jù)中挖掘或抽取出知識(shí)舉例:疾病預(yù)測(cè)、垃圾郵件識(shí)別、商品推薦等等處理流程數(shù)據(jù)收集數(shù)據(jù)清洗特征提取數(shù)據(jù)建模模型評(píng)估距離度量歐幾里得距離曼哈頓距離切比雪夫距離明可夫斯基距離

歐式空間相似度余弦相似度杰拉德相似系數(shù)皮爾遜相關(guān)系數(shù)

皮爾遜相關(guān)系數(shù)解釋:協(xié)方差和標(biāo)準(zhǔn)差的商,范圍:[-1,1]相似度博客園相似度計(jì)算分類場(chǎng)景分類指有監(jiān)督的學(xué)習(xí),有明確的類標(biāo)簽垃圾郵件識(shí)別疾病判斷天氣預(yù)報(bào)等等分類常用手段:回歸決策樹(shù)貝葉斯人工神經(jīng)網(wǎng)絡(luò)支持向量機(jī)回歸1、概念:

基于數(shù)學(xué)方法在數(shù)據(jù)集上建立自變量(特征屬性)與因變量(分類屬性)之間的擬合函數(shù)表達(dá)式2、步驟2.1、尋找擬合函數(shù)2.2、計(jì)算參數(shù)2.3、利用擬合函數(shù)預(yù)測(cè)最小二乘法通過(guò)最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配擬合函數(shù):損失函數(shù):矩陣求根:隨機(jī)梯度下降(SGD)法沿著倒數(shù)的方向,才能最快的逼近極值點(diǎn)損失函數(shù):擬合函數(shù):迭代逼近:決策樹(shù)決策樹(shù)樹(shù)結(jié)構(gòu):非葉節(jié)點(diǎn)表示一個(gè)特征屬性,其不同取值代表不同分支,葉節(jié)點(diǎn)代表分類屬性決策樹(shù)1.數(shù)據(jù)集D的熵:2.D按特征屬性A進(jìn)行劃分后的熵:3.信息增益:熵值指的是混亂程度,熵越小越純ID3算法就是在每次需要分裂時(shí),選擇熵增益最大的屬性進(jìn)行分裂。決策樹(shù)D3算法的固有問(wèn)題偏向于多值屬性C4.5選擇具有最大增益率的屬性作為分裂屬性C4.5選擇具有最大增益率的屬性作為分裂屬性分裂信息:增益率:貝葉斯樸素貝葉斯分類:特征屬性條件獨(dú)立條件獨(dú)立:P(AB|C)=P(A|C)P(B|C)

貝葉斯定理

樸素貝葉斯待分類的特征屬性類別屬性1、在有分類屬性的數(shù)據(jù)集上,計(jì)算:

2、在給定特征屬性數(shù)據(jù)上,有貝葉斯定理:3、已知P(x)是常數(shù),加之特征屬性間條件獨(dú)立,只需求貝葉斯網(wǎng)絡(luò)需要專家預(yù)先建立網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)(理論上自適應(yīng)調(diào)整建立貝葉斯網(wǎng)絡(luò))P(x7)概率:一般形式:人工神經(jīng)網(wǎng)絡(luò)

基于生物學(xué)中神經(jīng)網(wǎng)絡(luò)的基本原理,借助人腦結(jié)構(gòu)和外界刺激響應(yīng)機(jī)制后,以網(wǎng)絡(luò)拓?fù)渲R(shí)為理論基礎(chǔ),模擬人腦的神經(jīng)系統(tǒng)對(duì)復(fù)雜信息的反饋處理機(jī)制的一種數(shù)學(xué)模型人工神經(jīng)網(wǎng)絡(luò)1.建立模型

根據(jù)數(shù)據(jù)集,選擇網(wǎng)絡(luò)模型、訓(xùn)練函數(shù)2.調(diào)整權(quán)值

根據(jù)實(shí)際輸出和期望輸出之間的誤差進(jìn)行權(quán)值的修正人工神經(jīng)網(wǎng)絡(luò)多神經(jīng)元、多層次支持向量機(jī)二類分類模型,特征空間上的間隔最大化支持向量機(jī)1.超平面2.距離3.分類數(shù)據(jù)集距離分類超平面最近的點(diǎn)且平行于超平面的訓(xùn)練樣本,稱為支持向量支持向量機(jī)5.滿足條件6.拉格朗日乘子,有其中7.對(duì)w和b求偏導(dǎo)8.KKT條件模型選擇聚類聚類指無(wú)監(jiān)督的學(xué)習(xí),沒(méi)有明確的類標(biāo)簽“物以類聚,人以群分”文本聚合(垃圾郵件、新聞聚合)聚類K近鄰k-meansk-modlesEM層次聚類歸約型分裂型K近鄰1、隨機(jī)地選擇k個(gè)對(duì)象,每個(gè)對(duì)象初始地代表了一個(gè)簇的平均值或中心2、剩余的每個(gè)對(duì)象,根據(jù)其與各簇中心的距離,將它賦給最近的簇3、重新計(jì)算每個(gè)簇的平均值,這個(gè)過(guò)程不斷重復(fù),直到準(zhǔn)則函數(shù)收斂k-means:以平均值為中心k-modles:以最靠近平均值的點(diǎn)為中心EM1.初始化分布參數(shù)2.聚類2.1.E步驟:用分布參數(shù)計(jì)算每個(gè)實(shí)例的聚類概率2.2.M步驟:重新估計(jì)分布參數(shù)(如不同聚類簇的方差、期望等),使數(shù)據(jù)的似然性盡可能大迭代計(jì)算2.1,2.2,直至收斂EM2.取對(duì)數(shù)1.似然函數(shù)3.求導(dǎo),極大值4.極大似然估計(jì)層次聚類歸約型與分裂型1.歸約型

1.1、將每個(gè)對(duì)象看作一類,計(jì)算兩兩之間的最小距離;1.2、將距離最小的兩個(gè)類合并成一個(gè)新類;1.3、重新計(jì)算新類與所有類之間的距離;1.4、重復(fù)1.2、1.3,直到所有類最后合并成N類。2.分裂型略推薦協(xié)同過(guò)濾基于user基于item關(guān)聯(lián)規(guī)則AprioriFP_growth協(xié)同過(guò)濾場(chǎng)景協(xié)同過(guò)濾指利用集體智慧的進(jìn)行過(guò)濾社交網(wǎng)絡(luò)推薦商品推薦基于user協(xié)同過(guò)濾找有相似度的用戶進(jìn)行推薦,適合user少、item多的場(chǎng)景基于item協(xié)同過(guò)濾找有相似度的item進(jìn)行推薦,適合item少、user多的場(chǎng)景關(guān)聯(lián)規(guī)則場(chǎng)景尋找數(shù)據(jù)項(xiàng)之前頻繁出現(xiàn)的組合“啤酒尿布問(wèn)題”1.support({啤酒}–>{尿布}):啤酒和尿布同時(shí)出現(xiàn)的次數(shù)/數(shù)據(jù)記錄數(shù)=3/5=60%2.confidence({尿布}–>{啤酒}):啤酒和尿布同時(shí)出現(xiàn)的次數(shù)/尿布出現(xiàn)的次數(shù)=3/4=75%關(guān)聯(lián)規(guī)則1、尋找數(shù)據(jù)中事物之間可能存在的關(guān)聯(lián)或者聯(lián)系

2、兩個(gè)主要階段:

2.1、根據(jù)給定的最小支持度supmin,從事務(wù)集中找出全部的頻繁項(xiàng)集;2.2、根據(jù)最小可信度supcon,由已知頻繁項(xiàng)集中生成感興趣的關(guān)聯(lián)規(guī)則。Apriori1、掃描事務(wù)集T求出每個(gè)1項(xiàng)集的支持度,即得到頻繁1項(xiàng)集的集合;2、循環(huán)計(jì)算頻繁k項(xiàng)集。2.1、連接:由兩個(gè)有且只有一個(gè)項(xiàng)不同的k-1頻繁項(xiàng)集連接得出k頻繁項(xiàng)集的候選集;2.2、剪枝:上述得出的是k頻繁項(xiàng)集的候選集,需要對(duì)候選集k中的k-1項(xiàng)子集進(jìn)行判斷。若k-1子集不是頻繁項(xiàng)集,則直接剔除掉;3、掃描計(jì)算所得的頻繁項(xiàng)集,依據(jù)給出的置信度等篩選條件確定感興趣的關(guān)聯(lián)規(guī)則。FP_growth在不生成候選項(xiàng)的情況下,尋找頻繁項(xiàng)集一顆growth樹(shù),每個(gè)分支代表一個(gè)數(shù)據(jù)項(xiàng),內(nèi)容該分支節(jié)點(diǎn)內(nèi)容集合自底向上遍歷樹(shù)的分支,可以得到頻繁項(xiàng)集遺傳算法場(chǎng)景模擬自然選擇的啟發(fā)式算法1、旅行商問(wèn)題2、復(fù)雜方程求最值遺傳算法1.種群

生物的進(jìn)化以群體的形式進(jìn)行2.個(gè)體

組成種群的單個(gè)生物3.基因

一個(gè)遺傳因子

4.染色體

包含一組的基

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論