干貨:輕松看懂數(shù)據(jù)挖掘中的十大經(jīng)典算法_第1頁
干貨:輕松看懂數(shù)據(jù)挖掘中的十大經(jīng)典算法_第2頁
干貨:輕松看懂數(shù)據(jù)挖掘中的十大經(jīng)典算法_第3頁
免費預覽已結束,剩余1頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

【計算機論文】干貨:輕松看懂數(shù)據(jù)挖掘中的十大經(jīng)典算法

(電子商務研究中心訊)隨著移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,所有的連接都在產(chǎn)生數(shù)據(jù),從數(shù)據(jù)中挖掘到的信息價值早已超乎人們的想象。在市場導向與國家大數(shù)據(jù)戰(zhàn)略的推動下,大數(shù)據(jù)已成為企業(yè)發(fā)展必不可少的新動能。調查顯示,在2016年,幾乎40%的公司在使用大數(shù)據(jù)技術,30%的公司表示在未來一年內(nèi)采用大數(shù)據(jù)技術。大數(shù)據(jù)技術的發(fā)展又離不開數(shù)據(jù)挖掘,那。。。什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘(英語:Datamining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(英語:Knowledge-DiscoveryinDatabases,簡稱:KDD)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學有關,并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。數(shù)據(jù)挖掘如此重要,如何進行數(shù)據(jù)挖掘呢?當然是知識!知識將成為比數(shù)據(jù)更重要的資產(chǎn)復旦大學計算機科學與技術學院教授肖仰華博士在他近期所作的《知識圖譜與認知智能》報告中指出:前幾年大數(shù)據(jù)時代到來的時候,大家都說“得數(shù)據(jù)者得天下”。去年,微軟研究院的沈向陽博士曾經(jīng)說過“懂語言者得天下”。而我曾經(jīng)論述過,機器要懂語言,背景知識不可或缺。因此,在這個意義下,將是“得知識者得天下”。如果說數(shù)據(jù)是石油,那么知識就好比是石油的萃取物。那么問題來了?你需要哪些知識?數(shù)據(jù)挖掘是個復雜的過程,它需要統(tǒng)計學、數(shù)據(jù)庫、機器學習、模式識別等多學科的交叉融合來實現(xiàn)。數(shù)據(jù)挖掘過程中用到的算法也很多,下圖是對這些算法的一個總體梳理:接下來我們就來說說這傳說中的十大經(jīng)典算法:篇幅有限,為了保證閱讀質量,本文只講解前三個。其余的算法講解會不定期更新的呦,想學習的小伙伴看過來???十大經(jīng)典算法圖解(一)01決策樹(C4.5算法)決策樹(DecisionTree),又稱為判定樹,是數(shù)據(jù)挖掘技術中的一種重要的分類方法,它是一種以樹結構(包括二叉樹和多叉樹)形式來表達的預測分析模型。根據(jù)一些特征(feature)進行分類,每個節(jié)點提一個問題,通過判斷,將數(shù)據(jù)分為若干類,再繼續(xù)提問。這些問題是根據(jù)已有數(shù)據(jù)學習出來的,再投入新數(shù)據(jù)的時候,就可以根據(jù)這棵樹上的問題,將數(shù)據(jù)劃分到合適的葉子上。決策樹生長算法流程(以C4.5算法為例):C4.5算法實例圖解:兩周內(nèi)的天氣及網(wǎng)球俱樂部顧客光顧情況02聚類(K-means算法)什么是聚類?什么是K-means?K-means算法流程圖解:Setp1:確定初始質心Setp2:計算距離&劃分簇Setp3:迭代計算中心點Setp4:收斂03關聯(lián)規(guī)則(Apriori算法)關聯(lián)規(guī)則是形如X→Y的蘊涵式,其中,X和Y分別稱為關聯(lián)規(guī)則的先導(antecedent或left-hand-side,LHS)和后繼(consequent或right-hand-side,RHS)。其中,關聯(lián)規(guī)則XY,存在支持度和信任度。關聯(lián)規(guī)則經(jīng)典算法及優(yōu)缺點比較:Apriori算法是種最有影響的挖掘布爾關聯(lián)規(guī)則頻繁項集的算法。它的核心是基于兩階段頻集思想的遞推算法,該關聯(lián)規(guī)則在分類上屬于單維、單層、布爾關聯(lián)規(guī)則。在Apriori算法中,尋找最大項目集(頻繁項集)的基本思

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論