




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
Top10MostCommonDataMiningAlgorithms
Unit
6TextBContents
NewWords
Abbreviations
Phrases參考譯文NewWordsNewWordsPhrasesPhrasesAbbreviationsListeningtoTextA十大最常見的數(shù)據(jù)挖掘算法1.C4.5算法C4.5是頂級數(shù)據(jù)挖掘算法之一,由RossQuinlan開發(fā)。C4.5用于根據(jù)已分類的一組數(shù)據(jù)以決策樹的形式生成分類器。這里的分類器是指一種數(shù)據(jù)挖掘工具,該工具獲取我們需要分類的數(shù)據(jù)并嘗試預測新數(shù)據(jù)的類別。每個數(shù)據(jù)點將具有自己的屬性。由C4.5創(chuàng)建的決策樹提出了有關(guān)屬性值的問題,并根據(jù)這些值對新數(shù)據(jù)進行分類。標記訓練數(shù)據(jù)集,使C4.5成為監(jiān)督學習算法。決策樹始終易于解釋和說明,與其他數(shù)據(jù)挖掘算法相比,這使C4.5快速且流行。2.K-均值算法K-均值是最常見的聚類算法之一。它的工作方式是根據(jù)對象之間的相似性從一組對象中創(chuàng)建k個組。也許不能保證組成員將完全相似,但是與非組成員相比,組成員將更加相似。按照標準實現(xiàn),K-均值是一種無監(jiān)督學習算法,因為它無需任何外部信息即可自行學習聚類。參考譯文3.支持向量機就任務而言,支持向量機(SVM)的工作方式類似于C4.5算法,但支持向量機根本不使用任何決策樹。支持向量機學習數(shù)據(jù)集并定義一個超平面以將數(shù)據(jù)分為兩類。超平面是一條線的方程,看起來像“y=mx+b”。支持向量機會把數(shù)據(jù)擴展映射到更高的維度。一旦映射,支持向量機便定義了最佳的超平面,將數(shù)據(jù)分為兩個類別。4.先驗算法先驗算法通過了解關(guān)聯(lián)規(guī)則來工作。關(guān)聯(lián)規(guī)則是一種數(shù)據(jù)挖掘技術(shù),用于了解數(shù)據(jù)庫中變量之間的相關(guān)性。一旦了解了關(guān)聯(lián)規(guī)則,就將其應用于包含大量事務的數(shù)據(jù)庫。先驗算法用于發(fā)現(xiàn)有趣的模式和相互關(guān)系,因此被視為無監(jiān)督學習方法。盡管該算法是高效的,但它會消耗大量內(nèi)存、占用大量磁盤空間并花費大量時間。參考譯文參考譯文5.期望最大化算法期望最大化(EM)用作聚類算法,就像用于知識發(fā)現(xiàn)的K-均值算法一樣。EM算法以迭代方式工作,以更好地查看觀測數(shù)據(jù)。接下來,它估計帶有未觀察到的變量的統(tǒng)計模型的參數(shù),從而生成一些觀察到的數(shù)據(jù)。EM算法也是無監(jiān)督學習方法,因為我們在不提供任何標記的類信息的情況下使用它。6.PageRank算法PageRank通常被像谷歌等搜索引擎使用。它是一種鏈接分析算法,可確定對象網(wǎng)中鏈接的對象的相對重要性。鏈接分析是一種探索對象之間關(guān)聯(lián)的網(wǎng)絡(luò)分析。谷歌搜索通過了解網(wǎng)頁之間的反向鏈接來使用此算法。PageRank是谷歌用來確定網(wǎng)頁的相對重要性并將其在谷歌搜索引擎上排名更高的方法之一。PageRank商標是谷歌的專有商標,PageRank算法由斯坦福大學獲得專利。PageRank被視為一種無監(jiān)督學習方法,因為它僅通過考慮鏈接即可確定相對重要性,而無需任何其他輸入。7.Adaboost算法Adaboost是用于構(gòu)建分類器的提升算法。分類器是一種數(shù)據(jù)挖掘工具,可獲取數(shù)據(jù)并根據(jù)輸入預測數(shù)據(jù)的類別。提升算法是一種集成學習算法,可運行多種學習算法并將其組合。提升算法吸收一組弱學習法,并將它們組合成一個單一的強學習法。弱學習法對數(shù)據(jù)進行分類的準確性較低。弱算法的最佳示例是決策樹樁算法,它基本上是一個單步?jīng)Q策樹。Adaboost是完美的監(jiān)督學習,因為它可以以迭代方式工作,并且在每次迭代中,都使用標記的數(shù)據(jù)集訓練較弱的學習法。Adaboost是一種簡單且非常直接的算法。在用戶指定輪數(shù)之后,每次連續(xù)的Adaboost迭代都會為每個最佳學習法重新定義權(quán)重。這使Adaboost成為自動調(diào)整分類器的絕佳方式。Adaboost具有靈活性、多功能性和簡潔性,因為它可以合并大多數(shù)學習算法并可以處理大量數(shù)據(jù)。
參考譯文8.KNN算法KNN是一種用作分類算法的消極學習算法。消極學習法在訓練過程中除了存儲訓練數(shù)據(jù)外不會做任何事情。消極學習法僅在輸入新的未標記數(shù)據(jù)作為輸入時才開始分類。另一方面,C4.5、SVN和Adaboost是積極學習法,它們在訓練過程中就開始建立分類模型。由于為KNN提供了標記的訓練數(shù)據(jù)集,因此將其視為監(jiān)督學習算法。9.樸素貝葉斯算法樸素貝葉斯不是單個算法,盡管可以將其視為單個算法。樸素貝葉斯是一組分類算法。該算法家族使用的假設(shè)是,要分類的數(shù)據(jù)的每個特征都獨立于該類中給出的所有其他特征。樸素貝葉斯用提供給自己的帶有標簽的訓練數(shù)據(jù)集來構(gòu)造表格。因此,它被視為監(jiān)督學習算法。參考譯文參考譯文10.CART算法CART代表分類樹和回歸樹。它是一種決策樹學習算法,可將回歸樹或分類樹作為輸出。在CART中,決策樹節(jié)點將恰好具有2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 咖啡館行業(yè)人力資源優(yōu)化考核試卷
- 核能發(fā)電站環(huán)境監(jiān)測數(shù)據(jù)分析考核試卷
- 期刊出版與國際合作考核試卷
- 海上旅客運輸綠色發(fā)展考核試卷
- 玉器收藏品加工技藝與市場前景考核試卷
- 河北省邢臺市一中2024-2025學年高二3月月考語文試題(原卷版+解析版)
- 腎癌根治術(shù)的護理常規(guī)
- 二零二五保安派遣服務勞動合同書
- 科技興新項目計劃項目指南
- 園藝師考試分數(shù)評估與答案
- 華為財務管理(6版)-華為經(jīng)營管理叢書
- 化工工藝有機廢氣處理裝置技術(shù)規(guī)范
- 【基于機器學習的旅游景區(qū)日客流量預測方法文獻綜述4500字】
- 超聲技術(shù)學智慧樹知到課后章節(jié)答案2023年下杭州醫(yī)學院
- 鹽酸乙醇標準溶液配制方法
- 廠區(qū)動火作業(yè)安全規(guī)程
- 急診科運用PDCA對急診患者預檢分診登記系統(tǒng)使用率低原因分析品管圈魚骨圖柏拉圖對策擬定
- 網(wǎng)絡(luò)安全知識競賽題庫及答案 1000題
- 拉薩租房合同房屋租賃合同租房合同書
- 小徑分岔的花園
- 癌癥疼痛三階梯止痛療法幻燈片
評論
0/150
提交評論