大數(shù)據(jù)基礎(chǔ)-大數(shù)據(jù)分析與挖掘技術(shù)課件

上傳人：她*** IP屬地：貴州上傳時(shí)間：2022-07-21 格式：PPTX 頁數(shù)：37 大?。?01.59KB 積分：25 舉報(bào) 版權(quán)申訴

大數(shù)據(jù)基礎(chǔ)-大數(shù)據(jù)分析與挖掘技術(shù)課件_第2頁

大數(shù)據(jù)基礎(chǔ)-大數(shù)據(jù)分析與挖掘技術(shù)課件_第3頁

大數(shù)據(jù)基礎(chǔ)-大數(shù)據(jù)分析與挖掘技術(shù)課件_第4頁

大數(shù)據(jù)基礎(chǔ)-大數(shù)據(jù)分析與挖掘技術(shù)課件_第5頁

已閱讀5頁，還剩32頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第7章大數(shù)據(jù)分析與挖掘技術(shù)華中科技大學(xué)軟件學(xué)院目錄2概述推薦聚類分類數(shù)據(jù)挖掘簡介3（1）分類分析：分類是指按照某種分類模型將具有相同特征的數(shù)據(jù)對(duì)象劃分為同一類。（2）聚類分析：聚類分析是一種創(chuàng)建數(shù)據(jù)對(duì)象集合的方法，這種數(shù)據(jù)集合也稱為簇（Cluster），聚類分析力求使得同簇成員盡可能相似，異簇成員盡可能相異（3）關(guān)聯(lián)分析：關(guān)聯(lián)分析是指找出多個(gè)事物之間具有的規(guī)律性（關(guān)聯(lián)），這一概念最早是由Rakesh Apwal等人提出的。（4）時(shí)序模式分析：時(shí)序模式分析反映的是屬性在時(shí)間上的特征，屬性在時(shí)間維度上如何變化，時(shí)序模式分析試圖在這些歷史數(shù)據(jù)中找到重復(fù)概率較高的模式，從而可以利用已知的數(shù)據(jù)預(yù)測未來

2、的值，主要應(yīng)用在產(chǎn)品生命周期預(yù)測，尋求客戶等方面。（5）偏差分析：偏差分析是指關(guān)注數(shù)據(jù)庫中的異常點(diǎn)，因?yàn)閷?duì)管理者來說，這些異常點(diǎn)往往是更需要給予關(guān)注的。數(shù)據(jù)挖掘也稱為知識(shí)發(fā)現(xiàn)，是目前數(shù)據(jù)科學(xué)領(lǐng)域的熱點(diǎn)研究課題。數(shù)據(jù)挖掘，就是從海量數(shù)據(jù)中發(fā)現(xiàn)隱含的、不平凡的、具有價(jià)值的規(guī)律或模式。在人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)庫管理和圖像處理等專業(yè)領(lǐng)域，數(shù)據(jù)挖掘技術(shù)都是必不可少的技術(shù)支持。數(shù)據(jù)挖掘數(shù)據(jù)挖掘流程4Mahout5Mahout是Apache公司的開源機(jī)器學(xué)習(xí)軟件庫，其實(shí)現(xiàn)了機(jī)器學(xué)習(xí)領(lǐng)域的諸多經(jīng)典算法，例如，推薦算法、聚類算法和分類算法。Mahout可以讓開發(fā)人員更方便快捷地創(chuàng)建智能應(yīng)用程序，另外

3、，Mahout通過應(yīng)用Hadoop庫可以有效利用分布式系統(tǒng)進(jìn)行大數(shù)據(jù)分析，大大減少了大數(shù)據(jù)背景下數(shù)據(jù)分析的難度。目前Mahout著力與三個(gè)領(lǐng)域推薦（協(xié)同過濾）、聚類、分類算法的實(shí)現(xiàn)上，盡管理論上它可以實(shí)現(xiàn)機(jī)器學(xué)習(xí)中的所有技術(shù)！Mahout安裝與配置6（1）安裝JDK+IDEA集成開發(fā)環(huán)境；（2）安裝配置maven；（3）安裝配置Mahout；（4）安裝配置Hadoop偽分布式環(huán)境。Mahout程序開發(fā)流程（IDEA下）7（1）使用IDEA新建maven標(biāo)準(zhǔn)Java程序；（2）進(jìn)入FileProject StructureProject SettingsLibraries，點(diǎn)擊加號(hào)Java；（3

4、）選中自己安裝的Mahout文件夾，全部導(dǎo)入；（4）在Java代碼中使用Mahout類庫中的類。目錄8概述推薦分類聚類推薦的定義與評(píng)估9推薦算法就是利用用戶的一些行為，通過一些數(shù)學(xué)算法，推測出用戶可能喜歡的東西最為典型的兩種推薦模式，基于用戶（User-based）的推薦和基于物品（Item-based）的推薦，Mahout的推薦程序中應(yīng)用最廣的也就是這兩類。推薦的定義與評(píng)估10一個(gè)優(yōu)秀的推薦程序，應(yīng)該是在用戶行動(dòng)之前就能準(zhǔn)確地獲知用戶喜歡的每一種物品的可能性，而且這些物品是用戶并沒有見過或者沒有對(duì)其表達(dá)過喜好意見的。因此，可以用經(jīng)典的信息檢索（Information Retrieval）中的

5、度量標(biāo)準(zhǔn)查準(zhǔn)率和查全率來對(duì)推薦進(jìn)行評(píng)估查準(zhǔn)率（Precision Ratio）是在推薦結(jié)果中相關(guān)結(jié)果的比率，是衡量檢索系統(tǒng)和檢索者檢出相關(guān)信息的能力；查全率（Recall Ratio）是指所有相關(guān)結(jié)果中被推薦結(jié)果所占比例，是衡量檢索系統(tǒng)和檢索者拒絕非相關(guān)信息的能力。相似性11進(jìn)行推薦時(shí)，常常要度量兩個(gè)用戶（物品）之間的相似程度，常用的相似性度量有以下幾種：皮爾遜相關(guān)系數(shù)、歐氏距離、余弦相似性、斯皮爾曼相關(guān)系數(shù)、Jaccard系數(shù)（用于忽略了偏好值的數(shù)據(jù)）、對(duì)數(shù)似然比等皮爾遜相關(guān)系數(shù)基于用戶的推薦12基于用戶的推薦本身的原理植根于用戶之間的相似性，通過參考相似性最大的用戶的偏好進(jìn)行推薦。for

6、用戶u尚未表達(dá)偏好的每個(gè)物品i for 對(duì)i有偏好的每個(gè)用戶v 計(jì)算u v之間的相似度s 按權(quán)重s將v對(duì)i的偏好并入平均值return 排序后最高值物品實(shí)際上，為了使算法性能提升，通常不會(huì)考慮所有用戶，而是先計(jì)算出所有用戶的相似度，在一個(gè)用戶領(lǐng)域內(nèi)進(jìn)行偏好值疊加for 除用戶u外的其他用戶w 計(jì)算用戶u和用戶w的相似度s 按相似度進(jìn)行排序，得到用戶鄰域nfor n中用戶有偏好，u用戶無偏好的物品i for n中所有對(duì)i有偏好的用戶v 計(jì)算用戶u和用戶v 相似度s 按權(quán)重s將用戶v對(duì)物品i的偏好并入平均值return 值最高的物品基于物品的推薦13基于物品的推薦算法與基于用戶的推薦類似，但該算法

7、是以物品之間的相似度進(jìn)行判定的。一個(gè)簡單的邏輯就是，如果喜歡A物品的用戶也喜歡B物品，那么，就表明A、B物品之間是具有一定聯(lián)系的，這種聯(lián)系構(gòu)成了推薦引擎的核心for 用戶u未表達(dá)偏好的每個(gè)物品i for 用戶u表達(dá)偏好的每個(gè)物品j 計(jì)算i ，j之間的相似度s 按權(quán)重s將用戶u對(duì)j的偏好并入return 值最高的物品如何選擇推薦算法14隨著物品數(shù)量的增長，基于物品推薦的程序運(yùn)行時(shí)間也會(huì)隨之增長，而基于用戶的推薦程序運(yùn)行時(shí)間是隨著用戶數(shù)量的增加而增加的。因此，在選擇推薦引擎時(shí)，需要考慮用戶和物品的數(shù)量與分布情況，一般而言，哪一個(gè)比較少，就基于哪一個(gè)做推薦。其他推薦算法15基于SVD的推薦算法：奇異

8、值分解（Singular Value Deposition）是線性代數(shù)中一種重要的矩陣分解，它可以從繁雜的物品列表中提煉出一種特征（譬如音樂曲中提煉出音樂流派），這種特征可能更具有代表性，根據(jù)用戶對(duì)物品的偏好性得出的這種特征往往更具有一般性?；诰€性插值的推薦算法： Mahout中實(shí)現(xiàn)了一種基于物品的推薦方法，與傳統(tǒng)的基于物品的推薦方法不同的是，它不再簡單地使用用戶表達(dá)過偏好的物品之間的相似度，而是使用一些代數(shù)技術(shù)計(jì)算出所有物品之間的最優(yōu)權(quán)重集合，對(duì)權(quán)重進(jìn)行優(yōu)化。同時(shí)，它采用了與用戶鄰域相似的概念，選擇了N個(gè)最鄰近的物品鄰域，以使得上述的數(shù)學(xué)計(jì)算量不會(huì)變得過于巨大。基于聚類的推薦算法：與傳統(tǒng)的

9、基于用戶的推薦算法不同的是，基于聚類的推薦算法不再將推薦局限于某一個(gè)用戶，而是將推薦結(jié)果推薦給相似的用戶簇。實(shí)戰(zhàn)：GroupLens數(shù)據(jù)集16GroupLens數(shù)據(jù)集：該數(shù)據(jù)集包括了很多用戶對(duì)電影的評(píng)價(jià)，每一個(gè)數(shù)據(jù)由四個(gè)維度構(gòu)成，用戶編號(hào)、電影編號(hào)、評(píng)分和時(shí)間戳，對(duì)于推薦程序而言，前三個(gè)維度就已經(jīng)足夠，可以利用這些數(shù)據(jù)進(jìn)行推薦評(píng)估。1 使用推薦器進(jìn)行推薦2 推薦器評(píng)估目錄17概述推薦聚類分類聚類18數(shù)據(jù)聚類，也稱為聚類分析、分割分析或無監(jiān)督分類，是一種創(chuàng)建數(shù)據(jù)對(duì)象集合的方法，這種數(shù)據(jù)集合也稱為簇。聚類的目標(biāo)是力求達(dá)到同一個(gè)簇中對(duì)象的相似程度盡可能的高，在不同簇中對(duì)象相似性差異盡可能大。在左側(cè)例

10、子中，將XY平面上的點(diǎn)根據(jù)距離遠(yuǎn)近劃分為了三個(gè)簇，簇的中心點(diǎn)的坐標(biāo)就是簇中所有樣本的坐標(biāo)的平均值，半徑就是簇中最遠(yuǎn)點(diǎn)距離中心點(diǎn)的距離。這是一個(gè)二維平面上的聚類問題，可以用圓的中心點(diǎn)和半徑解釋，在實(shí)際應(yīng)用中，數(shù)據(jù)維度往往會(huì)很大，可以將其看成一個(gè)多維的超球體，那么問題就抽象成了多維數(shù)據(jù)的距離度量問題了一個(gè)簡單的聚類示例Mahout 中的一些數(shù)據(jù)結(jié)構(gòu)19向量a和點(diǎn)p向量：是一個(gè)很適合用于表示多維數(shù)據(jù)的方法，對(duì)于聚類的對(duì)象而言，將其抽象為向量可以大大簡化數(shù)據(jù)存儲(chǔ)和運(yùn)算的消耗，例如，對(duì)蘋果進(jìn)行聚類，每個(gè)蘋果有三個(gè)特征（形狀、大小和顏色），可以將蘋果對(duì)象進(jìn)行向量化，形成一個(gè)三維的向量。Mahout中針對(duì)不

11、同場景，給出了三個(gè)適用的向量實(shí)現(xiàn)，分別是DenseVector、RandomAccessSparseVector、SequentialAccessSparseVector Mahout 中的一些數(shù)據(jù)結(jié)構(gòu)20詞頻-逆文檔頻率（Term Frequency-Inverse Document Frequancy，TF-IDF）是一個(gè)廣泛應(yīng)用的改進(jìn)詞頻加權(quán)方式，它在原有的TF權(quán)重上加入了詞的文檔頻率參數(shù)，當(dāng)一個(gè)單詞在所有文檔中使用的越頻繁，那么它在權(quán)重上被抵消的越多。在Mahout中，關(guān)于文本文檔向量化的工具主要有兩個(gè)，一個(gè)是SequenceFilesFromDirectory類，該類可以將目錄結(jié)構(gòu)下

12、的文本文檔轉(zhuǎn)換成SequenceFile格式；另一個(gè)是SparseVectorsFromSequenceFile類，該類基于n-gram（詞組）的TF或者TF-IDF加權(quán)將SequenceFile格式的文本文檔轉(zhuǎn)換為向量。常見聚類算法K-means21K-means算法是最廣泛使用的一種基于劃分的聚類算法，它的主要思想是將對(duì)象劃分為固定數(shù)目的簇，力求同簇元素盡可能相似，異簇元素盡可能相異。K-means算法的主要思想非常簡單，首先選擇k個(gè)對(duì)象最為初始聚類中心，大部分情況下這一步驟是隨機(jī)的（或者通過一定的算法得到初始聚類中心，比如最大最小距離算法等），然后對(duì)所有的數(shù)據(jù)對(duì)象進(jìn)行分配，分配到最近的

13、聚類中心上，分配完畢后再重新計(jì)算各個(gè)簇的中心，然后再進(jìn)行分配，一般循環(huán)到各個(gè)簇成員不再發(fā)生變動(dòng)或者準(zhǔn)則函數(shù)收斂為止。輸入：k, datan;（1）選擇k個(gè)初始中心點(diǎn)，例如，c0=data0,ck-1=datak-1;（2）對(duì)于data0.datan, 分別與c0ck-1比較，假定與ci差值最少，就標(biāo)記為i;（3）對(duì)于所有標(biāo)記為i點(diǎn)，重新計(jì)算ci= 所有標(biāo)記為i的dataj之和/標(biāo)記為i的個(gè)數(shù)；（4）重復(fù)(2)(3),直到所有ci值的變化小于給定閾值。常見聚類算法模糊K-means22模糊K-means算法是K-means聚類模糊形式。與K-means算法排他性聚類不同，模糊K-means嘗試從

14、數(shù)據(jù)集中生成有重疊的簇。在研究領(lǐng)域，也被稱作模糊C-means算法（FCM算法），可以把模糊K-means看作是K-means算法的擴(kuò)展。模糊K-means有一個(gè)參數(shù)m，叫做模糊因子，與K-means不同的是，模糊因子的引入不是把向量分配到最近的中心，而是計(jì)算每個(gè)點(diǎn)到每個(gè)簇的關(guān)聯(lián)度。模糊K-means有一個(gè)參數(shù)m，叫做模糊因子，與K-means不同的是，模糊因子的引入不是把向量分配到最近的中心，而是計(jì)算每個(gè)點(diǎn)到每個(gè)簇的關(guān)聯(lián)度。常見聚類算法Canopy聚類23Canopy聚類算法是一種近似聚類算法，它的時(shí)間復(fù)雜度很低，只需要進(jìn)行一次遍歷就可以得到結(jié)果，所以它有聚類結(jié)果不精確的缺點(diǎn)。我們可以利用C

15、anopy聚類的結(jié)果確定聚類數(shù)目以及初始聚類中心，為K-means算法鋪平道路。Canopy算法使用了快速近似距離度量和兩個(gè)距離閾值T1和T2來處理，T1T2?；镜乃惴ㄊ牵瑥囊粋€(gè)點(diǎn)集合開始并且隨機(jī)刪除一個(gè)，創(chuàng)建一個(gè)包含這個(gè)點(diǎn)的Canopy，并在剩余的點(diǎn)集合上迭代。對(duì)于每個(gè)點(diǎn)，如果它的距離第一個(gè)點(diǎn)的距離小于T1，然后這個(gè)點(diǎn)就加入這個(gè)聚集中。除此之外，如果這個(gè)距離T2，則將這個(gè)點(diǎn)從這個(gè)集合中刪除，一直循環(huán)到初始集合為空。常見聚類算法基于模型的聚類24狄利克雷在數(shù)學(xué)上指代一種概率分布，狄利克雷聚類就是利用這種分布搭建的一種聚類方法，其原理十分簡單。假設(shè)數(shù)據(jù)點(diǎn)集中在一個(gè)類似圓形的區(qū)域內(nèi)呈現(xiàn)均勻分布，

16、我們有一個(gè)模型用于描述該分布，從而就可以通過讀取數(shù)據(jù)并計(jì)算與模型的吻合程度來判斷數(shù)據(jù)是否符合這種模型。K-means算法存在的一個(gè)局限性就是無法處理非對(duì)稱正態(tài)分布數(shù)據(jù)，例如，當(dāng)數(shù)據(jù)點(diǎn)呈現(xiàn)橢圓形、三角形分布時(shí)，K-means算法往往會(huì)出現(xiàn)聚簇過大或者過小的情況，無法將真實(shí)的數(shù)據(jù)分布進(jìn)行呈現(xiàn)。實(shí)戰(zhàn): 對(duì)新聞進(jìn)行聚類25Reuters-21578是一個(gè)關(guān)于新聞的數(shù)據(jù)集，在機(jī)器學(xué)習(xí)領(lǐng)域中是最常用的文本分類的數(shù)據(jù)集之一，該數(shù)據(jù)集存放在22個(gè)文件之中，包含22578篇文檔，文件格式為SGML格式，類似于XML。（1）數(shù)據(jù)向量化（2）進(jìn)行K-means聚類（3）使用模糊K-means聚類算法對(duì)新聞進(jìn)行聚類目

17、錄26概述推薦聚類分類分類的基本概念27分類是使用特定信息（輸入）從一個(gè)預(yù)定義的潛在回應(yīng)列表中做出單一選擇（輸出）的過程。和聚類算法不同，分類算法是一種有監(jiān)督的學(xué)習(xí)，需要準(zhǔn)備一些正確決策的樣本供機(jī)器進(jìn)行前期訓(xùn)練，而聚類算法則不需要進(jìn)行訓(xùn)練。相對(duì)于前面所說的推薦算法，分類算法會(huì)從有限的輸出集合給出確定的一個(gè)答案，而推薦算法會(huì)選擇很多可能的答案，并按照可能性對(duì)它們進(jìn)行排序；同時(shí)，它們的輸入數(shù)據(jù)也不一樣，推薦系統(tǒng)更傾向于使用用戶的歷史行為數(shù)據(jù)，對(duì)用戶本身和物品本身的特征數(shù)據(jù)則不太關(guān)心，分類系統(tǒng)則更關(guān)心用戶和物品本身的屬性。建立一個(gè)分類系統(tǒng)，主要分為兩個(gè)階段：第一個(gè)階段是通過某種學(xué)習(xí)算法對(duì)已知數(shù)據(jù)（訓(xùn)

18、練集）進(jìn)行訓(xùn)練建立一個(gè)分類模型；第二個(gè)階段是使用該模型對(duì)新數(shù)據(jù)進(jìn)行分類。一些名詞概念28訓(xùn)練樣本是具有特征的實(shí)體，將被用作學(xué)習(xí)算法的輸入。通常，將訓(xùn)練樣本分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)，訓(xùn)練數(shù)據(jù)是訓(xùn)練樣本的一個(gè)子集，帶有目標(biāo)變量值的標(biāo)注，用作學(xué)習(xí)算法的輸入以生成模型；測試數(shù)據(jù)則是存留的部分訓(xùn)練樣本，隱藏其目標(biāo)變量值，以便于評(píng)估模型。特征是訓(xùn)練樣本或新樣本的一個(gè)已知特性，特征與特性是等同的。變量、字段和記錄：在這一節(jié)中，變量指一個(gè)特征的值或一個(gè)關(guān)于多個(gè)特征的函數(shù)，不同于計(jì)算機(jī)編程中的變量，一般涉及預(yù)測變量和目標(biāo)變量。記錄是用來存放樣本的一個(gè)容器，由多個(gè)字段構(gòu)成，每個(gè)字段存儲(chǔ)一個(gè)變量。一些名詞概念29模型

19、和訓(xùn)練：在分類中，訓(xùn)練算法的輸出就是一個(gè)模型。訓(xùn)練就是使用訓(xùn)練數(shù)據(jù)生成模型的學(xué)習(xí)過程，隨后該模型可將預(yù)測變量作為輸入來估計(jì)目標(biāo)變量的值。訓(xùn)練過程的輸出就是模型，也可以視作一個(gè)函數(shù)，該函數(shù)可以用于新樣本生成輸出，模仿原始樣本上的決策，這些決策就是分類系統(tǒng)的最終產(chǎn)出。實(shí)際上，我們常常將訓(xùn)練樣本分為兩部分，其中一部分用作訓(xùn)練數(shù)據(jù)，約占總樣本數(shù)量的80%到90%，用于提供給訓(xùn)練算法進(jìn)行訓(xùn)練產(chǎn)生模型；剩下的數(shù)據(jù)用作測試數(shù)據(jù)，將其隱藏目標(biāo)變量后提供給模型進(jìn)行模擬決策，通過比較其決策結(jié)果和真實(shí)結(jié)果來對(duì)訓(xùn)練出的模型進(jìn)行評(píng)估。預(yù)測變量和目標(biāo)變量：在分類過程中，預(yù)測變量為模型提供線索或者經(jīng)驗(yàn)，以便模型能夠判斷各個(gè)

20、樣本目標(biāo)變量應(yīng)該是什么樣的變量。一些名詞概念30有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)：分類算法是一種有監(jiān)督學(xué)習(xí)，因?yàn)槠涮幚淼臄?shù)據(jù)均帶有一個(gè)特定的期望值（目標(biāo)變量），而聚類算法屬于無監(jiān)督學(xué)習(xí)，沒有一個(gè)期望的確切答案，只需要給出數(shù)據(jù)聚類的合理解釋即可。同時(shí)，無監(jiān)督學(xué)習(xí)中使用的訓(xùn)練樣本也是沒有目標(biāo)變量的，有監(jiān)督學(xué)習(xí)則需要提供目標(biāo)變量進(jìn)行模型構(gòu)建?？梢詫⑦@兩種學(xué)習(xí)方式結(jié)合起來，得到更好的模型，通常采用聚類算法對(duì)原始數(shù)據(jù)進(jìn)行處理，生成一些特征供分類算法使用；或者反之使用多個(gè)分類器進(jìn)行處理，得到的輸出作為特征供聚類算法使用。這種結(jié)合的方式能夠大大提高數(shù)據(jù)分析的合理性與有效性。分類系統(tǒng)31常見的訓(xùn)練分類器算法SGD算法3

21、2隨機(jī)梯度下降（Stochastic Gradient Descent，SGD）算法是一個(gè)非并行的算法，主要的思想是靠每個(gè)訓(xùn)練樣本對(duì)模型進(jìn)行微調(diào)，然后逐步接近樣本正確答案的學(xué)習(xí)算法。這一遞增模式在多個(gè)訓(xùn)練樣本上重復(fù)執(zhí)行，盡管SGD算法很難實(shí)現(xiàn)并行計(jì)算，但由于它是一個(gè)線性的時(shí)間復(fù)雜度算法，處理大多數(shù)應(yīng)用的速度也很快，所以也沒有必要采用并行計(jì)算方式。Mahout中關(guān)于SGD算法的實(shí)現(xiàn)主要有以下幾個(gè)類：OnlineLogisticRegressionCrossFoldLearnerAdaptiveLogisticRegression。常見的訓(xùn)練分類器算法SVM算法33支持向量機(jī)（Support Ve

22、ctor Machine，SVM）是一種二分類模型，其基本模型定義為特征空間上的間隔最大的線性分類器，其學(xué)習(xí)策略便是間隔最大化，最終可轉(zhuǎn)化為一個(gè)凸二次規(guī)劃問題的求解。三種不同的分類方式可以看出，第三張圖的分割超平面分割效果最好。能夠容忍更多噪聲就需要所有樣本與分割超平面的距離盡可能遠(yuǎn)。為了求得這個(gè)盡可能遠(yuǎn)的分割超平面，就需要我們求得每個(gè)點(diǎn)到超平面的距離之和，并求得當(dāng)取得這個(gè)最小距離和時(shí)的超平面。常見的訓(xùn)練分類器算法樸素貝葉斯算法34樸素貝葉斯分類器（Naive Bayes Classifier，NBC）發(fā)源于古典數(shù)學(xué)理論，有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)，以及穩(wěn)定的分類效率。貝葉斯定理Mahout實(shí)現(xiàn)的樸素貝葉斯僅限于基于單一文本型變量進(jìn)行分類，對(duì)于很多問題來說，包括典型的大規(guī)模數(shù)據(jù)問題，影響不是很大。但如果需要基于連續(xù)變量，并且不能將其量化為單詞型對(duì)象從而和其他文本數(shù)據(jù)一并處理時(shí)，可能就沒辦法使用樸素貝葉斯一系列的算法。此外，如果數(shù)據(jù)中含有不止一類的單詞型或文本型變量，可能需要把這些變量拼接到一起，并以一種明確的方式添加前綴以消除歧義。這樣做可能會(huì)損失重要的差異信息，因?yàn)樗袉卧~和類別的統(tǒng)計(jì)數(shù)據(jù)都混到一起了。但大多數(shù)文本分類問題，基本上都可以使用樸素貝葉斯或補(bǔ)充樸素貝葉斯算法解決。如何選擇分類器35數(shù)據(jù)集大小Mahout算法執(zhí)行模型特性小到中型（數(shù)據(jù)樣本數(shù)在千萬級(jí)以下）隨機(jī)梯度下降（SGD

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)基礎(chǔ)-大數(shù)據(jù)分析與挖掘技術(shù)課件

文檔簡介

溫馨提示

最新文檔

評(píng)論

大數(shù)據(jù)基礎(chǔ)-大數(shù)據(jù)分析與挖掘技術(shù)課件

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔