大數(shù)據(jù)基礎(chǔ)-大數(shù)據(jù)分析與挖掘技術(shù)課件_第1頁
大數(shù)據(jù)基礎(chǔ)-大數(shù)據(jù)分析與挖掘技術(shù)課件_第2頁
大數(shù)據(jù)基礎(chǔ)-大數(shù)據(jù)分析與挖掘技術(shù)課件_第3頁
大數(shù)據(jù)基礎(chǔ)-大數(shù)據(jù)分析與挖掘技術(shù)課件_第4頁
大數(shù)據(jù)基礎(chǔ)-大數(shù)據(jù)分析與挖掘技術(shù)課件_第5頁
已閱讀5頁,還剩32頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第7章 大數(shù)據(jù)分析與挖掘技術(shù)華中科技大學(xué)軟件學(xué)院目錄2概述推薦聚類分類數(shù)據(jù)挖掘簡介3(1)分類分析:分類是指按照某種分類模型將具有相同特征的數(shù)據(jù)對(duì)象劃分為同一類。(2)聚類分析:聚類分析是一種創(chuàng)建數(shù)據(jù)對(duì)象集合的方法,這種數(shù)據(jù)集合也稱為簇(Cluster),聚類分析力求使得同簇成員盡可能相似,異簇成員盡可能相異(3)關(guān)聯(lián)分析:關(guān)聯(lián)分析是指找出多個(gè)事物之間具有的規(guī)律性(關(guān)聯(lián)),這一概念最早是由Rakesh Apwal等人提出的。(4)時(shí)序模式分析:時(shí)序模式分析反映的是屬性在時(shí)間上的特征,屬性在時(shí)間維度上如何變化,時(shí)序模式分析試圖在這些歷史數(shù)據(jù)中找到重復(fù)概率較高的模式,從而可以利用已知的數(shù)據(jù)預(yù)測未來

2、的值,主要應(yīng)用在產(chǎn)品生命周期預(yù)測,尋求客戶等方面。(5)偏差分析:偏差分析是指關(guān)注數(shù)據(jù)庫中的異常點(diǎn),因?yàn)閷?duì)管理者來說,這些異常點(diǎn)往往是更需要給予關(guān)注的。數(shù)據(jù)挖掘也稱為知識(shí)發(fā)現(xiàn),是目前數(shù)據(jù)科學(xué)領(lǐng)域的熱點(diǎn)研究課題。數(shù)據(jù)挖掘,就是從海量數(shù)據(jù)中發(fā)現(xiàn)隱含的、不平凡的、具有價(jià)值的規(guī)律或模式。在人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)庫管理和圖像處理等專業(yè)領(lǐng)域,數(shù)據(jù)挖掘技術(shù)都是必不可少的技術(shù)支持。數(shù)據(jù)挖掘數(shù)據(jù)挖掘流程4Mahout5Mahout是Apache公司的開源機(jī)器學(xué)習(xí)軟件庫,其實(shí)現(xiàn)了機(jī)器學(xué)習(xí)領(lǐng)域的諸多經(jīng)典算法,例如,推薦算法、聚類算法和分類算法。Mahout可以讓開發(fā)人員更方便快捷地創(chuàng)建智能應(yīng)用程序,另外

3、,Mahout通過應(yīng)用Hadoop庫可以有效利用分布式系統(tǒng)進(jìn)行大數(shù)據(jù)分析,大大減少了大數(shù)據(jù)背景下數(shù)據(jù)分析的難度。目前Mahout著力與三個(gè)領(lǐng)域推薦(協(xié)同過濾)、聚類、分類算法的實(shí)現(xiàn)上,盡管理論上它可以實(shí)現(xiàn)機(jī)器學(xué)習(xí)中的所有技術(shù)!Mahout安裝與配置6(1)安裝JDK+IDEA集成開發(fā)環(huán)境;(2)安裝配置maven;(3)安裝配置Mahout;(4)安裝配置Hadoop偽分布式環(huán)境。Mahout程序開發(fā)流程(IDEA下)7(1)使用IDEA新建maven標(biāo)準(zhǔn)Java程序;(2)進(jìn)入FileProject StructureProject SettingsLibraries,點(diǎn)擊加號(hào)Java;(3

4、)選中自己安裝的Mahout文件夾,全部導(dǎo)入;(4)在Java代碼中使用Mahout類庫中的類。目錄8概述推薦分類聚類推薦的定義與評(píng)估9推薦算法就是利用用戶的一些行為,通過一些數(shù)學(xué)算法,推測出用戶可能喜歡的東西最為典型的兩種推薦模式,基于用戶(User-based)的推薦和基于物品(Item-based)的推薦,Mahout的推薦程序中應(yīng)用最廣的也就是這兩類。推薦的定義與評(píng)估10一個(gè)優(yōu)秀的推薦程序,應(yīng)該是在用戶行動(dòng)之前就能準(zhǔn)確地獲知用戶喜歡的每一種物品的可能性,而且這些物品是用戶并沒有見過或者沒有對(duì)其表達(dá)過喜好意見的。因此,可以用經(jīng)典的信息檢索(Information Retrieval)中的

5、度量標(biāo)準(zhǔn)查準(zhǔn)率和查全率來對(duì)推薦進(jìn)行評(píng)估查準(zhǔn)率(Precision Ratio)是在推薦結(jié)果中相關(guān)結(jié)果的比率,是衡量檢索系統(tǒng)和檢索者檢出相關(guān)信息的能力;查全率(Recall Ratio)是指所有相關(guān)結(jié)果中被推薦結(jié)果所占比例,是衡量檢索系統(tǒng)和檢索者拒絕非相關(guān)信息的能力。相似性11進(jìn)行推薦時(shí),常常要度量兩個(gè)用戶(物品)之間的相似程度,常用的相似性度量有以下幾種:皮爾遜相關(guān)系數(shù)、歐氏距離、余弦相似性、斯皮爾曼相關(guān)系數(shù)、Jaccard系數(shù)(用于忽略了偏好值的數(shù)據(jù))、對(duì)數(shù)似然比等皮爾遜相關(guān)系數(shù)基于用戶的推薦12基于用戶的推薦本身的原理植根于用戶之間的相似性,通過參考相似性最大的用戶的偏好進(jìn)行推薦。for

6、用戶u尚未表達(dá)偏好的每個(gè)物品i for 對(duì)i有偏好的每個(gè)用戶v 計(jì)算u v之間的相似度s 按權(quán)重s將v對(duì)i的偏好并入平均值return 排序后最高值物品實(shí)際上,為了使算法性能提升,通常不會(huì)考慮所有用戶,而是先計(jì)算出所有用戶的相似度,在一個(gè)用戶領(lǐng)域內(nèi)進(jìn)行偏好值疊加for 除用戶u外的其他用戶w 計(jì)算用戶u和用戶w的相似度s 按相似度進(jìn)行排序,得到用戶鄰域nfor n中用戶有偏好,u用戶無偏好的物品i for n中所有對(duì)i有偏好的用戶v 計(jì)算用戶u和用戶v 相似度s 按權(quán)重s將用戶v對(duì)物品i的偏好并入平均值return 值最高的物品基于物品的推薦13基于物品的推薦算法與基于用戶的推薦類似,但該算法

7、是以物品之間的相似度進(jìn)行判定的。一個(gè)簡單的邏輯就是,如果喜歡A物品的用戶也喜歡B物品,那么,就表明A、B物品之間是具有一定聯(lián)系的,這種聯(lián)系構(gòu)成了推薦引擎的核心for 用戶u未表達(dá)偏好的每個(gè)物品i for 用戶u表達(dá)偏好的每個(gè)物品j 計(jì)算i ,j之間的相似度s 按權(quán)重s將用戶u對(duì)j的偏好并入return 值最高的物品如何選擇推薦算法14隨著物品數(shù)量的增長,基于物品推薦的程序運(yùn)行時(shí)間也會(huì)隨之增長,而基于用戶的推薦程序運(yùn)行時(shí)間是隨著用戶數(shù)量的增加而增加的。因此,在選擇推薦引擎時(shí),需要考慮用戶和物品的數(shù)量與分布情況,一般而言,哪一個(gè)比較少,就基于哪一個(gè)做推薦。其他推薦算法15基于SVD的推薦算法:奇異

8、值分解(Singular Value Deposition)是線性代數(shù)中一種重要的矩陣分解,它可以從繁雜的物品列表中提煉出一種特征(譬如音樂曲中提煉出音樂流派),這種特征可能更具有代表性,根據(jù)用戶對(duì)物品的偏好性得出的這種特征往往更具有一般性?;诰€性插值的推薦算法: Mahout中實(shí)現(xiàn)了一種基于物品的推薦方法,與傳統(tǒng)的基于物品的推薦方法不同的是,它不再簡單地使用用戶表達(dá)過偏好的物品之間的相似度,而是使用一些代數(shù)技術(shù)計(jì)算出所有物品之間的最優(yōu)權(quán)重集合,對(duì)權(quán)重進(jìn)行優(yōu)化。同時(shí),它采用了與用戶鄰域相似的概念,選擇了N個(gè)最鄰近的物品鄰域,以使得上述的數(shù)學(xué)計(jì)算量不會(huì)變得過于巨大?;诰垲惖耐扑]算法:與傳統(tǒng)的

9、基于用戶的推薦算法不同的是,基于聚類的推薦算法不再將推薦局限于某一個(gè)用戶,而是將推薦結(jié)果推薦給相似的用戶簇。實(shí)戰(zhàn):GroupLens數(shù)據(jù)集16GroupLens數(shù)據(jù)集:該數(shù)據(jù)集包括了很多用戶對(duì)電影的評(píng)價(jià),每一個(gè)數(shù)據(jù)由四個(gè)維度構(gòu)成,用戶編號(hào)、電影編號(hào)、評(píng)分和時(shí)間戳,對(duì)于推薦程序而言,前三個(gè)維度就已經(jīng)足夠,可以利用這些數(shù)據(jù)進(jìn)行推薦評(píng)估。1 使用推薦器進(jìn)行推薦2 推薦器評(píng)估目錄17概述推薦聚類分類聚類18數(shù)據(jù)聚類,也稱為聚類分析、分割分析或無監(jiān)督分類,是一種創(chuàng)建數(shù)據(jù)對(duì)象集合的方法,這種數(shù)據(jù)集合也稱為簇。聚類的目標(biāo)是力求達(dá)到同一個(gè)簇中對(duì)象的相似程度盡可能的高,在不同簇中對(duì)象相似性差異盡可能大。在左側(cè)例

10、子中,將XY平面上的點(diǎn)根據(jù)距離遠(yuǎn)近劃分為了三個(gè)簇,簇的中心點(diǎn)的坐標(biāo)就是簇中所有樣本的坐標(biāo)的平均值,半徑就是簇中最遠(yuǎn)點(diǎn)距離中心點(diǎn)的距離。這是一個(gè)二維平面上的聚類問題,可以用圓的中心點(diǎn)和半徑解釋,在實(shí)際應(yīng)用中,數(shù)據(jù)維度往往會(huì)很大,可以將其看成一個(gè)多維的超球體,那么問題就抽象成了多維數(shù)據(jù)的距離度量問題了一個(gè)簡單的聚類示例Mahout 中的一些數(shù)據(jù)結(jié)構(gòu)19向量a和點(diǎn)p向量:是一個(gè)很適合用于表示多維數(shù)據(jù)的方法,對(duì)于聚類的對(duì)象而言,將其抽象為向量可以大大簡化數(shù)據(jù)存儲(chǔ)和運(yùn)算的消耗,例如,對(duì)蘋果進(jìn)行聚類,每個(gè)蘋果有三個(gè)特征(形狀、大小和顏色),可以將蘋果對(duì)象進(jìn)行向量化,形成一個(gè)三維的向量。Mahout中針對(duì)不

11、同場景,給出了三個(gè)適用的向量實(shí)現(xiàn),分別是DenseVector、RandomAccessSparseVector、SequentialAccessSparseVector Mahout 中的一些數(shù)據(jù)結(jié)構(gòu)20詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequancy,TF-IDF)是一個(gè)廣泛應(yīng)用的改進(jìn)詞頻加權(quán)方式,它在原有的TF權(quán)重上加入了詞的文檔頻率參數(shù),當(dāng)一個(gè)單詞在所有文檔中使用的越頻繁,那么它在權(quán)重上被抵消的越多。在Mahout中,關(guān)于文本文檔向量化的工具主要有兩個(gè),一個(gè)是SequenceFilesFromDirectory類,該類可以將目錄結(jié)構(gòu)下

12、的文本文檔轉(zhuǎn)換成SequenceFile格式;另一個(gè)是SparseVectorsFromSequenceFile類,該類基于n-gram(詞組)的TF或者TF-IDF加權(quán)將SequenceFile格式的文本文檔轉(zhuǎn)換為向量。常見聚類算法K-means21K-means算法是最廣泛使用的一種基于劃分的聚類算法, 它的主要思想是將對(duì)象劃分為固定數(shù)目的簇,力求同簇元素盡可能相似,異簇元素盡可能相異。K-means算法的主要思想非常簡單,首先選擇k個(gè)對(duì)象最為初始聚類中心,大部分情況下這一步驟是隨機(jī)的(或者通過一定的算法得到初始聚類中心,比如最大最小距離算法等),然后對(duì)所有的數(shù)據(jù)對(duì)象進(jìn)行分配,分配到最近的

13、聚類中心上,分配完畢后再重新計(jì)算各個(gè)簇的中心,然后再進(jìn)行分配,一般循環(huán)到各個(gè)簇成員不再發(fā)生變動(dòng)或者準(zhǔn)則函數(shù)收斂為止。輸入:k, datan;(1)選擇k個(gè)初始中心點(diǎn),例如,c0=data0,ck-1=datak-1;(2)對(duì)于data0.datan, 分別與c0ck-1比較,假定與ci差值最少,就標(biāo)記為i;(3)對(duì)于所有標(biāo)記為i點(diǎn),重新計(jì)算ci= 所有標(biāo)記為i的dataj之和/標(biāo)記為i的個(gè)數(shù);(4)重復(fù)(2)(3),直到所有ci值的變化小于給定閾值。常見聚類算法模糊K-means22模糊K-means算法是K-means聚類模糊形式。與K-means算法排他性聚類不同,模糊K-means嘗試從

14、數(shù)據(jù)集中生成有重疊的簇。在研究領(lǐng)域,也被稱作模糊C-means算法(FCM算法),可以把模糊K-means看作是K-means算法的擴(kuò)展。模糊K-means有一個(gè)參數(shù)m,叫做模糊因子,與K-means不同的是,模糊因子的引入不是把向量分配到最近的中心,而是計(jì)算每個(gè)點(diǎn)到每個(gè)簇的關(guān)聯(lián)度。模糊K-means有一個(gè)參數(shù)m,叫做模糊因子,與K-means不同的是,模糊因子的引入不是把向量分配到最近的中心,而是計(jì)算每個(gè)點(diǎn)到每個(gè)簇的關(guān)聯(lián)度。常見聚類算法Canopy聚類23Canopy聚類算法是一種近似聚類算法,它的時(shí)間復(fù)雜度很低,只需要進(jìn)行一次遍歷就可以得到結(jié)果,所以它有聚類結(jié)果不精確的缺點(diǎn)。我們可以利用C

15、anopy聚類的結(jié)果確定聚類數(shù)目以及初始聚類中心,為K-means算法鋪平道路。Canopy算法使用了快速近似距離度量和兩個(gè)距離閾值T1和T2來處理,T1T2?;镜乃惴ㄊ?,從一個(gè)點(diǎn)集合開始并且隨機(jī)刪除一個(gè),創(chuàng)建一個(gè)包含這個(gè)點(diǎn)的Canopy,并在剩余的點(diǎn)集合上迭代。對(duì)于每個(gè)點(diǎn),如果它的距離第一個(gè)點(diǎn)的距離小于T1,然后這個(gè)點(diǎn)就加入這個(gè)聚集中。除此之外,如果這個(gè)距離T2,則將這個(gè)點(diǎn)從這個(gè)集合中刪除,一直循環(huán)到初始集合為空。常見聚類算法基于模型的聚類24狄利克雷在數(shù)學(xué)上指代一種概率分布,狄利克雷聚類就是利用這種分布搭建的一種聚類方法,其原理十分簡單。假設(shè)數(shù)據(jù)點(diǎn)集中在一個(gè)類似圓形的區(qū)域內(nèi)呈現(xiàn)均勻分布,

16、我們有一個(gè)模型用于描述該分布,從而就可以通過讀取數(shù)據(jù)并計(jì)算與模型的吻合程度來判斷數(shù)據(jù)是否符合這種模型。K-means算法存在的一個(gè)局限性就是無法處理非對(duì)稱正態(tài)分布數(shù)據(jù),例如,當(dāng)數(shù)據(jù)點(diǎn)呈現(xiàn)橢圓形、三角形分布時(shí),K-means算法往往會(huì)出現(xiàn)聚簇過大或者過小的情況,無法將真實(shí)的數(shù)據(jù)分布進(jìn)行呈現(xiàn)。實(shí)戰(zhàn): 對(duì)新聞進(jìn)行聚類25Reuters-21578是一個(gè)關(guān)于新聞的數(shù)據(jù)集,在機(jī)器學(xué)習(xí)領(lǐng)域中是最常用的文本分類的數(shù)據(jù)集之一,該數(shù)據(jù)集存放在22個(gè)文件之中,包含22578篇文檔,文件格式為SGML格式,類似于XML。(1)數(shù)據(jù)向量化(2)進(jìn)行K-means聚類(3)使用模糊K-means聚類算法對(duì)新聞進(jìn)行聚類目

17、錄26概述推薦聚類分類分類的基本概念27分類是使用特定信息(輸入)從一個(gè)預(yù)定義的潛在回應(yīng)列表中做出單一選擇(輸出)的過程。和聚類算法不同,分類算法是一種有監(jiān)督的學(xué)習(xí),需要準(zhǔn)備一些正確決策的樣本供機(jī)器進(jìn)行前期訓(xùn)練,而聚類算法則不需要進(jìn)行訓(xùn)練。相對(duì)于前面所說的推薦算法,分類算法會(huì)從有限的輸出集合給出確定的一個(gè)答案,而推薦算法會(huì)選擇很多可能的答案,并按照可能性對(duì)它們進(jìn)行排序;同時(shí),它們的輸入數(shù)據(jù)也不一樣,推薦系統(tǒng)更傾向于使用用戶的歷史行為數(shù)據(jù),對(duì)用戶本身和物品本身的特征數(shù)據(jù)則不太關(guān)心,分類系統(tǒng)則更關(guān)心用戶和物品本身的屬性。建立一個(gè)分類系統(tǒng),主要分為兩個(gè)階段:第一個(gè)階段是通過某種學(xué)習(xí)算法對(duì)已知數(shù)據(jù)(訓(xùn)

18、練集)進(jìn)行訓(xùn)練建立一個(gè)分類模型;第二個(gè)階段是使用該模型對(duì)新數(shù)據(jù)進(jìn)行分類。一些名詞概念28訓(xùn)練樣本是具有特征的實(shí)體,將被用作學(xué)習(xí)算法的輸入。通常,將訓(xùn)練樣本分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),訓(xùn)練數(shù)據(jù)是訓(xùn)練樣本的一個(gè)子集,帶有目標(biāo)變量值的標(biāo)注,用作學(xué)習(xí)算法的輸入以生成模型;測試數(shù)據(jù)則是存留的部分訓(xùn)練樣本,隱藏其目標(biāo)變量值,以便于評(píng)估模型。特征是訓(xùn)練樣本或新樣本的一個(gè)已知特性,特征與特性是等同的。變量、字段和記錄:在這一節(jié)中,變量指一個(gè)特征的值或一個(gè)關(guān)于多個(gè)特征的函數(shù),不同于計(jì)算機(jī)編程中的變量,一般涉及預(yù)測變量和目標(biāo)變量。記錄是用來存放樣本的一個(gè)容器,由多個(gè)字段構(gòu)成,每個(gè)字段存儲(chǔ)一個(gè)變量。一些名詞概念29模型

19、和訓(xùn)練:在分類中,訓(xùn)練算法的輸出就是一個(gè)模型。訓(xùn)練就是使用訓(xùn)練數(shù)據(jù)生成模型的學(xué)習(xí)過程,隨后該模型可將預(yù)測變量作為輸入來估計(jì)目標(biāo)變量的值。訓(xùn)練過程的輸出就是模型,也可以視作一個(gè)函數(shù),該函數(shù)可以用于新樣本生成輸出,模仿原始樣本上的決策,這些決策就是分類系統(tǒng)的最終產(chǎn)出。實(shí)際上,我們常常將訓(xùn)練樣本分為兩部分,其中一部分用作訓(xùn)練數(shù)據(jù),約占總樣本數(shù)量的80%到90%,用于提供給訓(xùn)練算法進(jìn)行訓(xùn)練產(chǎn)生模型;剩下的數(shù)據(jù)用作測試數(shù)據(jù),將其隱藏目標(biāo)變量后提供給模型進(jìn)行模擬決策,通過比較其決策結(jié)果和真實(shí)結(jié)果來對(duì)訓(xùn)練出的模型進(jìn)行評(píng)估。預(yù)測變量和目標(biāo)變量:在分類過程中,預(yù)測變量為模型提供線索或者經(jīng)驗(yàn),以便模型能夠判斷各個(gè)

20、樣本目標(biāo)變量應(yīng)該是什么樣的變量。一些名詞概念30有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí):分類算法是一種有監(jiān)督學(xué)習(xí),因?yàn)槠涮幚淼臄?shù)據(jù)均帶有一個(gè)特定的期望值(目標(biāo)變量),而聚類算法屬于無監(jiān)督學(xué)習(xí),沒有一個(gè)期望的確切答案,只需要給出數(shù)據(jù)聚類的合理解釋即可。同時(shí),無監(jiān)督學(xué)習(xí)中使用的訓(xùn)練樣本也是沒有目標(biāo)變量的,有監(jiān)督學(xué)習(xí)則需要提供目標(biāo)變量進(jìn)行模型構(gòu)建。可以將這兩種學(xué)習(xí)方式結(jié)合起來,得到更好的模型,通常采用聚類算法對(duì)原始數(shù)據(jù)進(jìn)行處理,生成一些特征供分類算法使用;或者反之使用多個(gè)分類器進(jìn)行處理,得到的輸出作為特征供聚類算法使用。這種結(jié)合的方式能夠大大提高數(shù)據(jù)分析的合理性與有效性。分類系統(tǒng)31常見的訓(xùn)練分類器算法SGD算法3

21、2隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)算法是一個(gè)非并行的算法,主要的思想是靠每個(gè)訓(xùn)練樣本對(duì)模型進(jìn)行微調(diào),然后逐步接近樣本正確答案的學(xué)習(xí)算法。這一遞增模式在多個(gè)訓(xùn)練樣本上重復(fù)執(zhí)行,盡管SGD算法很難實(shí)現(xiàn)并行計(jì)算,但由于它是一個(gè)線性的時(shí)間復(fù)雜度算法,處理大多數(shù)應(yīng)用的速度也很快,所以也沒有必要采用并行計(jì)算方式。Mahout中關(guān)于SGD算法的實(shí)現(xiàn)主要有以下幾個(gè)類:OnlineLogisticRegressionCrossFoldLearnerAdaptiveLogisticRegression。常見的訓(xùn)練分類器算法SVM算法33支持向量機(jī)(Support Ve

22、ctor Machine,SVM)是一種二分類模型,其基本模型定義為特征空間上的間隔最大的線性分類器,其學(xué)習(xí)策略便是間隔最大化,最終可轉(zhuǎn)化為一個(gè)凸二次規(guī)劃問題的求解。三種不同的分類方式可以看出,第三張圖的分割超平面分割效果最好。能夠容忍更多噪聲就需要所有樣本與分割超平面的距離盡可能遠(yuǎn)。為了求得這個(gè)盡可能遠(yuǎn)的分割超平面,就需要我們求得每個(gè)點(diǎn)到超平面的距離之和,并求得當(dāng)取得這個(gè)最小距離和時(shí)的超平面。常見的訓(xùn)練分類器算法樸素貝葉斯算法34樸素貝葉斯分類器(Naive Bayes Classifier,NBC)發(fā)源于古典數(shù)學(xué)理論,有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率。貝葉斯定理Mahout實(shí)現(xiàn)的樸素貝葉斯僅限于基于單一文本型變量進(jìn)行分類,對(duì)于很多問題來說,包括典型的大規(guī)模數(shù)據(jù)問題,影響不是很大。但如果需要基于連續(xù)變量,并且不能將其量化為單詞型對(duì)象從而和其他文本數(shù)據(jù)一并處理時(shí),可能就沒辦法使用樸素貝葉斯一系列的算法。此外,如果數(shù)據(jù)中含有不止一類的單詞型或文本型變量,可能需要把這些變量拼接到一起,并以一種明確的方式添加前綴以消除歧義。這樣做可能會(huì)損失重要的差異信息,因?yàn)樗袉卧~和類別的統(tǒng)計(jì)數(shù)據(jù)都混到一起了。但大多數(shù)文本分類問題,基本上都可以使用樸素貝葉斯或補(bǔ)充樸素貝葉斯算法解決。如何選擇分類器35數(shù)據(jù)集大小Mahout算法執(zhí)行模型特性小到中型(數(shù)據(jù)樣本數(shù)在千萬級(jí)以下)隨機(jī)梯度下降(SGD

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論