垃圾評論識別_第1頁
垃圾評論識別_第2頁
垃圾評論識別_第3頁
垃圾評論識別_第4頁
垃圾評論識別_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余11頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

一種對垃圾評論進(jìn)行篩選的數(shù)學(xué)模型摘要:目前商務(wù)網(wǎng)站或博客論壇允許用戶發(fā)表針對產(chǎn)品或話題的一些評論看法,難免會存在一些虛假的或是與產(chǎn)品及話題無關(guān)的評論信息,這極大地誤導(dǎo)了商家、讀者以及觀點(diǎn)挖掘系統(tǒng),造成了資源的浪費(fèi)。本文通過建立合理的數(shù)學(xué)模型,通過C++及matlab編程求解,實(shí)現(xiàn)對產(chǎn)品垃圾評論的有效識別。針對問題一,對給定的四類不同情形,首先建立文本處理模型,通過C++進(jìn)行文本統(tǒng)計(jì),根據(jù)統(tǒng)計(jì)結(jié)果,生成產(chǎn)品標(biāo)準(zhǔn)關(guān)鍵詞向量和評論向量;再次,通過垃圾評論判斷進(jìn)行初級判斷;再通過matlab相似度計(jì)算模型,得到評論與產(chǎn)品關(guān)鍵詞的相似度;最后通過與設(shè)定閾值比較判定評論是否為垃圾評論,判斷正確率為100%c針對問題二,相對問題一,評論數(shù)量增加,因此充分考慮主題詞、廣告詞、情感詞、違禁詞、相似度、評論重復(fù)數(shù)及特殊符號等評論特征對評論結(jié)果的影響,首先采用AdaBoost算法訓(xùn)練出合理的強(qiáng)分類器,對垃圾評論和正常評論實(shí)現(xiàn)有效分類;其次,通過建立準(zhǔn)確率和召回率綜合指標(biāo)評價模型最篩選結(jié)果做出評價。針對問題三,對一般產(chǎn)品的產(chǎn)品評價集合,在問題(2)模型的基礎(chǔ)上建立更一般的改進(jìn)模型,通過對樣本權(quán)重的限制和相似度的改進(jìn),提高算法的識別率。針對該類問題識別的特征,從關(guān)鍵詞詞庫的擴(kuò)充、產(chǎn)品評論特征的識別、樣本的選擇權(quán)重及相似度確定等角度提出了針對該類問題建立模型的合理建議關(guān)鍵字:垃圾評論識別,C++,matlab,評論特征,AdaBoost算法,權(quán)重一、問題重述評論篩選是對給定的語料集合中,要求系統(tǒng)識別出文檔是否為垃圾觀點(diǎn)文檔。要求完成以下問題:1)針對給定的情形,建立合理的數(shù)學(xué)模型進(jìn)行識別,制定算法流程。并通過程序驗(yàn)證,得到正確識別率。2)在網(wǎng)絡(luò)上收集一個更大的關(guān)于小米手機(jī)的評價集合,建立合理的數(shù)學(xué)模型和算法進(jìn)行識別,并得到結(jié)論。3)對一般的產(chǎn)品評價集合,討論并建立更一般的模型,并給出該類識別問題的看法。四種垃圾評論分類如下:(1)確實(shí)是評論,但只對品牌和制造商,甚至是站點(diǎn)評論,而沒有針對當(dāng)前產(chǎn)品本身進(jìn)行評論,因此這種評論是無意義的。(2)確實(shí)是對產(chǎn)品進(jìn)行了評論,但是評錯了產(chǎn)品。(3)廣告評論。(4)無關(guān)的文本,大致包括個人的消費(fèi)體經(jīng)歷、人身攻擊和其它無關(guān)文本。二、模型假設(shè)與符號說明2.1模型假設(shè).從產(chǎn)品說明中提取的一個標(biāo)準(zhǔn)特征向量可以代表產(chǎn)品說明;.從評論中提取的一個評論特征向量可以代表此評論;.本文所建立的相關(guān)詞庫能夠涵蓋所有評論內(nèi)容;.本文所提出的評論特征能夠有效反映當(dāng)前網(wǎng)絡(luò)評論的特征。.2主要符號說明Wis:表示關(guān)鍵詞在關(guān)鍵詞特征向量中值的大??;Similarity:相似度,衡量評論與產(chǎn)品標(biāo)準(zhǔn)描述之間的相似程度;Recall:評論篩選召回率;Precision:評論篩選精確率;Mistake:評論篩選誤判率;:評論分類錯誤率;h:評論分類器三、問題分析問題(1)分析問題(1)所給評論特征明顯,通過以主題詞、廣告詞、情感詞等基本關(guān)鍵詞篩選,初步篩選出部分垃圾評論,對其余評論,通過相似度計(jì)算完成篩選對評論進(jìn)行篩選。首先要進(jìn)行的是文本處理,通過文本處理提取出評論中的關(guān)鍵詞。再次,應(yīng)建立一個標(biāo)準(zhǔn)關(guān)鍵詞向量,通過對產(chǎn)品說明進(jìn)行關(guān)鍵詞統(tǒng)計(jì)與權(quán)重計(jì)算,得到標(biāo)準(zhǔn)關(guān)鍵詞向量。最后,確定一個評論判定閾值,以便通過相似度比對確定出是否需要篩選評論。問題(2)的分析針對實(shí)際產(chǎn)品中的大量評論,充分考慮主題詞、廣告詞、情感詞、違禁詞、相似度、評論重復(fù)數(shù)及特殊符號對評論結(jié)果的影響,采用AdaBoost算法訓(xùn)練出合理的強(qiáng)分類器,實(shí)現(xiàn)對垃圾評論的有效識別,并通過評價模型做出合理評價。問題(3)的分析針對一般產(chǎn)品的產(chǎn)品評價集合,在問題(2)模型的基礎(chǔ)上建立更一般的改進(jìn)模型,通過對樣本權(quán)重的限制和相似度的改進(jìn),提高算法的識別率,使其更具有應(yīng)用價值。針對該類問題識別的特征,從關(guān)鍵詞詞庫的擴(kuò)充、產(chǎn)品評論特征的識別、樣本的選擇權(quán)重及相似度確定等角度提出了針對該類問題建立模型的合理建議。四、模型建立與求解模型準(zhǔn)備產(chǎn)品評論特征在提取產(chǎn)品評論特征之前,首先對文本數(shù)據(jù)作預(yù)處理。采用中國科學(xué)院計(jì)算技術(shù)研究所分詞系統(tǒng)ICTCLAS對產(chǎn)品標(biāo)準(zhǔn)描述和評論進(jìn)行分詞,并去掉與評論內(nèi)容無關(guān)的停用詞,對剩余的有效關(guān)鍵詞進(jìn)行分析處理。產(chǎn)品評論特征是商品評論有效性篩選的重要指標(biāo),能否有效識別出垃圾評論很大程度上決定與所選垃圾評論特征是否具有代表性及盡可能多的覆蓋到所有評論,。通過對常見垃圾評論特征的統(tǒng)計(jì)分析,通過以下特征來描述產(chǎn)品評論并提取出其特征值:(1)主題詞產(chǎn)品主題詞是描述產(chǎn)品的核心詞,也是產(chǎn)品評論的核心詞,一般是與產(chǎn)品相關(guān)的核心名詞。采用中國科學(xué)院計(jì)算技術(shù)研究所分詞系統(tǒng)ICTCLAS提取關(guān)鍵詞中的產(chǎn)品標(biāo)準(zhǔn)描述及待評價評論中的核心詞,并逐一進(jìn)行比對。如果評論中沒有產(chǎn)品標(biāo)準(zhǔn)描述中的任何主題詞,即特征值為0,則認(rèn)為該評論為垃圾評論,否則,其特征值為1,作為有效評論暫時保留。(2)超鏈接與廣告詞產(chǎn)品垃圾評論是包含超鏈接和廣告詞,超鏈接和廣告詞都是廣告信息的典型表現(xiàn)形式,大多包括產(chǎn)品推銷、店鋪或網(wǎng)站推薦、公司宣傳等。針對超鏈接垃圾評論,由于超鏈接一般以網(wǎng)址出現(xiàn),會出現(xiàn)多個連續(xù)英文字母字符,如http://...,本文通過掃描評論中這類連續(xù)的字符,判定是否含有超鏈接。若含有超鏈接,即認(rèn)為該評論可能為垃圾評論,其特征值為0,優(yōu)先排除,否則,其特征值為1,作為有效評論暫時保留。針對廣告詞,通過對現(xiàn)階段熱門評論分析總結(jié),首先建立常用廣告詞詞典,如QQ、特價、熱購、淘寶、全場包郵等;其次考慮到廣告詞中包含產(chǎn)品價格及QQ號碼等信息,一般以數(shù)字出現(xiàn),因此若掃描到多個數(shù)字及漢字“元”,即認(rèn)為包含廣告詞。同樣,若含有廣告詞,即認(rèn)為該評論為垃圾評論,其特征值為0,優(yōu)先排除,否則,其特征值為1,作為有效評論暫時保留。(3)違禁詞違禁詞即含有惡性攻擊的詞,如tm、腦殘、爛貨等,同樣建立違禁詞詞典。對

0,每條評論的關(guān)鍵詞掃描,發(fā)現(xiàn)違禁詞,即認(rèn)為該評論為垃圾評論,其特征值為優(yōu)先排除,否則,其特征值為1,作為有效評論暫時保留。0,(4)情感詞產(chǎn)品評論是人們對產(chǎn)品相關(guān)參數(shù)及購買體驗(yàn)的評價和議論,人們通過評論可以真實(shí)的表達(dá)出自己的主觀性看法、態(tài)度、感覺、情緒等等。因此,評論必然包含評論者的情感。情感詞詞數(shù)越少,越有可能屬于垃圾評論。通過統(tǒng)計(jì)分析計(jì)算,同樣建立產(chǎn)品評論情感詞詞典,以評論中的情感詞詞頻作為其特征值。(5)相似度垃圾評論的識別離不開文本相似度的度量,相似度是指兩對比物具有的共性大小,是常見的用于度量評論是否垃圾評論的特征指標(biāo)。本文采用余弦相似度來度量評論與產(chǎn)品標(biāo)準(zhǔn)描述之間的相似程度,其公式如下:Similarity(s,q)nWsSimilarity(s,q)nWsWcWis表示有效關(guān)鍵詞i在標(biāo)準(zhǔn)產(chǎn)品描述中對應(yīng)的權(quán)重,Wic表示有效關(guān)鍵詞i在產(chǎn)品評論j中對應(yīng)的權(quán)重。相似度越小,就越有可能是垃圾評論。權(quán)重計(jì)算公式:Wis110g(n*a1),其中n為關(guān)鍵詞i在產(chǎn)品說明中出現(xiàn)的次數(shù),a為權(quán)重調(diào)節(jié)參數(shù),可以通過機(jī)器自動調(diào)節(jié)。參數(shù)a,通過工作人員對此權(quán)重的是否滿意的判斷,程序自動升高或降低權(quán)重系數(shù)。(6)評論重復(fù)數(shù)通過對大量產(chǎn)品分析統(tǒng)計(jì)發(fā)現(xiàn):有一類垃圾評論,看起來似乎是正常評論,但是從整體來看,會發(fā)現(xiàn)同一評論者或者不同評論者針對同一問題大量發(fā)表了相同或者相似的評論,稱為重復(fù)評論。此類評論有可能是商家為了攻擊競爭對手提高自己的好評度而發(fā)動非正常用戶發(fā)表的垃圾評論,評論重復(fù)數(shù)量越多,就越有可能屬于垃圾評論。為簡化計(jì)算,本文只統(tǒng)計(jì)超過一定長度的句子的相同評論數(shù)量,并通過關(guān)鍵詞是否相同確定是否重復(fù)。若關(guān)鍵詞重復(fù)數(shù)超過80%,即認(rèn)為該評論為垃圾評論,其特征值為0,優(yōu)先排除,否則,其特征值為1,作為有效評論暫時保留。(7)特殊符號正常評論中的標(biāo)點(diǎn)符號一般都是正常的,只有幾個逗號、頓號、分號、句號或者感嘆號等,只是極個別的評論者寫了一串的逗號,頓號,句號,點(diǎn)號,問號,感嘆號等來抒發(fā)自己強(qiáng)烈的感情,一般不會使用“…,“#:"&”等標(biāo)點(diǎn)符號,而垃圾評論為了繞過現(xiàn)有的過濾機(jī)制,在一些具有明顯垃圾特征的垃圾關(guān)鍵詞中間往往加入了一串特殊標(biāo)點(diǎn)符號來掩蓋垃圾評論的垃圾特征,例如:★*★歡迎光臨——三際數(shù)碼*★*★期待與您合作喔!么么噠八0八*'**z。發(fā)現(xiàn)特殊符號,即認(rèn)為該評論為垃圾評論,其特征值為0,優(yōu)先排除,否則,其特征值為1,作為有效評論暫時保留。AdaBoost算法AdaBoost算法是一種實(shí)現(xiàn)簡單,應(yīng)用也很簡單的框架算法。AdaBoost算法通過加權(quán)集成弱分類器而得到強(qiáng)分類器,具有適應(yīng)性強(qiáng)、精度高、分類錯誤率上界

隨著訓(xùn)練增加而穩(wěn)定下降,且不容易出現(xiàn)過擬合問題等特點(diǎn)該算法是通過改變數(shù)據(jù)權(quán)重分布來實(shí)現(xiàn)的,根據(jù)每輪訓(xùn)練集之中每個樣本的分類是否正確,以及上一輪弱分類器的分類錯誤率,來更新每個樣本的權(quán)值。被分類正確的樣本權(quán)值減小,被分類錯誤的樣本權(quán)值增加。這樣分錯的樣本就會被突顯出來,以便下一輪弱分類器將注意力放在這些“難分”的樣本上。將更新過權(quán)值的新數(shù)據(jù)集送到下輪分類器進(jìn)行訓(xùn)練,最后將每輪訓(xùn)練得到的弱分類器線性加權(quán)集合起來,得到最終的強(qiáng)分類器,弱分類器的錯誤率越低,則其權(quán)重越大。產(chǎn)品評論評價指標(biāo)表4.1列出了實(shí)驗(yàn)可能得出結(jié)果的混淆矩陣,產(chǎn)品評論分類的評價指標(biāo)可通過此矩陣來進(jìn)行計(jì)算。RecallR=UU+XRecallw=VRecallR=UU+XRecallw=VV+Y定義二正常評論精確率PrecisionR,垃圾評論精確率PrecisionwPrecisionRPrecisionw=YX+Y表4.1混淆矩陣正常評論數(shù)垃圾評論數(shù)識別的正常評論數(shù)UV識別的垃圾評論數(shù)XY定義一正常評論召回率RecallR,垃圾評論召回率Recallw定義三正常評論Fr值,垃圾評論Fw值Fr=2*RecallFr=2*RecallR*PrecisionRRecallR+PrecisionR2*RecallW*Precisionw

RecallW+Precisionw綜合評價F值是召回率和精確率兩者的綜合評價指標(biāo),可以綜合反映出分類器對于正常評論或者垃圾評論的分類能力。定義四誤判率Mistake__X—M==1-PrecisionwX+Y對于垃圾評論識別效果評價判斷標(biāo)準(zhǔn)中,誤判率M也是一重大指標(biāo)。誤判率是指被判別為垃圾評論的評論中正常評論的比例,在垃圾評論識別的場景下,如果用于實(shí)時過濾,把正常評論誤判為垃圾評論會對正常用戶造成困擾,進(jìn)而影響用戶體驗(yàn);如果用于面向評論的數(shù)據(jù)挖掘工作,把正常評論識別為錯誤無疑會漏掉一部分有價值的信息。因此,在保證判別整體精確率的情況下,一個更低的誤判率無疑具有更高的實(shí)用價值。4.2問題(1)的模型建立與求解問題(1)模型建立針對問題(1)所給評論,特征明顯,因此本文通過以主題詞、廣告詞、情感詞等關(guān)鍵詞篩選,初步篩選出部分垃圾評論,對其余評論,通過相似度計(jì)算完成篩選。算法設(shè)計(jì)流程圖:

有■度百科關(guān)、于iPhone61

的產(chǎn)品說明,名詞統(tǒng)計(jì)模塊名詞篩選模塊有■度百科關(guān)、于iPhone61

的產(chǎn)品說明,名詞統(tǒng)計(jì)模塊名詞篩選模塊圖1問題(1)的算法設(shè)計(jì)流程圖.通過名詞統(tǒng)計(jì)模塊處理“百度百科”關(guān)于iphone6的產(chǎn)品說明,得到包含所有名詞的詞庫;.通過名次篩選模塊篩選出標(biāo)準(zhǔn)關(guān)鍵詞庫;.通過權(quán)重計(jì)算和權(quán)重調(diào)節(jié)模塊,得到標(biāo)準(zhǔn)權(quán)重向量,并為每個關(guān)鍵詞賦權(quán)重值;.通過評論初步判斷模塊,判斷是否有違禁詞,若含違禁詞,則認(rèn)為該評論為垃圾評論;.通過名次篩選模塊對待計(jì)算評論進(jìn)行處理,得到評論關(guān)鍵詞向量;.通過相似度計(jì)算模塊,同時輸入標(biāo)準(zhǔn)權(quán)重向量和評論關(guān)鍵詞向量,計(jì)算出相

似度伯:。.將得到的相似度值與閾值進(jìn)行比對,大于等于閾值則確定為正常評論,否則為垃圾評論。.2.2對于問題(1)模型的求解(1)名詞統(tǒng)計(jì)模塊:此模塊將對輸入的文本進(jìn)行分析,通過分析名詞的特征,提取名詞,并建立出所有名詞的列表。使用名詞統(tǒng)計(jì)模塊對產(chǎn)品說明進(jìn)行分析,統(tǒng)計(jì)出所有名詞。詞詞詞詞詞詞詞詞祠L詞詞詞詞詞詞詞詞祠L名名名名名名名名名」取取取取取-tB苜IAE提舊語舊正舊啃正舊底舊惡小e:nn/ILnnnnnnnT4??-///////產(chǎn)茂及其權(quán)重值1天鍵詞:產(chǎn)茂及其權(quán)重值1天鍵詞:LPhonetZn其權(quán)重值為;195424其權(quán)重值為?2.加13,,其權(quán)重值為;1-50309?其權(quán)重值為;1-30103圖2名詞統(tǒng)計(jì)模塊輸出結(jié)果(2)產(chǎn)品關(guān)鍵詞權(quán)重計(jì)算模塊:通過此模塊統(tǒng)計(jì)關(guān)鍵詞的個數(shù),帶入權(quán)重計(jì)算公式:Ws1log(n*a1)得到每個關(guān)鍵詞的權(quán)重值.其權(quán)重值為工[々7916圖3產(chǎn)品關(guān)鍵詞權(quán)重計(jì)算模塊結(jié)果(3)評論初步判斷模塊:此模塊可以對評論進(jìn)行關(guān)鍵詞抽取比對違禁詞,必要名詞的判斷。將評論關(guān)鍵詞與違禁詞典進(jìn)行比對,若含有違禁詞則不允許通過。同時若評論不含有產(chǎn)品名,也不允許通過。聯(lián)罌要皆0逞現(xiàn)詞匯》,不允許通過。圖4評論初步判斷模塊輸出結(jié)果(4)權(quán)重計(jì)算與調(diào)節(jié)模塊:設(shè)計(jì)人員對結(jié)果根據(jù)自己滿意與否調(diào)節(jié)關(guān)鍵詞權(quán)重。.其權(quán)重值為:1-23226是否對此權(quán)重滿意?口】任【心:?增加權(quán)重,2.減少權(quán)重1產(chǎn)品用苴料重值:關(guān)懶詞:裁果外.修改后其權(quán)重值為*J318M圖5權(quán)重計(jì)算與調(diào)節(jié)模塊輸出結(jié)果(5)相似度計(jì)算模塊:將生成的標(biāo)準(zhǔn)關(guān)鍵詞特征向量與評論特征向量帶入相似度計(jì)算公式得到最終相似度。-3ura_aquare_>_standrard=O,-5um_'rfl_0::IE;-iith.miLLE丁.t.nrlrwTd萬^^口,命令彳??赟imilarity1=2.4545圖6相似度計(jì)算模塊輸出結(jié)果(6)判斷閾值:取產(chǎn)品名和一個最低權(quán)重關(guān)鍵詞求得其相似度值為閾值1.1663,即評論相似度值至少應(yīng)大于等于此閾值才算有效評論。取相似度閾值=1.1663時,大于等于此閾值時的評論被視為正常評論。下表1為模型的判斷結(jié)果:表1問題(1)評論判斷結(jié)果訐論編P與標(biāo)準(zhǔn)的相似度是否為垃圾評論判斷依據(jù)判斷是否止確正確評論12.4546否通過判斷模塊且大于閾值正確正確評論21.2762否通過判斷模塊且大于閾值正確第一類垃圾評論10是有違禁詞正確

第一類垃圾評論20是有違禁詞正確第一類垃圾評論30.6043是小于閾值正確第一類垃圾評論40是有違禁詞正確第一類垃圾評論50.6043是小于閾值正確第一類垃圾評論60.6043是小于閾值正確第一類垃圾評論70.6043是小于閾值正確第F垃圾評論10是不含產(chǎn)品名正確第F垃圾評論20是不含產(chǎn)品名正確第F垃圾評論30.6043是小于閾值正確第F垃圾評論40是不含產(chǎn)品名正確第F垃圾評論50是不含產(chǎn)品名正確第三類垃圾評論10是有違禁詞正確第三類垃圾評論20是有違禁詞正確第三類垃圾評論30是有違禁詞正確第四類垃圾評論10.6043是小于閾值正確第四類垃圾評論20是有違禁詞正確第四類垃圾評論30是不含產(chǎn)品名正確第四類垃圾評論40是有違禁詞正確第四類垃圾評論50是有違禁詞正確第四類垃圾評論60是不含產(chǎn)品名正確第四類垃圾評論70.6043是小于閾值正確第四類垃圾評論80是不含產(chǎn)品名正確第四類垃圾評論90是有違禁詞正確第四類垃圾評論100是有違禁詞正確第四類垃圾評論110是有違禁詞正確第四類垃圾評論120是有違禁詞正確第四類垃圾評論130是不含產(chǎn)品名正確第四類垃圾評論140是不含產(chǎn)品名正確第四類垃圾評論150是不含產(chǎn)品名正確第四類垃圾評論160是不含產(chǎn)品名正確第四類垃圾評論170是不含產(chǎn)品名正確4.3問題(2)的模型建立與求解問題(2)模型建立1)產(chǎn)品評論模型特征確定針對更大的某件產(chǎn)品的評價集合,單純的考慮問題(1)的解決方案,將無法滿足更大數(shù)量評論的有效篩選,因此考慮更多垃圾評論的特征,即模型準(zhǔn)備中提到的7個特征全部考慮。同時,在評論數(shù)量增大的情況下,如果單獨(dú)考慮每個因素,不一定能夠完全正確的篩選出垃圾評論。例如所選的主題詞詞典涵蓋量有限,如果評論中不含任何標(biāo)準(zhǔn)詞典中的主題詞,則不能認(rèn)為該評論一定是垃圾評論。基于以上問題,考慮多特征,并對每個特征值增加權(quán)重,綜合考慮其評論結(jié)果。即定義某產(chǎn)品評論集合為:comments{Ci((rci,Wci),(%2,Wc2)...,(3坪c7》,...,&((%1匹),(3屆)...,(3,Wc7))}其中Ci,C2,...Cn分別表示該產(chǎn)品評論集合中各條不同的評論,Wc1...Wc7表示對應(yīng)評論各特征值的的權(quán)重,rc1...rc7表示對應(yīng)評論的特征值,由以上分析可知分別對應(yīng)主題詞特征、超鏈接與廣告詞特征、違禁詞特征、情感詞特征、相似度特征、評論重復(fù)數(shù)特征、特殊符號特征,各特征值取值如下:幾1,幾2,%3,幾6,幾70,1rc4情感詞數(shù)/總關(guān)鍵詞數(shù)rc5Similarity(s,Cj)2)AdaBoost算法設(shè)計(jì)產(chǎn)品評論強(qiáng)分類器

本文基于基于機(jī)器學(xué)習(xí)的方法,基于AdaBoost算法訓(xùn)練產(chǎn)品評論設(shè)計(jì)強(qiáng)分類器,其設(shè)計(jì)方法如下:(1)選取樣本在某產(chǎn)品評論集中選取w個樣本Si,yi,(S2,y2)...(Sw,yw),ym0,1其中1表示正常評論,即正樣本,0表示垃圾評論,即負(fù)樣本;(2)初始化權(quán)重定義總迭代次數(shù)為Q,Wqm為第q次迭代中樣本m的誤差權(quán)重。假設(shè)有a個正樣本,初始化權(quán)重為Wqm1/a,假設(shè)有b個正樣本,Wqm1/b;(3)更新樣本權(quán)重在第q次迭代過程中,首先對所選樣本權(quán)重做歸一化處理,用當(dāng)前樣本值各特征值權(quán)重之和作為歸一化處理結(jié)果:WqmWqmWqm%Ck針對每個特征rck,在錯誤率最小的前提下訓(xùn)練出一個分類器hckmWqmickmWqmi1|\(s)y|針對每個特征找出一個具有最小錯誤率的分類器,并計(jì)算權(quán)重,分類器錯誤率越小,權(quán)重越大,增加迭代次數(shù),權(quán)重更新公式如下:Wq1,mWqmWq1,mWqm*eq,hq(S)eq,hq(s)Vc重復(fù)以上過程,直到達(dá)到預(yù)設(shè)的迭代次數(shù),當(dāng)訓(xùn)話訓(xùn)練出的分類器錯誤率ck0.6或ck0時,刪除當(dāng)前分類器并不再循環(huán)當(dāng)前的評論并不再循環(huán)。(4)得到強(qiáng)分類器h(s)0,1,Qh(s)0,1,Qqhq(s)q1otherWise算法基本流程圖如下:結(jié)束結(jié)束問題(2)模型求解“中國手機(jī)網(wǎng)”關(guān)于小米note的一百條評論的分析得到符合垃圾評論評判標(biāo)準(zhǔn)的三條評論:A評論:優(yōu)點(diǎn):很好用的手機(jī)缺點(diǎn):外國的狗通通滾回外國總結(jié):小米是國產(chǎn)是垃圾,那你為什么在國產(chǎn)長大呢中國是好垃圾你們這些偉大的人就應(yīng)該叫美國人做爹,中國有你這些人離敗國不遠(yuǎn)了,屎逼!外國的人哪里有說自己國家的人你們這些敗類通通滾回外國做走狗,蘋果就連..B評論:優(yōu)點(diǎn):很挑戰(zhàn)人的耐心,等了有等。缺點(diǎn):z9max快上市了蘋果6s6c也快來了總結(jié):雷軍你在讓我等我就換了你。。C評論:優(yōu)點(diǎn):樣子還可以,就是會死機(jī)缺點(diǎn):聽朋友說好用買的,買了就后悔了,很卡,而且是一次性卡死機(jī),感覺好像其他電話都不會總結(jié):以后都不買小米了,感覺還沒有OPPO和vivo好

但C評論根據(jù)語義是有意義的,可以被視為是一個合法評論總體判斷結(jié)果如下:正常評論數(shù)垃圾評論數(shù)識別的正常評論數(shù)識別的垃圾評論數(shù)955973根據(jù)判斷結(jié)果,可以列出表4.4.2列出混淆矩陣,產(chǎn)品評論分類的評價指標(biāo)可通過此矩陣來進(jìn)行計(jì)算。表4.4.2混淆矩陣正常評論數(shù)垃圾評論數(shù)識別的正常評論數(shù)943識別的垃圾評論數(shù)12正常評論召回率Recall-垃圾評論召回率RecallwRecallRU+XRecallRU+X=98.9%,RecallW=-——=60%正常評論精確率Precisionr,垃圾評論精確率PrecisionWPrecisionRPrecisionR=-^―=96.9%,

U+V-??YPrecisionW=——=66.7%2*RecallW*PrecisionWWW=63.2%Recall2*RecallW*PrecisionWWW=63.2%Recallw+Precisionwl2*RecallR*PrecisionRFr=RR=97.9%,RecallR+Precisionr誤判率Mistake:XM==1-PrecisionW=33.3%X+Y4.4問題(3)模型的建立與求解問題(3)模型的建立對于一般的產(chǎn)品評價集合,要求算法設(shè)計(jì)有更高的精確度,相對理想的評價指標(biāo)從人為角度分析,需要建立更龐大的各類詞典,包括主題詞詞典、違禁詞詞典、情感詞詞典,這將會使人為干預(yù)的程度加大,誤差也隨之增大,同時增大計(jì)算量;從機(jī)器學(xué)習(xí)的角度,需要經(jīng)過多次迭代確定合理的強(qiáng)分類器,樣本及各類特征權(quán)重的確定確定尤為重要。針對更一般的產(chǎn)品評價集合,本文考慮對問題(2)提出的算法改進(jìn)。(1)限制樣本權(quán)重問題(2)AdaBoost算法是通過改變樣本權(quán)重分布來實(shí)現(xiàn),每輪訓(xùn)練中不同的訓(xùn)練集通過更新每個樣本對應(yīng)的權(quán)重形成,下一輪分類器的訓(xùn)練樣本集是上輪分類器更新過每個樣本權(quán)重后所形成的新數(shù)據(jù)集。根據(jù)每輪訓(xùn)練時每個樣本是否被分類正確,以及上一輪弱分類器的分類錯誤率,更新每個樣本的權(quán)重,分類正確的樣本權(quán)重減小,被錯誤的樣本權(quán)重增加,使分錯的樣本被突顯出來。但是如果不對權(quán)重更新進(jìn)行限制,某些極端的樣本或者本身就難以分類的樣本)隨著迭代次數(shù)的增加,

這些被凸顯出來的“難分”樣本每次都被分類錯誤,導(dǎo)致更新樣本權(quán)重時此類“難分”的樣本的權(quán)重成指數(shù)級增長。因此,本文考慮對樣本權(quán)重加以限制。在問題(2)模型建立與求解中,對樣本權(quán)重在循環(huán)更新后再加以限制:Wqi,mWqi,m-vm31ogvmVm表示樣本m被分類錯誤的次數(shù),加入對數(shù)使得分錯次數(shù)影響減小,10g31,因此當(dāng)錯誤次數(shù)Vm3時,樣本權(quán)重才緩慢減小,因此有效抑制了樣本權(quán)重的指數(shù)級增長。(2)改進(jìn)相似度相似度是產(chǎn)品評價最重要的特征值之一,問題(1)、(2)中相似度的計(jì)算無法有效檢測出近義詞,會把意思相近的2個近義詞看成完全不一樣的詞語,造成誤判。因此本文提出在相似度比較時加入詞語間的一些語義信息,例如詞語間的近義信息、詞形相似度和位置信息等,改進(jìn)相似度公式如下:Same(s,cj)Len(s)Ws'Wc'Sim(sQj')Similarity'(s.Cj)i1nSame(s,cj)Len(s),Ws"Wc2Same(s,Cj)是產(chǎn)品評價中所含的主題詞個數(shù)Len(s)是產(chǎn)品標(biāo)準(zhǔn)描述主題詞個Same(s,cj)'Len(s)即對評論長度作歸一化處理,為了減小對相似度分值的影響,引入平滑因子0.5。(3)虛假評論的識別垃圾評論的出現(xiàn)可以是主動的也可以是被動的,例如某商家/品牌一方面為了提高自家商品在網(wǎng)絡(luò)上的聲望,親自/雇人為自己發(fā)布虛假的肯定評論,另一方面又可以向競爭對手發(fā)布否定評論以降低對手的聲望而從中獲益。這些虛假的評論嚴(yán)重影響了網(wǎng)絡(luò)在線市場中的正常競爭,而且損害了消費(fèi)者的權(quán)益。虛假評論實(shí)質(zhì)也是垃圾評論,因此在研究現(xiàn)有算法的基礎(chǔ)上建立模型識別虛假評論。采用2-gram模型來表示評論文本,并采用Katz平滑方法對模型進(jìn)行平滑,然后利用KL散度計(jì)算每個評論文本對在語言模型上的相似度,識別虛假評論。問題(3)模型的求解針對實(shí)際中產(chǎn)品大規(guī)模評論的篩選,在本文算法研究的基礎(chǔ)上,盡可能算法設(shè)計(jì)的每一步影響因素充分考慮到,包括相關(guān)詞庫的擴(kuò)充、評論特征的識別、樣本的選擇及權(quán)重及相似度確定等因素。(1)關(guān)鍵詞詞庫的擴(kuò)充當(dāng)前網(wǎng)絡(luò)用詞變化頻繁,為提高對最新網(wǎng)絡(luò)用詞的識別率,應(yīng)根據(jù)當(dāng)前網(wǎng)絡(luò)詞習(xí)慣及時擴(kuò)充關(guān)鍵詞詞庫,包括主題詞、廣告詞、情感詞、違禁詞等,以滿足算法的實(shí)時性要求;(2)產(chǎn)品評論特征的識別本文考慮了常見垃圾評論的7個特征,在實(shí)際更大規(guī)模的產(chǎn)品評論中,可能需要考慮更多的影響因素,比如評價人的行為習(xí)慣、商品的特征等。特征影響因素考慮越全面,檢測的識別度將越高;(3)樣本的選擇在機(jī)器學(xué)習(xí)訓(xùn)練的過程中,樣本的選擇應(yīng)具有充分代表性,以盡可能得覆蓋到更多特征的評論,提高

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論