版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 中文情感分析綜述 王慶福Summary:目前國(guó)內(nèi)存在各種類型的輿論平臺(tái),以資訊類輿論平臺(tái)為主,咨詢類平臺(tái)的受眾通常都會(huì)對(duì)咨詢進(jìn)行評(píng)論,分析提取評(píng)論中主題內(nèi)容,對(duì)評(píng)論信息進(jìn)行分類分析,了解當(dāng)前網(wǎng)民的核心訴求具有非常重要的意義。主題模型作為主題發(fā)現(xiàn)中重要的模型手段,對(duì)主題的定位具有明顯的效果。Key:網(wǎng)絡(luò)評(píng)論;主題發(fā)現(xiàn);網(wǎng)民導(dǎo)向:TP391 :A :1009-3044(2016)16-0133-02Abstract: The various types of public opinion platform, based on information platform of public opin
2、ion and consulting platform audience usually comments on consultation, analysis to extract thematic content review, to review the information for classification analysis, to understand the core demands of the current Internet users has very important significance. Topic model, as an important model
3、in the subject discovery, has obvious effect on the orientation of the subject.Key words: online review; topic discovery; public opinion情感分析是目前文本挖掘中比較主流的應(yīng)用領(lǐng)域,情感分析涵蓋的內(nèi)容很多,諸如電商平臺(tái)中評(píng)論信息分析、社交媒體平臺(tái)中用戶的評(píng)論導(dǎo)向等都屬于情感分析的范疇。情感分析能夠發(fā)現(xiàn)用戶評(píng)論數(shù)據(jù)中極性,對(duì)于分析用戶的思維導(dǎo)向具有很好的指導(dǎo)價(jià)值。情感分析能夠輔助電商和社交等平臺(tái)更好地提升用戶體驗(yàn),以電商平臺(tái)(淘寶)為例,淘寶的用戶量級(jí)和商品量級(jí)都
4、非常巨大,通過(guò)提取分析用戶評(píng)論中情感特點(diǎn),可以動(dòng)態(tài)的對(duì)淘寶店鋪和淘寶商品的排序進(jìn)行調(diào)整,最大適度的提升用戶的滿意度。情感分析對(duì)社交平臺(tái)的輔助性也是巨大的,很多熱點(diǎn)社會(huì)時(shí)政信息都會(huì)在社交平臺(tái)上暴露出來(lái),通過(guò)對(duì)當(dāng)前熱點(diǎn)事件下網(wǎng)民的跟帖信息分析,能夠發(fā)現(xiàn)網(wǎng)民對(duì)當(dāng)前熱點(diǎn)事件的趨勢(shì),一方面網(wǎng)民遍布全國(guó)各地,網(wǎng)民跟帖信息能夠在一定程度上幫助驗(yàn)證事件的真實(shí)度。1 情感分析流程情感分析包括很多的內(nèi)容,例如需要對(duì)用戶評(píng)論信息進(jìn)行分詞,分詞之后需要對(duì)各個(gè)分詞結(jié)果的詞語(yǔ)進(jìn)行詞性分析,詞性分析的結(jié)果是希望通過(guò)對(duì)單個(gè)詞語(yǔ)的詞性分析來(lái)分析整個(gè)句子的極性,需要通過(guò)機(jī)器學(xué)習(xí)的方法對(duì)每條評(píng)論信息進(jìn)行極性標(biāo)注,極性標(biāo)注的方式可能
5、存在多個(gè)類別而非簡(jiǎn)單的積極和消極兩種情況。需要對(duì)用戶產(chǎn)生的新評(píng)論信息進(jìn)行極性分類等。1.1 評(píng)論分詞用戶評(píng)論信息以句子和短文本為主,情感分析很重要的一步是依賴情感詞典,通過(guò)將評(píng)論信息中詞語(yǔ)與情感詞典進(jìn)行映射,發(fā)現(xiàn)可以匹配的結(jié)果,以此來(lái)界定詞語(yǔ)的極性。因此對(duì)評(píng)論信息進(jìn)行情感分析的首要工作是分詞,分詞的好壞決定了最終情感分析的結(jié)果。分詞可以采用多種算法,最簡(jiǎn)單的方式是詞典匹配的方式,即通過(guò)能夠匹配詞典的詞語(yǔ)作為分詞單位,分詞時(shí)采用最大匹配單位為準(zhǔn),還有諸如最大熵分詞算法,既保證當(dāng)前規(guī)則的分詞切分方式能夠最大化的保留句子的主要信息。值得一提的是,目前應(yīng)用最為廣泛的應(yīng)該是隱馬爾可夫模型的分詞算法,隱馬
6、爾可夫模型將句子切分后的各個(gè)單元概率最大化,這樣做的目的是保證切詞后的劃分是基于統(tǒng)計(jì)意義下最可能的切分,分詞系統(tǒng)結(jié)構(gòu)如圖1所示。1.2句法分析句法分析是分詞之后的步驟,分詞的目的是為了分析用戶評(píng)論中各個(gè)詞語(yǔ)的極性,分析極性的目的是為了對(duì)整個(gè)評(píng)論語(yǔ)句進(jìn)行分析。句法分析涉及多個(gè)細(xì)節(jié),需要對(duì)句子的組成成分進(jìn)行分析,常用的分析方法是隱馬爾可夫模型,隱馬爾可夫模型通過(guò)對(duì)句子拆分后的各個(gè)詞語(yǔ)進(jìn)行動(dòng)態(tài)組合,找出最佳的句子匹配成分,對(duì)句子成分的分析是為了能夠更加準(zhǔn)確地分析句子。1.3句子主題識(shí)別句子主題識(shí)別在電商平臺(tái)應(yīng)用尤為明顯,用戶評(píng)論的句子千差萬(wàn)別,需要在如此海量的評(píng)論數(shù)據(jù)中找到評(píng)論中共通的信息,以淘寶為
7、例,淘寶評(píng)論分為有限的類別,然后評(píng)論數(shù)據(jù)量確實(shí)非常巨大,需要從海量的評(píng)論數(shù)據(jù)中識(shí)別出有限的類別。依賴于前兩個(gè)流程的幫助,評(píng)論分詞和句子分析,可以試圖提取句子中共現(xiàn)次數(shù)較多的詞語(yǔ),并評(píng)估這些詞語(yǔ)在整個(gè)評(píng)論數(shù)據(jù)中占據(jù)的信息量大小。1.4評(píng)論分類對(duì)海量評(píng)論數(shù)據(jù)的處理之后,如何對(duì)產(chǎn)生的新評(píng)論數(shù)據(jù)進(jìn)行分析,即需要對(duì)新評(píng)論數(shù)據(jù)進(jìn)行分類,分類的依據(jù)是之前通過(guò)歷史數(shù)據(jù)學(xué)習(xí)的類別數(shù)據(jù)。以淘寶為例,淘寶評(píng)論的類別有很多種,諸如物流信息、尺寸信息和顏色信息等有限的幾個(gè)類別,這些類別都是通過(guò)對(duì)歷史評(píng)論信息進(jìn)行動(dòng)態(tài)的劃分,新評(píng)論產(chǎn)生之后,通過(guò)分詞和句法分析等步驟,對(duì)新評(píng)論進(jìn)行類別分類,將新評(píng)論映射到具體的類別中。2情感
8、分析實(shí)踐情感分析是指發(fā)現(xiàn)作者在對(duì)某個(gè)話題或某個(gè)事物發(fā)表評(píng)論時(shí)的態(tài)度和觀點(diǎn)。這個(gè)態(tài)度或許是他當(dāng)時(shí)的情感流露,又或者是作者透露出來(lái)的情感交流或者只是本人簡(jiǎn)單的判斷和評(píng)估等。在進(jìn)行情感分析時(shí),需要分清逐級(jí)區(qū)分,可以是最基礎(chǔ)的詞語(yǔ)級(jí)別的、也或者是句子級(jí)別的再或者是最上層整個(gè)評(píng)論主體級(jí)別的。文本情感分析的要義就是對(duì)評(píng)論中詞語(yǔ)進(jìn)行細(xì)粒度的極性分析,從而實(shí)現(xiàn)對(duì)整個(gè)句子級(jí)別的極性判斷??傮w來(lái)說(shuō),可以將情感分析劃分如下幾個(gè)步驟。第一步,就是確定一個(gè)詞是積極還是消極,是主觀還是客觀。這一步主要依靠詞典。英文已經(jīng)有偉大詞典資源:SentiWordNet. 無(wú)論積極消極、主觀客觀,還有詞語(yǔ)的情感強(qiáng)度值都一并拿下。 但
9、在中文領(lǐng)域,判斷積極和消極已經(jīng)有不少詞典資源,如Hownet,NTUSD但用過(guò)這些詞典就知道,效果實(shí)在是不咋地(最近還發(fā)現(xiàn)了大連理工發(fā)布的情感詞匯本體庫(kù),不過(guò)沒(méi)用過(guò),不好評(píng)價(jià))。中文這方面的開(kāi)源真心不夠英文的做得細(xì)致有效。而中文識(shí)別主客觀,那真的是不能直視。中文領(lǐng)域難度在于:詞典資源質(zhì)量不高,不細(xì)致。另外缺乏主客觀詞典。第二步,就是識(shí)別一個(gè)句子是積極還是消極,是主觀還是客觀。有詞典的時(shí)候,好辦。直接去匹配看一個(gè)句子有什么詞典里面的詞,然后加總就可以計(jì)算出句子的情感分值。但由于不同領(lǐng)域有不同的情感詞,比如看上面的例子,“藍(lán)屏”這個(gè)詞一般不會(huì)出現(xiàn)在情感詞典之中,但這個(gè)詞明顯表達(dá)了不滿的情緒。因此需
10、要另外根據(jù)具體領(lǐng)域構(gòu)建針對(duì)性的情感詞典。如果不那么麻煩,就可以用有監(jiān)督的機(jī)器學(xué)習(xí)方法。把一堆評(píng)論扔到一個(gè)算法里面訓(xùn)練,訓(xùn)練得到分類器之后就可以把評(píng)論分成積極消極、主觀客觀了。分成積極和消極也好辦,還是上面那個(gè)例子。5顆星的評(píng)論一般來(lái)說(shuō)是積極的,1到2顆星的評(píng)論一般是消極的,這樣就可以不用人工標(biāo)注,直接進(jìn)行訓(xùn)練。但主客觀就不行了,一般主客觀還是需要人來(lái)判斷。加上中文主客觀詞典不給力,這就讓機(jī)器學(xué)習(xí)判斷主客觀更為困難。中文領(lǐng)域的難度:還是詞典太差。還有就是用機(jī)器學(xué)習(xí)方法判斷主客觀非常麻煩,一般需要人工標(biāo)注。另外中文也有找到過(guò)資源,比如這個(gè)用Python編寫(xiě)的類庫(kù):SnowNLP. 就可以計(jì)算一句話
11、的積極和消極情感值。但我沒(méi)用過(guò),具體效果不清楚。到了第三步,情感挖掘就升級(jí)到意見(jiàn)挖掘(Opinion Mining)了。這一步需要從評(píng)論中找出產(chǎn)品的屬性。拿手機(jī)來(lái)說(shuō),屏幕、電池、售后等都是它的屬性。到這一步就要看評(píng)論是如何評(píng)價(jià)這些屬性的。比如說(shuō)“屏幕不錯(cuò)”,這就是積極的。“電池一天都不夠就用完了,坑爹啊”,這就是消極的,而且強(qiáng)度很大。這就需要在情感分析的基礎(chǔ)上,先挖掘出產(chǎn)品的屬性,再分析對(duì)應(yīng)屬性的情感。分析完每一條評(píng)論的所有屬性的情感后,就可以匯總起來(lái),形成消費(fèi)者對(duì)一款產(chǎn)品各個(gè)部分的評(píng)價(jià)。接下來(lái)還可以對(duì)比不同產(chǎn)品的評(píng)價(jià),并且可視化出來(lái)。如圖2所示。3總結(jié)本文以文本情感分析為主要切入點(diǎn),分析了文
12、本情感分析在當(dāng)前諸多領(lǐng)域中應(yīng)用場(chǎng)景,文本情感分析可以發(fā)現(xiàn)用戶在特定場(chǎng)景下的情感特性,通過(guò)對(duì)情感特性的分析,可以了解用戶對(duì)當(dāng)前話題或者世事的態(tài)度。很明顯這種研究具有非常重要的社會(huì)價(jià)值。情感分析包括句子分詞、句子成分分析、主題發(fā)現(xiàn)和句子分類等多個(gè)部分,通過(guò)諸多環(huán)節(jié)的協(xié)調(diào)組合共同組成了最終的情感分析。Reference:1 徐健. 基于網(wǎng)絡(luò)用戶情感分析的預(yù)測(cè)方法研究J. 中國(guó)圖書(shū)館學(xué)報(bào),2013(3):96-107.2 蔣宗禮,金益斌. 結(jié)合點(diǎn)評(píng)情感分析的推薦算法研究J. 計(jì)算機(jī)應(yīng)用研究,2016(5):1-5.3 江騰蛟,萬(wàn)常選,劉德喜,劉喜平,廖國(guó)瓊. 基于語(yǔ)義分析的評(píng)價(jià)對(duì)象-情感詞對(duì)抽取J. 計(jì)算機(jī)學(xué)報(bào),2016(39):1-17.4 息行雨. 音樂(lè)與情感結(jié)合的教學(xué)方法分析J. 中國(guó)培訓(xùn),2016(6):121.5 杜思奇,李紅蓮
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年全球及中國(guó)彈性墻面涂料行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025年全球及中國(guó)無(wú)塑餐盒封口紙行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 山東省日照市莒縣高三上學(xué)期期末考試(語(yǔ)文)試卷(含答案)
- 吊車租賃合同范本參考
- 2025加盟合同書(shū)樣式
- 貨車包月合同范本
- 范文環(huán)保驗(yàn)收合同范本
- 裝修管理服務(wù)合同范本
- 搭棚施工承包合同
- 2025技術(shù)許可合同
- 口腔門(mén)診部設(shè)置可行性研究報(bào)告
- 五年級(jí)上冊(cè)口算練習(xí)1000題及答案
- 五年級(jí)數(shù)學(xué)(小數(shù)四則混合運(yùn)算)計(jì)算題及答案匯編
- 數(shù)學(xué)六年級(jí)上冊(cè)《弧長(zhǎng)》課件
- 體檢科運(yùn)營(yíng)可行性報(bào)告
- 北京市豐臺(tái)區(qū)市級(jí)名校2024屆數(shù)學(xué)高一第二學(xué)期期末檢測(cè)模擬試題含解析
- 設(shè)立項(xiàng)目管理公司組建方案
- 薪酬戰(zhàn)略與實(shí)踐
- 答案之書(shū)(解答之書(shū))-電子版精選答案
- 中國(guó)古代文學(xué)史 馬工程課件(上)01總緒論
- 上海中心大廈-介紹 課件
評(píng)論
0/150
提交評(píng)論