【基于線評論文本數(shù)據(jù)的用戶滿意度挖掘研究文獻(xiàn)綜述7700字】_第1頁
【基于線評論文本數(shù)據(jù)的用戶滿意度挖掘研究文獻(xiàn)綜述7700字】_第2頁
【基于線評論文本數(shù)據(jù)的用戶滿意度挖掘研究文獻(xiàn)綜述7700字】_第3頁
【基于線評論文本數(shù)據(jù)的用戶滿意度挖掘研究文獻(xiàn)綜述7700字】_第4頁
【基于線評論文本數(shù)據(jù)的用戶滿意度挖掘研究文獻(xiàn)綜述7700字】_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于線評論文本數(shù)據(jù)的用戶滿意度挖掘研究文獻(xiàn)綜述目錄TOC\o"1-2"\h\u26824基于線評論文本數(shù)據(jù)的用戶滿意度挖掘文獻(xiàn)綜述 11998導(dǎo)言 16670正文 271761情感分析概述 261071.1情感分析理論 2233741.2情感分析應(yīng)用的意義 2306262粗粒度情感分析研究現(xiàn)狀 331543細(xì)粒度情感分析研究現(xiàn)狀 530762總結(jié) 816920參考文獻(xiàn) 8【內(nèi)容摘要】:由于在線評論文本數(shù)據(jù)的指數(shù)式增長及其所具有的巨大商業(yè)價值,越來越多的學(xué)者研究這些評論文本數(shù)據(jù),旨在挖掘出其中有用的價值信息用于科學(xué)決策。自Pang等人于2002年提出情感分析的概念來,國內(nèi)外大量學(xué)者對此做了大量的研究,研究的方法主要采用機(jī)器學(xué)習(xí)和自然語言處理的相關(guān)技術(shù),迄今為止情感分析問題仍然是自然語言處理領(lǐng)域和信息檢索領(lǐng)域亟待解決的問題。為了更好的探討阿里醫(yī)藥產(chǎn)品用戶的滿意度挖掘,本文將主要從情感分析的粗粒度與細(xì)粒度方面分別闡述當(dāng)前國內(nèi)外情感分析的研究現(xiàn)狀?!娟P(guān)鍵詞】:阿里醫(yī)藥產(chǎn)品;滿意度情感分析;用戶滿意度挖掘;文獻(xiàn)綜述導(dǎo)言中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)于2021年8月30日發(fā)布的第45次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至到2021年6月,我國使用互聯(lián)網(wǎng)的人數(shù)規(guī)模已經(jīng)多達(dá)8.54億,互聯(lián)網(wǎng)普及率高達(dá)61.2%。移動寬帶下載速度的提升以及手機(jī)上網(wǎng)流量資費(fèi)的下降,推動著互聯(lián)網(wǎng)流量的大幅增長,使用手機(jī)上網(wǎng)的用戶人數(shù)已達(dá)8.47億,占所有上網(wǎng)人數(shù)的99.1%,我國網(wǎng)絡(luò)購物用戶規(guī)模達(dá)6.39億,占網(wǎng)民規(guī)模整體的74.8%,目前線上購物這種消費(fèi)方式受到民眾的歡迎。廣大消費(fèi)者往往習(xí)慣于對自己購買的產(chǎn)品發(fā)表滿意度,導(dǎo)致滿意度文本信息呈指數(shù)式長,而由人工方式處理如此大規(guī)模的文本滿意度信息將會非常費(fèi)時且費(fèi)力,通過自動化地獲取并處理海量的文本數(shù)據(jù),能夠幫助人們獲得并研究數(shù)據(jù)中包含的重要的商業(yè)價值信息和社會價值信息,從而來做出更科學(xué)的決策。近年來,阿里醫(yī)藥產(chǎn)品為推進(jìn)建立食品藥品質(zhì)量安全追溯機(jī)制,杜絕不合格產(chǎn)品流向市場,阿里醫(yī)藥產(chǎn)品和安全監(jiān)管部門積極探索,統(tǒng)一部署,努力建設(shè)“源頭的可溯、去向的可追、問題的可查、風(fēng)險(xiǎn)的可控”的食品藥品安全追溯體系,努力提高食品藥品質(zhì)量安全。在整個藥品安全追溯體系中,阿里醫(yī)藥產(chǎn)品的供應(yīng)鏈?zhǔn)欠浅V匾囊粋€環(huán)節(jié),此環(huán)節(jié)連接著醫(yī)藥供應(yīng)商以及客戶,為了實(shí)現(xiàn)更強(qiáng)大更有效的安全追溯功能,引入?yún)^(qū)塊鏈技術(shù)就顯得尤其重要,區(qū)塊鏈技術(shù)能夠使醫(yī)藥供應(yīng)鏈連接更加緊密,使醫(yī)藥供應(yīng)鏈中的一些薄弱環(huán)節(jié)得以優(yōu)化,如果區(qū)塊鏈技術(shù)能夠成功的應(yīng)用在醫(yī)藥供應(yīng)鏈中,一定會把醫(yī)藥供應(yīng)鏈安全追溯管理帶入一個嶄新的時代。因此,深入研究自然語言處理(NaturalLanguageProcessing,NLP)以及滿意度挖掘相關(guān)技術(shù),從而更好的解決對用戶滿意度信息進(jìn)行挖掘,已成為國內(nèi)外的研究熱點(diǎn)。據(jù)此,本文將以阿里醫(yī)藥產(chǎn)品為例,在基于用戶滿意度挖掘的技術(shù)之上,以綜述的形式論述滿意度情感分析在阿里醫(yī)藥產(chǎn)品中的應(yīng)用。正文1情感分析概述1.1情感分析理論情感分析(SentimentAnalysis)也稱為觀點(diǎn)挖掘,是NLP的一個重要研究方向,是通過挖掘和分析用戶在社交媒體和產(chǎn)品滿意度中產(chǎn)生的文本信息,并從中提取出積極或消極的情感信息。而粗粒度的情感分析的目的主要是判斷整篇文檔或整個句子的所屬的情感類別,可以了解用戶對于產(chǎn)品或熱點(diǎn)事件的整體看法與觀點(diǎn)。細(xì)粒度情感分析則是更加細(xì)化到屬性級別,通過挖掘用戶文本滿意度中的信息,獲得用戶的興趣偏好和物品各個方面特征的優(yōu)劣,可以為用戶提供更加個性化定制的服務(wù)。1.2情感分析應(yīng)用的意義對于句子級粗粒度情感分類任務(wù),之前的研究主要采用有監(jiān)督學(xué)習(xí)方法并且側(cè)重于二分類情感分析,本文則采用預(yù)訓(xùn)練的BERT模型做句子級情感多分類研究,在情感分類數(shù)據(jù)集上進(jìn)行試驗(yàn)與LSTM、CNN、邏輯回歸、SVM等算法相比較,表現(xiàn)出了良好的性能。就比如在屬性級細(xì)粒度情感分析方面,有研究提出一個細(xì)粒度情感分析框架,即:采用CRF抽取產(chǎn)品屬性詞,采用基于注意力機(jī)制的長短期記憶網(wǎng)絡(luò)分析屬性情感,并且用Word2Vec把屬性詞聚集到屬性面,實(shí)現(xiàn)了細(xì)粒度情感分析方法的集成。并在真實(shí)的在線滿意度文本上驗(yàn)證了本文模型的良好性能。此外,通過挖掘滿意度信息對消費(fèi)者、商家和電商平臺都具有重要的參考價值,對于消費(fèi)者而言,雖然網(wǎng)購是一種方便的生活方式,但是由于在購買之前由于接觸不到真實(shí)的商品,因而通過參考其他消費(fèi)者的滿意度信息買到更加適合自己的產(chǎn)品。對于商家而言,通過消費(fèi)者的滿意度信息可以較為準(zhǔn)確地了解到產(chǎn)品的優(yōu)勢與劣勢,進(jìn)而放大優(yōu)勢同時改進(jìn)不足,提升產(chǎn)品質(zhì)量,提升用戶滿意度,獲取更多利潤。對于電商平臺而言,可以根據(jù)用戶的文本滿意度所提供的信息以及瀏覽記錄等,了解數(shù)據(jù)更全面而精確地掌握用戶的真實(shí)需求,進(jìn)而為其提供個性化的服務(wù)。因此,對產(chǎn)品滿意度進(jìn)行情感分析,對于消費(fèi)者、商家以及電商平臺而言,都有非常重要的意義。2粗粒度情感分析研究現(xiàn)狀粗情感分析指的是判斷整篇文檔或整條句子文本所屬的情感類別。當(dāng)前,研究粗粒度情感分析的方法主要包括基于情感詞典的方法、基于機(jī)器學(xué)習(xí)與基于滿意度挖掘的方法?;谇楦性~典的方法是通過計(jì)算給定文本的每個詞的情感傾向,從而計(jì)算整條評論文本的情感傾向,但是只有在情感詞典準(zhǔn)確且不失全面的基礎(chǔ)上,該方法用于情感分析的結(jié)果才可靠。如果要判斷一篇文檔或一條句子的情感傾向,情感詞典需要識別文本中每個詞的情感傾向以及強(qiáng)度。而這種情感分析法的準(zhǔn)確率是需要以人工構(gòu)造高質(zhì)量的情感詞典作為基礎(chǔ)的,并且,如果沒有把新出現(xiàn)的詞及時加入詞典中,或者是沒有第一時間更新詞典,這種分析方法在進(jìn)行判斷的時候就會大打折扣。有文獻(xiàn)提出一種針對圖書領(lǐng)域評論文本的情感詞典構(gòu)造方法,采用改進(jìn)的SO-PMI算法與同義詞擴(kuò)展方法判斷候選情感詞的極性。有文獻(xiàn)提出針對社交媒體領(lǐng)域擴(kuò)展情感詞典的一種方法,根據(jù)詞共現(xiàn)概率和語義相似度,以汽車領(lǐng)域評論文本為語料,以Hownet情感詞典作為種子詞,運(yùn)用PMI和Word2Vec算法識別候選情感詞并判斷其對應(yīng)的情感極性,實(shí)驗(yàn)結(jié)果表明該方法不僅可以提升情感分類的準(zhǔn)確率,而且顯著增加了情感詞的識別數(shù)量。有文獻(xiàn)提出構(gòu)建六部情感詞典,并融合語義規(guī)則的新方法,實(shí)驗(yàn)結(jié)果明顯比單個情感詞典以及沒有加入語義規(guī)則的方法實(shí)驗(yàn)結(jié)果的F1值要高。有文獻(xiàn)考慮到基于情感詞典的方法具有情感偏差問題,在情感分析的計(jì)算公式中加入閾值參數(shù)有效降低了極性偏差率,采用情感詞典SentiWordNet和亞馬遜四款阿里醫(yī)藥產(chǎn)品做實(shí)驗(yàn)數(shù)據(jù)集,結(jié)果表明顯著提高了基于情感詞典的情感分析方法的性能。有文獻(xiàn)提出一種通過在WordNet中尋找詞義相近或相反的單詞的方法,在給定足夠已知情感傾向的詞基礎(chǔ)上,就可以預(yù)測文本中出現(xiàn)的所有詞的情感傾向。有文獻(xiàn)面對基于無監(jiān)督學(xué)習(xí)的方法構(gòu)造情感詞典過于依賴種子詞,而利用文檔級情感標(biāo)簽有監(jiān)督地學(xué)習(xí)情感感知的詞向量的方法在面對一些復(fù)雜的語言現(xiàn)象,無法捕捉文本中細(xì)粒度情感信息的情況,提出一種融合文檔和詞監(jiān)督學(xué)習(xí)情感感知詞向量的方法構(gòu)建情感詞典。有文獻(xiàn)提出一種通過挖掘特定語料庫中情感詞與阿里醫(yī)藥產(chǎn)品屬性之間的關(guān)系來自動構(gòu)建特定領(lǐng)域情感詞典的方法,該方法首先從原始評論文本中選擇情感詞和阿里醫(yī)藥產(chǎn)品屬性,然后使用改進(jìn)PMI算法挖掘它們之間的關(guān)系,然后與在線購物相關(guān)的情感詞歸類到不同類別下形成各自的情感維度,最后以真實(shí)的實(shí)驗(yàn)證實(shí)了該方法的有效性?;跈C(jī)器學(xué)習(xí)的方法是把情感分析當(dāng)作一個文本分類問題,通常是采用有監(jiān)督學(xué)習(xí)的算法用于情感分類。該方法雖然不需要預(yù)定義語義規(guī)則,但是需要人工標(biāo)注特征,這種方法存在的缺陷是不僅費(fèi)時費(fèi)力并且這些特征的質(zhì)量對分類結(jié)果有著極大影響。LeeHY等通過對中文評論文本做了一些特征選擇與預(yù)處理之后,采用最大熵分類模型實(shí)現(xiàn)了文本積極與消極情感的分類。FeiY等提出一種在SVM基礎(chǔ)上做了一些改進(jìn)的算法,通過加入遺傳算法把SVM的參數(shù)做了優(yōu)化,從而提高了情感分析的準(zhǔn)確率。SuZ等提出充分利用語義特征,通過word2vec在高維空間中學(xué)習(xí)詞向量的表示構(gòu)建神經(jīng)網(wǎng)絡(luò)模型,進(jìn)而將詞語之間深度的語義關(guān)聯(lián)提取,然后基于這些抽取的特征采用SVM做為分類器,在中文情感分析數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示準(zhǔn)確率明顯提升。XuW等針對中文表達(dá)中特征的稀疏性問題提出了一種基于文檔級隨機(jī)特征空間劃分的集成學(xué)習(xí)算法,也即多概率推理模型(M-PRM),該算法可以捕捉并能充分利用有區(qū)別的情感特征。有文獻(xiàn)通過N-gram算法分析評論文本的詞語特征,并結(jié)合情感詞典構(gòu)造文本特征,最后采用logistic回歸、LightGBM等機(jī)器學(xué)習(xí)算法做訓(xùn)練,實(shí)現(xiàn)了在線評論情感傾向分析,在多領(lǐng)域數(shù)據(jù)集上的結(jié)果顯示不僅F1值有所提升,而且具有良好的領(lǐng)域移植性。目前,滿意度挖掘的網(wǎng)絡(luò)結(jié)構(gòu)變得越來越多樣化,基于滿意度挖掘的方法具有其他分析法不具備的優(yōu)點(diǎn),比如:超強(qiáng)的計(jì)算能力和學(xué)習(xí)能力,但是,我們應(yīng)該注意到這種方法模型復(fù)雜、計(jì)算也相當(dāng)復(fù)雜。它的作用不僅僅是通過改變模型進(jìn)行算法優(yōu)化,最重要的是其能夠訓(xùn)練出比傳統(tǒng)機(jī)器學(xué)習(xí)更深的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。滿意度挖掘算法不需要大量的特征工程就可以很好地捕捉到文本中的語法和語義特征。由此可見,滿意度挖掘是一種非常有效的學(xué)習(xí)算法,它大大解放了人類的雙手。有文獻(xiàn)提出初始化卷積神經(jīng)網(wǎng)絡(luò)的權(quán)值參數(shù),在沒有加入新特征的同時訓(xùn)練了一個較為精確的模型,在twitter數(shù)據(jù)集上驗(yàn)證了該模型的有效性。有文獻(xiàn)引入了一種新型神經(jīng)網(wǎng)絡(luò)模型,該模型同時編碼了句子的語義與句子之間的關(guān)系,最后在IMDB和Yelp數(shù)據(jù)集上的實(shí)驗(yàn)效果良好。有文獻(xiàn)提出一種在LSTM網(wǎng)絡(luò)上加入注意力機(jī)制的雙語表示的情感分析模型,該模型認(rèn)為通過學(xué)習(xí)源語言與目標(biāo)語言文本的語義信息,可以有效地學(xué)習(xí)到文本中的重要句子和句子中的重要詞語,實(shí)驗(yàn)以源語言是英文,目標(biāo)語言為中文的情感分析數(shù)據(jù)集,在多個領(lǐng)域數(shù)據(jù)集上表現(xiàn)效果良好。有文獻(xiàn)面對情感分析中存在的領(lǐng)域差異問題,提出在遷移學(xué)習(xí)狀況下用于跨領(lǐng)域情感分類的對抗記憶神經(jīng)網(wǎng)絡(luò)模型,此神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)擁有兩個參數(shù)共享的記憶網(wǎng)絡(luò),其中一個的作用是情感分類,而另一個網(wǎng)絡(luò)的功能是領(lǐng)域分類,聯(lián)合訓(xùn)練使得所選取得特征最小化情感分類誤差,同時使域分類器對源域或目標(biāo)域的表示沒有區(qū)別。有文獻(xiàn)針對句式復(fù)雜且冗長的旅游評論文本,提出融合句法規(guī)則和卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)的新算法—SCNN(syntacticrulesforconvolutionalneuralnetwork)),通過建立詞典,根據(jù)詞典對評論文本初步提取之后再用CNN很好地實(shí)現(xiàn)了情感分類。有文獻(xiàn)提出了一種多通道且為雙向的LSTM網(wǎng)絡(luò)結(jié)構(gòu)模型,對情感分析中存在的語言知識和情感資源進(jìn)行建模,生成不同的特征通道,讓模型充分學(xué)習(xí)句子中的情感信息,使模型能獲取更多的情感信息,進(jìn)而提高情感分析的準(zhǔn)確率。3細(xì)粒度情感分析研究現(xiàn)狀與粗粒度情感分析不同的是,細(xì)粒度情感分析需要我們同時考慮文本中的屬性特征以及與之對應(yīng)的情感傾向。當(dāng)然以上的研究方案有很多亦可用于細(xì)粒度情感分析任務(wù),然而對于細(xì)粒度情感分析包括多項(xiàng)任務(wù),即評價對象的抽取與歸類,評價對象的情感分析。在屬性詞的抽取與歸類方面,Hu最先使用基于關(guān)聯(lián)規(guī)則的方法抽取,將出現(xiàn)頻率較高的名詞或名詞短語當(dāng)作屬性詞抽取并且把距離該屬性詞最近的形容詞抽取出來當(dāng)作觀點(diǎn)詞;有文獻(xiàn)在此基礎(chǔ)上做出了一些改進(jìn),采用概率模型剔除了一些抽取出來雖然頻率較高但不是屬性詞的詞,但是對于出現(xiàn)頻率低的屬性詞的提取依舊存在召回率低的問題。有文獻(xiàn)對文本評論數(shù)據(jù)中的屬性詞采用LDA主題模型做提取并進(jìn)行歸類。有文獻(xiàn)提出阿里醫(yī)藥產(chǎn)品屬性特征應(yīng)該是從消費(fèi)者在線評論文本中抽取的,這是一種結(jié)合LDA與同義詞詞典的方法。這種方法通過把名詞或名詞詞組當(dāng)成候選屬性詞,然后利用LDA所形成候選屬性詞列表,并且運(yùn)用同義詞詞典把候選詞進(jìn)行擴(kuò)展,實(shí)驗(yàn)結(jié)果表明該算法明顯提高了F1值。有文獻(xiàn)提出一種新穎的基于規(guī)則的方法從阿里醫(yī)藥產(chǎn)品評論中提取方面,利用常識與語法依存樹構(gòu)建屬性抽取規(guī)則來識別顯式方面和隱式方面特征,在真實(shí)數(shù)據(jù)集上證明了該方法的有效性。有文獻(xiàn)提出了一種使用翻譯模型和詞表示方法從評論文本中獲得用戶所重視的阿里醫(yī)藥產(chǎn)品屬性,在兩個有關(guān)阿里醫(yī)藥產(chǎn)品的數(shù)據(jù)集進(jìn)行的實(shí)驗(yàn)驗(yàn)證了有效性。有文獻(xiàn)提出把高頻名詞當(dāng)作候選的屬性詞,并通過訓(xùn)練Word2Vec詞向量對候選屬性詞聚類,最后做噪聲過濾后得到了阿里醫(yī)藥產(chǎn)品屬性詞集合,在多個領(lǐng)域數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明能夠準(zhǔn)確而全面地提取出屬性詞。Huang等用CRF抽取阿里醫(yī)藥產(chǎn)品屬性詞,然后用WordNet詞典對相似的詞語歸類。有文獻(xiàn)提出使用七層CNN網(wǎng)絡(luò)的方法,將表達(dá)觀點(diǎn)的句子中的每個詞標(biāo)記為方面詞或非方面單詞,實(shí)現(xiàn)了對于表達(dá)觀點(diǎn)的方面詞的抽取。有文獻(xiàn)通過采用定義規(guī)則的方法把阿里醫(yī)藥產(chǎn)品屬性詞提取出來,并通過訓(xùn)練Word2Vec后采用K-Means算法把抽取的屬性詞進(jìn)行聚類,這種方法有效地實(shí)現(xiàn)了阿里醫(yī)藥產(chǎn)品屬性的抽取與聚類。有文獻(xiàn)提出了一種基于CRF的學(xué)習(xí)技術(shù),應(yīng)用于方面提取任務(wù),實(shí)現(xiàn)了詞匯、句法和統(tǒng)計(jì)學(xué)特征的集合,并驗(yàn)證了該方法具有良好的域可移植性和性能。有文獻(xiàn)提出一種集成了擴(kuò)展的PageRank算法、同義詞擴(kuò)展和隱式特征推斷的方法,以自動提取阿里醫(yī)藥產(chǎn)品特征,使用消費(fèi)者對三種不同阿里醫(yī)藥產(chǎn)品的評論進(jìn)行實(shí)驗(yàn),結(jié)果表明該方法在屬性詞的提取上要比有文獻(xiàn)和有文獻(xiàn)所提出的方法相比顯示出了明顯的優(yōu)越性。在屬性情感分析方面,有文獻(xiàn)采用構(gòu)建情感本體的方法,該方法摒棄了語義方法中存在忽略上下文語境的局限,同時也克服了統(tǒng)計(jì)方法中需要預(yù)先做人工標(biāo)注的大量工作,通過提取在線評論數(shù)據(jù)中的特征觀點(diǎn)對并判斷觀點(diǎn)詞的情感傾向與情感強(qiáng)度,從而能夠有效分析出用戶對于阿里醫(yī)藥產(chǎn)品整體以及屬性特征對應(yīng)的滿意度。Manek等提出使用Gini指數(shù)加權(quán)法進(jìn)行特征選擇的統(tǒng)計(jì)方法,并使用SVM算法在影評數(shù)據(jù)上做情感分類,明顯提高了分類的準(zhǔn)確性。García-PablosA提出一種基于主題模型的幾乎無監(jiān)督學(xué)習(xí)的方法對屬性方面歸類和屬性情感極性分析,在酒店、餐飲和電子設(shè)備等多個領(lǐng)域和多種語言上性能良好。有文獻(xiàn)提出一種在詞匯化HMM框架下構(gòu)建的新型機(jī)器學(xué)習(xí)方法,該方法將多個重要的語言特征整合到自動學(xué)習(xí)中,在其設(shè)計(jì)的OpinionMiner系統(tǒng)中,能夠有效抽取在線評論數(shù)據(jù)中的阿里醫(yī)藥產(chǎn)品屬性情感。有文獻(xiàn)針對傳統(tǒng)情感分析方法采用與屬性無關(guān)的策略,該策略可能會將無關(guān)的情感分配給給定的屬性,以及在對屬性情感分類過程中沒有把上下文相關(guān)信息考慮在內(nèi)的問題,提出一種基于支持向量機(jī)的情感分析方法,該方法考慮屬性相關(guān)特征,同時結(jié)合上下文相關(guān)信息,實(shí)驗(yàn)結(jié)果表明該方法顯著提高了屬性情感分類的性能。Mohammad等通過提取多個特征用于屬性情感分類,在真實(shí)數(shù)據(jù)集上驗(yàn)證了單獨(dú)使用屬性特征比單獨(dú)使用上下文特征更有用,在使用屬性特征的基礎(chǔ)上加入上下文特征能提高屬性情感分類的F1值。Akhtar等提出一種特征選擇與粒子群優(yōu)化最大熵(MaximumEntropy,ME)、CRF和SVM分類器集成的級聯(lián)框架,對兩個領(lǐng)域的數(shù)據(jù)集做分析。近年來,滿意度挖掘技術(shù)在自然語言處理領(lǐng)域取得重大進(jìn)展,越來越多的學(xué)者采用滿意度挖掘的方法做細(xì)粒度情感分析。有文獻(xiàn)提出一種自適應(yīng)循環(huán)神經(jīng)網(wǎng)絡(luò)模型,通過在RNN網(wǎng)絡(luò)中采用了一種新穎的自適應(yīng)多組合層,根據(jù)上下文和句法關(guān)系向?qū)傩詡鬟f情感,無需手工定義規(guī)則就可以很好地實(shí)現(xiàn)情感分類。有文獻(xiàn)提出兩個與目標(biāo)實(shí)體相關(guān)的長期短期記憶網(wǎng)絡(luò)模型,該模型自動構(gòu)建了目標(biāo)實(shí)體與上下文信息的連接,在Twitter數(shù)據(jù)集上的實(shí)驗(yàn)表明將目標(biāo)信息納入LSTM可以大大提高了目標(biāo)實(shí)體分類準(zhǔn)確性,并且無需使用語法分析器或外部情感詞典即可實(shí)現(xiàn)最新性能。有文獻(xiàn)提出一個深度記憶網(wǎng)絡(luò)用于屬性情感分析,該方法在推斷相應(yīng)屬性的情感極性時明確地抓住了每個上下文詞語的重要性,這種重要程度和文本表示是通過多個計(jì)算層計(jì)算的,每個計(jì)算層都是外部存儲器上的神經(jīng)注意模型。注意力機(jī)制在文本摘要和閱讀理解中廣泛應(yīng)用。傳統(tǒng)的LSTM網(wǎng)絡(luò)模型,并不能突出文本中的重要信息,而注意力機(jī)制通過捕捉文本中的關(guān)鍵部分,可以對屬性情感分析任務(wù)做優(yōu)化。Wang等提出在LSTM網(wǎng)絡(luò)的基礎(chǔ)上加入注意力機(jī)制在分析屬性情感,當(dāng)不同的方面作為輸入時,注意力機(jī)制可以集中于句子的不同部分。有文獻(xiàn)認(rèn)為任務(wù)目標(biāo)屬性與上下文詞同等重要,提出了交互式注意力網(wǎng)絡(luò)(IAN)來交互式地學(xué)習(xí)上下文信息和目標(biāo)屬性的注意力,并分別生成目標(biāo)和上下文的表示,該模型可以很好地表示目標(biāo)屬性及其搭配上下文,提高了目標(biāo)屬性的情感分類性能。有文獻(xiàn)提出運(yùn)用多注意力機(jī)制來整合復(fù)雜句子結(jié)構(gòu)的重要特征的模型,首先采用BiLSTM來從輸入生成記憶,然后,根據(jù)記憶切片相對于目標(biāo)屬性的相對位置對其進(jìn)行加權(quán),以使同一句子中的不同屬性具有自己的特定的記憶,再將注意力集中在位置加權(quán)記憶上,并將注意力結(jié)果與GRU網(wǎng)絡(luò)非線性組合。最后,將softmax應(yīng)用于GRU網(wǎng)絡(luò)的輸出,以預(yù)測屬性情感。有文獻(xiàn)提出一種基于阿里醫(yī)藥產(chǎn)品特征樹和LSTM模型的阿里醫(yī)藥產(chǎn)品評論情感分析方法,該方法結(jié)合行業(yè)阿里醫(yī)藥產(chǎn)品特點(diǎn)和依存句法分析結(jié)果,通過特征類別、層級和特征表述詞構(gòu)建阿里醫(yī)藥產(chǎn)品特征樹,在此基礎(chǔ)上,根據(jù)用戶評論分句及其所包含的阿里醫(yī)藥產(chǎn)品特征詞匯,運(yùn)LSTM模型進(jìn)行評論分句情感識別和阿里醫(yī)藥產(chǎn)品特征情感分布計(jì)算,在汽車阿里醫(yī)藥產(chǎn)品評論數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),結(jié)果表明該方法情感分類準(zhǔn)確率高,可實(shí)現(xiàn)面向阿里醫(yī)藥產(chǎn)品特征層級的多粒度情感分布測算。有文獻(xiàn)提出一種采用多個注意力網(wǎng)絡(luò)的多注意力網(wǎng)絡(luò)(MAN)模型,利用多頭注意力(MHA)和逐點(diǎn)前饋神經(jīng)網(wǎng)絡(luò)(PFFN)來交互地獲取上下文和屬性詞的隱層表示,引入了位置編碼來分析不同位置詞影響方面項(xiàng)的程度,并使用雙向注意網(wǎng)絡(luò)機(jī)制獲得文本中不同單詞與相應(yīng)屬性詞的相關(guān)性與影響,在多個屬性情感分析數(shù)據(jù)集上的試驗(yàn)表現(xiàn)結(jié)果優(yōu)于其他方法。總結(jié)本論文主要做了粗粒度情感分析方法與細(xì)粒度情感分析兩方面的研究,對于粗粒度情感分析,本文從特征提取入手,基采用于Google開源的BERT預(yù)訓(xùn)練模型做fine-tuning,最終的實(shí)驗(yàn)結(jié)果比LSTM、CNN、隨機(jī)森林、樸素貝葉斯等算法的表現(xiàn)效果更好。對于屬性級細(xì)粒度情感分析,通過整理相關(guān)學(xué)術(shù)研究可知,用基于注意力機(jī)制的LSTM模型判斷屬性詞對應(yīng)的情感類別,再基于word2vec把一些表達(dá)相同語義的屬性詞聚集到同一屬性面上,并在真實(shí)數(shù)據(jù)集上驗(yàn)證了模型的有效性,最后把此模型應(yīng)用到

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論