




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于線評(píng)論文本數(shù)據(jù)的用戶滿意度挖掘研究文獻(xiàn)綜述目錄TOC\o"1-2"\h\u26824基于線評(píng)論文本數(shù)據(jù)的用戶滿意度挖掘文獻(xiàn)綜述 11998導(dǎo)言 16670正文 271761情感分析概述 261071.1情感分析理論 2233741.2情感分析應(yīng)用的意義 2306262粗粒度情感分析研究現(xiàn)狀 331543細(xì)粒度情感分析研究現(xiàn)狀 530762總結(jié) 816920參考文獻(xiàn) 8【內(nèi)容摘要】:由于在線評(píng)論文本數(shù)據(jù)的指數(shù)式增長(zhǎng)及其所具有的巨大商業(yè)價(jià)值,越來越多的學(xué)者研究這些評(píng)論文本數(shù)據(jù),旨在挖掘出其中有用的價(jià)值信息用于科學(xué)決策。自Pang等人于2002年提出情感分析的概念來,國內(nèi)外大量學(xué)者對(duì)此做了大量的研究,研究的方法主要采用機(jī)器學(xué)習(xí)和自然語言處理的相關(guān)技術(shù),迄今為止情感分析問題仍然是自然語言處理領(lǐng)域和信息檢索領(lǐng)域亟待解決的問題。為了更好的探討阿里醫(yī)藥產(chǎn)品用戶的滿意度挖掘,本文將主要從情感分析的粗粒度與細(xì)粒度方面分別闡述當(dāng)前國內(nèi)外情感分析的研究現(xiàn)狀。【關(guān)鍵詞】:阿里醫(yī)藥產(chǎn)品;滿意度情感分析;用戶滿意度挖掘;文獻(xiàn)綜述導(dǎo)言中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)于2021年8月30日發(fā)布的第45次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至到2021年6月,我國使用互聯(lián)網(wǎng)的人數(shù)規(guī)模已經(jīng)多達(dá)8.54億,互聯(lián)網(wǎng)普及率高達(dá)61.2%。移動(dòng)寬帶下載速度的提升以及手機(jī)上網(wǎng)流量資費(fèi)的下降,推動(dòng)著互聯(lián)網(wǎng)流量的大幅增長(zhǎng),使用手機(jī)上網(wǎng)的用戶人數(shù)已達(dá)8.47億,占所有上網(wǎng)人數(shù)的99.1%,我國網(wǎng)絡(luò)購物用戶規(guī)模達(dá)6.39億,占網(wǎng)民規(guī)模整體的74.8%,目前線上購物這種消費(fèi)方式受到民眾的歡迎。廣大消費(fèi)者往往習(xí)慣于對(duì)自己購買的產(chǎn)品發(fā)表滿意度,導(dǎo)致滿意度文本信息呈指數(shù)式長(zhǎng),而由人工方式處理如此大規(guī)模的文本滿意度信息將會(huì)非常費(fèi)時(shí)且費(fèi)力,通過自動(dòng)化地獲取并處理海量的文本數(shù)據(jù),能夠幫助人們獲得并研究數(shù)據(jù)中包含的重要的商業(yè)價(jià)值信息和社會(huì)價(jià)值信息,從而來做出更科學(xué)的決策。近年來,阿里醫(yī)藥產(chǎn)品為推進(jìn)建立食品藥品質(zhì)量安全追溯機(jī)制,杜絕不合格產(chǎn)品流向市場(chǎng),阿里醫(yī)藥產(chǎn)品和安全監(jiān)管部門積極探索,統(tǒng)一部署,努力建設(shè)“源頭的可溯、去向的可追、問題的可查、風(fēng)險(xiǎn)的可控”的食品藥品安全追溯體系,努力提高食品藥品質(zhì)量安全。在整個(gè)藥品安全追溯體系中,阿里醫(yī)藥產(chǎn)品的供應(yīng)鏈?zhǔn)欠浅V匾囊粋€(gè)環(huán)節(jié),此環(huán)節(jié)連接著醫(yī)藥供應(yīng)商以及客戶,為了實(shí)現(xiàn)更強(qiáng)大更有效的安全追溯功能,引入?yún)^(qū)塊鏈技術(shù)就顯得尤其重要,區(qū)塊鏈技術(shù)能夠使醫(yī)藥供應(yīng)鏈連接更加緊密,使醫(yī)藥供應(yīng)鏈中的一些薄弱環(huán)節(jié)得以優(yōu)化,如果區(qū)塊鏈技術(shù)能夠成功的應(yīng)用在醫(yī)藥供應(yīng)鏈中,一定會(huì)把醫(yī)藥供應(yīng)鏈安全追溯管理帶入一個(gè)嶄新的時(shí)代。因此,深入研究自然語言處理(NaturalLanguageProcessing,NLP)以及滿意度挖掘相關(guān)技術(shù),從而更好的解決對(duì)用戶滿意度信息進(jìn)行挖掘,已成為國內(nèi)外的研究熱點(diǎn)。據(jù)此,本文將以阿里醫(yī)藥產(chǎn)品為例,在基于用戶滿意度挖掘的技術(shù)之上,以綜述的形式論述滿意度情感分析在阿里醫(yī)藥產(chǎn)品中的應(yīng)用。正文1情感分析概述1.1情感分析理論情感分析(SentimentAnalysis)也稱為觀點(diǎn)挖掘,是NLP的一個(gè)重要研究方向,是通過挖掘和分析用戶在社交媒體和產(chǎn)品滿意度中產(chǎn)生的文本信息,并從中提取出積極或消極的情感信息。而粗粒度的情感分析的目的主要是判斷整篇文檔或整個(gè)句子的所屬的情感類別,可以了解用戶對(duì)于產(chǎn)品或熱點(diǎn)事件的整體看法與觀點(diǎn)。細(xì)粒度情感分析則是更加細(xì)化到屬性級(jí)別,通過挖掘用戶文本滿意度中的信息,獲得用戶的興趣偏好和物品各個(gè)方面特征的優(yōu)劣,可以為用戶提供更加個(gè)性化定制的服務(wù)。1.2情感分析應(yīng)用的意義對(duì)于句子級(jí)粗粒度情感分類任務(wù),之前的研究主要采用有監(jiān)督學(xué)習(xí)方法并且側(cè)重于二分類情感分析,本文則采用預(yù)訓(xùn)練的BERT模型做句子級(jí)情感多分類研究,在情感分類數(shù)據(jù)集上進(jìn)行試驗(yàn)與LSTM、CNN、邏輯回歸、SVM等算法相比較,表現(xiàn)出了良好的性能。就比如在屬性級(jí)細(xì)粒度情感分析方面,有研究提出一個(gè)細(xì)粒度情感分析框架,即:采用CRF抽取產(chǎn)品屬性詞,采用基于注意力機(jī)制的長(zhǎng)短期記憶網(wǎng)絡(luò)分析屬性情感,并且用Word2Vec把屬性詞聚集到屬性面,實(shí)現(xiàn)了細(xì)粒度情感分析方法的集成。并在真實(shí)的在線滿意度文本上驗(yàn)證了本文模型的良好性能。此外,通過挖掘滿意度信息對(duì)消費(fèi)者、商家和電商平臺(tái)都具有重要的參考價(jià)值,對(duì)于消費(fèi)者而言,雖然網(wǎng)購是一種方便的生活方式,但是由于在購買之前由于接觸不到真實(shí)的商品,因而通過參考其他消費(fèi)者的滿意度信息買到更加適合自己的產(chǎn)品。對(duì)于商家而言,通過消費(fèi)者的滿意度信息可以較為準(zhǔn)確地了解到產(chǎn)品的優(yōu)勢(shì)與劣勢(shì),進(jìn)而放大優(yōu)勢(shì)同時(shí)改進(jìn)不足,提升產(chǎn)品質(zhì)量,提升用戶滿意度,獲取更多利潤(rùn)。對(duì)于電商平臺(tái)而言,可以根據(jù)用戶的文本滿意度所提供的信息以及瀏覽記錄等,了解數(shù)據(jù)更全面而精確地掌握用戶的真實(shí)需求,進(jìn)而為其提供個(gè)性化的服務(wù)。因此,對(duì)產(chǎn)品滿意度進(jìn)行情感分析,對(duì)于消費(fèi)者、商家以及電商平臺(tái)而言,都有非常重要的意義。2粗粒度情感分析研究現(xiàn)狀粗情感分析指的是判斷整篇文檔或整條句子文本所屬的情感類別。當(dāng)前,研究粗粒度情感分析的方法主要包括基于情感詞典的方法、基于機(jī)器學(xué)習(xí)與基于滿意度挖掘的方法。基于情感詞典的方法是通過計(jì)算給定文本的每個(gè)詞的情感傾向,從而計(jì)算整條評(píng)論文本的情感傾向,但是只有在情感詞典準(zhǔn)確且不失全面的基礎(chǔ)上,該方法用于情感分析的結(jié)果才可靠。如果要判斷一篇文檔或一條句子的情感傾向,情感詞典需要識(shí)別文本中每個(gè)詞的情感傾向以及強(qiáng)度。而這種情感分析法的準(zhǔn)確率是需要以人工構(gòu)造高質(zhì)量的情感詞典作為基礎(chǔ)的,并且,如果沒有把新出現(xiàn)的詞及時(shí)加入詞典中,或者是沒有第一時(shí)間更新詞典,這種分析方法在進(jìn)行判斷的時(shí)候就會(huì)大打折扣。有文獻(xiàn)提出一種針對(duì)圖書領(lǐng)域評(píng)論文本的情感詞典構(gòu)造方法,采用改進(jìn)的SO-PMI算法與同義詞擴(kuò)展方法判斷候選情感詞的極性。有文獻(xiàn)提出針對(duì)社交媒體領(lǐng)域擴(kuò)展情感詞典的一種方法,根據(jù)詞共現(xiàn)概率和語義相似度,以汽車領(lǐng)域評(píng)論文本為語料,以Hownet情感詞典作為種子詞,運(yùn)用PMI和Word2Vec算法識(shí)別候選情感詞并判斷其對(duì)應(yīng)的情感極性,實(shí)驗(yàn)結(jié)果表明該方法不僅可以提升情感分類的準(zhǔn)確率,而且顯著增加了情感詞的識(shí)別數(shù)量。有文獻(xiàn)提出構(gòu)建六部情感詞典,并融合語義規(guī)則的新方法,實(shí)驗(yàn)結(jié)果明顯比單個(gè)情感詞典以及沒有加入語義規(guī)則的方法實(shí)驗(yàn)結(jié)果的F1值要高。有文獻(xiàn)考慮到基于情感詞典的方法具有情感偏差問題,在情感分析的計(jì)算公式中加入閾值參數(shù)有效降低了極性偏差率,采用情感詞典SentiWordNet和亞馬遜四款阿里醫(yī)藥產(chǎn)品做實(shí)驗(yàn)數(shù)據(jù)集,結(jié)果表明顯著提高了基于情感詞典的情感分析方法的性能。有文獻(xiàn)提出一種通過在WordNet中尋找詞義相近或相反的單詞的方法,在給定足夠已知情感傾向的詞基礎(chǔ)上,就可以預(yù)測(cè)文本中出現(xiàn)的所有詞的情感傾向。有文獻(xiàn)面對(duì)基于無監(jiān)督學(xué)習(xí)的方法構(gòu)造情感詞典過于依賴種子詞,而利用文檔級(jí)情感標(biāo)簽有監(jiān)督地學(xué)習(xí)情感感知的詞向量的方法在面對(duì)一些復(fù)雜的語言現(xiàn)象,無法捕捉文本中細(xì)粒度情感信息的情況,提出一種融合文檔和詞監(jiān)督學(xué)習(xí)情感感知詞向量的方法構(gòu)建情感詞典。有文獻(xiàn)提出一種通過挖掘特定語料庫中情感詞與阿里醫(yī)藥產(chǎn)品屬性之間的關(guān)系來自動(dòng)構(gòu)建特定領(lǐng)域情感詞典的方法,該方法首先從原始評(píng)論文本中選擇情感詞和阿里醫(yī)藥產(chǎn)品屬性,然后使用改進(jìn)PMI算法挖掘它們之間的關(guān)系,然后與在線購物相關(guān)的情感詞歸類到不同類別下形成各自的情感維度,最后以真實(shí)的實(shí)驗(yàn)證實(shí)了該方法的有效性?;跈C(jī)器學(xué)習(xí)的方法是把情感分析當(dāng)作一個(gè)文本分類問題,通常是采用有監(jiān)督學(xué)習(xí)的算法用于情感分類。該方法雖然不需要預(yù)定義語義規(guī)則,但是需要人工標(biāo)注特征,這種方法存在的缺陷是不僅費(fèi)時(shí)費(fèi)力并且這些特征的質(zhì)量對(duì)分類結(jié)果有著極大影響。LeeHY等通過對(duì)中文評(píng)論文本做了一些特征選擇與預(yù)處理之后,采用最大熵分類模型實(shí)現(xiàn)了文本積極與消極情感的分類。FeiY等提出一種在SVM基礎(chǔ)上做了一些改進(jìn)的算法,通過加入遺傳算法把SVM的參數(shù)做了優(yōu)化,從而提高了情感分析的準(zhǔn)確率。SuZ等提出充分利用語義特征,通過word2vec在高維空間中學(xué)習(xí)詞向量的表示構(gòu)建神經(jīng)網(wǎng)絡(luò)模型,進(jìn)而將詞語之間深度的語義關(guān)聯(lián)提取,然后基于這些抽取的特征采用SVM做為分類器,在中文情感分析數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示準(zhǔn)確率明顯提升。XuW等針對(duì)中文表達(dá)中特征的稀疏性問題提出了一種基于文檔級(jí)隨機(jī)特征空間劃分的集成學(xué)習(xí)算法,也即多概率推理模型(M-PRM),該算法可以捕捉并能充分利用有區(qū)別的情感特征。有文獻(xiàn)通過N-gram算法分析評(píng)論文本的詞語特征,并結(jié)合情感詞典構(gòu)造文本特征,最后采用logistic回歸、LightGBM等機(jī)器學(xué)習(xí)算法做訓(xùn)練,實(shí)現(xiàn)了在線評(píng)論情感傾向分析,在多領(lǐng)域數(shù)據(jù)集上的結(jié)果顯示不僅F1值有所提升,而且具有良好的領(lǐng)域移植性。目前,滿意度挖掘的網(wǎng)絡(luò)結(jié)構(gòu)變得越來越多樣化,基于滿意度挖掘的方法具有其他分析法不具備的優(yōu)點(diǎn),比如:超強(qiáng)的計(jì)算能力和學(xué)習(xí)能力,但是,我們應(yīng)該注意到這種方法模型復(fù)雜、計(jì)算也相當(dāng)復(fù)雜。它的作用不僅僅是通過改變模型進(jìn)行算法優(yōu)化,最重要的是其能夠訓(xùn)練出比傳統(tǒng)機(jī)器學(xué)習(xí)更深的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。滿意度挖掘算法不需要大量的特征工程就可以很好地捕捉到文本中的語法和語義特征。由此可見,滿意度挖掘是一種非常有效的學(xué)習(xí)算法,它大大解放了人類的雙手。有文獻(xiàn)提出初始化卷積神經(jīng)網(wǎng)絡(luò)的權(quán)值參數(shù),在沒有加入新特征的同時(shí)訓(xùn)練了一個(gè)較為精確的模型,在twitter數(shù)據(jù)集上驗(yàn)證了該模型的有效性。有文獻(xiàn)引入了一種新型神經(jīng)網(wǎng)絡(luò)模型,該模型同時(shí)編碼了句子的語義與句子之間的關(guān)系,最后在IMDB和Yelp數(shù)據(jù)集上的實(shí)驗(yàn)效果良好。有文獻(xiàn)提出一種在LSTM網(wǎng)絡(luò)上加入注意力機(jī)制的雙語表示的情感分析模型,該模型認(rèn)為通過學(xué)習(xí)源語言與目標(biāo)語言文本的語義信息,可以有效地學(xué)習(xí)到文本中的重要句子和句子中的重要詞語,實(shí)驗(yàn)以源語言是英文,目標(biāo)語言為中文的情感分析數(shù)據(jù)集,在多個(gè)領(lǐng)域數(shù)據(jù)集上表現(xiàn)效果良好。有文獻(xiàn)面對(duì)情感分析中存在的領(lǐng)域差異問題,提出在遷移學(xué)習(xí)狀況下用于跨領(lǐng)域情感分類的對(duì)抗記憶神經(jīng)網(wǎng)絡(luò)模型,此神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)擁有兩個(gè)參數(shù)共享的記憶網(wǎng)絡(luò),其中一個(gè)的作用是情感分類,而另一個(gè)網(wǎng)絡(luò)的功能是領(lǐng)域分類,聯(lián)合訓(xùn)練使得所選取得特征最小化情感分類誤差,同時(shí)使域分類器對(duì)源域或目標(biāo)域的表示沒有區(qū)別。有文獻(xiàn)針對(duì)句式復(fù)雜且冗長(zhǎng)的旅游評(píng)論文本,提出融合句法規(guī)則和卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)的新算法—SCNN(syntacticrulesforconvolutionalneuralnetwork)),通過建立詞典,根據(jù)詞典對(duì)評(píng)論文本初步提取之后再用CNN很好地實(shí)現(xiàn)了情感分類。有文獻(xiàn)提出了一種多通道且為雙向的LSTM網(wǎng)絡(luò)結(jié)構(gòu)模型,對(duì)情感分析中存在的語言知識(shí)和情感資源進(jìn)行建模,生成不同的特征通道,讓模型充分學(xué)習(xí)句子中的情感信息,使模型能獲取更多的情感信息,進(jìn)而提高情感分析的準(zhǔn)確率。3細(xì)粒度情感分析研究現(xiàn)狀與粗粒度情感分析不同的是,細(xì)粒度情感分析需要我們同時(shí)考慮文本中的屬性特征以及與之對(duì)應(yīng)的情感傾向。當(dāng)然以上的研究方案有很多亦可用于細(xì)粒度情感分析任務(wù),然而對(duì)于細(xì)粒度情感分析包括多項(xiàng)任務(wù),即評(píng)價(jià)對(duì)象的抽取與歸類,評(píng)價(jià)對(duì)象的情感分析。在屬性詞的抽取與歸類方面,Hu最先使用基于關(guān)聯(lián)規(guī)則的方法抽取,將出現(xiàn)頻率較高的名詞或名詞短語當(dāng)作屬性詞抽取并且把距離該屬性詞最近的形容詞抽取出來當(dāng)作觀點(diǎn)詞;有文獻(xiàn)在此基礎(chǔ)上做出了一些改進(jìn),采用概率模型剔除了一些抽取出來雖然頻率較高但不是屬性詞的詞,但是對(duì)于出現(xiàn)頻率低的屬性詞的提取依舊存在召回率低的問題。有文獻(xiàn)對(duì)文本評(píng)論數(shù)據(jù)中的屬性詞采用LDA主題模型做提取并進(jìn)行歸類。有文獻(xiàn)提出阿里醫(yī)藥產(chǎn)品屬性特征應(yīng)該是從消費(fèi)者在線評(píng)論文本中抽取的,這是一種結(jié)合LDA與同義詞詞典的方法。這種方法通過把名詞或名詞詞組當(dāng)成候選屬性詞,然后利用LDA所形成候選屬性詞列表,并且運(yùn)用同義詞詞典把候選詞進(jìn)行擴(kuò)展,實(shí)驗(yàn)結(jié)果表明該算法明顯提高了F1值。有文獻(xiàn)提出一種新穎的基于規(guī)則的方法從阿里醫(yī)藥產(chǎn)品評(píng)論中提取方面,利用常識(shí)與語法依存樹構(gòu)建屬性抽取規(guī)則來識(shí)別顯式方面和隱式方面特征,在真實(shí)數(shù)據(jù)集上證明了該方法的有效性。有文獻(xiàn)提出了一種使用翻譯模型和詞表示方法從評(píng)論文本中獲得用戶所重視的阿里醫(yī)藥產(chǎn)品屬性,在兩個(gè)有關(guān)阿里醫(yī)藥產(chǎn)品的數(shù)據(jù)集進(jìn)行的實(shí)驗(yàn)驗(yàn)證了有效性。有文獻(xiàn)提出把高頻名詞當(dāng)作候選的屬性詞,并通過訓(xùn)練Word2Vec詞向量對(duì)候選屬性詞聚類,最后做噪聲過濾后得到了阿里醫(yī)藥產(chǎn)品屬性詞集合,在多個(gè)領(lǐng)域數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明能夠準(zhǔn)確而全面地提取出屬性詞。Huang等用CRF抽取阿里醫(yī)藥產(chǎn)品屬性詞,然后用WordNet詞典對(duì)相似的詞語歸類。有文獻(xiàn)提出使用七層CNN網(wǎng)絡(luò)的方法,將表達(dá)觀點(diǎn)的句子中的每個(gè)詞標(biāo)記為方面詞或非方面單詞,實(shí)現(xiàn)了對(duì)于表達(dá)觀點(diǎn)的方面詞的抽取。有文獻(xiàn)通過采用定義規(guī)則的方法把阿里醫(yī)藥產(chǎn)品屬性詞提取出來,并通過訓(xùn)練Word2Vec后采用K-Means算法把抽取的屬性詞進(jìn)行聚類,這種方法有效地實(shí)現(xiàn)了阿里醫(yī)藥產(chǎn)品屬性的抽取與聚類。有文獻(xiàn)提出了一種基于CRF的學(xué)習(xí)技術(shù),應(yīng)用于方面提取任務(wù),實(shí)現(xiàn)了詞匯、句法和統(tǒng)計(jì)學(xué)特征的集合,并驗(yàn)證了該方法具有良好的域可移植性和性能。有文獻(xiàn)提出一種集成了擴(kuò)展的PageRank算法、同義詞擴(kuò)展和隱式特征推斷的方法,以自動(dòng)提取阿里醫(yī)藥產(chǎn)品特征,使用消費(fèi)者對(duì)三種不同阿里醫(yī)藥產(chǎn)品的評(píng)論進(jìn)行實(shí)驗(yàn),結(jié)果表明該方法在屬性詞的提取上要比有文獻(xiàn)和有文獻(xiàn)所提出的方法相比顯示出了明顯的優(yōu)越性。在屬性情感分析方面,有文獻(xiàn)采用構(gòu)建情感本體的方法,該方法摒棄了語義方法中存在忽略上下文語境的局限,同時(shí)也克服了統(tǒng)計(jì)方法中需要預(yù)先做人工標(biāo)注的大量工作,通過提取在線評(píng)論數(shù)據(jù)中的特征觀點(diǎn)對(duì)并判斷觀點(diǎn)詞的情感傾向與情感強(qiáng)度,從而能夠有效分析出用戶對(duì)于阿里醫(yī)藥產(chǎn)品整體以及屬性特征對(duì)應(yīng)的滿意度。Manek等提出使用Gini指數(shù)加權(quán)法進(jìn)行特征選擇的統(tǒng)計(jì)方法,并使用SVM算法在影評(píng)數(shù)據(jù)上做情感分類,明顯提高了分類的準(zhǔn)確性。García-PablosA提出一種基于主題模型的幾乎無監(jiān)督學(xué)習(xí)的方法對(duì)屬性方面歸類和屬性情感極性分析,在酒店、餐飲和電子設(shè)備等多個(gè)領(lǐng)域和多種語言上性能良好。有文獻(xiàn)提出一種在詞匯化HMM框架下構(gòu)建的新型機(jī)器學(xué)習(xí)方法,該方法將多個(gè)重要的語言特征整合到自動(dòng)學(xué)習(xí)中,在其設(shè)計(jì)的OpinionMiner系統(tǒng)中,能夠有效抽取在線評(píng)論數(shù)據(jù)中的阿里醫(yī)藥產(chǎn)品屬性情感。有文獻(xiàn)針對(duì)傳統(tǒng)情感分析方法采用與屬性無關(guān)的策略,該策略可能會(huì)將無關(guān)的情感分配給給定的屬性,以及在對(duì)屬性情感分類過程中沒有把上下文相關(guān)信息考慮在內(nèi)的問題,提出一種基于支持向量機(jī)的情感分析方法,該方法考慮屬性相關(guān)特征,同時(shí)結(jié)合上下文相關(guān)信息,實(shí)驗(yàn)結(jié)果表明該方法顯著提高了屬性情感分類的性能。Mohammad等通過提取多個(gè)特征用于屬性情感分類,在真實(shí)數(shù)據(jù)集上驗(yàn)證了單獨(dú)使用屬性特征比單獨(dú)使用上下文特征更有用,在使用屬性特征的基礎(chǔ)上加入上下文特征能提高屬性情感分類的F1值。Akhtar等提出一種特征選擇與粒子群優(yōu)化最大熵(MaximumEntropy,ME)、CRF和SVM分類器集成的級(jí)聯(lián)框架,對(duì)兩個(gè)領(lǐng)域的數(shù)據(jù)集做分析。近年來,滿意度挖掘技術(shù)在自然語言處理領(lǐng)域取得重大進(jìn)展,越來越多的學(xué)者采用滿意度挖掘的方法做細(xì)粒度情感分析。有文獻(xiàn)提出一種自適應(yīng)循環(huán)神經(jīng)網(wǎng)絡(luò)模型,通過在RNN網(wǎng)絡(luò)中采用了一種新穎的自適應(yīng)多組合層,根據(jù)上下文和句法關(guān)系向?qū)傩詡鬟f情感,無需手工定義規(guī)則就可以很好地實(shí)現(xiàn)情感分類。有文獻(xiàn)提出兩個(gè)與目標(biāo)實(shí)體相關(guān)的長(zhǎng)期短期記憶網(wǎng)絡(luò)模型,該模型自動(dòng)構(gòu)建了目標(biāo)實(shí)體與上下文信息的連接,在Twitter數(shù)據(jù)集上的實(shí)驗(yàn)表明將目標(biāo)信息納入LSTM可以大大提高了目標(biāo)實(shí)體分類準(zhǔn)確性,并且無需使用語法分析器或外部情感詞典即可實(shí)現(xiàn)最新性能。有文獻(xiàn)提出一個(gè)深度記憶網(wǎng)絡(luò)用于屬性情感分析,該方法在推斷相應(yīng)屬性的情感極性時(shí)明確地抓住了每個(gè)上下文詞語的重要性,這種重要程度和文本表示是通過多個(gè)計(jì)算層計(jì)算的,每個(gè)計(jì)算層都是外部存儲(chǔ)器上的神經(jīng)注意模型。注意力機(jī)制在文本摘要和閱讀理解中廣泛應(yīng)用。傳統(tǒng)的LSTM網(wǎng)絡(luò)模型,并不能突出文本中的重要信息,而注意力機(jī)制通過捕捉文本中的關(guān)鍵部分,可以對(duì)屬性情感分析任務(wù)做優(yōu)化。Wang等提出在LSTM網(wǎng)絡(luò)的基礎(chǔ)上加入注意力機(jī)制在分析屬性情感,當(dāng)不同的方面作為輸入時(shí),注意力機(jī)制可以集中于句子的不同部分。有文獻(xiàn)認(rèn)為任務(wù)目標(biāo)屬性與上下文詞同等重要,提出了交互式注意力網(wǎng)絡(luò)(IAN)來交互式地學(xué)習(xí)上下文信息和目標(biāo)屬性的注意力,并分別生成目標(biāo)和上下文的表示,該模型可以很好地表示目標(biāo)屬性及其搭配上下文,提高了目標(biāo)屬性的情感分類性能。有文獻(xiàn)提出運(yùn)用多注意力機(jī)制來整合復(fù)雜句子結(jié)構(gòu)的重要特征的模型,首先采用BiLSTM來從輸入生成記憶,然后,根據(jù)記憶切片相對(duì)于目標(biāo)屬性的相對(duì)位置對(duì)其進(jìn)行加權(quán),以使同一句子中的不同屬性具有自己的特定的記憶,再將注意力集中在位置加權(quán)記憶上,并將注意力結(jié)果與GRU網(wǎng)絡(luò)非線性組合。最后,將softmax應(yīng)用于GRU網(wǎng)絡(luò)的輸出,以預(yù)測(cè)屬性情感。有文獻(xiàn)提出一種基于阿里醫(yī)藥產(chǎn)品特征樹和LSTM模型的阿里醫(yī)藥產(chǎn)品評(píng)論情感分析方法,該方法結(jié)合行業(yè)阿里醫(yī)藥產(chǎn)品特點(diǎn)和依存句法分析結(jié)果,通過特征類別、層級(jí)和特征表述詞構(gòu)建阿里醫(yī)藥產(chǎn)品特征樹,在此基礎(chǔ)上,根據(jù)用戶評(píng)論分句及其所包含的阿里醫(yī)藥產(chǎn)品特征詞匯,運(yùn)LSTM模型進(jìn)行評(píng)論分句情感識(shí)別和阿里醫(yī)藥產(chǎn)品特征情感分布計(jì)算,在汽車阿里醫(yī)藥產(chǎn)品評(píng)論數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),結(jié)果表明該方法情感分類準(zhǔn)確率高,可實(shí)現(xiàn)面向阿里醫(yī)藥產(chǎn)品特征層級(jí)的多粒度情感分布測(cè)算。有文獻(xiàn)提出一種采用多個(gè)注意力網(wǎng)絡(luò)的多注意力網(wǎng)絡(luò)(MAN)模型,利用多頭注意力(MHA)和逐點(diǎn)前饋神經(jīng)網(wǎng)絡(luò)(PFFN)來交互地獲取上下文和屬性詞的隱層表示,引入了位置編碼來分析不同位置詞影響方面項(xiàng)的程度,并使用雙向注意網(wǎng)絡(luò)機(jī)制獲得文本中不同單詞與相應(yīng)屬性詞的相關(guān)性與影響,在多個(gè)屬性情感分析數(shù)據(jù)集上的試驗(yàn)表現(xiàn)結(jié)果優(yōu)于其他方法??偨Y(jié)本論文主要做了粗粒度情感分析方法與細(xì)粒度情感分析兩方面的研究,對(duì)于粗粒度情感分析,本文從特征提取入手,基采用于Google開源的BERT預(yù)訓(xùn)練模型做fine-tuning,最終的實(shí)驗(yàn)結(jié)果比LSTM、CNN、隨機(jī)森林、樸素貝葉斯等算法的表現(xiàn)效果更好。對(duì)于屬性級(jí)細(xì)粒度情感分析,通過整理相關(guān)學(xué)術(shù)研究可知,用基于注意力機(jī)制的LSTM模型判斷屬性詞對(duì)應(yīng)的情感類別,再基于word2vec把一些表達(dá)相同語義的屬性詞聚集到同一屬性面上,并在真實(shí)數(shù)據(jù)集上驗(yàn)證了模型的有效性,最后把此模型應(yīng)用到
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 湖南省永州市祁陽市大村甸鎮(zhèn)中心學(xué)校2024-2025學(xué)年下學(xué)期期中監(jiān)測(cè)八年級(jí)下冊(cè)《物理》試卷(含答案)
- 建設(shè)工程施工總承包合同(知識(shí)研究版本)
- 沈陽職業(yè)技術(shù)學(xué)院《現(xiàn)代舞技術(shù)(2)》2023-2024學(xué)年第一學(xué)期期末試卷
- 江西醫(yī)學(xué)高等??茖W(xué)校《人工智能學(xué)科前沿》2023-2024學(xué)年第二學(xué)期期末試卷
- 湖北省隨州市廣水市西北協(xié)作區(qū)2025年中考化學(xué)試題全練版含解析
- 遼寧金融職業(yè)學(xué)院《食品營養(yǎng)與衛(wèi)生實(shí)驗(yàn)》2023-2024學(xué)年第二學(xué)期期末試卷
- 山東省濰坊市臨朐一中2025屆高三5月質(zhì)量監(jiān)測(cè)(最后一模)化學(xué)試題試卷含解析
- 山東省濟(jì)寧市魚臺(tái)縣2025年初三教學(xué)質(zhì)量監(jiān)測(cè)(一)語文試題理試卷含解析
- 江西中醫(yī)藥高等??茖W(xué)校《獸醫(yī)微生物學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 江蘇經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院《中醫(yī)經(jīng)典選讀一》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024年上海外服招聘筆試參考題庫附帶答案詳解
- 校園足球教育知識(shí)講座
- 關(guān)于設(shè)備性能評(píng)估報(bào)告
- 教育專家報(bào)告合集:年度得到:沈祖蕓全球教育報(bào)告(2023-2024)
- 化妝品研發(fā)與美容技術(shù)學(xué)習(xí)資料
- 中職英語 基礎(chǔ)模塊2 Unit 4 Volunteer Work
- 腹膜后腫瘤護(hù)理查房
- 2024年中國三峽集團(tuán)招聘筆試參考題庫含答案解析
- 【二維動(dòng)畫短片發(fā)展現(xiàn)狀、創(chuàng)作過程及發(fā)展前景14000字(論文)】
- 接觸網(wǎng)工高溫施工詳細(xì)防護(hù)措施培訓(xùn)
- AI人工智能的發(fā)展是利大于弊還是弊大于利?辯論賽正方辯詞-一辯、二辯、三辯發(fā)言稿
評(píng)論
0/150
提交評(píng)論