




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于深度學(xué)習(xí)和PYTHON庫函數(shù)的的情感可視化研究目錄TOC\o"1-3"\h\u引言 11緒論 11.1課題背景及意義 11.2研究的現(xiàn)狀 22相關(guān)技術(shù)簡(jiǎn)介 22.1網(wǎng)絡(luò)爬蟲 22.2情感可視化技術(shù) 32.3Python簡(jiǎn)介 42.4TF-IDF算法 53基于深度學(xué)習(xí)的情感可視化總體 53.1硬件平臺(tái)介紹 53.2數(shù)據(jù)分析 54基于深度學(xué)習(xí)的情感可視化具體實(shí)現(xiàn) 74.1信息爬取 74.2數(shù)據(jù)處理 84.3可視化實(shí)現(xiàn) 95總結(jié) 12參考文獻(xiàn) 13
摘要:隨著科學(xué)技術(shù)的發(fā)展,如今很多人喜歡在網(wǎng)上購(gòu)物,商品到了之后進(jìn)行評(píng)論,為以后購(gòu)買商品的購(gòu)買者提供了重要信息的參考,同時(shí)也為商家提供了參考,但是這些評(píng)論并不是很直觀,需要查看許多評(píng)論才能知道商品的質(zhì)量然后決定是否購(gòu)買。通過對(duì)該課題背景及意義的研究,可以得出基于深度學(xué)習(xí)的情感可視化研究的現(xiàn)狀,運(yùn)用相關(guān)技術(shù)進(jìn)行研究,使用網(wǎng)絡(luò)爬蟲技術(shù)將購(gòu)物平臺(tái)上用戶對(duì)商品評(píng)論的數(shù)據(jù)進(jìn)行爬取,使用深度學(xué)習(xí)的算法和Python中的庫函數(shù)將爬取到的數(shù)據(jù)進(jìn)行處理,用情感可視化技術(shù)將爬取到的數(shù)據(jù)用柱狀圖,餅圖,情感詞云圖通過網(wǎng)頁的形式顯示出來,然后通過對(duì)其詳細(xì)的設(shè)計(jì)和對(duì)數(shù)據(jù)的分析處理,最終實(shí)現(xiàn)可視化的展示。通過實(shí)現(xiàn)這些功能,可以幫助商家對(duì)商品質(zhì)量進(jìn)行改進(jìn)從而商品銷量會(huì)更高,同時(shí)可以給顧客提供購(gòu)買的意見,具有很大的現(xiàn)實(shí)意義。關(guān)鍵詞:情感分析;網(wǎng)絡(luò)爬蟲;數(shù)據(jù)分析;深度學(xué)習(xí)引言隨著網(wǎng)絡(luò)的快速發(fā)展,許多人開始在網(wǎng)上進(jìn)行購(gòu)物,通過在網(wǎng)上瀏覽購(gòu)物平臺(tái)里的商品,然后查看商品評(píng)論進(jìn)行購(gòu)買,但是現(xiàn)在商品評(píng)論差評(píng)和好評(píng)都沒有分類,顧客很難提取到商品評(píng)論的情感詞,如果將商品評(píng)論的情感詞進(jìn)行可視化,繪制成餅圖,詞流圖等更為直觀的顯示,能夠使顧客更為清晰地查看這些,幫助顧客進(jìn)行購(gòu)物。同時(shí)商家通過直觀地查看用戶評(píng)論的情感詞可以對(duì)商品進(jìn)行調(diào)整,從而使商家產(chǎn)品變得更好,收益更高。因此,情感詞可視化顯得尤為重要。1緒論1.1課題背景及意義電商在我國(guó)的發(fā)展日益迅速,現(xiàn)在許多商家都沒有將評(píng)論中的情感詞進(jìn)行分類,顧客查看評(píng)論的時(shí)候比較復(fù)雜,很難看到用戶對(duì)商品的真實(shí)情感,而且隨著科技的發(fā)展,信息技術(shù)也迎來了發(fā)展高峰,互聯(lián)網(wǎng)技術(shù)不僅對(duì)商家的業(yè)務(wù)帶來很大的變革,也對(duì)顧客的行為模式產(chǎn)生了巨大的影響。在美國(guó),雙擊公司對(duì)國(guó)內(nèi)的服務(wù)業(yè)、計(jì)算機(jī)技術(shù)、體育和醫(yī)療產(chǎn)品以及旅游業(yè)等領(lǐng)域進(jìn)行線上研究。研究發(fā)現(xiàn),這些行業(yè)的大多數(shù)消費(fèi)者在做出購(gòu)買決定之前,都會(huì)在網(wǎng)上搜索有關(guān)產(chǎn)品的信息和反饋。消費(fèi)者在網(wǎng)上對(duì)產(chǎn)品的反饋對(duì)顧客的購(gòu)買很重要,過去有很多情感分析方法,主要是支持向量機(jī)、樸素貝葉斯、最大熵。以上的三種主要以機(jī)器學(xué)習(xí)為主,但未將用戶評(píng)論的情感詞進(jìn)行可視化,如今隨著深度學(xué)習(xí)的發(fā)展,對(duì)于情感的分析也開始用深度學(xué)習(xí)來進(jìn)行同時(shí)也能進(jìn)行可視化的展現(xiàn)。研究意義主要有以下兩個(gè)方面。將網(wǎng)上用戶評(píng)論的情感詞提取出來進(jìn)行可視化分析,對(duì)商家具有很大的現(xiàn)實(shí)意義。網(wǎng)購(gòu)下產(chǎn)生的商品的評(píng)價(jià),為企業(yè)隱藏了許多有價(jià)值的信息,它商家是提高產(chǎn)品質(zhì)量和市場(chǎng)競(jìng)爭(zhēng)力的重要手段。但是,從大量數(shù)據(jù)中手工提取實(shí)用的信息是很困難的,文本情感分析技術(shù)是解決這一問題的有效方法。通過將用戶評(píng)論數(shù)據(jù)的情感詞進(jìn)行可視化呈現(xiàn),可為商家提供一種直觀的信息,以便商家了解產(chǎn)品質(zhì)量的好壞并進(jìn)行技術(shù)提升。(2)商品購(gòu)買者通過看用戶評(píng)論詞中的情感可視化圖,可以清晰地了解用戶對(duì)該商品評(píng)論的好壞,有助于購(gòu)物。隨著科技的發(fā)展,越來越多的人喜歡在網(wǎng)上購(gòu)物,但是商品評(píng)論很多,用戶在進(jìn)行商品購(gòu)物時(shí)很難從中提取到有效的信息,通過挖掘這些信息并進(jìn)行可視化展現(xiàn),為用戶的購(gòu)買提供參考,有助于用戶購(gòu)買商品。1.2研究的現(xiàn)狀現(xiàn)如今,隨著科學(xué)技術(shù)的發(fā)展,將商品評(píng)論中的情感信息提取出來,進(jìn)行可視化展示的情況越來越普遍了。實(shí)現(xiàn)此功能大多數(shù)都是使用網(wǎng)絡(luò)爬蟲技術(shù)將網(wǎng)上的數(shù)據(jù)爬取下來,然后使用Python中的庫函數(shù)對(duì)數(shù)據(jù)處理,將數(shù)據(jù)用圖的形式顯示出來,可以直觀的看到顧客對(duì)商品質(zhì)量的評(píng)論,將爬取到的評(píng)論數(shù)據(jù)通過jieba分詞對(duì)數(shù)據(jù)處理,可以預(yù)測(cè)出顧客的情感極性,為商家和顧客提供參考意見。但是,隨著互聯(lián)網(wǎng)技術(shù)的進(jìn)一步發(fā)展,情感可視化技術(shù)在將商品評(píng)論情感詞提取并進(jìn)行可視化這一領(lǐng)域還需進(jìn)一步研究。2相關(guān)技術(shù)簡(jiǎn)介本文主要使用了網(wǎng)絡(luò)爬蟲技術(shù)實(shí)現(xiàn)數(shù)據(jù)爬取,使用情感可視化技術(shù)將爬取到的數(shù)據(jù)用圖的形式展示出來,這些都使用了Python中的庫函數(shù)和深度學(xué)習(xí)中的算法。這些技術(shù)的詳細(xì)介紹如下。2.1網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲是按照一定的規(guī)則,自動(dòng)地爬取網(wǎng)上信息的程序或者腳本。它可以從網(wǎng)上下載一些網(wǎng)頁,將這些網(wǎng)頁給搜索引擎使用,同時(shí)也是搜索引擎的重要組成部分。一般的網(wǎng)絡(luò)爬蟲會(huì)從一個(gè)或者多個(gè)初始網(wǎng)頁的URL中獲取初始網(wǎng)頁的URL列表,在爬取網(wǎng)頁這個(gè)過程中,會(huì)不斷從當(dāng)前頁面提取新的URL并將其放入待爬取的隊(duì)列中,直到滿足系統(tǒng)的爬取條件。網(wǎng)絡(luò)爬蟲有許多種類,根據(jù)不同的方式可以分成不同的類型,如由爬蟲的功能、結(jié)構(gòu)、策略和實(shí)現(xiàn)技術(shù),可將爬蟲分為3類,分別是通用爬蟲、聚焦爬蟲、以及深度爬蟲。2.1.1通用爬蟲通用爬蟲的爬取過程如下:使用的主要算法是廣度優(yōu)先,先從給定的頁面進(jìn)行信息爬取,將爬取到的內(nèi)容保存下來,再爬取出來新的鏈接,不區(qū)分先后順序,可以直接將其放入隊(duì)列中,等待繼續(xù)爬取,一直擴(kuò)散爬取到整個(gè)網(wǎng)站,直到達(dá)到預(yù)設(shè)的條件為止。通用爬蟲的好處是爬取的數(shù)據(jù)量很大,爬取到的內(nèi)容很多?,F(xiàn)在主要應(yīng)用在搜素引擎上,如火狐和百度等。它的缺點(diǎn)也很明顯,由于可以爬取網(wǎng)站的任何數(shù)據(jù),其效率會(huì)降低許多。它爬取的東西很多也很復(fù)雜,對(duì)計(jì)算機(jī)的存儲(chǔ)要求很高。但是現(xiàn)在計(jì)算機(jī)的存儲(chǔ)空間大,內(nèi)存也大,cpu的計(jì)算速度快,能夠?qū)⑼ㄓ门老x的缺點(diǎn)彌補(bǔ)。2.1.2聚焦爬蟲聚焦爬蟲,也叫主題爬蟲。它的爬取過程如下:先進(jìn)行頁面抓取,提取出網(wǎng)頁中包含的新URL,使用分析算法將沒用的網(wǎng)頁鏈接過濾,保留與主題相關(guān)的網(wǎng)頁并將其放入隊(duì)列,按這個(gè)過程重復(fù),直到滿足規(guī)定的條件。它使用的是最佳優(yōu)先遍歷算法,主要有以下兩個(gè)好處:對(duì)網(wǎng)頁過濾,提高爬取效率。爬取的內(nèi)容與主題相關(guān),存儲(chǔ)數(shù)據(jù)對(duì)硬盤空間要求低。由于聚焦爬蟲需要過濾網(wǎng)頁,所以過濾網(wǎng)頁的分析方法很重要,好的方法不僅可以精確的爬取到想要的信息,還可以提高爬取速率。因此在設(shè)計(jì)聚焦爬蟲時(shí),要選好分析算法,可以提高效率。2.1.3深度爬蟲深度爬蟲具有更多的優(yōu)點(diǎn),它不僅能夠爬取到網(wǎng)頁上的表面內(nèi)容,還能夠爬取更深層次的內(nèi)容。例如:當(dāng)網(wǎng)絡(luò)鏈接不能直接跳轉(zhuǎn),需要輸入主題字和主題詞時(shí)才可以鏈接時(shí),其中所包含的數(shù)據(jù)信息,會(huì)存儲(chǔ)在服務(wù)器后臺(tái)的數(shù)據(jù)庫中,這時(shí)通過深度爬蟲就可以將其獲取。2.2情感可視化技術(shù)2.2.1概念可視化信息技術(shù),主要是指利用計(jì)算機(jī)圖形學(xué)與圖像處理技術(shù),把從網(wǎng)絡(luò)爬取來的大數(shù)據(jù)轉(zhuǎn)換成以圖形或圖像的表現(xiàn)形式展現(xiàn)到大屏幕上,從而實(shí)現(xiàn)人機(jī)交互、處理。情感可視化技術(shù)可以應(yīng)用于各種領(lǐng)域,例如:預(yù)測(cè)社交媒體的輿論走向、預(yù)測(cè)人的情感狀態(tài)和自然語言處理的情感立場(chǎng)研究等。其中最早提到情感可視化的論文來源于自然語言處理領(lǐng)域,使用樹狀圖和折線圖表示的居多?,F(xiàn)在隨著可視化技術(shù)的快速發(fā)展,又挖掘出大量的文本可視化方法。但是,隨著互聯(lián)網(wǎng)的高速發(fā)展,情感可視化技術(shù)在將商品評(píng)論情感詞提取并進(jìn)行可視化這一領(lǐng)域還需進(jìn)一步提升。2.2.2可視化分類隨著文本情感分析的不斷發(fā)展,信息可視化技術(shù)主要應(yīng)用于將商品評(píng)論中的情感詞提取出來,并進(jìn)行可視化的領(lǐng)域。在將提取到的情感詞進(jìn)行可視化的過程中,因?yàn)橐紤]用戶購(gòu)買時(shí)的情感傾向,所以在進(jìn)行技術(shù)選擇時(shí),需要進(jìn)行不同角度的考量?;谠~語的情感可視化技術(shù)基于詞語的情感可視化技術(shù)是將評(píng)論語句進(jìn)行分句,以這些分成的短句為對(duì)象,對(duì)提取出來的關(guān)鍵詞、分句中出現(xiàn)的高頻情感詞進(jìn)行可視化。將評(píng)論中帶有感情色彩的詞進(jìn)行正負(fù)極性分析,判斷消費(fèi)者對(duì)該商品特征的情感傾向。在詞語評(píng)論的情感分析和可視化過程中,主要通過情感得分預(yù)測(cè)圖和詞云圖等方式實(shí)現(xiàn)情感可視化顯示。(2)基于主題的情感可視化技術(shù)以情感可視化技術(shù)為主題,主要進(jìn)行對(duì)商品情緒詞進(jìn)行提取并將其以圖形展示出來。該技術(shù)的特點(diǎn)主要是將商品評(píng)論中的情感詞分類,通過與出現(xiàn)頻次較高的情感詞來理解顧客對(duì)商品的情感,更直觀地定義用戶感興趣的主題。(3)基于多維度的情感可視化技術(shù)在多維度情感分析、時(shí)空維度分析和關(guān)鍵情感變化論證的基礎(chǔ)上。本文分析了商品評(píng)論中的情感傾向,從用戶反饋入手,從情感入手,分析了商品的口碑,揭示了顧客在商品評(píng)論中的情感隨時(shí)間推移的變化。情感空間圖提高了情感視覺感知結(jié)果的可讀性和獲取信息的效率。以圖的形式直觀地表達(dá)感情是很常見的。2.3Python簡(jiǎn)介Python是一種面向?qū)ο蟮奈谋揪幊陶Z言,是一種強(qiáng)大的、完全通用的語言。已經(jīng)存在十多年,語法非常簡(jiǎn)單明了,同時(shí)Python中的相關(guān)資源十分龐大。為實(shí)現(xiàn)提取商品評(píng)論情感詞并進(jìn)行可視化展示,主要使用Python中的Numpy庫進(jìn)行數(shù)值計(jì)算,使用Pandas庫進(jìn)行數(shù)據(jù)分析,使用jieba庫進(jìn)行分詞處理,使用Echarts畫餅狀圖,柱狀圖。2.4TF-IDF算法本文將通過TF-IDF算法對(duì)爬取到的數(shù)據(jù)進(jìn)行預(yù)處理,TF-IDF的概念被認(rèn)定為是現(xiàn)代信息檢索中最重大的發(fā)明。在檢索、文獻(xiàn)分析以及其他相關(guān)領(lǐng)域中有著廣泛的使用。對(duì)IDF的定義是,一個(gè)在特定條件下、關(guān)鍵詞的概率分布的交叉熵(Kullback-LeiblerDivergence)。TF-IDF算法是基于這樣一種假設(shè),即文檔與文檔最重要的區(qū)別詞是在整個(gè)文檔中比較常見但在其他文檔中不太常見的詞。那么如果從特征空間坐標(biāo)系中取TF詞頻為測(cè)度,就能夠反映同類文字的特征。另外考慮到詞匯區(qū)分不同類型的能力,TF-IDF法則還指出一個(gè)詞匯中出現(xiàn)的文字頻率越小,其區(qū)分不同類型文字的能力也越大。并由此引進(jìn)了逆文本頻率IDF的定義,將TF與IDF的乘積作為特征空間坐標(biāo)系的取值測(cè)度,并對(duì)TF的權(quán)重進(jìn)行了調(diào)整。這樣可以突出重要詞匯,少發(fā)次要詞匯。單詞頻率(tfij):先計(jì)算出來詞條j在文檔i中出現(xiàn)的頻率。在這個(gè)實(shí)驗(yàn)中,可以使用這個(gè)公式計(jì)算一個(gè)詞在文檔中出現(xiàn)的頻率:tfij=文檔i中單詞j的出現(xiàn)次數(shù)/文檔中的總單詞數(shù)。文檔中包含重復(fù)單詞的單詞總數(shù),文檔頻率文檔頻率(dfj):包含單詞j的文檔數(shù),tf-idf權(quán)重(wij):wij=tfij*log(d/dfj)。在該樣例中,d是文檔的數(shù)量。該的文檔數(shù)為20,即d=20。本樣例算法的實(shí)現(xiàn)沒有考慮詞頻的歸一化處理,算法程序流程如圖1所示。3基于深度學(xué)習(xí)的情感可視化總體3.1硬件平臺(tái)介紹系統(tǒng)所使用的平臺(tái)為Window7,電腦配置CPU:E5,內(nèi)存8G,硬盤為500G的固態(tài)硬盤。所使用的編程語言為Python語言,版本為3.7,編程軟件為PyCharm2020版,使用該軟件的功能庫進(jìn)行編碼實(shí)現(xiàn)系統(tǒng)的功能點(diǎn)。3.2數(shù)據(jù)分析數(shù)據(jù)分析主要是把收集到的數(shù)據(jù)加以處理,然后再加以可視化展示,整個(gè)數(shù)據(jù)分析過程大致包含了數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)可視化三個(gè)部分,如圖2所示,詳細(xì)的分析過程如下。圖1程序流程圖圖2數(shù)據(jù)分析圖3.2.1數(shù)據(jù)收集數(shù)據(jù)收集就是使用爬蟲技術(shù)將網(wǎng)上的數(shù)據(jù)爬取下來,流程是先使用Python中的請(qǐng)求庫中的函數(shù)實(shí)現(xiàn)京東購(gòu)物網(wǎng)站HTTP的請(qǐng)求,之后使用解析庫從網(wǎng)頁中提取信息,存儲(chǔ)在本地?cái)?shù)據(jù)庫中,再使用scapy庫函數(shù)爬取這些數(shù)據(jù)并保存。3.2.2數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理是獲取到數(shù)據(jù)之后,將數(shù)據(jù)進(jìn)行相應(yīng)的處理。數(shù)據(jù)預(yù)處理主要是先將獲取到的京東商品評(píng)論的數(shù)據(jù)進(jìn)行去重、降噪,使用jieba庫中的分詞功能,將爬取到的用戶評(píng)論進(jìn)行分詞,分詞完成之后再運(yùn)用去停用詞功能將沒有意義的語氣詞進(jìn)行刪除,最后使用TF-IDF算法將出現(xiàn)次數(shù)多的情感詞語進(jìn)行處理。使用數(shù)據(jù)預(yù)處理可以提高數(shù)據(jù)的質(zhì)量,同時(shí)使數(shù)據(jù)提取和分析更快,提高了分析系統(tǒng)的性能。3.2.3數(shù)據(jù)可視化數(shù)據(jù)可視化是將處理好的數(shù)據(jù)用圖的方式呈現(xiàn)出來。用Python中的Echarts庫進(jìn)行畫圖,其主要是把評(píng)論數(shù)據(jù)中的評(píng)論回復(fù)數(shù)量和點(diǎn)贊數(shù)量使用柱狀圖顯示,將顧客對(duì)該商品的評(píng)分用餅狀圖表示,而詞云圖主要是將商品評(píng)論中出現(xiàn)次數(shù)多的詞語表示出來,用電商評(píng)論情感得分隨時(shí)間變化圖來表示顧客評(píng)分隨時(shí)間變化的情況,然后再用情感極性分析圖來顯示用戶的情感極性。使用數(shù)據(jù)可視化可以更直觀的呈現(xiàn)數(shù)據(jù),便于查看評(píng)論。4基于深度學(xué)習(xí)的情感可視化具體實(shí)現(xiàn)4.1信息爬取本研究具體實(shí)現(xiàn)分為信息爬取、數(shù)據(jù)處理、可視化展示三步。采用信息爬取處理模塊對(duì)京東網(wǎng)站的商品評(píng)論信息進(jìn)行收集,對(duì)收集到的信息進(jìn)行預(yù)處理,從而得到有用的網(wǎng)頁信息,主要使用Python爬蟲技術(shù)爬取的京東電商平臺(tái)的部分商品評(píng)論信息,主要包括商品ID,用戶ID,評(píng)論內(nèi)容和購(gòu)買時(shí)間等一些內(nèi)容,如圖3所示。圖3商品評(píng)論信息展示圖4.2數(shù)據(jù)處理在自然語言領(lǐng)域,理論與實(shí)踐密切相關(guān),特別是在漢語文本分類研究中:文本分類為自然語言理解、機(jī)器學(xué)習(xí)和特征提取領(lǐng)域的情感分析提供了深厚的理論基礎(chǔ)。文本的分類是基于這一領(lǐng)域非常實(shí)際的研究。爬行網(wǎng)站、詞預(yù)處理、詞向量化和有限特征提取與各種實(shí)踐密切相關(guān)。4.2.1數(shù)據(jù)去重、降噪在收集到的文本數(shù)據(jù)中,有許多高頻次數(shù)據(jù)和噪聲混合數(shù)據(jù)占用了部分存儲(chǔ)數(shù)據(jù)的空間,會(huì)降低使用算法的效率。該實(shí)驗(yàn)主要是分析從商品評(píng)論數(shù)據(jù)中提取出來的情感語句。其中有許多類別的噪音數(shù)據(jù)都是非中文匯總(如笑臉等),大大降低了算法的精度。所以該實(shí)驗(yàn)的核心內(nèi)容主要是對(duì)重復(fù)數(shù)據(jù)刪除并進(jìn)行降噪處理。其中數(shù)據(jù)處理結(jié)果如表1所示。表1文本去重、降噪結(jié)果原始文本文本去重、降噪后給婆婆買的加厚保暖褲,很不錯(cuò),。。。。。。。,很厚的褲子,,物美價(jià)廉,愉快的一次購(gòu)物體驗(yàn)???????????,給婆婆買的加厚保暖褲,很不錯(cuò)。很厚的褲子,物美價(jià)廉,愉快的一次購(gòu)物體驗(yàn),4.2.2分詞本實(shí)驗(yàn)是使用Python語言中的jieba分詞工具,其主要是將數(shù)據(jù)進(jìn)行切分和將文本中的詞語進(jìn)行分類標(biāo)注。即使jieba分詞會(huì)對(duì)新詞識(shí)別,但如果是自己導(dǎo)入進(jìn)去的新詞,可能更準(zhǔn)確。分詞之后的結(jié)果如表2所示。表2文本分詞結(jié)果原始文本文本分詞后給婆婆買的加厚保暖褲,很不錯(cuò)。很厚的褲子,物美價(jià)廉,愉快的一次購(gòu)物體驗(yàn),給婆婆買的加厚保暖褲很不錯(cuò)很厚的褲子物美價(jià)廉愉快的一次購(gòu)物體驗(yàn)4.2.3去停用詞停用詞是在語言數(shù)據(jù)中出現(xiàn)很多次卻沒有什么意義的詞,如“的、了、哎”等。本實(shí)驗(yàn)主要是將這些詞進(jìn)行刪除,將有意義的詞留下來。將文本出理好的結(jié)果如表3所示。表3文本去停用詞結(jié)果原始文本文本去停用詞后給婆婆買的加厚保暖褲很不錯(cuò)很厚的褲子物美價(jià)廉愉快的一次購(gòu)物體驗(yàn)給婆婆買加厚保暖褲不錯(cuò)厚褲子物美價(jià)廉愉快一次購(gòu)物體驗(yàn)4.3可視化實(shí)現(xiàn)系統(tǒng)將爬取到的數(shù)據(jù)進(jìn)行處理,使用Python中的Echarts庫進(jìn)行柱狀圖,餅圖,詞云圖和顧客情感得分隨時(shí)間變化圖的繪制,同時(shí)還對(duì)顧客的情感極性進(jìn)行分析,下面進(jìn)行展開介紹。把處理后的京東電商評(píng)論數(shù)據(jù)進(jìn)行可視化展示,將數(shù)據(jù)評(píng)論數(shù)量與評(píng)論點(diǎn)贊數(shù)量,評(píng)論回復(fù)數(shù)量各進(jìn)行柱狀圖繪圖,如圖4所示,其中在京東電商評(píng)論點(diǎn)數(shù)數(shù)量分布圖中,x軸表示評(píng)論中的點(diǎn)贊數(shù)量,y軸表示評(píng)論數(shù)量,根據(jù)評(píng)論中的點(diǎn)贊數(shù)量,可以判斷出用戶對(duì)該商品的質(zhì)量是否滿意,利于商家售出商品。在京東電商評(píng)論的回復(fù)數(shù)量分布圖中,x軸表示評(píng)論中的回復(fù)數(shù)量,y軸表示評(píng)論數(shù)量,根據(jù)評(píng)論中的回復(fù)數(shù)量,可以看到評(píng)論中的回復(fù)數(shù)量比較少,不太利于消費(fèi)者購(gòu)買。圖4京東電商評(píng)論的點(diǎn)贊與回復(fù)分布圖通過繪制餅狀圖來查看電商評(píng)論得分分布情況,如圖5所示,可以看到紅色部分表示評(píng)分1的占比,深綠色表示評(píng)分2的占比,藍(lán)色表示評(píng)分3的占比,橙色代表評(píng)分4的占比,淺藍(lán)色代表評(píng)分5的占比。其中,評(píng)分2的占比最少,評(píng)分5的占比最多,可以得知該商品的評(píng)分還是較好的,商品的質(zhì)量是可以的結(jié)論,從而可以促進(jìn)用戶購(gòu)買。圖5電商評(píng)論得分分布圖將京東電商評(píng)論數(shù)據(jù)的關(guān)鍵詞提取出來,繪制詞云圖,其中詞語字?jǐn)?shù)較大的是出現(xiàn)頻率比較高的,詞語字?jǐn)?shù)小的表示出現(xiàn)頻率較低,如圖6所示,可以清楚的看到情感的詞性,例如:喜歡,褲子質(zhì)量不錯(cuò),舒服,滿意等這些詞性,可以推測(cè)出顧客對(duì)該商品是滿意的。因此,通過詞云圖對(duì)情感極性詞直觀的顯示,可以促進(jìn)顧客進(jìn)行商品下單購(gòu)買。圖6情感詞云圖通過深度學(xué)習(xí)模型建??梢灶A(yù)測(cè)電商評(píng)論的情感得分分布情況,如圖7所示,其中x軸表示年份,y軸表示評(píng)分,評(píng)分在0-0.5分代表電商評(píng)論中的情感為負(fù)極,評(píng)分0.5-1.0分代表電商評(píng)論中的情感為正極,從而可以看到京東電商評(píng)論情感得分隨時(shí)間變化分布的情況。從圖中可以看到,每年電商評(píng)論的情感評(píng)分在0.8-1.0分之間是比較多的,說明大多數(shù)的情感極性是正極,對(duì)該商品是比較滿意的,而在0-0.2分是比較少的,說明對(duì)該商品不滿意的顧客很少,因而可以得出該商品還是不錯(cuò)的,值得購(gòu)買。圖7電商評(píng)論情感得分隨時(shí)間變化圖最后,實(shí)現(xiàn)了通過輸入評(píng)論數(shù)據(jù),解析語句與情感極性,如圖8所示,輸入“才穿了一個(gè)星期就起疙瘩了,太坑”,可以得出情感得分為0.001276144346768815,情感極性為負(fù)面,可以得知商品的質(zhì)量不好,就可以使準(zhǔn)備購(gòu)買本商品的用戶避免購(gòu)買,以防損失。圖8情感分析圖5總結(jié)本課題對(duì)于將商品評(píng)論中的情感詞以可視化方式展現(xiàn)意義重大。在研究的過程中,為了收集數(shù)據(jù),使用網(wǎng)絡(luò)爬蟲技術(shù)爬取了購(gòu)物平臺(tái)上的數(shù)據(jù),為了處理數(shù)據(jù),使用Python中的Numpy庫函數(shù)和深度學(xué)習(xí)中的TF-IDF算法進(jìn)行數(shù)據(jù)預(yù)處理,將預(yù)處理后的數(shù)據(jù)進(jìn)行去重、降噪和去停用詞,為了將處理好的數(shù)據(jù)進(jìn)行圖形顯示,使用可視化技術(shù)將其處理,用Python中的Echarts畫圖工具畫出柱狀圖、餅圖等圖形,可以使更多人看到商品評(píng)論。該成果對(duì)商家和顧客也具有一定的現(xiàn)實(shí)意義,可以幫助商家提高商品質(zhì)量,同時(shí)為顧客購(gòu)買商品提供重要的參考意見。因此,將商品評(píng)論數(shù)據(jù)中的情感詞變成可視化是非常必要的。但是,由于硬件環(huán)境不足,本課題的研究沒有使用大型數(shù)據(jù)集進(jìn)行分析訓(xùn)練,期待以后能在GPU環(huán)境下對(duì)課題進(jìn)行深入研究。參考文獻(xiàn)張宇豪,王依凡,馬雪揚(yáng),孫昊琳,佟雨堯.微博情感分析可視化系統(tǒng)[J].現(xiàn)代信息科技,2019,3(11):115-116.陳俊宇,鄭列.基于R語言的商品評(píng)論情感可視化分析[J].湖北工業(yè)大學(xué)學(xué)報(bào),2020,35(01):110-113.楊斯楠,徐健,葉萍萍.網(wǎng)絡(luò)評(píng)論情感可視化技術(shù)方法及工具研究[J].?dāng)?shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2018,2(05):77-87.陳艷君,周欣,卿粼波,王正勇.基于多頭注意機(jī)制的用戶評(píng)論情感可視分析[J].智能計(jì)算機(jī)與應(yīng)用,2020,10(08):33-36.謝彩云,何明志,周攀峰,彭琳,李宣穎.基于深度學(xué)習(xí)的文本情感分析研究[J].信息與電腦(理論版),2022,34(03):84-86.周曉蘭,肖健哲,劉敏.基于深度學(xué)習(xí)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 血液透析血管通路護(hù)理
- 透析高血壓的預(yù)防及防治
- 質(zhì)量通病防治培訓(xùn)
- 罐頭行業(yè)企業(yè)簡(jiǎn)介
- 船舶船首水動(dòng)力學(xué)研究
- 健康飲食營(yíng)養(yǎng)品采購(gòu)協(xié)議
- 創(chuàng)意產(chǎn)業(yè)發(fā)展情況統(tǒng)計(jì)表
- 行政車輛維修合同
- 康養(yǎng)企業(yè)相關(guān)項(xiàng)目投資計(jì)劃書
- 藝術(shù)史藝術(shù)評(píng)論方法與技巧測(cè)試卷
- (二調(diào))武漢市2025屆高中畢業(yè)生二月調(diào)研考試 英語試卷(含標(biāo)準(zhǔn)答案)+聽力音頻
- 中學(xué)家長(zhǎng)學(xué)校工作方案(10篇)
- 高考地理二輪復(fù)習(xí)【知識(shí)精研】大氣運(yùn)動(dòng)規(guī)律-大氣受熱過程與氣溫
- 日內(nèi)交易策略(TBQ版)
- 煤礦常用機(jī)電設(shè)備的日常管理-培訓(xùn)課件
- 2025年新執(zhí)業(yè)醫(yī)師定期考核真題庫附參考答案
- 部編版九年級(jí)道德與法治上冊(cè)《第二課創(chuàng)新驅(qū)動(dòng)發(fā)展》同步測(cè)試題(附答案)
- 第三單元第1課《廣而告之》課件-七年級(jí)美術(shù)下冊(cè)(人教版2024)
- 充電樁投放合同范本
- 天津2025年天津市天賓服務(wù)中心招聘13人筆試歷年參考題庫附帶答案詳解
- 【公開課】同一直線上二力的合成+課件+2024-2025學(xué)年+人教版(2024)初中物理八年級(jí)下冊(cè)+
評(píng)論
0/150
提交評(píng)論