Python數(shù)據(jù)分析基礎(chǔ)與案例實(shí)戰(zhàn)-PPT-第5章 天問(wèn)一號(hào)事件中的B站網(wǎng)民情感分析_第1頁(yè)
Python數(shù)據(jù)分析基礎(chǔ)與案例實(shí)戰(zhàn)-PPT-第5章 天問(wèn)一號(hào)事件中的B站網(wǎng)民情感分析_第2頁(yè)
Python數(shù)據(jù)分析基礎(chǔ)與案例實(shí)戰(zhàn)-PPT-第5章 天問(wèn)一號(hào)事件中的B站網(wǎng)民情感分析_第3頁(yè)
Python數(shù)據(jù)分析基礎(chǔ)與案例實(shí)戰(zhàn)-PPT-第5章 天問(wèn)一號(hào)事件中的B站網(wǎng)民情感分析_第4頁(yè)
Python數(shù)據(jù)分析基礎(chǔ)與案例實(shí)戰(zhàn)-PPT-第5章 天問(wèn)一號(hào)事件中的B站網(wǎng)民情感分析_第5頁(yè)
已閱讀5頁(yè),還剩53頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

天問(wèn)一號(hào)事件中的網(wǎng)民評(píng)論情感分析目錄1分析方法與過(guò)程業(yè)務(wù)背景與項(xiàng)目目標(biāo)2小結(jié)3天問(wèn)一號(hào)是由中國(guó)空間技術(shù)研究院研制的探測(cè)器,負(fù)責(zé)執(zhí)行中國(guó)第一次自主火星探測(cè)的任務(wù)。情感分析,又稱意見(jiàn)挖掘、傾向性分析等。是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過(guò)程。業(yè)務(wù)背景結(jié)合當(dāng)前開放式的網(wǎng)絡(luò)環(huán)境,對(duì)天問(wèn)一號(hào)事件中bilibili網(wǎng)站用戶所發(fā)表的觀點(diǎn)和評(píng)論等文本數(shù)據(jù)進(jìn)行收集整理,并進(jìn)行評(píng)論文本的情感分析,可以直觀地體現(xiàn)網(wǎng)絡(luò)用戶對(duì)于天問(wèn)一號(hào)成功登陸火星事件的情感傾向。對(duì)于了解網(wǎng)絡(luò)用戶對(duì)于中國(guó)航天事業(yè)發(fā)展的認(rèn)知度與認(rèn)可度,有著一定的參考價(jià)值與可觀之處。業(yè)務(wù)背景從“天問(wèn)一號(hào)成功著陸火星”事件入手,爬取了天問(wèn)一號(hào)發(fā)射與登陸火星前后的bilibili相關(guān)視頻下的用戶評(píng)論,組成評(píng)論數(shù)據(jù)csv文件,爬取的內(nèi)容包括用戶名、點(diǎn)贊數(shù)、評(píng)論內(nèi)容、視頻網(wǎng)址等。評(píng)論數(shù)據(jù)的時(shí)間窗口從2020年4月24日至2021年7月7日,共爬取了10380條數(shù)據(jù)。根據(jù)提供的評(píng)論數(shù)據(jù),結(jié)合輿論分析的場(chǎng)景,對(duì)用戶針對(duì)天問(wèn)一號(hào)事件的情感表現(xiàn)進(jìn)行分類,分類標(biāo)簽分為-1(表示負(fù)面評(píng)論)、0(表示中性評(píng)論)以及1(表示正面評(píng)論)。數(shù)據(jù)說(shuō)明“天問(wèn)一號(hào)成功著陸火星”bilibili相關(guān)視頻部分評(píng)論信息如下表。數(shù)據(jù)說(shuō)明評(píng)論時(shí)間點(diǎn)贊數(shù)評(píng)論內(nèi)容類別2021/5/153我國(guó)首次火星探測(cè)任務(wù)著陸火星于207:18圓滿成功!12020/12/207嫦娥回來(lái)啦,可惜的是月球上不能種菜[大哭]現(xiàn)在希望全在靚仔身上了[doge-圣誕]12020/12/175嫦娥五號(hào)回家啦??![doge]02020/8/231中國(guó)加油12020/8/186天問(wèn)一號(hào),你已經(jīng)是一個(gè)成熟的探測(cè)器了,你要加油??,咱們明年見(jiàn)02020/8/150前往未止,發(fā)現(xiàn)未知12020/8/90今年廣東省考出了題目,問(wèn)“天問(wèn)一號(hào)”的目的地0正面評(píng)論表達(dá)了bilibili網(wǎng)站用戶對(duì)天問(wèn)一號(hào)成功登陸火星的喜悅之感,同時(shí)表現(xiàn)出對(duì)中國(guó)航天事業(yè)的殷切期望與祝愿,對(duì)中國(guó)航天事業(yè)充滿期待。負(fù)面評(píng)論表達(dá)了部分網(wǎng)絡(luò)用戶對(duì)于天問(wèn)一號(hào)成功登陸火星的不以為然,又或是對(duì)于視頻形式、背景音樂(lè)等的反感。中性評(píng)論則是網(wǎng)絡(luò)用戶對(duì)于該事件的客觀評(píng)價(jià)與分析,既不過(guò)分吹噓他國(guó)實(shí)力也不貶低自身國(guó)家成就,或者是表達(dá)自己對(duì)于太空宇宙的想象,又或是提出自身的疑問(wèn)、建議等,沒(méi)有明顯或直接表現(xiàn)出自身的態(tài)度立場(chǎng)。數(shù)據(jù)說(shuō)明目標(biāo)繪制評(píng)論數(shù)據(jù)的詞云圖和繪制不同情感類型評(píng)論數(shù)據(jù)的詞云圖基于樸素貝葉斯原理構(gòu)建模型對(duì)bilibili用戶評(píng)論做情感分析項(xiàng)目目標(biāo)案例結(jié)合爬取到的關(guān)于天問(wèn)一號(hào)事件的bilibili用戶評(píng)論數(shù)據(jù),實(shí)現(xiàn)以下目標(biāo)。“天問(wèn)一號(hào)成功著陸火星”案例流程圖如下。項(xiàng)目目標(biāo)“天問(wèn)一號(hào)成功著陸火星”案例主要步驟如下。數(shù)據(jù)探索:通過(guò)可視化的方法分析不同情感類型的評(píng)論數(shù)量分布、每月評(píng)論量的變化和獲贊數(shù)前10的評(píng)論的獲贊數(shù)。文本預(yù)處理:對(duì)抽取到的數(shù)據(jù)進(jìn)行清洗、特殊字符處理、中文分詞、停用詞過(guò)濾和詞云圖分析。構(gòu)建模型與訓(xùn)練:將分詞結(jié)果進(jìn)行特征向量化,將數(shù)據(jù)集劃分成訓(xùn)練集和測(cè)試集,并構(gòu)建樸素貝葉斯模型進(jìn)行分類。模型評(píng)估:通過(guò)混淆矩陣、準(zhǔn)確率、精確率等評(píng)價(jià)指標(biāo)對(duì)模型分類效果進(jìn)行評(píng)價(jià)。項(xiàng)目目標(biāo)數(shù)據(jù)探索文本預(yù)處理構(gòu)建模型與訓(xùn)練模型評(píng)估目錄1分析方法與過(guò)程業(yè)務(wù)背景與項(xiàng)目目標(biāo)2小結(jié)3案例中使用的數(shù)據(jù)是從bilibili爬取的有關(guān)天問(wèn)一號(hào)成功登陸火星事件的相關(guān)視頻下的評(píng)論數(shù)據(jù),格式為csv文件。使用pandas庫(kù)中的read_csv函數(shù)讀取數(shù)據(jù)集,對(duì)特征“類別”中的不同類型進(jìn)行計(jì)數(shù)并進(jìn)行計(jì)數(shù)。然后使用Matplotlib庫(kù)pyplot模塊中的pie函數(shù)繪制不同評(píng)論類型的數(shù)量分布餅圖。數(shù)據(jù)探索1.不同情感類型評(píng)論的數(shù)量分布

從圖中可以看出,在所有的評(píng)論數(shù)據(jù)中,中性評(píng)論占比49.95%,正面評(píng)論占比45.66%,負(fù)面評(píng)論占比4.39%。正面評(píng)論占比遠(yuǎn)遠(yuǎn)高于負(fù)面評(píng)論,說(shuō)明大部分的用戶并沒(méi)有對(duì)天問(wèn)一號(hào)持有消極觀念,并對(duì)中國(guó)的航天事業(yè)抱有期望。同時(shí)也有相當(dāng)一部分的網(wǎng)友持中立觀點(diǎn),并對(duì)天問(wèn)一號(hào)事件發(fā)表了自己的看法和建議。總體來(lái)看,bilibili用戶對(duì)天問(wèn)一號(hào)傾向于積極支持的態(tài)度。數(shù)據(jù)探索為查看2020年4月24日至2021年7月7日間每個(gè)月的用戶評(píng)論量情況。首先需要統(tǒng)計(jì)所涉及的時(shí)間范圍,并刪除時(shí)間不是2020-2021年的數(shù)據(jù)。然后使用groupby函數(shù)和sum函數(shù)對(duì)“評(píng)論時(shí)間”列進(jìn)行分組統(tǒng)計(jì)評(píng)論量,最后使用plot函數(shù)繪制折線圖。數(shù)據(jù)探索2.每月的評(píng)論量通過(guò)折線圖可以看出,根據(jù)事件發(fā)展及評(píng)論量隨時(shí)間的變化趨勢(shì),將用戶評(píng)論時(shí)間分為5個(gè)階段,分別為初始期,爆發(fā)期、驟減期、再次爆發(fā)期和平穩(wěn)期。數(shù)據(jù)探索數(shù)據(jù)集中有個(gè)特征為點(diǎn)贊數(shù),點(diǎn)贊是指其他用戶同意該用戶的評(píng)論觀點(diǎn),點(diǎn)贊數(shù)則是點(diǎn)贊這個(gè)行為的數(shù)量,點(diǎn)贊數(shù)越多意味著持有相同觀點(diǎn)的人越多。為了解2020年4月24日至2021年7月7日間天問(wèn)一號(hào)發(fā)射與登陸前后相關(guān)視頻下bilibili用戶文本評(píng)論中哪些評(píng)論獲得的點(diǎn)贊數(shù)最多,即哪條評(píng)論的獲贊數(shù)最多,以特征點(diǎn)贊數(shù)進(jìn)行排序,并取其中排名前10的評(píng)論繪制柱狀圖。數(shù)據(jù)探索3.獲贊數(shù)前10的評(píng)論從圖中可以看出,排名第1與第2的評(píng)論獲贊數(shù)均超出了一萬(wàn)。排名第3的評(píng)論為“《天問(wèn)》是中國(guó)戰(zhàn)國(guó)時(shí)期詩(shī)人屈原創(chuàng)作的一首長(zhǎng)詩(shī)。除前3名外,第4名至第10名的獲贊數(shù)相差不大。數(shù)據(jù)探索數(shù)據(jù)清洗的主要目的是從業(yè)務(wù)和模型的相關(guān)需求考慮,篩選出需要的數(shù)據(jù)。對(duì)于用戶評(píng)論,有些用戶如果對(duì)某個(gè)評(píng)論持有相同看法,如果不處理重復(fù)的評(píng)論直接進(jìn)行建模會(huì)影響分析的效率。因此,需要對(duì)重復(fù)的評(píng)論進(jìn)行去重,保留一條即可。同時(shí)還可能會(huì)存在部分評(píng)論相似程度極高的情況,此類評(píng)論可能存在不少有用的信息,去除這類評(píng)論顯然不合適。因此,為了存留更多的有用評(píng)論,只針對(duì)完全重復(fù)的評(píng)論進(jìn)行去重,僅刪除完全重復(fù)部分,以確保盡可能保留有用的評(píng)論文本信息。文本預(yù)處理1.數(shù)據(jù)清洗經(jīng)過(guò)觀察數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)中存在空格、制表符、字母等特殊字符,這些信息對(duì)于模型的建模分析是無(wú)意義的,因此,在數(shù)據(jù)處理前需要先將這類特殊字符處理干凈。剔除特殊字符之后的數(shù)據(jù)如下表。文本預(yù)處理2.特殊字符處理評(píng)論時(shí)間點(diǎn)贊數(shù)評(píng)論內(nèi)容類別2021/5/150一年了著陸了著陸了給心心給心心12021/5/150已經(jīng)著落12021/5/150一年了啊12021/5/153我國(guó)首次火星探測(cè)任務(wù)著陸火星于圓滿成功12021/5/152著陸了1分詞是文本信息處理的基礎(chǔ)環(huán)節(jié),是將句子切分成一個(gè)個(gè)詞的過(guò)程。準(zhǔn)確的分詞處理可以極大的提高計(jì)算機(jī)對(duì)文本信息的識(shí)別理解能力。相反,不準(zhǔn)確的分詞處理會(huì)產(chǎn)生大量的噪聲,嚴(yán)重干擾計(jì)算機(jī)的識(shí)別理解能力,并對(duì)后續(xù)的處理工作產(chǎn)生較大的影響。文本預(yù)處理3.中文分詞使用jieba中文分詞的基本步驟如下。文本預(yù)處理導(dǎo)入jieba庫(kù)并建立一個(gè)輔助函數(shù)chinese_word_cut調(diào)用函數(shù)chinese_word_cut完成對(duì)評(píng)論數(shù)據(jù)的分詞查看分詞后的效果使用jieba中文分詞后的數(shù)據(jù)如下表。文本預(yù)處理分詞前評(píng)論內(nèi)容分詞后評(píng)論內(nèi)容一年了著陸了著陸了給心心給心心['一年','了','著陸','了','著陸','了','給','心心','給','心心']已經(jīng)著落['已經(jīng)','著落']一年了啊['一年','了','啊']我國(guó)首次火星探測(cè)任務(wù)著陸火星于圓滿成功['我國(guó)','首次','火星','探測(cè)','任務(wù)','著陸','火星','于','圓滿成功']著陸了['著陸','了']為了節(jié)省存儲(chǔ)空間和提高搜索效率,在索引頁(yè)面或處理搜索請(qǐng)求時(shí)會(huì)自動(dòng)忽略某些字或詞,這些被忽略掉的字或詞就被稱為停用詞。因?yàn)槭褂妙l率過(guò)高,會(huì)大量出現(xiàn)在文本中,在進(jìn)行統(tǒng)計(jì)詞頻的時(shí)候會(huì)增加噪音數(shù)據(jù)量,因此需要將這些停用詞進(jìn)行過(guò)濾。文本預(yù)處理4.停用詞過(guò)濾采用哈爾濱工業(yè)大學(xué)的停用詞表stopwordsHIT.txt進(jìn)行去停用詞處理,得到去除停用詞后的數(shù)據(jù),如下表。文本預(yù)處理去停用詞前評(píng)論內(nèi)容去停用詞后評(píng)論內(nèi)容一年了著陸了著陸了給心心給心心['一年','著陸','著陸','心心','心心']已經(jīng)著落['已經(jīng)','著落']一年了啊['一年']我國(guó)首次火星探測(cè)任務(wù)著陸火星于圓滿成功['我國(guó)','首次','火星','探測(cè)','任務(wù)','著陸','火星','圓滿成功']著陸了['著陸']進(jìn)行數(shù)據(jù)預(yù)處理后,可繪制詞云圖查看分詞效果。這需要對(duì)詞語(yǔ)進(jìn)行詞頻統(tǒng)計(jì),將詞頻降序排序,然后選擇排名前1000的詞,使用wordcloud模塊中的WordCloud繪制詞云圖,查看分詞效果。繪制詞云圖1.繪制評(píng)論數(shù)據(jù)的詞云圖從圖中可以看出,對(duì)評(píng)論數(shù)據(jù)進(jìn)行預(yù)處理后,分詞效果大致符合預(yù)期。其中火星、成功、中國(guó)、星辰、加油等詞出現(xiàn)頻率較高。因此,可以初步判斷bilibili用戶對(duì)天問(wèn)一號(hào)事件的評(píng)論中包含這些詞的評(píng)論比較多。繪制詞云圖進(jìn)行數(shù)據(jù)預(yù)處理后,可繪制不同情感類型評(píng)論數(shù)據(jù)的詞云圖。首先,需要對(duì)不同情感類型的評(píng)論詞語(yǔ)進(jìn)行詞頻統(tǒng)計(jì),將詞頻降序排序。然后選擇前1000個(gè)詞,使用wordcloud模塊中的WordCloud繪制詞云圖,查看分詞效果。繪制詞云圖2.不同情感類型評(píng)論數(shù)據(jù)的詞云圖負(fù)面評(píng)論數(shù)據(jù)詞云圖如下圖,從圖中可以看出,負(fù)面評(píng)論的詞語(yǔ)中否定詞“不”“失敗”較多。繪制詞云圖中性評(píng)論數(shù)據(jù)詞云圖如下圖,從圖中可以看出,中性評(píng)論中存在與“天問(wèn)一號(hào)”不相關(guān)的詞語(yǔ),例如“系列”“種菜”等。繪制詞云圖正面評(píng)論數(shù)據(jù)詞云圖如右圖,從圖中可以看出正面評(píng)論的詞語(yǔ)中較多的有“加油”和“成功”“支持”等。負(fù)面評(píng)論大多不看好天問(wèn)一號(hào),認(rèn)為探測(cè)任務(wù)會(huì)以失敗告終。正面評(píng)論大多對(duì)天問(wèn)一號(hào)探測(cè)任務(wù)表示支持,看好中國(guó)航天的發(fā)展。所以分詞結(jié)果基本符合用戶的評(píng)論情感。繪制詞云圖樸素貝葉斯分類分為三個(gè)階段,算法流程圖如下。使用樸素貝葉斯構(gòu)建情感分析模型1.樸素貝葉斯的原理三個(gè)階段。準(zhǔn)備階段:該階段的輸入是所有待分類數(shù)據(jù),輸出是特征屬性和訓(xùn)練樣本。模型訓(xùn)練階段:該階段的輸入是特征屬性和訓(xùn)練樣本,輸出是分類模型。應(yīng)用階段:該階段的輸入是分類模型和待分類項(xiàng),輸出是待分類項(xiàng)與類別的映射關(guān)系。使用樸素貝葉斯構(gòu)建情感分析模型數(shù)據(jù)經(jīng)過(guò)預(yù)處理之后,就進(jìn)入使用模型算法處理的過(guò)程。案例使用樸素貝葉斯算法,準(zhǔn)備階段包括確定特征屬性(又稱為文本向量化)和劃分?jǐn)?shù)據(jù)集,以及分類器訓(xùn)練階段使用多項(xiàng)式樸素貝葉斯(MultinomialNB)模型進(jìn)行訓(xùn)練,然后進(jìn)行模型評(píng)估。使用樸素貝葉斯構(gòu)建情感分析模型2.構(gòu)建情感分析模型(1)文本向量化由于文本數(shù)據(jù)無(wú)法直接用于建模,因此需要將文本表示成計(jì)算機(jī)能夠直接處理的形式,即文本向量化。詞頻文檔矩陣將文本數(shù)據(jù)進(jìn)行向量化,其中每一行表示一篇文檔,列表示所有文檔中的詞,其交叉項(xiàng)數(shù)值則為該詞在這篇文檔出現(xiàn)的次數(shù)。在Python中sklearn庫(kù)包含許多可以實(shí)現(xiàn)文本數(shù)據(jù)統(tǒng)計(jì)的函數(shù),其中CountVectorizer函數(shù)可以統(tǒng)計(jì)分詞后的詞頻,TfidfTransformer函數(shù)可以對(duì)每個(gè)詞賦予不同的權(quán)重,以此來(lái)找到權(quán)重比較大的詞,也就是重要的特征屬性,這一步稱為轉(zhuǎn)化成TF-IDF權(quán)重向量。使用樸素貝葉斯構(gòu)建情感分析模型使用兩張方法分別得到評(píng)論詞語(yǔ)矩陣1和評(píng)論詞語(yǔ)矩陣2。第一種方法先使用默認(rèn)參數(shù)建立一個(gè)CountVectorizer類的實(shí)例vect,它只考慮每種詞匯在該訓(xùn)練文本中出現(xiàn)的頻率通過(guò)fit_transform()方法計(jì)算各個(gè)詞語(yǔ)出現(xiàn)的次數(shù),再通過(guò)pandas庫(kù)轉(zhuǎn)數(shù)據(jù)框。第二種方法則使用CountVectorizer類的參數(shù)設(shè)置。由于部分特征是無(wú)意義的,因此需要對(duì)CountVectorizer類的參數(shù)設(shè)置進(jìn)行改進(jìn),一共設(shè)置了3層特征詞匯過(guò)濾。這三層分別為去除超過(guò)所設(shè)置比例的文檔中出現(xiàn)的關(guān)鍵詞和去除低于所設(shè)置數(shù)量的文檔中出現(xiàn)的關(guān)鍵詞去除掉、設(shè)置過(guò)濾規(guī)則和設(shè)置停用詞。使用樸素貝葉斯構(gòu)建情感分析模型第一種方法得到得到的文檔詞條矩陣部分結(jié)果展示如下。使用樸素貝葉斯構(gòu)建情感分析模型

[]一丁七萬(wàn)丈三上下…01110010000…11100000000…21110000000…31100000000…41100000000…………………………………第二種方法得到得到的文檔詞條矩陣部分結(jié)果展示如下。使用樸素貝葉斯構(gòu)建情感分析模型

一七萬(wàn)三上下不與專世…01000010000…10000000000…21000000000…30000000000…40000000000…………………………………(2)劃分?jǐn)?shù)據(jù)集劃分?jǐn)?shù)據(jù)集使用train_test_split函數(shù),在默認(rèn)模式下函數(shù)對(duì)訓(xùn)練集和測(cè)試集的劃分比例為3:1。案例設(shè)置參數(shù)test_size(測(cè)試集大?。?.2,也就是設(shè)定訓(xùn)練集和測(cè)試集的劃分比例為4:1。設(shè)定參數(shù)random_state(隨機(jī)種子)的取值,其目的是為了保證在不同環(huán)境中隨機(jī)數(shù)取值一致,以便驗(yàn)證模型的實(shí)際效果。使用樸素貝葉斯構(gòu)建情感分析模型(3)訓(xùn)練模型評(píng)論數(shù)據(jù)訓(xùn)練集已經(jīng)經(jīng)過(guò)文本向量化處理,利用向量化處理后生成的特征矩陣來(lái)訓(xùn)練模型。案例使用的數(shù)據(jù)涉及特征變量是離散型的,因此采用多項(xiàng)式樸素貝葉斯(Multinomialnaivebayes)分類模型。使用sklearn庫(kù)中naive_bayes模塊的MultinomialNB類可以實(shí)現(xiàn)多項(xiàng)式樸素貝葉斯算法,對(duì)數(shù)據(jù)進(jìn)行分類,MultinomialNB類的基本使用格式如下。classnaive_bayes.MultinomialNB(alpha=1.0,fit_prior=True,class_prior=None)使用樸素貝葉斯構(gòu)建情感分析模型MultinomialNB類常用的參數(shù)及其說(shuō)明如下表。使用樸素貝葉斯構(gòu)建情感分析模型參數(shù)名稱參數(shù)說(shuō)明alpha接收f(shuō)loat,表示附加的平滑參數(shù)(Laplace/Lidstone),0是不平滑,默認(rèn)為1.0fit_prior接收boolean,表示是否是學(xué)習(xí)經(jīng)典先驗(yàn)概率,如果False則采用uniform先驗(yàn),默認(rèn)為Trueclass_prior接收array-like,size(n_classes),表示是否指定類的先驗(yàn)概率;若指定則不能根據(jù)參數(shù)調(diào)整,默認(rèn)為None構(gòu)建、訓(xùn)練模型并進(jìn)行分類預(yù)測(cè),得到分類預(yù)測(cè)的結(jié)果,如下表。使用樸素貝葉斯構(gòu)建情感分析模型indexcutted_content類別_pre10230['征途','星辰','大海','加油']111183['終于','拯救','樓主']003946['留下','足跡']013501['蕪湖']115466['第一','熱詞','系列','知識(shí)','增加']00…………從表中可以看出,貝葉斯分類預(yù)測(cè)模型結(jié)果中大部分分類預(yù)測(cè)結(jié)果與真實(shí)類別一致,但也出現(xiàn)少數(shù)評(píng)論情感類型預(yù)測(cè)分類結(jié)果與真實(shí)類別不一致(如索引為3946的記錄),因此需要對(duì)模型性能進(jìn)行評(píng)價(jià)。在分類型模型評(píng)判的指標(biāo)中,常見(jiàn)的方法有混淆矩陣(也稱誤差矩陣,ConfusionMatrix)、ROC曲線、AUC面積3種。其中,混淆矩陣是繪制ROC曲線的基礎(chǔ),同時(shí)它也是衡量分類模型準(zhǔn)確度中最基本、最直觀、計(jì)算過(guò)程常用方法之一。分別統(tǒng)計(jì)分類模型歸錯(cuò)類,歸對(duì)類的觀測(cè)值個(gè)數(shù),然后將結(jié)果放在一個(gè)表里展示出來(lái),得到的這個(gè)表就是混淆矩陣。模型評(píng)估簡(jiǎn)單簡(jiǎn)單的二分類問(wèn)題的混淆矩陣如下表。矩陣中的TP表示預(yù)測(cè)為1,實(shí)際為1,預(yù)測(cè)正確;FP表示預(yù)測(cè)為1,實(shí)際為0,預(yù)測(cè)錯(cuò)誤;FN表示預(yù)測(cè)為0,實(shí)際為1,預(yù)測(cè)錯(cuò)誤;TN表示預(yù)測(cè)為0,實(shí)際為0,預(yù)測(cè)正確。模型評(píng)估

實(shí)際結(jié)果10預(yù)測(cè)結(jié)果1TPFN0FPTN混淆矩陣?yán)锩娼y(tǒng)計(jì)的是個(gè)數(shù),有時(shí)候面對(duì)大量的數(shù)據(jù),光憑算個(gè)數(shù),很難衡量模型的優(yōu)劣。因此混淆矩陣在基本的統(tǒng)計(jì)結(jié)果上又延伸了4個(gè)指標(biāo),準(zhǔn)確率、精確度、召回率和F1值。準(zhǔn)確率:為預(yù)測(cè)正確的結(jié)果占總樣本的百分比;精確度:指在一定實(shí)驗(yàn)條件下多次測(cè)定的平均值與真實(shí)值相符合的程度,以誤差來(lái)表示,用于表示系統(tǒng)誤差的大??;召回率:廣泛用于信息檢索和統(tǒng)計(jì)學(xué)分類領(lǐng)域的度量值,用于評(píng)價(jià)結(jié)果的質(zhì)量;F-Measure:綜合考慮精確度與召回率。模型評(píng)估案例選用這4個(gè)指標(biāo)評(píng)價(jià)所構(gòu)建的模型。案例研究情感類別的識(shí)別,更關(guān)心負(fù)面評(píng)論的判別情況,所以召回率表示被正確分類的負(fù)面評(píng)論所占的比例,召回率越高,表示模型將負(fù)面評(píng)論誤劃分為正面評(píng)論的模型概率越低,模型效果越好。精確度主要關(guān)注的是被劃分為負(fù)面評(píng)論的樣本中實(shí)際為負(fù)面評(píng)論的樣本所占的比例,精確度越高,模型分類效果越好。模型評(píng)估得到多項(xiàng)式貝葉斯模型的評(píng)價(jià)指標(biāo)值如下表。

多項(xiàng)式貝葉斯模型的性能分析報(bào)告如下表。模型評(píng)估模型準(zhǔn)確率(%)精確率(%)召回率(%)F值(%)多項(xiàng)式貝葉斯模型69.1769.1769.1769.17類別精確率(%)召回率(%)F值(%)-123232306868681747474這里使用的是第二種詞頻統(tǒng)計(jì)的方法,然后劃分?jǐn)?shù)據(jù)集,將常見(jiàn)或低頻的關(guān)鍵詞去掉,而這些關(guān)鍵詞當(dāng)中也可能有能夠充分表現(xiàn)出網(wǎng)名評(píng)論的一個(gè)情感立場(chǎng),特征數(shù)減少太多,一定程度上會(huì)影響模型的準(zhǔn)確率與預(yù)測(cè)準(zhǔn)確率等性能數(shù)值。這里我們使用第一種詞頻統(tǒng)計(jì)方法,然后劃分訓(xùn)練集,并建立貝葉斯模型查看效果,進(jìn)行結(jié)果的比對(duì)。模型評(píng)估多項(xiàng)式貝葉斯模型評(píng)估指標(biāo)值如下表。多項(xiàng)式貝葉斯模型的性能分析報(bào)告如下表。模型評(píng)估模型準(zhǔn)確率(%)精確率(%)召回率(%)F值(%)多項(xiàng)式貝葉斯模型69.8969.8969.8969.89類別精確率(%)召回率(%)F值(%)-123121506869691737574使用的是第二種詞頻統(tǒng)計(jì)的方法,然后劃分?jǐn)?shù)據(jù)集,得到模型的準(zhǔn)確率為69.17%,使用的是第一種詞頻統(tǒng)計(jì)的方法,然后劃分?jǐn)?shù)據(jù)集,得到模型的準(zhǔn)確率為69.89%。對(duì)比兩種詞頻統(tǒng)計(jì)的方法,可以看出第一種詞頻統(tǒng)計(jì)方法優(yōu)于第二種。模型評(píng)估最初的模型建立時(shí)直接選擇了“評(píng)論時(shí)間”、“點(diǎn)贊數(shù)”、“類別”以及“cutted_content”4個(gè)特征進(jìn)行,沒(méi)有考慮時(shí)間列數(shù)據(jù)的特殊類型,以及點(diǎn)贊數(shù)的數(shù)據(jù)差異問(wèn)題,有可能對(duì)模型的效果產(chǎn)生了一定影響。為了模型能得到更好的效果,提高模型準(zhǔn)確率與預(yù)測(cè)準(zhǔn)確率,需要對(duì)選擇的特征中這兩列內(nèi)容進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理。模型優(yōu)化1.數(shù)據(jù)標(biāo)準(zhǔn)化對(duì)于“評(píng)論時(shí)間”列,使用pandas模塊下的datetime方法將“評(píng)論時(shí)間”列轉(zhuǎn)換為時(shí)間類型,并進(jìn)行字符串截取,保留年月日信息。對(duì)于“點(diǎn)贊數(shù)”列,由于點(diǎn)贊數(shù)出現(xiàn)太多的數(shù)值0,對(duì)數(shù)值進(jìn)行統(tǒng)一的加一處理。在這之后統(tǒng)一日期與點(diǎn)贊數(shù)兩列的數(shù)據(jù)級(jí)數(shù),做數(shù)據(jù)標(biāo)準(zhǔn)化處理。模型優(yōu)化數(shù)據(jù)標(biāo)準(zhǔn)化結(jié)果如下表。模型優(yōu)化Index日期點(diǎn)贊數(shù)00.981328010.981328020.981328030.9813280.00023516540.9813280.00015677750.9813287.83883e-0560.9606150.00015677770.9516680.00054871880.951668090.9515710100.9509877.83883e-05經(jīng)過(guò)數(shù)據(jù)標(biāo)準(zhǔn)化與異常值處理后,將得到的數(shù)據(jù)框添加原始數(shù)據(jù)中的“類別”與“cutted_content”兩列,重新建立模型并進(jìn)行模型評(píng)估,得到分類預(yù)測(cè)結(jié)果如下表。模型優(yōu)化2.訓(xùn)練模型與模型評(píng)估indexcutted_content類別_pre3081['以后','發(fā)射','不能','整個(gè)',

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論