版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
新聞文本分類11-9月-231分析方法與分析過程目錄業(yè)務背景與項目目標2隨著經(jīng)濟的不斷發(fā)展以及互聯(lián)網(wǎng)技術的穩(wěn)步提升,各種各樣的新聞平臺應運而生(如人民網(wǎng)、新華網(wǎng)、環(huán)球網(wǎng)、中國新聞網(wǎng)等),人們獲取新聞的方式逐漸多樣化,由傳統(tǒng)的紙質(zhì)、廣播渠道增廣到如今的網(wǎng)絡化新聞展示,新聞的呈現(xiàn)形式已然在大眾群體中越來越多樣化及便捷化。目前很多新聞的發(fā)布都附帶其分類好的類別范疇,這就利于人們在閱讀的時候,能夠快速的悉知一篇新聞的主題方向,同時也便于時間、內(nèi)容方面的效率提升,信息化服務也就更為快捷與方便。本案例使用人民網(wǎng)科技類別下的前8個欄目下的部分新聞數(shù)據(jù),結合支持向量機分類模型,并對模型進行評價,從而將欄目下的每篇新聞內(nèi)容其所屬的類型進行更為精細化的劃分。背景該案例選取的是人民網(wǎng)科技類別的前8個欄目下的部分新聞數(shù)據(jù),本次讀取了2020年1月15日至2021年1月10日共2992條發(fā)布的新聞數(shù)據(jù)。人民網(wǎng)科技新聞信息數(shù)據(jù)(保存在人民網(wǎng)科技新聞數(shù)據(jù).xlsx文件中)屬性說明如表所示。數(shù)據(jù)說明字段名稱含義欄目名字新聞所歸屬的欄目新聞標題發(fā)布新聞的標題發(fā)布時間新聞發(fā)布的時間鏈接詳情對應的新聞內(nèi)容鏈接新聞內(nèi)容新聞的內(nèi)容如何將新聞內(nèi)容所表達的主體方向準確、有效的進行分類,從而提升用戶閱讀新聞的體驗感與效率,是廣大新聞發(fā)布平臺及用戶所共同期待的。本案例根據(jù)新聞文本分類項目的業(yè)務需求,即需要實現(xiàn)的目標如下。(1)對滾動與獨家欄目下的每一條新聞內(nèi)容進行詳細的分類。(2)評估該分類情況的優(yōu)劣,并提出更好的分類改進建議。目標新聞文本分類的主要步驟如下。(1)使用Python爬蟲中的requests和BeautifulSoup等常用庫,獲取數(shù)據(jù)信息。(2)分析各欄目下新聞之間的相似度、新聞發(fā)布量,對數(shù)據(jù)進行探索。(3)對文本進行基礎處理、向量化等預處理操作。(4)構建SVM分類模型,對滾動與獨家欄目進行分類。(5)根據(jù)構建后的模型結果進行模型評價。(6)根據(jù)分類模型得到的滾動與獨家下的新聞分類結果提出更好的改進建議。目標新聞文本分類的總體流程如圖所示。目標1分析方法與分析過程目錄業(yè)務背景與項目目標2由于所運用到的數(shù)據(jù)不能直接的獲取到,因此前期需要通過Python爬蟲中的部分常用庫來采集所需的數(shù)據(jù)信息。其次對爬取下來的數(shù)據(jù)進行數(shù)據(jù)探索、文本預處理等操作;接著構建SVM模型并對滾動與獨家欄目下的新聞重新分類;最后再對模型進行評價,分析模型的性能。分析方法與過程使用Python爬蟲中的requests、BeautifulSoup等常用庫對人民網(wǎng)科技類別頁面進行請求與解析,從而對頁面中的前8個欄目(滾動、獨家、科學家、產(chǎn)業(yè)動態(tài)、發(fā)明·創(chuàng)新、探索·發(fā)現(xiàn)、醫(yī)學·健康、航空·航天)下的新聞數(shù)據(jù)中的5個內(nèi)容(欄目名字、新聞標題、發(fā)布時間、鏈接詳情、新聞內(nèi)容)進行信息爬取,并將爬取到的數(shù)據(jù)保存至本地。數(shù)據(jù)采集爬取到的人民網(wǎng)科技新聞部分數(shù)據(jù)如表所示。數(shù)據(jù)采集欄目名字新聞標題發(fā)布時間鏈接詳情新聞內(nèi)容滾動警惕科研“快餐化”“反噬”創(chuàng)新能力2021-01-10/n1/2021/0110/c1007-31994967.html近年來,我國科技…滾動日夜奮戰(zhàn),成就探月之旅(深度觀察)2020-12-28/n1/2020/1228/c1007-31980465.html2020年12月17日…獨家現(xiàn)場直擊:長征八號運載火箭首飛成功2020-12-22/n1/2020/1222/c1007-31975152.html長征八號運載…科學界專家學者論道學術期刊高質(zhì)量發(fā)展2020-12-21/n1/2020/1221/c1007-31972921.html“如果我們所有…產(chǎn)業(yè)動態(tài)裝備價格領域著力推行第三方服務提升裝備價格管理水平2020-12-15/n1/2020/1215/c1007-31966461.html新華社北京12月…對數(shù)據(jù)進行清洗,包括對數(shù)據(jù)中的重復值、缺失值和干擾內(nèi)容(轉(zhuǎn)義符)等進行去除,減弱不必要的信息干擾,同時也便于后續(xù)對數(shù)據(jù)進行更為深入的探索。數(shù)據(jù)探索1.數(shù)據(jù)清洗將經(jīng)清洗過后的數(shù)據(jù)進行可視化展示,包括查看滾動與獨家和其它6個欄目的新聞內(nèi)容之間的相似度、查看各欄目新聞總發(fā)布量、查看各欄目的月份新聞發(fā)布量趨勢。通過可視化的展現(xiàn),從而更直觀的挖掘出數(shù)據(jù)的額外信息,便于開展更為準確、合理的分析。數(shù)據(jù)探索2.可視化展示計算新聞文本相似度,查看最終進行分類的預測集和訓練集之間的關系,其中,新聞文本的相似度計算已自定義為其它的腳本文件,此處僅為調(diào)用該文件進行計算,計算出的部分結果如表所示。數(shù)據(jù)探索欄目名稱被比較的內(nèi)容欄目名稱比價的內(nèi)容相似度值航空·航天北京時間中國酒泉衛(wèi)星…獨家人民網(wǎng)北京1222日電趙竹青國家航天局…0.958202航空·航天長征四號乙遙四十一運…獨家人民網(wǎng)北京1222日電趙竹青國家航天局…0.930484航空·航天700千米太陽同步軌道…獨家人民網(wǎng)北京1222日電趙竹青國家航天局…0.915632航空·航天深海大洋地球內(nèi)層空間…獨家人民網(wǎng)北京1222日電趙竹青國家航天局…0.910001航空·航天11時58分我國西昌衛(wèi)星…獨家人民網(wǎng)北京1222日電趙竹青國家航天局…0.905587由上表可知,滾動與獨家欄目下的新聞內(nèi)容與其它的6個欄目的新聞內(nèi)容存在較高的相似度,因此滾動與獨家欄目根據(jù)其它的6個欄目進行更為精細化的分類是合理的。分析出滾動與獨家和其他6個欄目新聞內(nèi)容之間存在一定的關系后,接下來對新聞的發(fā)布量進行觀察。數(shù)據(jù)探索繪制各欄目新聞總發(fā)布量柱形圖,如圖所示。由圖可知,滾動與獨家欄目的發(fā)布數(shù)量較高,尤其是滾動欄目,其新聞發(fā)布數(shù)量為343個,而其它的6個欄目的發(fā)布數(shù)量則相對均衡的分布在190上下,6個欄目間并無太大差異。數(shù)據(jù)探索為更進一步觀察滾動、獨家和產(chǎn)業(yè)創(chuàng)新、醫(yī)學·健康、發(fā)明·創(chuàng)新、探索·發(fā)現(xiàn)、科學界、航空·航天這8個欄目的新聞發(fā)布數(shù)量變化趨勢,可對各欄目各月份具體的新聞發(fā)布數(shù)量進行觀察,繪制各欄目各月份折線圖,如左圖和右圖所示。數(shù)據(jù)探索由左圖可知,獨家欄目的發(fā)布數(shù)量較為平均,都在40個左右,時長為6個月;滾動欄目的發(fā)布數(shù)量從開始便達到了發(fā)布數(shù)量的峰值258,但之后便急劇下降至85,時長為2個月。由右圖可知,各欄目的新聞發(fā)布數(shù)量波動較大主要位于2020年6月至2020年10月之間,且在這幾個月間,絕大部分欄目的新聞發(fā)布數(shù)量都達到了對應的高峰值,而其它月份各欄目的新聞發(fā)布數(shù)量則相對較低。數(shù)據(jù)探索在自然語言中,需要對語料庫進行基本處理,常見的語料庫處理包括去除數(shù)據(jù)中非文本部分、中文分詞、去停用詞等。而經(jīng)過處理過后的語料庫基本上是干凈的文本了,但無法直接用于后續(xù)文本的計算和模型的構建等,因此還需要將文本進行向量化處理,從而便于后續(xù)的案例開展。文本預處理對文本進行基礎處理,包括了對數(shù)據(jù)進行結巴分詞、去停用詞、劃分數(shù)據(jù)集(滾動與獨家欄目為預測集;其它的6個欄目為訓練集)、對劃分數(shù)據(jù)集后的分詞結果中的段落符進行處理等操作。為查看訓練集中的新聞文本所出現(xiàn)的高頻詞,可通過繪制詞云圖和排名前10的詞語詞頻餅圖進行分析。文本預處理1.文本基礎處理繪制出的詞云圖如圖所示。由圖可知,在訓練集中的新聞文本中所表現(xiàn)較多的高頻詞主要有發(fā)展、研究、中國、創(chuàng)新、技術和科技等詞。文本預處理繪制出的排名前10的詞語詞頻餅圖如圖所示。由圖可知,排名前10的高頻詞從高到低的順序依次為發(fā)展、研究、中國、技術、創(chuàng)新、科技、數(shù)據(jù)、企業(yè)、國家和疫苗。從高頻詞中的所展現(xiàn)出來的情況可知,其與原先所分屬的欄目類型的主題都能夠?qū)蒙?。文本預處理對經(jīng)過文本基礎處理的新聞文本使用預訓練好的192維的語料庫模型構建詞向量,目的是使將詞語轉(zhuǎn)換成機器所能識別的形態(tài),從而便于模型的實際運用。對文本構建詞向量矩陣,需要通過調(diào)用預訓練好的語料庫模型,生成每篇新聞中的每個分詞的詞向量,再通過將詞向量進行求和的方式從而得出該篇新聞的最終1*192維詞向量矩陣。文本預處理2.文本向量化得到每篇新聞的詞向量矩陣(此處隨機選取訓練集中的5篇新聞的詞向量矩陣進行展示),如表所示。文本預處理欄目名字data_afterdata_pro vec科學界[科技期刊,世界,…科技期刊世界…[-79.44278913899325,65.05…科學界[2020,年,注定,…2020年注定…[-131.48476094711805,-224.9…科學界[20,世紀,美國,…20世紀美國…[-90.7527561109855,66.202…科學界[長江,經(jīng)濟帶,…長江經(jīng)濟帶[-466.00664949358907,-131.4…科學界[創(chuàng)新,第一,…創(chuàng)新第一[-27.92277342826128,81.518…支持向量機是一種二分類的分類算法。除了進行線性分類之外,支持向量機還可以使用核函數(shù)有效地進行非線性分類,將其輸入隱式映射到高維特征空間中。對于給定的數(shù)據(jù)集,支持向量機的思想是在樣本空間中找到一個劃分超平面,將不同類別的樣本分開。能將數(shù)據(jù)集分開的劃分超平面可能有很多,如圖6–7所示,可以直觀的看出應該選擇位于兩類樣本“正中間”的劃分超平面,即圖6–7中加粗的劃分超平面,因為該超平面對訓練樣本的魯棒性是最強的。例如,訓練集外的樣本可能落在兩個類的分隔界附近,這會使很多劃分超平面出現(xiàn)錯誤,而紅色加粗的超平面是受影響最小的。支持向量機的目的就是找到這個最優(yōu)的劃分超平面。SVM模型構建1.支持向量機簡介存在一條直線將兩類樣本完全分開,則稱為線性可分,如圖所示。SVM模型構建而在數(shù)據(jù)線性可分的情況下,對應的線性支持向量機的基本步驟如下。(1)將原問題轉(zhuǎn)化為凸優(yōu)化問題。(2)通過構建拉格朗日函數(shù),將原問題對偶化。(3)利用KKT條件對對偶化后的問題進行求解。其中,通過一些條件,可以求出最優(yōu)值的必要條件,這個必要條件就稱為KKT條件;對偶問題是對拉格朗日函數(shù)先取最小化,再取最大化,而對偶化后的問題便是調(diào)換對偶問題中對拉格朗日函數(shù)取最大化、最小化的順序即可得到與原問題等價的優(yōu)化問題。SVM模型構建本案例使用線性支持向量機分類模型,將數(shù)據(jù)集中的除滾動與獨家欄目外的余下的6個欄目數(shù)據(jù),按照20%和80%的比例劃分測試集和訓練集并對其進行數(shù)據(jù)標準化。SVM模型構建2.數(shù)據(jù)劃分為進一步的提升模型的性能,本案例通過兩個方面。一是分類算法的選??;二是選取的模型中的參數(shù)的調(diào)整。通過兩個方面從而構建分類的模型并進行模型的優(yōu)化。SVM模型構建3.構建模型與模型優(yōu)化首先,在分類算法的選取上,本案例前期選擇了很多的分類模型進行測試,便于從中選出表現(xiàn)最優(yōu)的分類模型從而確立構建模型中所運用的分類算法,各個模型的選取及表現(xiàn)出的模型精確率與測試集的準確率如表所示。SVM模型構建模型模型精確率測試集準確率SVM0.7280.682隨機森林10.720K鄰近分類0.7890.715樸素貝葉斯0.5220.526決策樹10.554Boosting10.753Stacking10.715綜合來看,在該案例中,支持向量機(SVM)的表現(xiàn)相對較優(yōu),因此本案例選擇SVM構建分類模型。其次,對選取好的支持向量機分類模型,利用網(wǎng)格搜索法,對支持向量機的幾個相對較為重要的參數(shù)選取進行搜索、比較,從而找出模型中的最優(yōu)參數(shù)組合。網(wǎng)格搜索各參數(shù)組合情況如表所示。SVM模型構建Ckerneldegreegamma網(wǎng)格搜索在測試集上的得分20rbf100.10.71420linear100.10.70320sigmoid100.10.18920poly200.10.694模型的性能所表現(xiàn)出的狀態(tài)會相應的影響到最終分類的結果,由于本案例為多分類模型,因此在對模型進行評價的指標有3個:模型精確率、測試集準確率和混淆矩陣。所得的模型精度與測試集的準
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年家具制造與供應協(xié)議
- 企業(yè)課件教學
- 2024奶牛養(yǎng)殖企業(yè)環(huán)保責任合同
- 2024年建筑工程裝飾分包合同文本
- 2024年工程建設項目中介服務簡約合同
- 2024蘇州汽車質(zhì)押借款合同范本
- 公司行政部門經(jīng)理工作總結
- 企業(yè)迎新晚會主持詞(6篇)
- 現(xiàn)代商務課件教學課件
- 英語課件簡約教學課件
- 廣東深圳市福田區(qū)選用機關事業(yè)單位輔助人員和社區(qū)專職工作者365人模擬試卷【共500題附答案解析】
- (本科)新編大學英語寫作revised chapter 2ppt課件(全)
- 表格02保潔質(zhì)量評分表
- 上海中、低壓電網(wǎng)配置原則及典型設計
- 公共經(jīng)濟學ppt課件(完整版)
- 非參數(shù)統(tǒng)計教學ppt課件(完整版)
- 關于成立醫(yī)院愛國衛(wèi)生委員會及完善工作職責制度的通知
- 公司股權轉(zhuǎn)讓協(xié)議_1
- 常用高頸法蘭尺寸表
- 基于嵌入式的溫度傳感器的設計
- 汽車線束控制計劃
評論
0/150
提交評論