




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)新聞與信息可視化數(shù)據(jù)分析之文本挖掘第六章目錄CONTENT01.
文本挖掘在數(shù)據(jù)新聞中的應(yīng)用02.文本預(yù)處理03.
詞頻與關(guān)鍵詞分析04.主題發(fā)現(xiàn)、情感分析與語(yǔ)義網(wǎng)絡(luò)05.
數(shù)據(jù)分析與數(shù)據(jù)新聞敘事文本挖掘在數(shù)據(jù)新聞中的應(yīng)用第一節(jié)1.1文本挖掘在數(shù)據(jù)新聞中的應(yīng)用傳統(tǒng)的社會(huì)科學(xué)研究方法其實(shí)已經(jīng)形成了一系列分析“文本”的策略,如內(nèi)容分析、文本分析、符號(hào)分析、對(duì)話分析、話語(yǔ)分析等方法去闡釋各種文本的意義隨著數(shù)據(jù)科學(xué)的發(fā)展,使用計(jì)算機(jī)代替人工來(lái)分析文本數(shù)據(jù)的技術(shù)應(yīng)運(yùn)而生,例如利用計(jì)算機(jī)識(shí)讀、解析人類語(yǔ)言的的自然語(yǔ)言處理(naturallanguageprocessing)技術(shù)。今天的數(shù)據(jù)新聞?dòng)浾咭部梢允褂糜?jì)算機(jī)輔助方法來(lái)高效地分析文本數(shù)據(jù)。這類方法被稱為電腦輔助文本分析(computer-assistedtextanalysis)或文本挖掘(textmining)。我們可以通過(guò)簡(jiǎn)單的編程語(yǔ)言操作或更加直觀的軟件程序來(lái)調(diào)用文本挖掘方法。圖
澎湃新聞報(bào)道中呈現(xiàn)的主題分布與關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)文本預(yù)處理2.1原理與步驟2.2中文分詞2.3文檔—詞項(xiàng)矩陣第二節(jié)處理自然語(yǔ)言最簡(jiǎn)便也是最常見(jiàn)的方法是詞袋模型(bagofwords)。詞袋是一個(gè)比喻的說(shuō)法,該方法將語(yǔ)料中的詞語(yǔ)拆散后,混合在一起進(jìn)行分析,就仿佛將拆開(kāi)的詞語(yǔ)混裝進(jìn)一個(gè)口袋再來(lái)統(tǒng)計(jì)。詞袋模型不考慮詞語(yǔ)之間的先后順序以及語(yǔ)法,僅以詞語(yǔ)在文檔中出現(xiàn)的頻次權(quán)重來(lái)考察文本的意義。因此,詞袋模型是一種對(duì)文本內(nèi)容極度簡(jiǎn)化的方案。詞袋模型的好處就是適用范圍較廣,實(shí)現(xiàn)起來(lái)也比較容易。
2.1
原理與步驟
主要步驟分詞(wordsegmentation或wordtokenization)去除停用詞(droppingcommonwords)詞語(yǔ)標(biāo)準(zhǔn)化(normalization)圖
詞袋模型表現(xiàn)文本的方法示意這里介紹中文分詞的工具結(jié)巴中文分詞(jieba)。該分詞器在中文分詞領(lǐng)域較為流行,技術(shù)成熟,使用簡(jiǎn)單。R語(yǔ)言操作設(shè)置分詞器:worker()分詞操作:segment()設(shè)置停用詞詞典與用戶詞典2.2
中文分詞左圖為原文右圖為分詞結(jié)果我們所要分析的全部文檔的總和被稱為語(yǔ)料庫(kù)(corpus)。文檔-詞項(xiàng)矩陣非常類似我們熟悉的二維數(shù)據(jù)集,其中的行代表文檔,欄代表語(yǔ)料庫(kù)(所有文檔的集合)中的每一個(gè)詞項(xiàng),而數(shù)據(jù)項(xiàng)中的數(shù)值則代表某一詞項(xiàng)(縱向)在某一個(gè)文檔(橫向)上出現(xiàn)的頻數(shù)(如下圖)。這樣,文檔-詞項(xiàng)矩陣就將一個(gè)個(gè)文檔轉(zhuǎn)換成數(shù)字表達(dá)的形式,很多挖掘方法都以該矩陣為重要基礎(chǔ)。使用tmcn包創(chuàng)建dtm:createDTM()使用tm包檢視矩陣:inspect()2.3
文檔—詞項(xiàng)矩陣(dtm)詞頻-逆文檔頻率算法(termfrequency-inversedocumentfrequency,簡(jiǎn)稱tf-idf):如果一個(gè)詞在某個(gè)文檔中出現(xiàn)頻率很高,同時(shí)這個(gè)詞在所有其它文檔中也是高頻詞,那么這個(gè)詞的相對(duì)重要性可能沒(méi)有詞頻顯示出來(lái)的那么高。換句話說(shuō),我們應(yīng)該根據(jù)某個(gè)詞在整個(gè)文本中出現(xiàn)的頻率去調(diào)整這個(gè)詞的詞頻權(quán)重。tf-idf是文本挖掘中最常見(jiàn)的加權(quán)技術(shù),在關(guān)鍵詞提取、文本聚類等方法中應(yīng)用廣泛。詞頻與關(guān)鍵詞分析3.1詞頻統(tǒng)計(jì)3.2詞頻統(tǒng)計(jì)的可視化第三節(jié)詞頻統(tǒng)計(jì)分析文本關(guān)鍵詞的方法。從最基本的思路出發(fā),當(dāng)一個(gè)詞在文本中出現(xiàn)的越多,它的重要性就越高。1.
使用jiebaR進(jìn)行詞頻統(tǒng)計(jì):
統(tǒng)計(jì)詞頻:freq()
對(duì)詞語(yǔ)進(jìn)行過(guò)濾filter_segment()2.通過(guò)tf-idf算法提取前10關(guān)鍵詞keys<-worker("keywords",topn=10)
keywords(XXX,keys)3.根據(jù)文檔-詞項(xiàng)矩陣也可以統(tǒng)計(jì)高頻詞。該矩陣的欄代表語(yǔ)料庫(kù)中的詞項(xiàng),那么將矩陣按照每一欄對(duì)數(shù)值加總,就求得了每一個(gè)詞的總頻率:
colSums(as.matrix(dtm))3.1詞頻統(tǒng)計(jì)圖
文檔—詞項(xiàng)矩陣示意3.2詞頻統(tǒng)計(jì)的可視化
圖《流浪地球》評(píng)論前10名高頻詞的條狀圖圖《流浪地球》評(píng)論前30個(gè)關(guān)鍵詞的散點(diǎn)圖(根據(jù)tf-idf值計(jì)算)圖《流浪地球》豆瓣影評(píng)高頻詞詞云圖示例之一圖《流浪地球》豆瓣影評(píng)高頻詞詞云圖示例之二3.2詞頻統(tǒng)計(jì)的可視化
詞云在數(shù)據(jù)新聞中的應(yīng)用。例如,“復(fù)數(shù)實(shí)驗(yàn)室”的作品《原生家庭之殤:從5243條數(shù)據(jù)看家庭語(yǔ)言暴力》,就使用了詞云呈現(xiàn)原生家庭中針對(duì)身材長(zhǎng)相的語(yǔ)言暴力(左圖)。澎湃新聞“美數(shù)課”的作品《分析完2萬(wàn)條數(shù)據(jù),我們發(fā)現(xiàn)海外中餐館重塑了“中餐”的定義》通過(guò)爬取點(diǎn)評(píng)網(wǎng)站Yelp內(nèi)容呈現(xiàn)海外中餐廳名稱的關(guān)鍵詞(右下圖)。主題發(fā)現(xiàn)、情感分析與語(yǔ)義網(wǎng)絡(luò)4.1主題發(fā)現(xiàn)4.2情感分析4.3語(yǔ)義網(wǎng)絡(luò)第四節(jié)文本分析經(jīng)常需要處理為數(shù)較多的文本。有些文本可能會(huì)涉及同一類議題,因而比較相近。那么一個(gè)簡(jiǎn)單的想法是,我們能不能根據(jù)文本的主題將眾多文本歸入若干類別?通過(guò)文本主題分類,我們就能形成對(duì)所分析文本的整體性理解。
第一種方法:利用聚類分析(clusteranalysis)
首先對(duì)語(yǔ)料做預(yù)處理,生成文檔-詞項(xiàng)矩陣使用as.matrix函數(shù)將dtm轉(zhuǎn)換成一般的矩陣使用dist()函數(shù)計(jì)算距離選擇不同的聚類方法進(jìn)行分析4.1主題發(fā)現(xiàn)圖
對(duì)文檔進(jìn)行層次聚類分析的樹(shù)狀圖圖K-means聚類結(jié)果的可視化呈現(xiàn)方法2:基于非監(jiān)督機(jī)器學(xué)習(xí)算法的隱狄利克雷主題模型(LDA,LatentDirichletallocation)
LDA模型將所有待分析文檔看成是若干主題混合體,同時(shí)將主題看成是一些列詞語(yǔ)的集合。LDA模型將主題看成是一些列詞語(yǔ)的集合。
LDA通過(guò)多項(xiàng)分布假設(shè)和
計(jì)算方來(lái)同時(shí)估計(jì)文檔-模型組合的情況以及主題-詞項(xiàng)組合的情況。在R語(yǔ)言中我們可以使用topicmodels()函數(shù)進(jìn)行LDA主題分析4.1主題發(fā)現(xiàn)圖
使用LDAvis對(duì)主題模型進(jìn)行可視化呈現(xiàn)(上圖λ=1,下圖λ=0.5)情感分析可以幫助研究者量化一個(gè)文本單位所包含的情感特征,可以計(jì)算出一個(gè)文本單位的正面情緒與負(fù)面情緒數(shù)值,并對(duì)其進(jìn)行比較,也可以量化地呈現(xiàn)更為細(xì)致的情緒元素,如喜悅、憤怒、焦慮等等。
電腦輔助情感分析通常采取兩種路徑:基于詞典的情緒分析與基于機(jī)器學(xué)習(xí)的情緒分析。4.2情感分析
圖
三類情緒的影評(píng)數(shù)量分布餅狀圖圖
影評(píng)中若干情緒特征的平均值雷達(dá)圖圖
不同日期影評(píng)正負(fù)面情緒分布(比例)圖我們可以借助社會(huì)網(wǎng)絡(luò)分析(socialnetworkanalysis)的基本方法,來(lái)對(duì)文本中出現(xiàn)的詞對(duì)進(jìn)行分析。社會(huì)網(wǎng)絡(luò)分析是一種經(jīng)典的用以描述和理解社會(huì)關(guān)系的數(shù)據(jù)分析技術(shù)。與我們熟悉的屬性數(shù)據(jù)不同,社會(huì)網(wǎng)絡(luò)分析聚焦關(guān)系型數(shù)據(jù),其分析的對(duì)象是節(jié)點(diǎn)之間的聯(lián)系。從網(wǎng)絡(luò)分析的視角來(lái)審視文本,文本中的詞語(yǔ)可被看成網(wǎng)絡(luò)中的節(jié)點(diǎn)(node或vertex);當(dāng)一個(gè)詞語(yǔ)出現(xiàn)在另一個(gè)詞語(yǔ)附近一定距離范圍內(nèi)時(shí),則認(rèn)為兩個(gè)詞語(yǔ)形成了具有關(guān)系的詞對(duì),二者之間建立了聯(lián)系,在網(wǎng)絡(luò)分析中被稱作邊(tie或edge)。通過(guò)統(tǒng)計(jì)文本中的詞頻及詞對(duì)的頻率,我們就可以將文本轉(zhuǎn)換為一個(gè)網(wǎng)絡(luò)狀的關(guān)系型數(shù)據(jù),并通過(guò)分析這個(gè)由詞對(duì)構(gòu)成的網(wǎng)絡(luò)來(lái)闡釋文本的語(yǔ)義結(jié)構(gòu)。我們介紹使用WORDij與igrah()包進(jìn)行語(yǔ)義網(wǎng)絡(luò)分析的方法。4.3語(yǔ)義網(wǎng)絡(luò)圖
使用plot函數(shù)對(duì)《報(bào)告》進(jìn)行語(yǔ)義網(wǎng)絡(luò)繪圖圖
度中心性與邊權(quán)重的語(yǔ)義網(wǎng)絡(luò)圖形圖
使用標(biāo)簽散播算法發(fā)現(xiàn)社群示意圖數(shù)據(jù)分析與數(shù)據(jù)新聞敘事5.1以數(shù)據(jù)分析呈現(xiàn)新聞事實(shí)5.2以數(shù)據(jù)分析輔助新聞分析與解釋5.3以數(shù)據(jù)分析驅(qū)動(dòng)新聞敘事5.4交代數(shù)據(jù)分析方法提高新聞的透明性5.5整合應(yīng)用數(shù)據(jù)分析與信息可視化第五節(jié)在對(duì)事實(shí)的描述與呈現(xiàn)上,數(shù)據(jù)分析有很大優(yōu)勢(shì)。數(shù)據(jù)對(duì)事實(shí)的刻畫更加精確,也更容易排除主觀性因素。在報(bào)道過(guò)程中,對(duì)數(shù)據(jù)的總結(jié)與基本描述,本身就是一種非常實(shí)用的事實(shí)報(bào)道策略。例如,在“上觀”數(shù)據(jù)新聞的報(bào)道《史上關(guān)注度最高的一屆冬奧會(huì),到底憑什么?,就利用匯總數(shù)據(jù)與信息圖對(duì)奧運(yùn)會(huì)帶動(dòng)中國(guó)冰雪產(chǎn)業(yè)、中國(guó)冬奧歷史成績(jī)等基本事實(shí)進(jìn)行了呈現(xiàn)。5.1以數(shù)據(jù)分析呈現(xiàn)新聞事實(shí)圖
數(shù)據(jù)新聞通過(guò)數(shù)據(jù)分析呈現(xiàn)新聞事實(shí)新聞報(bào)道常涉及對(duì)新聞背景的調(diào)查或?qū)κ录脑?、走?shì)等進(jìn)行解釋,以幫助讀者更好地理解現(xiàn)實(shí)。數(shù)據(jù)分析是對(duì)數(shù)據(jù)信息中隱含關(guān)系的揭示,因而可以幫助我們進(jìn)行新聞分析或解釋。運(yùn)用統(tǒng)計(jì)模型透視數(shù)據(jù),往往會(huì)幫助記者看到線性思維難以發(fā)覺(jué)的模式。利用數(shù)據(jù)和統(tǒng)計(jì)來(lái)進(jìn)行新聞分析,也可以一定程度上減小新聞工作的主觀偏向。網(wǎng)易新聞的“數(shù)讀”的報(bào)道《中國(guó)哪個(gè)城市通勤時(shí)間最長(zhǎng),特別好猜》則利用數(shù)據(jù)對(duì)不同城市的公共交通狀況進(jìn)行對(duì)比分析,從而呈現(xiàn)城市因素對(duì)于交通狀況的影響。5.2以數(shù)據(jù)分析輔助新聞分析與解釋圖
數(shù)據(jù)新聞分析我國(guó)不同城市的通勤時(shí)間當(dāng)我們所分析的數(shù)據(jù)信息量比較豐富,且可發(fā)掘的維度較多時(shí),采用不同的分析方法對(duì)數(shù)據(jù)進(jìn)行解讀,就可以構(gòu)建一個(gè)敘事邏輯。在這種情況下,數(shù)據(jù)新聞?dòng)浾咄ㄟ^(guò)數(shù)據(jù)分析建立的邏輯,就可以成為新聞敘事的重要驅(qū)動(dòng)力。例如,“復(fù)數(shù)實(shí)驗(yàn)室”的數(shù)據(jù)新聞作品《寶貝回家:7萬(wàn)條數(shù)據(jù)解讀兒童拐賣與遺棄》就體現(xiàn)出數(shù)據(jù)驅(qū)動(dòng)新聞的特征。該報(bào)道主要利用裁判文書(shū)網(wǎng)相關(guān)的文書(shū)數(shù)據(jù),首先利用文本分析交代了失蹤兒童的外表特征、性別分布、遺失地點(diǎn)等信息,接著從法律和犯罪的角度分析了相關(guān)案件的特征。5.3
以數(shù)據(jù)分析驅(qū)動(dòng)新聞敘事
圖
數(shù)據(jù)新聞構(gòu)建兒童拐賣與遺棄的敘事邏輯記者必須清晰交代所有數(shù)據(jù)的來(lái)源,詳述數(shù)據(jù)收集、整理的方式,并將數(shù)據(jù)分析中的操作化方式和分析方法全部向讀者呈現(xiàn)。理論上,任何讀者都可以用這些方法重復(fù)(replicate)數(shù)據(jù)分析的過(guò)程并取得一致性結(jié)果。交代數(shù)據(jù)分析的全過(guò)程,實(shí)際上構(gòu)成了一種新聞透明性的儀式,反過(guò)來(lái)可增強(qiáng)讀者對(duì)新聞客觀性的感受,進(jìn)而提高新聞報(bào)道的權(quán)威,贏得讀者的信賴。下圖是澎湃“美數(shù)課”對(duì)其報(bào)道《數(shù)說(shuō)兩會(huì)|1978年到2022年政府工作報(bào)告關(guān)鍵詞盤點(diǎn)》的數(shù)據(jù)分析方法說(shuō)明。5.4
交代數(shù)據(jù)分析方法提高新聞的透明性
圖
數(shù)據(jù)新聞中交代
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 課題申報(bào)書(shū)課題進(jìn)度
- 前臺(tái)薪資合同范本模板
- 廈門 代建合同范本
- 公司頂層設(shè)計(jì)合同范本
- 傷殘賠償合同范本
- 品牌使用授權(quán)合同范本
- 保安與個(gè)人合同范本
- 廠房墻面翻新合同范例
- 樂(lè)器維修采購(gòu)合同范例
- 合同范本合作期限
- 變更賬戶通知函
- 食品中水分的測(cè)定原始記錄
- 船臺(tái)租賃合同船臺(tái)租賃合同
- 2023年中央企業(yè)領(lǐng)導(dǎo)班子和領(lǐng)導(dǎo)人員考核評(píng)價(jià)辦法
- 中南財(cái)經(jīng)政法大學(xué)統(tǒng)計(jì)學(xué)練習(xí)題和答案
- 延長(zhǎng)石油集團(tuán)企業(yè)文化知識(shí)試題(含答案)
- 統(tǒng)編版五年級(jí)道德與法治下冊(cè)全冊(cè)完整版課件
- 口腔種植學(xué) 課件 口腔種植學(xué)導(dǎo)論-課件
- 全過(guò)程工程咨詢服務(wù)技術(shù)方案
- 宮頸癌化療患者的護(hù)理
- 車間主任考核表實(shí)用文檔
評(píng)論
0/150
提交評(píng)論