新浪微博文本分析初探_第1頁(yè)
新浪微博文本分析初探_第2頁(yè)
新浪微博文本分析初探_第3頁(yè)
新浪微博文本分析初探_第4頁(yè)
新浪微博文本分析初探_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

新浪微博文本分析初探Postedon2013/01/13by郝智恒自從lijian大哥的Rweibo包問世以來,便成了R愛好者們獲取新浪微博數(shù)據(jù)的最為重要的工具。在該包的中文主頁(yè)上,作者對(duì)如何連接新浪微博的 API,獲取授權(quán),并以此為基礎(chǔ)開發(fā)應(yīng)用的原理講解的非常清楚。對(duì)于我這種連基本的網(wǎng)頁(yè)開發(fā)神馬原理都一點(diǎn)也不清楚的菜鳥來說, Rweibo是一種非常趁手的獲取微博數(shù)據(jù)的工具。有了獲取數(shù)據(jù)的工具,對(duì)于中文文本分析來說,最重要的是分詞。這里使用的分詞算法來自中科院ictclas算法。依然是沾了 lijian大哥Rwordseg的光,直接拿來用了。有了這兩樣利器,我們便可以來分析一下新浪微博的數(shù)據(jù)了。我選取的話題是最近熱映的國(guó)產(chǎn)喜劇電影《泰囧》,在微博上拿到了 998條和泰囧”有關(guān)的微博文本。代碼如下(以下代碼不能直接執(zhí)行,請(qǐng)首先閱讀鏈接中 Rweibo的關(guān)于授權(quán)幫助文檔):require(Rweibo)registerApp(app_name="SNA3","********","****************")roauthv-createOAuth(app_name="SNA3",access_name="rweibo")res<-web.search.content(" 泰囧",page=50,sleepmean=10,sleepsd=1)$Weibo獲取了數(shù)據(jù)之后,首先迫不及待對(duì)微博文本進(jìn)行分詞。代碼如下( Rwordseg包可以在語料庫(kù)中自助加入新詞,比如下面的 insertWords語句):require(Rwordseg)insertWords("泰囧")n=length(res[,1])res=res[res!=""]words=unlist(lapply(X=res,FUN=segmentCN))

word=lapply(X=words,FUN=strsplit,"")v=table(unlist(word))v=sort(v,deceasing=T)v[1:100]head(v)d=data.frame(word=names(v),freq=v)完成分詞之后,我們最先想到的, 便是對(duì)詞頻進(jìn)行統(tǒng)計(jì)。 詞頻排名前53的詞列表如下(這個(gè)詞頻是我人工清理過的,但是只刪除了一些符號(hào)):泰囧1174一代宗師87時(shí)候53生活44娛樂35成功30電影385看過70影片52文化43但是33王寶強(qiáng)30票房306上映68今天51影院43分享33囧275泰國(guó)68喜劇51炮轟40發(fā)現(xiàn)32笑192感覺62導(dǎo)演49電影院38故事32俗188觀眾61好看49排38光線32十二生肖123可以60喜歡49哈哈37國(guó)民32什么104大家59上海48獸37時(shí)間32中國(guó)102教授56現(xiàn)在48水平37哈哈哈31徐崢9011億54搞笑47需要35逼30從中我們可以看出一些東西。比如說這部電影的口碑似乎還不錯(cuò),此外某教授對(duì)其的炮轟也引發(fā)了不少得討論。 另外,同檔期的另外兩部電影(一代宗師,十二生肖)也經(jīng)常和它同時(shí)被提及(這是否會(huì)對(duì)某些搞傳播和營(yíng)銷的人帶來一些啟發(fā),聯(lián)動(dòng)效應(yīng)之類的,純數(shù)個(gè)人瞎說)。詞云展示是不可少的,展示頻率最高的 150個(gè)詞(這里我實(shí)現(xiàn)把分詞的結(jié)果存放在了 txt文件中,主要目的是為了節(jié)省內(nèi)存):require(wordcloud)d=read.table("wordseg.txt")dd=tail(d,150)op=par(bg="lightyellow")#grayLevels=gray((dd$freq)/(max(dd$freq)+140))rainbowLevels=rainbow((dd$freq)/(max(dd$freq)-10))wordcloud(dd$word,dd$freq,col=rainbow(length(d$freq)))par(op)E-—成勒可以罩-E-—成勒可以罩-■mFEA牌進(jìn)匚醫(yī)旻七m一珀看荽詹像%大冬沁jHJFX.gp ■*--二凱或”亙戈產(chǎn)…3tfe

腫中國(guó)V12三丟苣術(shù)干下面做一些相對(duì)來說比較專業(yè)的文本挖掘的工作。主要目的是對(duì)這 998條微博進(jìn)行聚類。聚類里最核心的概念是距離。將距離比較靠近的數(shù)據(jù)聚為一類就是聚類。對(duì)于文本來說,如何定義距離呢?也就是說我如何來衡量微博與微博之間的距離。這涉及到了文本挖掘最基本的概念,通過建立語料庫(kù),詞頻 -文檔矩陣,來衡量文檔之間的相關(guān)性,從而衡量文檔之間的距離之類的。 詳情請(qǐng)參看劉思喆大哥 R語言環(huán)境下的文本挖掘。下面使用PAM算法,對(duì)998條微博進(jìn)行聚類??纯茨懿荒艿贸鲆恍┦裁从幸馑嫉慕Y(jié)果。PAM算法全稱是PartitioningAroundMedoids算法。中文翻譯為圍繞中心點(diǎn)的劃分算法。該算法是基于相異矩陣的( dissimilaritymatrix)。也就是說,這個(gè)算法對(duì)于樣本的距離度量是基于相異矩陣的。而不是基于通常使用的距離。因此,這個(gè)算法相對(duì)來說比較穩(wěn)健(比起 kmeans)。該算法首先計(jì)算出 k個(gè)medoid,medoid的定義有點(diǎn)繞口?;旧系南敕ň褪撬屯痪垲愔械钠渌麑?duì)象的相異性是最小的。也就是說,同一個(gè)聚類的對(duì)象都是圍繞著 medoid的。和它的平均相異程度最小。找到這些medoid之后,再將其他樣本點(diǎn)按照與 medoid的相似性進(jìn)行分配。 從而完成聚類。R語言中的fpc包實(shí)現(xiàn)了這種算法,并且給出了非常有意思的聚類圖。require(tm)#先生成一個(gè)語料庫(kù),來清理一下微博的文本weiboCorpusv-Corpus(VectorSource(res))#刪除標(biāo)點(diǎn)符號(hào)weiboCorpusv-tm_map(weiboCorpus,removePunctuation)#刪除數(shù)字weiboCorpusv-tm_map(weiboCorpus,removeNumbers)#刪除URL,使用了一點(diǎn)正則表達(dá)式removeURLv-function(x)gsub("http[[:aInum:]]*","",x)weiboCorpusv-tm_map(weiboCorpus,removeURL)#再次分詞weiboDatav-as.data.frame(weiboCorpus)weiboDatav-t(weiboData)weiboDatav-as.data.frame(weiboData)#head(weiboData)人再囧途insertWords(c(" 泰囧"," 十二生肖"," 一代宗師","黃渤"," 人在囧途“人再囧途IIJ"三俗"))weiboData$segWordv-segmentCN(as.matrix(weiboData)[,1])head(weiboData)

#第二個(gè)變量為分詞的結(jié)果#再次形成一個(gè)語料庫(kù),用來做更進(jìn)一步的分析weiboCorpusForAnys# 生成文檔-詞條矩陣weiboTDMatrixv-TermDocumentMatrix(weiboCorpusForAnys,control=list(wordLengths=c(1,Inf)))#對(duì)微博進(jìn)行聚類MatrixWeiboForClusterv-t(MatrixForCluster)k<-3kmeansResv-kmeans(MatrixWeiboForCluster,k)require(fpc)pamResv-pamk(MatrixWeiboForCluster,metric="manhattan")k<-pamRes$nckpamResultv-pamRes$pamobjectlayout(matrix(c(1,2),2,1))plot(pamResult,color=F,labels=4,lines=0,cex=0.8,

col.clus=1,col.p=pamResult$clustering)layout(matrix(1))pamRes結(jié)果我們將微博分成了兩類:出』.詞呼網(wǎng)鼻■Bwu. &■di??.'immImviap\[1'當(dāng)然了,從這個(gè)圖,你很難看出點(diǎn)什么有益的信息,就是圖個(gè)好看。我們不妨來看看被分成兩類的微博都分別說了些什么。具體看到過程和解讀因人而異,這里也沒什么代碼要列出來。我只說一些我看到的,不保證是對(duì)的。兩個(gè)聚類中的微博討論的問題不同,第一類討論的是看了泰囧的心情,比如開心,高興抑或難過之類的。比如:哈哈哈二到無窮大?大半夜的我這二逼在家看泰囧?笑到爸爸起床罵我..不好意思咧.實(shí)在沒忍住”時(shí)間滴答滴答的走我知道我在想著一個(gè)人看泰囧片頭的時(shí)候熟悉的名字我一下子愣住了我想我是在乎了這樣的夜里我難過”大半夜睡不著覺一個(gè)人在家看盜版泰囧突然覺得很凄慘 ”我們一起吃牛排一起坐輪渡一起看金門一起去樂園一起吃牛排一起看大海一起坐公交一起啃雞爪一起過圣誕一起看泰囧一起去鼓浪嶼一起打的繞廈門島一起在酒店吃早餐一起在一張大床上睡覺一起吃烤魚一起在大排檔吃肉一起在 KFC買了對(duì)辣翅一起爬鼓山一起抱著對(duì)方說我愛你”這一類微博本身不夠成對(duì)電影的評(píng)價(jià),電影是這些博主生活的一部分,或悲或喜,電影只是陪襯。第二類微博,則集中于對(duì)電影的評(píng)價(jià),褒貶不一,比如:搜索一代宗師發(fā)現(xiàn)十個(gè)里面九個(gè)說不好看上回的泰囧微博上都是說怎么怎么好笑結(jié)果去影院一看大失所望還沒有趙本山演的落葉歸根幽默和寓意深遠(yuǎn)純屬快餐式電影其實(shí)好的事物往往具有很大的爭(zhēng)議性就比如 John.Cage.的有的人覺得純屬扯淡有的人卻如獲至寶我想王家衛(wèi)的電影也是如此 ”應(yīng)該看第一部人在囧途比泰囧好看太多了第一部我從頭看到尾很有意思第二部看分鐘掐斷沉悶沒什么笑點(diǎn)”泰囧實(shí)在好看極了又搞笑又感動(dòng)讓我哭笑不得真心推薦晚安啦 ?我在”發(fā)表了博文?影評(píng)人再囧途之泰囧??首映沒有趕上好多朋友強(qiáng)烈向我推薦推薦理由很具有唯一性笑到我抽搐?笑成了這部電影唯一的標(biāo)簽但是這已經(jīng)足夠了 ?在好萊塢大片沖擊歐洲小資”從我的解讀來看,微博大致分為這兩類,如果進(jìn)一步分析,也可以將發(fā)微博的人分成兩類。一類可能相對(duì)感性,單純,生活中的高興或者快樂,會(huì)表現(xiàn)在微博中。電影只是作為引發(fā)他們情緒的一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論