網(wǎng)絡(luò)論壇人類行為動(dòng)力學(xué)實(shí)證研究_第1頁(yè)
網(wǎng)絡(luò)論壇人類行為動(dòng)力學(xué)實(shí)證研究_第2頁(yè)
網(wǎng)絡(luò)論壇人類行為動(dòng)力學(xué)實(shí)證研究_第3頁(yè)
網(wǎng)絡(luò)論壇人類行為動(dòng)力學(xué)實(shí)證研究_第4頁(yè)
網(wǎng)絡(luò)論壇人類行為動(dòng)力學(xué)實(shí)證研究_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、網(wǎng)絡(luò)論壇人類行為動(dòng)力學(xué)實(shí)證研究摘要:從帖子和用戶兩個(gè)角度對(duì)網(wǎng)絡(luò)論壇的人類行 為動(dòng)力學(xué)特征進(jìn)行實(shí)證統(tǒng)計(jì)和分析對(duì)帖子屬性的統(tǒng)計(jì)分析 發(fā)現(xiàn),帖子的回復(fù)次數(shù)、吸引的不同用戶數(shù)均服從潟律分布, 而帖子的瀏覽次數(shù)分布沒有明顯的規(guī)律性;帖子的瀏覽次數(shù) 和回復(fù)次數(shù)之間存在明顯的正相關(guān)性,且二者的比值大于等 于10.對(duì)用戶發(fā)帖、回帖行為的統(tǒng)計(jì)分析發(fā)現(xiàn),用戶發(fā)帖數(shù)、 回帖數(shù)、回復(fù)的不同主帖數(shù)均服從無律分布,說明網(wǎng)絡(luò)論壇 用戶行為具有很強(qiáng)的異質(zhì)性,大多數(shù)用戶很少發(fā)帖或回帖, 關(guān)注范圍也比較小,只有少數(shù)活躍用戶經(jīng)常發(fā)帖或回帖,關(guān) 注面非常廣;還發(fā)現(xiàn)單個(gè)用戶單日回帖數(shù)以及單個(gè)用戶針對(duì) 單個(gè)主帖的回復(fù)數(shù)也均服從無律分布,

2、存在少數(shù)用戶在個(gè)別 日子里發(fā)表大量回帖和少數(shù)用戶針對(duì)少量主帖發(fā)表大量回 帖的現(xiàn)象.這些結(jié)論對(duì)于在線用戶行為建模具有重要的指導(dǎo) 意義,也為網(wǎng)絡(luò)輿情監(jiān)控和網(wǎng)絡(luò)水軍發(fā)現(xiàn)提供了新的思路.關(guān)鍵詞:人類動(dòng)力學(xué);用戶行為;幕律分布;數(shù)據(jù)分析; 在線網(wǎng)絡(luò)論壇中圖分類號(hào):tp391. 1文獻(xiàn)標(biāo)識(shí)碼:aempirical analysis on human behavior dynamics in online forumchen gui-rongl, cai wan-dongl, xu hui-jiel, yangxian-ju2(1. college of computer ,northwesternpoly

3、technical univ, xi,an, shaanxi 710072, china;2. nanjing military region 73658 forces, nanjing, jiangsu 210016, china)abstract :this paper reported an empiricalanalysis on user behavior dynamics in online forum. the analysis results on the posts show that both the distribution of the reply number of

4、posts and the distribution of different user number of posts follow power-law distributions with heavy tails, while the distribution of the browse number of posts has no laws. we observed posi tive correlation bet ween browse number of posts and reply number of posts and the ratio of them is bigger

5、than 10. the statistic results of the users, actions show that the post number, the reply number and the number of root posts which a user has posted replies all follow power-law distributions , which means that the user behaviors in online forums are heterogeneous, and most users post or reply rare

6、ly while few users post or reply frequently, and that most users have a small range of concerns while few users have a large range of concerns we also observed that both the dis trib ution of one-user oneday reply number and the distribution of one-user one-post reply number follow power-law distrib

7、utions, which means that some people submit a large number of replies on a few of days or submit a large number of replies on a few of posts the findings of this paper may not only provide guides to online user behavior modeling but may also be applied to online public opinion monitoring and online

8、water-army finding.key words:human dynamics ; user behaviour;power-law dis trib ution; data analysis; online forum 人類活動(dòng)是各種社會(huì)、經(jīng)濟(jì)和技術(shù)現(xiàn)象的驅(qū)動(dòng)力,定量 研究人的行為具有很高的學(xué)術(shù)價(jià)值和實(shí)際意義,成為現(xiàn)代科 學(xué)界的一個(gè)核心問題受諸多因素影響,人的行為具有很高 的復(fù)雜性和動(dòng)態(tài)性,認(rèn)識(shí)和挖掘人類行為規(guī)律具有很大難度. 在以往對(duì)社會(huì)、經(jīng)濟(jì)和通信系統(tǒng)的研究中,為了簡(jiǎn)化問題, 通常用泊松過程來刻畫人的行為,即假設(shè)人類行為在時(shí)間上 是均勻的.近年來,隨著數(shù)據(jù)庫(kù)技術(shù)、海量數(shù)據(jù)處理技術(shù)

9、的長(zhǎng)足發(fā) 展和網(wǎng)絡(luò)的普及,越來越多的人類行為被記錄下來,為定量 研究人類行為提供了豐富的數(shù)據(jù)源,人類行為研究取得了新 進(jìn)展.2005年,barab d si通過對(duì)電子郵件的發(fā)送和回復(fù)等 人類行為時(shí)間間隔的實(shí)際統(tǒng)計(jì),發(fā)現(xiàn)人類行為具有明顯的非 泊松特性,即人類行為發(fā)生的時(shí)間間隔分布并不均勻,長(zhǎng)時(shí) 間的靜默和短時(shí)間內(nèi)的爆發(fā)同時(shí)存在,這種不均勻性表現(xiàn)為 給定任務(wù)的連續(xù)兩次執(zhí)行時(shí)間間隔服從重尾分布1-21.為 了驗(yàn)證非泊松統(tǒng)計(jì)特性在人類行為中是否普遍存在,研究者 們對(duì)在線人類行為進(jìn)行了廣泛的研究,發(fā)現(xiàn)在電影點(diǎn)播 3-4.網(wǎng)頁(yè)瀏覽5-6、博客評(píng)論7-8.在線協(xié)同寫作9、 短消息通信10-11、圖書借閱12

10、-13和電話呼叫14等人 類行為中均具有非泊松統(tǒng)計(jì)特性,表現(xiàn)為這些人類行為的時(shí) 間間隔均服從幕律分布,幕指數(shù)多位于13之間15-16, 其中很多成果是國(guó)內(nèi)學(xué)者取得的3-4, 7-14, 17-25.周濤 等研究了在線電影點(diǎn)播系統(tǒng)中的人類動(dòng)力學(xué)行為模式,發(fā)現(xiàn) 在群體水平上兩次連續(xù)觀看電影的時(shí)間間隔分布在一定范 圍內(nèi)服從無律分布,且幕指數(shù)和用戶的平均活躍度存在單調(diào) 正相關(guān)關(guān)系3-4.郭進(jìn)利對(duì)博客評(píng)論數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,發(fā) 現(xiàn)博客評(píng)論的時(shí)間間隔也服從無律分布,人們總是對(duì)新話題 興趣較大,但隨著時(shí)間的推移,興趣會(huì)逐漸減弱直至消失, 并根據(jù)這個(gè)特征提出了一個(gè)興趣逐漸消失的人類動(dòng)力學(xué)行 為模型7-81.趙飛

11、等研究了維基百科中在線協(xié)同寫作行為 的動(dòng)力學(xué)模式,發(fā)現(xiàn)在線協(xié)同寫作時(shí)間間隔分布呈現(xiàn)多尺度 特征,在130 min和30 min24 h兩個(gè)時(shí)間段上服從幕律分布,而大于24 h的時(shí)間間隔服從累積分布,并給出了 出現(xiàn)這種現(xiàn)象的原因9.樊超等通過分析某兩所圖書館的 借閱記錄,研究了人類行為的分形特征,發(fā)現(xiàn)人類行為時(shí)間 序列具有自相似性和長(zhǎng)期正相關(guān)性,群體用戶的分形特征表 現(xiàn)較為明顯,個(gè)體用戶的時(shí)間序列則具有一定的波動(dòng)性 12-13.趙志丹等統(tǒng)計(jì)分析了 6個(gè)大型在線系統(tǒng)中的人類動(dòng) 力學(xué)特征,發(fā)現(xiàn)用戶活動(dòng)總數(shù)、用戶的活躍度和時(shí)間間隔均 服從重尾分布,且用戶的活躍度和用戶活動(dòng)總數(shù)存在明顯的 正相關(guān)關(guān)系,和

12、用戶時(shí)間間隔分布寬度存在明顯的負(fù)相關(guān)關(guān) 系17-18.這些研究通過對(duì)人類在線行為時(shí)間特性的統(tǒng)計(jì) 分析,證實(shí)人類在線活動(dòng)的時(shí)間間隔服從幕律分布,進(jìn)一步 驗(yàn)證了 barab a si的觀點(diǎn)1-2.人類行為的復(fù)雜性決定了僅從時(shí)間方面分析人的行為是不夠的,需要從更多的 角度對(duì)人類行為進(jìn)行研究.目前一些學(xué)者已開始對(duì)人類活動(dòng) 數(shù)量進(jìn)行實(shí)證分析,并取得了一定成果26-31.熊菲等以天 涯論壇經(jīng)濟(jì)版塊的數(shù)據(jù)為研究對(duì)象,分析了 bbs話題的聚類 特性,發(fā)現(xiàn)用戶興趣具有非常強(qiáng)的異質(zhì)性且用戶的關(guān)注點(diǎn)總 是集中在自己感興趣的話題上,在此基礎(chǔ)上提出了一個(gè)用戶 興趣驅(qū)動(dòng)的網(wǎng)絡(luò)增長(zhǎng)模型并進(jìn)行了仿真28.司夏萌等通過 建立虛

13、擬社區(qū)網(wǎng)絡(luò)、分析網(wǎng)絡(luò)的統(tǒng)計(jì)特性,研究了虛擬社區(qū) 中在線用戶的交互行為,從定量角度證實(shí)了社會(huì)學(xué)的一些定 性結(jié)論29. 丁菲等對(duì)bbs中人類的閱讀和回復(fù)行為進(jìn)行分 析,發(fā)現(xiàn)討論話題大小和用戶參與級(jí)別均服從幕律分布,但 用戶興趣不服從無律分布30.盡管已經(jīng)取得了一些成果, 但關(guān)于人類在線活動(dòng)數(shù)量特征的研究尚未取得統(tǒng)一結(jié)論.如 文獻(xiàn)26通過對(duì)某網(wǎng)絡(luò)論壇日志數(shù)據(jù)的實(shí)證分析,發(fā)現(xiàn)用戶 提交的文章數(shù)服從對(duì)數(shù)正太分布,而文獻(xiàn)28-30卻發(fā)現(xiàn)用 戶發(fā)表的帖子數(shù)服從無律分布;文獻(xiàn)27的實(shí)證結(jié)果顯示論 壇帖子的瀏覽次數(shù)和回復(fù)次數(shù)均服從幕律分布,而文獻(xiàn)29 發(fā)現(xiàn)帖子回復(fù)次數(shù)服從幕律分布而瀏覽次數(shù)不服從幕律分 布.可見

14、對(duì)在線人類行為數(shù)量特征的研究還不是很充分,有 必要對(duì)其展開更深入的研究.在線網(wǎng)絡(luò)論壇又稱為電子公告欄(bulletin board systems,簡(jiǎn)稱bbs),是人們交流觀點(diǎn)和共享信息的重要平 臺(tái).和博客等實(shí)名制社交網(wǎng)絡(luò)相比,bbs具有更大的開放性、 自由性和隱匿性,人們可隨意注冊(cè)不同的用戶名,而不用泄 露自己的真實(shí)身份,且用戶不受好友關(guān)系限制,只要登錄論 壇就可隨意瀏覽論壇中的信息,也可隨意發(fā)布信息.因此, bbs已成為我國(guó)輿論突發(fā)事件的主要集中地研究網(wǎng)絡(luò)論壇 的用戶行為動(dòng)力學(xué)特征,不僅有助于理解在線用戶行為模 式,也有助于理解互聯(lián)網(wǎng)突發(fā)事件的發(fā)生原因及其背后的機(jī) 理,有效實(shí)施網(wǎng)絡(luò)輿情監(jiān)控

15、.人們?cè)赽bs上發(fā)布的信息通常稱作帖子,如果一個(gè)帖子 是某個(gè)話題的第一個(gè)帖子,將其稱為主帖或根帖,其他帖子 無論是直接回復(fù)主帖還是回復(fù)其他帖子都稱作回帖這樣用 戶在論壇中的行為就可分為3種:瀏覽帖子、發(fā)表主帖和發(fā) 表回帖,分別簡(jiǎn)稱為瀏覽、發(fā)帖和回帖,這里的瀏覽僅指對(duì) 主帖的瀏覽本文以國(guó)內(nèi)知名論壇網(wǎng)易新聞?wù)搲臄?shù)據(jù)為對(duì) 象,從帖子和用戶兩個(gè)方面對(duì)用戶在線行為動(dòng)力學(xué)特性進(jìn)行 實(shí)證統(tǒng)計(jì),主要發(fā)現(xiàn)包括:1)主帖瀏覽次數(shù)沒有明顯的分 布特征,但主帖回復(fù)次數(shù)和參與主帖討論的不同用戶數(shù)均服 從無律分布;2)主帖瀏覽次數(shù)和回復(fù)次數(shù)之間存在正相關(guān) 關(guān)系,且瀏覽次數(shù)和回復(fù)次數(shù)之比大于等于10; 3)用戶發(fā) 帖數(shù)、

16、回帖數(shù)、回復(fù)的不同主帖數(shù)都服從幕律分布;4)用 戶發(fā)帖數(shù)和回帖數(shù)之間不存在明顯相關(guān)性,很少發(fā)帖也很少 回帖、很少發(fā)帖但經(jīng)常回帖、經(jīng)常發(fā)帖但很少回帖和經(jīng)常發(fā) 帖也經(jīng)?;靥念愑脩敉瑫r(shí)存在,只是比例不同;5)單個(gè) 用戶單日回帖數(shù)在群體級(jí)別上服從幕律分布,說明大多數(shù)用 戶在大多數(shù)日子里回帖數(shù)較少,但也存在少量用戶在個(gè)別日 子里發(fā)表了大量回帖,屬于異常用戶行為;6)單個(gè)用戶針 對(duì)單個(gè)主帖的回復(fù)數(shù)在群體級(jí)別上服從幕律分布,說明大多 數(shù)用戶針對(duì)大多數(shù)主帖的回帖數(shù)很少,但也存在少數(shù)用戶針 對(duì)少量主帖發(fā)表了大量回帖,存在炒作嫌疑與以往研究?jī)H 分析用戶行為的時(shí)間特性不同,本文著重研究了用戶活動(dòng)數(shù) 量的分布特性,

17、發(fā)現(xiàn)論壇用戶行為具有明顯的異質(zhì)性,存在 偏離大眾行為特征的異常用戶行為,為網(wǎng)絡(luò)輿情監(jiān)控和網(wǎng)絡(luò) 水軍發(fā)現(xiàn)提供了新的研究思路.1數(shù)據(jù)集本文的數(shù)據(jù)集是采用文獻(xiàn)32的web信息采集系統(tǒng)抓取 的網(wǎng)易新聞?wù)搲?008年10月1日-2011年4月26日之間的 數(shù)據(jù).用post和reply兩個(gè)表存儲(chǔ)采集到的數(shù)據(jù),其中post 表存儲(chǔ)主帖信息,具體包括:主帖id、發(fā)帖時(shí)間、發(fā)帖用戶 id、標(biāo)題、瀏覽次數(shù)、回復(fù)次數(shù);reply表存儲(chǔ)回帖信息, 具體包括:回帖用戶id、回帖時(shí)間、回復(fù)內(nèi)容、被回主帖 id.數(shù)據(jù)集共包含9 363個(gè)主帖和95 788個(gè)回帖參與發(fā)帖 和回帖的用戶共17 562個(gè),其中發(fā)表過主帖的用戶共3

18、 107 個(gè),平均每人發(fā)布了 3個(gè)主帖,發(fā)表過回帖的用戶共15 961 個(gè),平均每人發(fā)布了 6個(gè)回帖該時(shí)間段內(nèi)沒有發(fā)帖或回帖 的用戶排除在外.2論壇用戶在線行為實(shí)證統(tǒng)計(jì)分析2.1帖子瀏覽數(shù)、回復(fù)數(shù)和參與的不同用戶數(shù)分析由于網(wǎng)絡(luò)論壇中用戶的瀏覽行為是不進(jìn)行記錄的,無法 知道誰(shuí)瀏覽了某個(gè)帖子、瀏覽了幾次、什么時(shí)候?yàn)g覽的等信 息,因此無法直接分析用戶的瀏覽行為,本文通過帖子的瀏 覽次數(shù)來間接分析人類在線瀏覽行為用p表示主帖的集合, pwp表示數(shù)據(jù)集中的任意主帖,有=9 363.用bp表示主帖p 的瀏覽次數(shù),統(tǒng)計(jì)知,0wbpw200 795.圖1 (a)為主帖瀏 覽次數(shù)的概率分布圖,其中瀏覽次數(shù)為0的主帖共42個(gè), 在圖1 (a)中沒有體現(xiàn).從圖1 (a)知,主帖瀏覽次數(shù)既不服從無律分布也不服 從指數(shù)分布或韋伯分布等人類行為常見的分布16,而是呈 現(xiàn)出一種對(duì)稱分布,其值主要集中在1003 000之間,其 中在1300區(qū)間逐漸增加,300以上逐漸減少進(jìn)一步統(tǒng)計(jì) 發(fā)現(xiàn),瀏覽次數(shù)小于100的帖子僅72個(gè),約占總主帖數(shù)的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論