![【面向社交網(wǎng)絡(luò)的謠言傳播者行為檢測研究與實現(xiàn)7700字(論文)】_第1頁](http://file4.renrendoc.com/view/8091f6ebca0705ee8e0619add3dd5737/8091f6ebca0705ee8e0619add3dd57371.gif)
![【面向社交網(wǎng)絡(luò)的謠言傳播者行為檢測研究與實現(xiàn)7700字(論文)】_第2頁](http://file4.renrendoc.com/view/8091f6ebca0705ee8e0619add3dd5737/8091f6ebca0705ee8e0619add3dd57372.gif)
![【面向社交網(wǎng)絡(luò)的謠言傳播者行為檢測研究與實現(xiàn)7700字(論文)】_第3頁](http://file4.renrendoc.com/view/8091f6ebca0705ee8e0619add3dd5737/8091f6ebca0705ee8e0619add3dd57373.gif)
![【面向社交網(wǎng)絡(luò)的謠言傳播者行為檢測研究與實現(xiàn)7700字(論文)】_第4頁](http://file4.renrendoc.com/view/8091f6ebca0705ee8e0619add3dd5737/8091f6ebca0705ee8e0619add3dd57374.gif)
![【面向社交網(wǎng)絡(luò)的謠言傳播者行為檢測研究與實現(xiàn)7700字(論文)】_第5頁](http://file4.renrendoc.com/view/8091f6ebca0705ee8e0619add3dd5737/8091f6ebca0705ee8e0619add3dd57375.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
面向社交網(wǎng)絡(luò)的謠言傳播者行為檢測研究與實現(xiàn)TOC\o"2-3"\h\z\t"標(biāo)題1,1"1緒論 31.1論文的選題背景及目的 31.2國內(nèi)外研究現(xiàn)狀分析 31.2.1基于分類器的識別模型 31.2.2基于深度學(xué)習(xí)的識別模型 41.3論文研究方法 42謠言傳播者行為檢測技術(shù)基礎(chǔ) 52.1社區(qū)發(fā)現(xiàn) 52.2集成學(xué)習(xí) 52.3特征分析 63案例呈現(xiàn):面向微博平臺的疫情謠言傳播者行為檢測系統(tǒng) 73.1系統(tǒng)應(yīng)用于目標(biāo) 73.2需求分析 73.3可行性分析 84檢測系統(tǒng)詳細(xì)設(shè)計 94.1功能劃分 94.2用戶管理模塊 104.3數(shù)據(jù)管理模塊 114.4文本標(biāo)注模塊 124.5文本標(biāo)注核實與查詢 134.6系統(tǒng)實現(xiàn) 145結(jié)語 15緒論1.1論文的選題背景及目的據(jù)CNNIC發(fā)布的第47次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》稱,截止2020年底,中國網(wǎng)民人數(shù)達(dá)9.89億,與2020年3月相比上漲8.6%,互聯(lián)網(wǎng)普及率高達(dá)70.4%。并且,2020年我國互聯(lián)網(wǎng)行業(yè)在抵御新冠肺炎疫情和疫情常態(tài)化防控等方面發(fā)揮了積極作用,成為2020年經(jīng)濟(jì)的主要增長行業(yè)。在互聯(lián)網(wǎng)普及率不斷增加,移動互聯(lián)網(wǎng)使用程度持續(xù)深化的背景下,社交網(wǎng)站、網(wǎng)絡(luò)直播等新媒體形式開始深入到人們的日常生活中,滲透到日常生活的方方面面。在這樣龐大的用戶群體和信息體量下,用戶發(fā)布的內(nèi)容就存在監(jiān)管和控制困難的缺點,微博在給人們的生活帶來便利的同時,也給網(wǎng)絡(luò)謠言的傳播帶來了可乘之機(jī)。中國社科院發(fā)布《中國新媒體發(fā)展報告》稱,六成以上的網(wǎng)絡(luò)謠言來源于微博。網(wǎng)絡(luò)謠言難辨真假、傳播速度快且蠱惑性強(qiáng),對正常的社會秩序極易造成不良影響。任由網(wǎng)絡(luò)謠言肆意傳播,會使人心渙散,社會動蕩,更有甚者,一些網(wǎng)絡(luò)政治謠言還會危害國家安全、損害國家形象,威肋社會安全和國家穩(wěn)定。而謠言識別就是要準(zhǔn)確并且及時的在傳播過程中識別出謠言,并減少甚至杜絕謠言所帶來的的社會危害和影響。因此,微博謠言的識別工作無疑具有重要的研究價值和社會意義。1.2國內(nèi)外研究現(xiàn)狀分析目前,國內(nèi)外學(xué)者針對網(wǎng)絡(luò)謠言的識別開展了豐富的研究,其中國外的研究起步較早,主要是基于twitter平臺發(fā)布的謠言開展研究,而國內(nèi)研究開展相對晚一些,主要是以新浪微博為平臺進(jìn)行研究。1.2.1基于分類器的識別模型大多數(shù)學(xué)者將謠言的識別看作一個有監(jiān)督的二分類問題,使用傳統(tǒng)的機(jī)器學(xué)習(xí)方法構(gòu)建分類器進(jìn)行謠言的識別。在基于分類器的謠言識別研究中,謠言的特征提取至關(guān)重要,這些特征可以主要歸納為內(nèi)容特征、用戶特征、傳播特征以及其他特征,不同學(xué)者從不同層面對這些特征進(jìn)行了分析提取。傳統(tǒng)的機(jī)器學(xué)習(xí)方法主要包括貝葉斯分類、決策樹、隨機(jī)森林、支持向量機(jī)等,其中Wang(2011),Qazvinian(2011)等學(xué)者使用貝葉斯分類器對微博謠言建立識別模型。Wang等(201l)從tweet文本中提取出了@、#、URL等內(nèi)容標(biāo)簽特征,同時從Twitter的用戶關(guān)系中引入朋友的數(shù)量、粉絲的數(shù)量、用戶的聲望三個特征,選擇貝葉斯分類方法進(jìn)行實驗,對twitt?r的垃圾信息進(jìn)行識別。Qazvinian等(2011)通過TwitterMonitor工具利用關(guān)鍵字正則匹配的方式抽取了謠言相關(guān)的推文,分析用戶對于這些謠言數(shù)據(jù)集的信任度,通過分析用戶的不同行為,在文本特征、網(wǎng)絡(luò)特征和傳播特征上構(gòu)建了貝葉斯分類器。此外還有一些學(xué)者將兩種或者以上分類器結(jié)合,構(gòu)造集成分類器的謠言識別模型,如毛二松等(2016)提取了基于內(nèi)容、傳播和用戶特征的16個特征,然后構(gòu)建以J48決策樹為基分類器的集成分類器(decisiontreeensembleclassifier,DTEC)和以SVM作為基分類器構(gòu)構(gòu)建的集成分類器(supportvectormachineensembleclassifier,SVMEC),利用集成分類器對微博謠言進(jìn)行檢測,得出基于深層特征和集成分類器的方法能提高謠言檢測的準(zhǔn)確率的結(jié)論。1.2.2基于深度學(xué)習(xí)的識別模型在以上的研究中,基于分類特征的謠言檢測方法取得了一定的成果。但這種手工提取特征的方式過于費(fèi)時費(fèi)力,且容易受到研究者的影響,特征提取的優(yōu)劣往往直接影響實驗結(jié)果的好壞。近年來,以神經(jīng)網(wǎng)絡(luò)為代表的的深度學(xué)習(xí)技術(shù)的發(fā)展為解決這一問題提供了新的方向,神經(jīng)網(wǎng)絡(luò)模型能夠自動學(xué)習(xí)用戶、文本、評論、傳播等不同維度的特征,一定程度上解決了特征構(gòu)造過于簡單、表面、費(fèi)時以及不夠全面等問題。還有一些學(xué)者提出使用卷積神經(jīng)網(wǎng)絡(luò)的方法來構(gòu)建模型,如Yu等(②017)測提出基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法存在缺陷,即它不適合用于謠言信息的實際早期檢測,并且對最新輸入產(chǎn)生了偏見,并提出了一種新的方法,基于卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,CNN)的卷積謠言信息識別(CAMI)方法。CAMI可以靈活地提取散布在輸入序列中的關(guān)鍵特征,并在重要特征之間形成高級交互,從而有助于有效識別謠言信息并實現(xiàn)實用的早期檢測。段大高等(2017)提出了一種融合用戶屬性和微博消息特征的神經(jīng)網(wǎng)絡(luò)識別模型,首先獲取包括博主類別、博主活躍度、博主好友值、博主粉絲值和博主消息原創(chuàng)比在內(nèi)的用戶特征;然后使用word2vec訓(xùn)練得到中文詞向量并使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取文本特征,最后融合兩種特征構(gòu)建BP神經(jīng)網(wǎng)絡(luò)識別模型,對微博謠言進(jìn)行識別。1.3論文研究方法文獻(xiàn)資料法。在論文寫作之前,筆者通過圖書館、互聯(lián)網(wǎng)、電子資源數(shù)據(jù)庫等途徑查閱了大量的文獻(xiàn)資料,獲取相關(guān)研究信息,為設(shè)計本次寫作提供思路與參考。歸納總結(jié)法。筆者通過前期調(diào)查到的資料進(jìn)行分析,并整理、歸納出對本文有效的資料,進(jìn)行論文的寫作。描述性研究法。將搜集到的文獻(xiàn)資料整編,研究分析得出自己的結(jié)論,在導(dǎo)師的指導(dǎo)下形成論文,修改定稿,使論文有參考價值與意義及對今后進(jìn)一步深入學(xué)習(xí)方面起到一定指導(dǎo)作用。謠言傳播者行為檢測技術(shù)基礎(chǔ)2.1社區(qū)發(fā)現(xiàn)社區(qū)是許多網(wǎng)絡(luò)的屬性,其中特定網(wǎng)絡(luò)可能存在多個社區(qū),根據(jù)社區(qū)節(jié)點集合間有無交集可以將社區(qū)分為重合型和非重合型。從形式上講,社區(qū)結(jié)構(gòu)可以定義為網(wǎng)絡(luò)圖中一組聯(lián)系緊密的節(jié)點,它們具有較高的組內(nèi)邊緣密度和較低的組間邊緣密度。對網(wǎng)絡(luò)進(jìn)行分析時,發(fā)現(xiàn)其中的社區(qū)可能具有重要的意義。如將一個大型社交網(wǎng)絡(luò)按照某種標(biāo)準(zhǔn)進(jìn)劃分,發(fā)現(xiàn)具有共同興趣愛好的人,從而使他們保持緊密的聯(lián)系:還可以對劃分后得到的結(jié)果做進(jìn)一步的挖掘,分析各社區(qū)內(nèi)所包含的信息。此外,社區(qū)發(fā)現(xiàn)]技術(shù)還可用于機(jī)器學(xué)習(xí)等領(lǐng)域,以檢測具有相似特征的群組,并依據(jù)不同的原因提取這些群組。常見的社區(qū)發(fā)現(xiàn)方法大致可以分為兩類:聚合法和分裂法,在聚合法中邊被逐條的添加到只包含節(jié)點的圖形中。分裂法則與聚合法相反,在分裂法中,邊從完整圖形中被逐個刪除。由于給定網(wǎng)絡(luò)中可以有任何數(shù)量的社區(qū),且社區(qū)的大小可以變化,這些特征導(dǎo)致社區(qū)發(fā)現(xiàn)技術(shù)具有一定的難度。2.2集成學(xué)習(xí)在機(jī)器學(xué)習(xí)中我們期待學(xué)習(xí)出一個表現(xiàn)全面且穩(wěn)定的模型,但現(xiàn)實中往往只能得到多個弱分類模型,即僅在某些方面表現(xiàn)良好的模型。集成學(xué)習(xí)3方法通過組合多種算法來獲得比單獨使用其中任何一種算法更好的性能。通常來講,模型或特征的融合都可以或多或少的提高系統(tǒng)的性能,一般不會低于任何一個子模型或者子特征。例如:假設(shè)現(xiàn)在需要5個人去深山中完成科考任務(wù),有以下兩種分配的方案:①5名相關(guān)專業(yè)的人員。②2名相關(guān)專業(yè)人員,1名戶外探險家,1名醫(yī)生,1名軍人。顯然,第二種方案是更加合理的分配方式,因為各個角色所具備的特長都對任務(wù)的完成有幫助,并且彼此之間能形成較好的互補(bǔ)。同理,使用集成學(xué)習(xí)思想的模型,其子模型采用不同的特征用于訓(xùn)練,可以在數(shù)據(jù)上獲得不同角度的表達(dá)能力,進(jìn)而結(jié)合不同子模型的優(yōu)點。集成學(xué)習(xí)不屬于一種獨立的機(jī)器學(xué)習(xí)算法,更多的是強(qiáng)調(diào)一種思想,通過融合弱的學(xué)習(xí)器來提高整體的學(xué)習(xí)能力以更好的完成任務(wù),其結(jié)構(gòu)如圖2-1所示。圖2.1集成學(xué)習(xí)結(jié)構(gòu)圖2.3特征分析為了檢測出虛假的信息,在可信度識別與檢測、垃圾評論檢測等任務(wù)中,我們除了將謠言文本的傳播作為切入口之外,還經(jīng)常會考慮到用戶在謠言文本傳播所起到的關(guān)鍵作用。這類用戶經(jīng)常在媒體平臺發(fā)布虛假謠言信息,干憂視聽。所以本文會將博文用戶的數(shù)據(jù)特征也做為特征向量加入到模型中,通過博文用戶特征對謠言博文相關(guān)特征的影響,來達(dá)到增強(qiáng)或減弱謠言博文是否是謠言的幾率。而博文的用戶數(shù)據(jù)通常包括如下幾大類,分別有博文用戶的性別、賬號是否認(rèn)證、該用戶發(fā)布的微博數(shù)量、粉絲數(shù)、關(guān)注數(shù)、注冊時間等。由于用戶發(fā)布的微博數(shù)量、關(guān)注數(shù)、粉絲數(shù)是一個連續(xù)數(shù)據(jù),所以這一數(shù)據(jù)的取值通常會對整個模型的謠言分類結(jié)果造成重大影響,所以一般采用標(biāo)準(zhǔn)化、歸一化1方法對其進(jìn)行值處理,計算公式如式所示:其中x代表樣本取值,min和max分別是樣本的最小值和最大值。歸一化操作旨在將樣本使的取值介于[0,1]之間。用戶的性別、賬號認(rèn)證與否用等特征也能通過離散化進(jìn)行處理。通過用戶注冊時間、發(fā)微博數(shù)量等特征識別是否是“僵尸”用戶,即這類微博賬戶是被不法分子為達(dá)到某種目的,在平臺中進(jìn)行申請的。一殷來說,這種用戶的關(guān)注數(shù)量會遠(yuǎn)大于粉絲數(shù)量,而且都是未經(jīng)認(rèn)證的賬號,賬號發(fā)布的微博數(shù)量一般也比較少,只會在特定的時間段針對某種主題或者事件進(jìn)行集中性發(fā)布微博。在各大自媒體平臺中,發(fā)布謠言的用戶通常為了謠言信息能夠更快的傳播出去,通常會在謠言信息文本上添加“不轉(zhuǎn)不配做中國人”,“讓身邊更多的人知道”,“愛心人士接力”等字樣,達(dá)到刺激微博用戶去轉(zhuǎn)發(fā)的目的,令他們?nèi)鞑ミ@些謠言博文。由于大多微博用戶的具有這種盲從心里,導(dǎo)致真實的博文和謠言博文在轉(zhuǎn)發(fā)量、評論量上正常來說具有較明顯的差異。因此,在實驗里對謠言文本的傳播過程加入相關(guān)博文的傳播數(shù)據(jù)等特征,壁如評論、轉(zhuǎn)數(shù)量,并通過公式對其予以值處理。案例呈現(xiàn):面向微博平臺的疫情謠言傳播者行為檢測系統(tǒng)3.1系統(tǒng)應(yīng)用于目標(biāo)隨著互聯(lián)網(wǎng)媒體平臺的發(fā)展,微博這一國內(nèi)主流平臺開始有著越來越重要的意義,微博從之前的傳統(tǒng)社交媒體平臺,轉(zhuǎn)型成了用戶獲取信息的重要門戶之一,每天都有著數(shù)以億計的訪問量。所謂事物的發(fā)展總是具有兩面性,做博在為上億用戶提供便捷的信息訪問的同時,也伴隨著各種各樣的謠言信息的迅速傳播。在微博迅速崛起的同時,部分不法分子也開始利用起這份便利實現(xiàn)自己的一些私欲和不法利益,其中在最近一年多里的新冠疫情謠言就被大肆傳播,然而這些謠言的傳播無疑會對社會群眾造成一定程度的社會恐慌,從而可能導(dǎo)致社會秩序的嚴(yán)重混亂。為了解決新冠疫情的傳播,微博也開展了一系列的謠言檢測與舉報機(jī)制,例如官方成立的“微博辟謠”賬號,有多名很有經(jīng)驗的實力編輯成員,對微博中發(fā)布的博文進(jìn)行全天24小時的不停監(jiān)控,力求把各種謠言扼殺在傳播的過程中,不僅如此微博用戶也可以就相關(guān)謠言進(jìn)行謠言舉報,官方根據(jù)相關(guān)舉報進(jìn)行謠言的檢測與結(jié)果公示。騰訊也在“較真平臺”就新冠謠言主題進(jìn)行檢測,并對相關(guān)謠言進(jìn)行真假公布。但是這些人工謠言檢測機(jī)制也有些許不足:(1)效率低下。新浪微博中每天的流量無疑是十分巨大的,然而僅靠人工進(jìn)行謠言的識別與檢測,不僅會浪費(fèi)巨大的人力物力財力,而且檢測效率也不是很高。(2)延時較高。正因為人工謠言檢測效率低下,才導(dǎo)致對相關(guān)謠言實現(xiàn)結(jié)果檢測前,有可能謠言博文己經(jīng)開始了大規(guī)模的傳播,并造成了一定的社會危害。(3)缺乏很好的數(shù)據(jù)交互功能。無論在哪一個數(shù)據(jù)平臺,都未能提供對某一特定文本的來源、傳播以及交互的具體信息,也不存在對數(shù)據(jù)的錄入、保存以及方便的外部對接。針對上述問題,該文提出將數(shù)據(jù)、交互、檢測結(jié)果進(jìn)行系統(tǒng)性整合的方案,從微博等平臺爬取新冠疫情數(shù)據(jù),并對其中的文本數(shù)據(jù)進(jìn)行數(shù)據(jù)特征提取并整合到謠言檢測系統(tǒng)中,實現(xiàn)對謠言檢測的智能化、自動化處理。目前的新冠疫情數(shù)據(jù)多為結(jié)構(gòu)化數(shù)據(jù),在分析時可以方便的進(jìn)行特征抽取。針對這種狀態(tài)本系統(tǒng)錄入方式選擇以數(shù)據(jù)導(dǎo)入為主,手工輸入謠言文本為輔的方式,待數(shù)據(jù)導(dǎo)入完成之后,可采用人工標(biāo)注與自動化標(biāo)注方法相結(jié)合的方式進(jìn)行數(shù)據(jù)謠言文本的標(biāo)注,且系統(tǒng)兼具文本特征提取與數(shù)據(jù)展示等相關(guān)功能,從而更加方便合理的構(gòu)建謠言檢測平臺。3.2需求分析本系統(tǒng)開發(fā)的需求主要來自于五個方面,第一、通過新浪微博接口實現(xiàn)自動化獲取微博新冠疫情謠言數(shù)據(jù),并存入系統(tǒng)中。第二、滿足用戶正常輸入或者導(dǎo)入新冠謠言文本的需求,所采用的方式為手動輸入和自動化導(dǎo)入相結(jié)合。第三、可以對指定的謠言文本進(jìn)行手工標(biāo)注或者基于文本分類的謠言分類算法的自動化標(biāo)注。第四、可以對之前的數(shù)據(jù)進(jìn)行數(shù)據(jù)審核,人工查閱之前的數(shù)據(jù)標(biāo)注結(jié)果,如果存在標(biāo)注問題,則可以手動進(jìn)行結(jié)果的更新。第五、查看謠言文本的標(biāo)注記錄,用戶可以在登錄系統(tǒng)后對之前標(biāo)注的文本的一些操作進(jìn)行查閱,也可以翻看數(shù)據(jù)圖實現(xiàn)對謠言文本數(shù)據(jù)的整體狀況瀏覽。所以本系統(tǒng)兼具如下功能:(1)微博新冠疫情謠言數(shù)據(jù)爬取。對接微博數(shù)據(jù)爬取接口,能夠根據(jù)有效關(guān)鍵詞爬取相關(guān)謠言數(shù)據(jù),并通過本系統(tǒng)將數(shù)據(jù)保存在本地。(2)數(shù)據(jù)導(dǎo)入、導(dǎo)出。本系統(tǒng)可以通過手動輸入謠言文本和本地導(dǎo)入的方式將謠言數(shù)據(jù)導(dǎo)入到系統(tǒng)中,并保存在數(shù)據(jù)庫。也能將系統(tǒng)檢測識別的數(shù)據(jù)通過客戶端導(dǎo)出到數(shù)據(jù)庫中。(3)數(shù)據(jù)標(biāo)注。本系統(tǒng)采用人工標(biāo)注與系統(tǒng)執(zhí)行謠言檢測識別的自動化標(biāo)注的方法相結(jié)合的方式。(4)標(biāo)注結(jié)果審核。用戶登錄系統(tǒng)后,可查看之前的標(biāo)注結(jié)果,并對有疑議的標(biāo)注進(jìn)行審核操作。(5)查看標(biāo)注記錄。用戶登錄系統(tǒng)后,可查看之前的標(biāo)注記錄。3.3可行性分析本系統(tǒng)的主要目的是通過微博提供的接口來爬取謠言數(shù)據(jù)(包括微博文本下本系面的評論、轉(zhuǎn)發(fā)、點贊),然后將爬取到的數(shù)據(jù)通過特征提取達(dá)到離散化、數(shù)值化,并通過后臺的算法模型進(jìn)行謠言檢測與識別,最后將分析得來的結(jié)果顯示在前端頁面。所以該系統(tǒng)的實現(xiàn)在技術(shù)上有以下幾個難點:(1)數(shù)據(jù)爬取,即如何利用目前所知道的接口通過爬蟲技術(shù)獲取新冠疫情謠言文本。(2)后端如何構(gòu)建系統(tǒng)平臺。(3)前端頁面展示。(4)將新冠疫情檢測算法模型嵌入到系統(tǒng)中。具體開放接口如下表所示。表1部分新浪微博開放接口表接口名稱鏈接作用微博m./api/container/getIndex獲取微博文博數(shù)據(jù)評論接口/comments獲取某條微博的評論列表點贊接口m./api/attitudes獲取某條微博的點贊列表轉(zhuǎn)發(fā)接口m.we/api/statuses/repostTimeline獲取某條微博的轉(zhuǎn)發(fā)列表不實信息平臺/不實信息公布平臺首先,在新冠疫情數(shù)據(jù)獲取方面,由于新浪微博官方存在對外來爬蟲的限制,所以本系統(tǒng)調(diào)用了新浪微博提供的官方接口(API),如表所示,這些接口封裝了可直接部署在微博上的爬取按鈕,可直接爬取對應(yīng)謠言以及不實信息數(shù)據(jù),通過對爬取的一些優(yōu)化可以簡化爬取操作。其次就是該新冠疫情謠言檢測系統(tǒng)的后端使用的是目前主流的開發(fā)框架Django。首先,由于該框架是一個大型的開源項目并且使用了python作為其開發(fā)語言,這就使得該框架擁有著極其強(qiáng)大的功能,而且也具備python在開發(fā)上的便利性。其次,該框架具有很多的模板,這一點又降低了開發(fā)所帶來的錯誤,并且使得其擴(kuò)展性很強(qiáng)。同時,本系統(tǒng)的前端展示界面則主要使用pygt5+QtDesigner實現(xiàn),PyQt5是一個用于創(chuàng)建GUI應(yīng)用程序的跨平臺工具包,它將Qt庫與Pythor相融合。也就是說,PyQ5可以在允許使用Python語言的時候調(diào)用Qt庫中的相關(guān)API。這樣做的最大好處就是在保留了Q高運(yùn)行效率的同時,極大的提高了前端的開發(fā)效率。QtDesigner是一款QT界面生成器,通過拖拉控件的方式,極大的提高了前端界面的開發(fā)。另外,在新冠疫情謠言檢測的后臺模塊方面,本論文提出的融合用戶評論特征和可變長度的時間序列的博文信息的謠言檢測算法,可以嵌入到系統(tǒng)中,從而實現(xiàn)自動化新冠疫情謠言檢測。綜上來說,本系統(tǒng)在技術(shù)方面是完全可行的。檢測系統(tǒng)詳細(xì)設(shè)計4.1功能劃分系統(tǒng)的主要功能分為以下幾點:(1)實現(xiàn)新冠疫情謠言檢測的前端界面,將會展示謠言數(shù)據(jù)的導(dǎo)入、導(dǎo)出,手動及自動化的新冠謠言數(shù)據(jù)的標(biāo)注,以及歷史操作記錄。(2)實現(xiàn)新冠疫情謠言識別功能。(3)實現(xiàn)用戶信息功能基于此,本論文開發(fā)了一個原型系統(tǒng),主要包括用戶信息登錄、新冠疫情謠言數(shù)據(jù)爬取以及謠言識別算法的嵌入和數(shù)據(jù)標(biāo)注核實及記錄查詢等幾大功能模塊。系統(tǒng)功能模塊圖如下圖4-1所示:圖4.1系統(tǒng)功能模塊圖系統(tǒng)的設(shè)計主要分為用戶管理、疫情謠言數(shù)據(jù)管理模塊、文本標(biāo)注模塊、謠言檢測算法模塊以及謠言文本標(biāo)注及記錄查詢等模塊。其中用戶管理主要包括用戶的登錄、查看用戶的個人主頁等部分。疫情謠言數(shù)據(jù)管理模塊包括導(dǎo)入從新浪微博爬取到的數(shù)據(jù)謠言數(shù)據(jù),以及手動輸入謠言文本最終將這些待處理的輸入到數(shù)據(jù)庫中。文本標(biāo)注模塊包括手動標(biāo)注以及通過底層算法檢測識別標(biāo)注。謠言數(shù)據(jù)標(biāo)注記錄核實與查詢模塊則包括相應(yīng)數(shù)據(jù)在標(biāo)注之后可以進(jìn)行核實查驗,也可以對誤識別操作進(jìn)行查詢觀看。4.2用戶管理模塊本模塊主要負(fù)責(zé)用戶登錄部分和展示用戶詳細(xì)信息。在用戶登錄模塊,待用戶輸入個人賬號信息,經(jīng)查驗準(zhǔn)確之后便可進(jìn)入系統(tǒng)界面。用戶此時可以查詢個人賬戶信息,也可以進(jìn)行修改密碼等相關(guān)操作。用戶管理模塊流程如圖4.2所示:圖4.2用戶管理模塊流程圖4.3數(shù)據(jù)管理模塊本模塊主要負(fù)責(zé)新冠疫情謠言檢測系統(tǒng)的數(shù)據(jù)管理,里面包括對新浪微博謠言數(shù)據(jù)的爬取、數(shù)據(jù)的導(dǎo)入與導(dǎo)出等工作。首先,本系統(tǒng)可以通過m.weibo.en/api/container/getIndex接口獲得微博相應(yīng)關(guān)鍵詞的文本數(shù)據(jù),這些數(shù)據(jù)都是以jso形式返回,并且每一條微博都會有一個對應(yīng)id,然后系統(tǒng)會根據(jù)該id訪問該條微博的具體內(nèi)容,之后可以通過/comments/api/attitudes/api/statuses/repostTimeline來獲取該條微博下面的評論、轉(zhuǎn)發(fā)和點贊數(shù)據(jù),這些數(shù)據(jù)同樣以json文本的形式傳入到系統(tǒng)后端。導(dǎo)入的數(shù)據(jù)可以通過系統(tǒng)己有的功能保存到數(shù)據(jù)庫中。圖4.3數(shù)據(jù)管理模塊流程圖4.4文本標(biāo)注模塊本模塊主要負(fù)責(zé)對手動錄入或者導(dǎo)入的謠言文本進(jìn)行手動標(biāo)注以及自動化標(biāo)注處理。手動錄入的謠言可以是基于自己對新冠疫情的一些事實的認(rèn)知來進(jìn)行相關(guān)謠言的標(biāo)注,而自動化標(biāo)注則需要通過調(diào)用底層新冠疫情謠言檢測算法對謠言文本進(jìn)行檢測識別,進(jìn)而得到該謠言文本的真假結(jié)果,從而達(dá)到自動化標(biāo)注文本的目的。詳細(xì)邏輯圖如圖4.4所示:圖4.4文本標(biāo)準(zhǔn)模塊流程圖4.5文本標(biāo)注核實與查詢用戶在手動輸入謠言文本或者導(dǎo)入本地謠言文本進(jìn)行自動化標(biāo)注后,這些謠言文本的標(biāo)注結(jié)果以及狀態(tài)記錄都會保存在本地數(shù)據(jù)庫中,方便
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電網(wǎng)工程設(shè)備材料信息參考價(2024年第四季度)
- 高級餐飲食品安全管理員技能鑒定理論考試題庫500題(含答案)
- 2025年河南農(nóng)業(yè)職業(yè)學(xué)院高職單招職業(yè)技能測試近5年常考版參考題庫含答案解析
- 2025年池州職業(yè)技術(shù)學(xué)院高職單招職業(yè)技能測試近5年常考版參考題庫含答案解析
- 2025年江蘇農(nóng)牧科技職業(yè)學(xué)院高職單招職業(yè)技能測試近5年常考版參考題庫含答案解析
- 《醫(yī)療機(jī)構(gòu)管理培訓(xùn)》課件
- 2025民用航空運(yùn)輸行業(yè)未來發(fā)展與市場展望
- 10kV配電站房工程設(shè)計與施工流程優(yōu)化
- 壓路機(jī)租賃合同
- 場地租賃經(jīng)營合同
- 2025江蘇連云港市贛榆城市建設(shè)發(fā)展集團(tuán)限公司招聘工作人員15人高頻重點提升(共500題)附帶答案詳解
- 江蘇省揚(yáng)州市蔣王小學(xué)2023~2024年五年級上學(xué)期英語期末試卷(含答案無聽力原文無音頻)
- 數(shù)學(xué)-湖南省新高考教學(xué)教研聯(lián)盟(長郡二十校聯(lián)盟)2024-2025學(xué)年2025屆高三上學(xué)期第一次預(yù)熱演練試題和答案
- 決勝中層:中層管理者的九項修煉-記錄
- 鑄石防磨施工工藝
- 臨時用電安全培訓(xùn)(匯編)
- 玻璃鋼煙囪方案
- 中小學(xué)教師師德師風(fēng)法律法規(guī)培訓(xùn)
- 醫(yī)療器械質(zhì)量管理體系文件模板
- 在馬克思墓前的講話說課稿公開課一等獎市賽課獲獎?wù)n件
- 送養(yǎng)收養(yǎng)合同協(xié)議書
評論
0/150
提交評論