易班敏感詞監(jiān)測系統(tǒng)研究與設(shè)計_第1頁
易班敏感詞監(jiān)測系統(tǒng)研究與設(shè)計_第2頁
易班敏感詞監(jiān)測系統(tǒng)研究與設(shè)計_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

易班敏感詞監(jiān)測系統(tǒng)研究與設(shè)計蔣春華劉歡劉憶寧

【摘要】易班網(wǎng)是一款高校教育教學(xué),生活效勞,文化娛樂的綜合性互動社區(qū)網(wǎng),其參與主體是高校老師和學(xué)生。文章提供了一種監(jiān)測校園輿情的方案,該方案將網(wǎng)絡(luò)爬蟲和敏感詞進行比照搜索來監(jiān)控輿情方向。實驗數(shù)據(jù)說明,通過網(wǎng)絡(luò)爬蟲技術(shù)可以很好的用來監(jiān)測校園輿情。

【關(guān)鍵詞】易班網(wǎng);網(wǎng)絡(luò)爬蟲;敏感詞

TheResearchandDesignaboutSensitiveWordsMonitoringSystemonEasyClassNetwork

JIANGChun-huaLIUHuanLIUYi-ning

〔SchoolofComputerandInformationSecurity,GuilinUniversityofElectronicTechnology,GuilinGuangxi541004,China〕

【Abstract】YiBannetworkisacomprehensiveinteractivecommunitynetworkwithfunctionofeducationandteachingincollege,lifeservices,cultureandentertainment.Aprogramisproposedtomonitorthepublicopinionofthecampus.Comparingthewebcrawlersandthesearchofsensitivewords,itcanmonitorthedirectionofthepublicopinion.Theexperimentaldatashowsthatwebcrawlerscanbeusedtomonitorthepublicopinionofthecampus.

【Keywords】YiBannetwork;Webcrawlers;Sensitivewords

0引言

隨著科學(xué)技術(shù)的開展,信息技術(shù)逐漸走進千家萬戶。信息技術(shù)的開展給人們?nèi)粘I顜肀憷耐瑫r,也給人們生活帶來挑戰(zhàn)。人們崇尚自由,在看不見的網(wǎng)絡(luò)中發(fā)表著自己的觀點,而不需要承擔言論帶來的責任。有些別有用心的人會引導(dǎo)網(wǎng)絡(luò)言論,從而到達自己的目的。因此需要對網(wǎng)絡(luò)言論進行監(jiān)控,防止不明真相的參與者被別有用心的人引導(dǎo)。

在校大學(xué)生是網(wǎng)絡(luò)言論的主力軍,然而由于大學(xué)生普遍涉世未深,極易受到不實信息和敵對勢力的蠱惑煽動,在虛擬網(wǎng)絡(luò)世界里發(fā)表一些激進的觀點和言論,影響校園和社會的穩(wěn)定團結(jié)。為此,監(jiān)測大學(xué)生的網(wǎng)上言論,通過大學(xué)生網(wǎng)上言論了解其心理思想和訴求是極其重要的。微博、貼吧、人人網(wǎng)等社交平臺,無需實名注冊,人員混雜,因此對這些平臺上在校大學(xué)生進行網(wǎng)絡(luò)輿情【1】監(jiān)控十分困難。易班網(wǎng)是一款專門針對在校大學(xué)生開發(fā)的互動社區(qū),需要實名注冊。因此可以利用易班網(wǎng)對大學(xué)生進行網(wǎng)絡(luò)言論監(jiān)控【2】,從而了解大學(xué)生心理思想和訴求。利用易班網(wǎng)可以很好的了解當代大學(xué)生對于各種網(wǎng)絡(luò)事件的觀點【3】、輿論導(dǎo)向以及大學(xué)生的心理狀態(tài),有利于學(xué)校及時處理相關(guān)輿情事件、引導(dǎo)輿情的開展【4】。

1易班網(wǎng)絡(luò)輿情監(jiān)測方案

圖1系統(tǒng)流程圖

利用敏感詞監(jiān)測系統(tǒng)對于易班網(wǎng)絡(luò)輿情監(jiān)測進行調(diào)研,在系統(tǒng)開發(fā)過程中綜合各方面因素,使用了Python2.7版本作為開發(fā)語言,MySQL5.1版本作為數(shù)據(jù)庫存儲系統(tǒng),界面設(shè)計使用Django框架進行web展示。該系統(tǒng)主要包括了信息獲取、信息處理、輿情分析和輿情預(yù)警等四個模塊。程序運行流程如圖1。

1.1信息獲取

對于易班網(wǎng)絡(luò)言論進行分析,發(fā)現(xiàn)用戶言論主要集中在對文章的評論【5】,因此這一局部是信息獲取的主要途徑。由于每個學(xué)校都是有相對應(yīng)的ID,因此我們只需要對本校對應(yīng)的

ID域進行監(jiān)控和爬蟲爬取,從而獲取到學(xué)校在易班網(wǎng)上所有的文章URL。對這些URL進行存儲和網(wǎng)頁爬取,獲取文章信息以及文章下面的用戶評論信息。易班網(wǎng)絡(luò)的環(huán)境導(dǎo)致團隊成員需要綜合考慮各個方面,對爬蟲進行了延時處理,即每隔一定的時間〔該時間可以由系統(tǒng)后臺管理員設(shè)定〕對易班網(wǎng)進行爬蟲爬取信息。由于爬蟲在輪回爬取過程中,會遇到很多重復(fù)URL地址,為此,本系統(tǒng)在對爬蟲爬取過程中做了去重處理,而且在入庫處理時對文章和評論發(fā)表時間做了判斷,以確保存儲的數(shù)據(jù)是最新的且防止了重復(fù)數(shù)據(jù)入庫。

1.2信息處理

信息處理模塊主要是對獲取到的用戶評論信息進行入庫處理。經(jīng)過分析可知:易班網(wǎng)采用JSON格式的方式處理用戶的評論數(shù)據(jù)。針對這種處理方式,對JSON數(shù)據(jù)進行了分析,將數(shù)據(jù)進行了分隔,對文章URL、文章下所有的評論人員的ID,評論內(nèi)容、評論時間等字段內(nèi)容進行了入庫處理。

1.3輿情分析

輿情分析是輿情監(jiān)控系統(tǒng)的關(guān)鍵模塊。為了便于應(yīng)對各種突發(fā)情況和管理員針對不同信息進行分析檢索,系統(tǒng)管理員可以在后臺自主設(shè)定輿情敏感詞。系統(tǒng)利用這些敏感詞和數(shù)據(jù)庫中信息進行匹配,找出存在敏感詞的評論,以及發(fā)表該評論的人員和文章的URL地址。匹配過程如下:建立敏感詞數(shù)據(jù)庫,將敏感詞與獲取的評論信息進行匹配查找,確定是否存在包含敏感詞的言論。將包含敏感詞的評論文章ID和評論信息存儲下來,并且通過E-mail實時通知負責人員進行處理。

1.4輿情預(yù)警

互聯(lián)網(wǎng)信息的傳播速度很快,輿情的爆發(fā)時間也具有不可預(yù)料性,而管理人員不可能實時在線,因此,及時預(yù)警輿情是網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)不可或缺的功能。該系統(tǒng)的輿情預(yù)警主要通過發(fā)送E-mail到監(jiān)控人員移動終端進行實現(xiàn)。當匹配到相關(guān)敏感詞在文章評論中出現(xiàn)時,系統(tǒng)會自動向后臺設(shè)定的郵箱地址發(fā)送預(yù)警郵件。預(yù)警郵件包含敏感詞所在文章的網(wǎng)頁地址,便于管理人員可以及時了解到輿情的動態(tài),及時妥當處理相關(guān)問題【6】。

2結(jié)論

本系統(tǒng)利用網(wǎng)絡(luò)信息技術(shù)來實現(xiàn)對易班網(wǎng)絡(luò)的實時輿情監(jiān)測,以解決傳統(tǒng)人工監(jiān)測時“人手缺乏、容易疏忽、效率底下〞等問題,可以更加及時的發(fā)現(xiàn)問題,凈化校園網(wǎng)絡(luò)環(huán)境,引導(dǎo)輿論導(dǎo)向,并且可以及時定位言論發(fā)布者,以便于做出相應(yīng)處置。

【參考文獻】

【1】王娟.網(wǎng)絡(luò)輿情監(jiān)控分析系統(tǒng)構(gòu)建[J].長春理工大學(xué)學(xué)報〔高教版〕,2021,4:201-203.

【2】張玨.網(wǎng)絡(luò)輿情預(yù)測模型與平臺的研究[D].北京:北京交通大學(xué),2021.

【3】J.Zeng,S.Zhang,C.Wu,etal..PredictiveModelforInternetPublicOpinion.FuzzySystemsandKnowledgeDiscovery,2021.FSKD2021.FourthInternationalConferenceon.IEEE,2021,3:7-11.

【4】滕云,陳玲.網(wǎng)絡(luò)輿情特點的實證研究——基于高校BBS論壇的文本分析[J].山東社會科學(xué),2021,3:181-186.

【5】D.Shen,Z.Chen,Q.Yang,etal..Webclassificationthroughsummarization[C].Proceedingsofthe27thannuali

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論