開題報(bào)告-微博輿情管理平臺(tái)數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第1頁
開題報(bào)告-微博輿情管理平臺(tái)數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第2頁
開題報(bào)告-微博輿情管理平臺(tái)數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第3頁
開題報(bào)告-微博輿情管理平臺(tái)數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第4頁
開題報(bào)告-微博輿情管理平臺(tái)數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、適合專業(yè):信息安全專業(yè)指導(dǎo)教師(簽名): 提交日期:2013年03月08日學(xué)院:計(jì)算機(jī)學(xué)院專業(yè):信息安全學(xué)生_學(xué)號(hào):畢業(yè)設(shè)計(jì)(論文)基本容和要求:微博作為迅速崛起的新興社會(huì)媒體,在網(wǎng)絡(luò)輿情領(lǐng)域日益引起研究者 的關(guān)注。面對互聯(lián)網(wǎng)量的數(shù)據(jù)信息,我們無法想象僅僅通過人工的方式 來對互聯(lián)網(wǎng)輿情進(jìn)行全面監(jiān)控的難度。因此,結(jié)合網(wǎng)絡(luò)信息采集技術(shù)和 文本信息自動(dòng)處理等技術(shù)研發(fā)一個(gè)網(wǎng)絡(luò)輿情自動(dòng)監(jiān)控系統(tǒng)將有利于社會(huì) 管理者們及時(shí)了解網(wǎng)絡(luò)輿情的狀態(tài)和趨勢,因而可以對發(fā)現(xiàn)的熱點(diǎn)輿情 及時(shí)進(jìn)行干預(yù),引導(dǎo)疏通民眾情緒和心、理,避免矛盾的進(jìn)一步惡化而造 成更大的社會(huì)損失。現(xiàn)有輿情監(jiān)測系統(tǒng)在采集、檢索和分析模塊中都是 采用基

2、于統(tǒng)計(jì)和特征關(guān)鍵詞的方法,由于忽略了文本中的語義信息往往 會(huì)導(dǎo)致分析結(jié)果的不精確。本畢業(yè)設(shè)計(jì)主要針對當(dāng)前微博中用戶身份定 位、熱點(diǎn)信息挖掘以及負(fù)面信息的發(fā)現(xiàn)與及時(shí)處理等機(jī)制進(jìn)行設(shè)計(jì)與實(shí) 現(xiàn),主要分為數(shù)據(jù)采集、數(shù)據(jù)挖掘分析和結(jié)果呈現(xiàn)三個(gè)部分。主要的工 作分工如下:數(shù)據(jù)采集(微博爬蟲程序)功能的實(shí)現(xiàn),抓取微博文本信息。對收集到的文本信息進(jìn)行數(shù)據(jù)分析,確定輿情熱點(diǎn)關(guān)鍵詞、分 析用戶身份關(guān)系將分析結(jié)果進(jìn)行數(shù)據(jù)呈現(xiàn)。微博輿情管理平臺(tái)預(yù)期實(shí)現(xiàn)對主流微博平臺(tái)(新浪微博,騰訊 微博等)消息的自動(dòng)采集分析,得出最近熱點(diǎn)詞,關(guān)鍵詞;輸入關(guān) 鍵詞后可對與此關(guān)鍵詞有關(guān)的微博消息進(jìn)行評(píng)估預(yù)警,提醒使用者 及時(shí)作出應(yīng)對措

3、施頁腳.畢業(yè)設(shè)計(jì)重點(diǎn)研究的問題:對收集到的數(shù)據(jù)進(jìn)行甄別歸類分析,實(shí)現(xiàn)分詞等算法。向量空間模型模型(VSM)及潛在語義索引(LSI)文本傾向性分析實(shí)現(xiàn)畢業(yè)設(shè)計(jì)應(yīng)完成的工作:進(jìn)行微博輿情監(jiān)控方面現(xiàn)狀的網(wǎng)絡(luò)調(diào)研,熟悉微博管理系統(tǒng)的 全過程;熟悉微波輿情監(jiān)控系統(tǒng)的工作流程,設(shè)計(jì)合理的分工方案;熟練掌握c和php數(shù)據(jù)分析算法實(shí)現(xiàn);撰寫畢業(yè)論文。參考資料推薦:王藝.重大突發(fā)公共事件的微博輿情監(jiān)測與引導(dǎo)初探.民族學(xué)院 學(xué)報(bào).2011.05c語言相關(guān)資料超.文本傾向性分析在輿情監(jiān)控系統(tǒng)中的應(yīng)用研究(碩士學(xué)位論 文).郵電大學(xué).2008.02莫溢,盛華,悅,程學(xué)旗.一種相關(guān)話題微博信息的篩選規(guī)則學(xué)習(xí) 算法.中文

4、信息學(xué)報(bào).2012.09陸浩.網(wǎng)絡(luò)輿情監(jiān)測研究與原型實(shí)現(xiàn).郵電大學(xué).2009.02莫溢,盛華,悅,程學(xué)旗.一種相關(guān)話題微博信息的篩選規(guī)則學(xué)習(xí) 算法.中文信息學(xué)報(bào).2012.09濤.智能信息處理技術(shù)在互聯(lián)網(wǎng)輿情分析中的應(yīng)用(碩士學(xué)位論 文).同濟(jì)大學(xué).2008.05Larsen B, Aone C. Fast and effective text mining using linear-time document clustering. In: Proceedings of the Fifth ACM SIGKDD International Conference on Knowledge Di

5、scovery and Data Mining, San Diego: CA,1999. 16一22.其他要說明的問題:學(xué)院:計(jì)算機(jī)學(xué)院專業(yè):信息安全學(xué)生:驍 學(xué)號(hào): 09283050文獻(xiàn)綜述:研究背景:輿情分析關(guān)乎國家發(fā)展與社會(huì)和諧,目前已有越來越多的機(jī)構(gòu)和行 業(yè)從事輿情分析Web2.0時(shí)代的到來,使人們進(jìn)入網(wǎng)絡(luò)信息大爆炸 時(shí)代。新浪微博每天有近1億的微博容產(chǎn)生。如何從海量的微博信 息中提取有價(jià)值的信息,并對負(fù)面、消極及虛假信息進(jìn)行及時(shí)的管 控,已經(jīng)成為輿情熱點(diǎn)分析的突出問題。良好的解決方案,不僅可 以監(jiān)督規(guī)網(wǎng)絡(luò)行為,凈化網(wǎng)絡(luò)環(huán)境,更重要的還能從中獲取各類有 用信息,進(jìn)行諸如商業(yè)價(jià)值(用戶興

6、趣挖掘),信息傳播學(xué)(網(wǎng)絡(luò)拓 撲與熱點(diǎn)追蹤),以及一些社會(huì)學(xué)方面的研究。從而能夠滿足人們的 需求,同時(shí)對于社會(huì)的和諧、網(wǎng)絡(luò)輿論生態(tài)的健康、國家的發(fā)展都 有重要的現(xiàn)實(shí)意義。研究現(xiàn)狀及基本方法目前,已有越來越多的機(jī)構(gòu)從事輿情分析。但是,這些輿情分析系 統(tǒng)一般只應(yīng)用于企業(yè)或政府,更關(guān)注于對負(fù)面、消極及虛假信息的 監(jiān)管,并且不對公眾開放。在當(dāng)今的社會(huì),人們也迫切希望得到一 些關(guān)乎自身利益的事件的發(fā)展情況,如物價(jià)的變化、對于一些廠家 產(chǎn)品的使用評(píng)價(jià)等。對于微博輿情預(yù)警功能模塊的實(shí)現(xiàn),網(wǎng)絡(luò)輿情 安全的評(píng)估預(yù)警等功能實(shí)現(xiàn)的不多。研究容及意義微博輿情管理平臺(tái)預(yù)期實(shí)現(xiàn)對主流微博平臺(tái)(新浪微博,騰訊微 博等)消息

7、的自動(dòng)采集分析,得出最近熱點(diǎn)詞,關(guān)鍵詞;輸入關(guān)鍵 詞后可對與此關(guān)鍵詞有關(guān)的微博消息進(jìn)行評(píng)估預(yù)警,提醒使用者及 時(shí)作出應(yīng)對措施。面對互聯(lián)網(wǎng)量的數(shù)據(jù)信息,我們無法想象僅僅通過人工的方式來 對互聯(lián)網(wǎng)輿情進(jìn)行全面監(jiān)控的難度。因此,結(jié)合網(wǎng)絡(luò)信息采集技術(shù) 和文本信息自動(dòng)處理等技術(shù)研發(fā)一個(gè)網(wǎng)絡(luò)輿情自動(dòng)監(jiān)控系統(tǒng)將有利 于社會(huì)管理者們及時(shí)了解網(wǎng)絡(luò)輿情的狀態(tài)和趨勢,因而可以對發(fā)現(xiàn) 的熱點(diǎn)輿情及時(shí)進(jìn)行干預(yù),引導(dǎo)疏通民眾情緒和心理,避免矛盾的 進(jìn)一步惡化而造成更大的社會(huì)損失。主要參考文獻(xiàn):洋,何楚杰,段俊文,春程.微博輿情熱點(diǎn)分析系統(tǒng)設(shè)計(jì)研究.信 息網(wǎng)絡(luò)安全.2012.09王藝.重大突發(fā)公共事件的微博輿情監(jiān)測與引導(dǎo)初

8、探.民族學(xué)院 學(xué)報(bào).2011.05濤.智能信息處理技術(shù)在互聯(lián)網(wǎng)輿情分析中的應(yīng)用(碩士學(xué)位論 文).同濟(jì)大學(xué).2008.05超.文本傾向性分析在輿情監(jiān)控系統(tǒng)中的應(yīng)用研究(碩士學(xué)位論 文).郵電大學(xué).2008.02唐曉波 宋承偉.基于復(fù)雜網(wǎng)絡(luò)的微博輿情分析.情報(bào)學(xué) 報(bào).2012.11恒文.基于網(wǎng)絡(luò)語義挖掘的輿情監(jiān)測預(yù)警研究(碩士學(xué)位論文).理 工大學(xué).2010.05王晶,朱珂,汪斌強(qiáng).基于信息數(shù)據(jù)分析的微博研究綜述.計(jì)算 機(jī)應(yīng)用.2012.07莫溢,盛華,悅,程學(xué)旗.一種相關(guān)話題微博信息的篩選規(guī)則學(xué)習(xí) 算法.中文信息學(xué)報(bào).2012.09譚俊武.面向網(wǎng)絡(luò)輿情分析的文本傾向性分類技術(shù)的研究與實(shí)現(xiàn) (碩

9、士學(xué)位論文).國防科技大學(xué).2009.11陸浩.網(wǎng)絡(luò)輿情監(jiān)測研究與原型實(shí)現(xiàn).郵電大學(xué).2009.02M. Spitters, W. Kraaij. Using Language Models for Tracking Events of Interest over Time Proceedings of the Workshop on Language Models for Information. Retrieval(LMIR),Pinsburgh, 2001.Larsen B, Aone C. Fast and effective text mining using linear-time

10、 document clustering. In: Proceedings of the Fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Diego: CA,1999. 16一22.J.Yi,T. Nasukawa,R Bunescu,and w. Niblack. Sentiment Analyzer: Extracting Sentiment S about a Given Topic using Natural Language Processing Techniq

11、ues A. In: Proceedings of the 3rd IEEE International Conference on Data Mining(ICDM22003)【C】.研究方案:理論基礎(chǔ):1 )向量空間模型模型(VSM)2)潛在語義索引(LSI)3)聚類分析方法研究步驟:1)研讀文獻(xiàn),對已采集數(shù)據(jù)的算法分析進(jìn)行調(diào)研;2)建立模型,進(jìn)行模塊化設(shè)計(jì);3)數(shù)據(jù)分析部分的代碼實(shí)現(xiàn);4)對系統(tǒng)的整體實(shí)現(xiàn);5)系統(tǒng)的測試、評(píng)價(jià)、反饋、改進(jìn);6)實(shí)驗(yàn)數(shù)據(jù)收集,撰寫論文。關(guān)鍵技術(shù)與難點(diǎn)1)嘗試將共詞網(wǎng)絡(luò)與復(fù)雜網(wǎng)絡(luò)方法應(yīng)用于基于微博的網(wǎng)絡(luò)輿情 分析中。使用圖論對現(xiàn)實(shí)中的輿情問題進(jìn)行建模,運(yùn)用數(shù)

12、學(xué)基本 理論對模型中實(shí)體之間的關(guān)系進(jìn)行定量計(jì)算,應(yīng)用直觀的共詞網(wǎng) 絡(luò)與復(fù)雜網(wǎng)絡(luò)可視化方法,對微博輿情分析中的兩個(gè)主要任務(wù), 熱點(diǎn)探測和微博領(lǐng)袖熱點(diǎn)發(fā)現(xiàn)展開綜合研究。2)微博部分信息是零散的、高噪聲的、隨機(jī)的和碎片化的,從 而導(dǎo)致構(gòu)建出的文檔向量空間矩陣維數(shù)較高,但數(shù)據(jù)稀疏,因此 傳統(tǒng)基于VSM(Vector Space Mode1)的文本聚類方法在微博客熱 點(diǎn)探測中的效果不佳。需要對VSM進(jìn)行改進(jìn)或者提出更高效的方 法。3)輿情監(jiān)控系統(tǒng)的核心技術(shù)在于輿情分析引擎,涉及的最主要 的技術(shù)包括文本分類、聚類、觀點(diǎn)傾向性識(shí)別、主題檢測與跟蹤、 自動(dòng)摘要等計(jì)算機(jī)文本信息容識(shí)別技術(shù)。其中基于關(guān)鍵詞統(tǒng)計(jì)分 析方法的技術(shù)相對比較成熟,但在其有效性方面還有很大的提高 空間。預(yù)期成果通過與組員的配合,實(shí)現(xiàn)一個(gè)能對微博信息進(jìn)行檢測分析的平 臺(tái);與已有的檢測平臺(tái)相比,實(shí)現(xiàn)更高的有效性,準(zhǔn)確性;初步 實(shí)現(xiàn)對指定簡單微博關(guān)鍵詞

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論