微博內(nèi)容提取_第1頁
微博內(nèi)容提取_第2頁
微博內(nèi)容提取_第3頁
微博內(nèi)容提取_第4頁
微博內(nèi)容提取_第5頁
已閱讀5頁,還剩25頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

吉林大學畢業(yè)論文Ⅰ吉林大學計算機科學與技術學院微博內(nèi)容提取摘要隨著近年來微博等社交軟件的使用人數(shù)日益增多,微博的隱私發(fā)展也成為人們?nèi)找骊P注的問題,然而由于微博沒有固定的格式約束使得在微博的研究過程中有一些無意義的“噪音”的干擾,本文主要是為了完成微博的“噪音”過濾問題,實現(xiàn)一個小軟件,來將新浪微博等微博中下載到本地的微博來進行過濾,去除其中的噪音,提取出純凈的頁面內(nèi)容,主要工作包括以下幾個方面:(1)字符串的查找函數(shù)與分割函數(shù)的實現(xiàn)。(2)多個文件的查找的函數(shù)的實現(xiàn)。(3)固定字符串的即表情“噪音”的過濾實現(xiàn)。(4)具有一定正則文法的“噪音”的過濾實現(xiàn)。關鍵字:中文微博,微博,過濾,噪音,正則吉林大學畢業(yè)論文ⅡMicrobloggingcontentextractionAuthor:LiudiTutor:YangkexinAbstractWithrecentyearsthenumberofmicro-blogusingsocialsoftwareisincreasing,thedevelopmentofmicro-blogprivacyhasbecomeagrowingconcern,However,duetothemicroblogthereisnofixedformatconstraintmakestheinterferenceofsomemeaningless"noise"intheresearchprocessofmicroblog.thepurposeofthispaperistocompletethe"noise"micro-blogfilteringproblem,therealizationofasmallsoftware,tobeusedforfilteringthedownloadtotheSinamicro-blogmicro-blogetc.,removethenoise,extractthepagecontentispure,themainworkincludesthefollowingaspects:(1)thesearchfunctionandthefunctionofthestringsegmentation.(2)theimplementationofthesearchfunctionformultiplefiles(3)thefilteroftheexpression"noise"ofthefixedstring.(4)thefilterofacertainregulargrammar"noise"ofthefixedstring.Keywords:Chinesemicro-blog,micro-blog,filtering,noise,regular吉林大學畢業(yè)論文Ⅲ目錄目錄 1第1章緒論 11.1研究背景 11.2國內(nèi)外研究現(xiàn)狀 2第2章需求分析 3第3章支持平臺與開發(fā)平臺的選擇 43.1平臺環(huán)境 43.2開發(fā)工具的選擇 4第4章系統(tǒng)的總體功能分析與結構圖 54.1系統(tǒng)功能分析 54.1.1過濾微博功能 54.1.2讀取微博功能 54.1.3刪除微博功能 54.1.4處理所有功能 54.1.5退出功能 64.2系統(tǒng)的功能特點 64.3系統(tǒng)功能結構圖 7第5章數(shù)據(jù)結構的設計與主要全局變量介紹 8第6章系統(tǒng)的詳細設計 96.1主界面模塊 96.1.1主界面 96.1.2主界面模塊流程圖 106.2文件選擇模塊 116.2.1文件選擇界面: 116.2.2流程圖 126.2.3主要程序代碼 136.3微博過濾模塊 146.3.1微博過濾模塊界面: 146.3.2流程圖: 156.3.3、主要代碼 176.4批量處理模塊 196.4.1流程圖: 196.4.2、主要代碼 206.5刪除模塊: 206.5.1刪除模塊 206.5.2刪除模塊流程圖 21第7章系統(tǒng)測試與維護 227.1系統(tǒng)測試 227.2系統(tǒng)維護 22第8章結論 23致謝 24參考文獻 25吉林大學畢業(yè)論文第23頁第1章緒論1.1研究背景微博(MircoBlog),是用戶關系的獲取,信息共享,信息傳播的平臺,用戶可以通過多種形式(網(wǎng)頁,APP,移動網(wǎng)頁,輕應用,第三方客戶端等)登錄微博,隨時隨地發(fā)布或者分享文字,圖片,視頻等內(nèi)容,與好友之間實現(xiàn)信息的即時分享。最早的微博產(chǎn)品是美國的微博網(wǎng)站Twitter,在全球范圍內(nèi)Twitter已經(jīng)幾乎成為微博的代名詞,2009年,中文微博社區(qū)“新浪微博”公測,從此,微博類產(chǎn)品正式進入了中國互聯(lián)網(wǎng)市場。微博的出現(xiàn),給人們的交流和分享信息提供了一個新的平臺,通過微博,用戶可以發(fā)表觀點,記錄日常生活,了解時事新聞,與朋友互動等,隨著微博技術的發(fā)展,可供用戶使用的信息發(fā)布形式越來越豐富,包括短信,實時通訊軟件,電子郵件。網(wǎng)頁,聲音或視頻等,而各種客戶端的出現(xiàn),使得用戶發(fā)布私人信息的門檻越來越低,而且,這些信息可能包含用戶的教育經(jīng)歷,工作信息,好友關系,興趣愛好,價值取向等隱私信息,隨著互聯(lián)網(wǎng)營銷和大數(shù)據(jù)挖掘技術的日益發(fā)展,這些信息中包含的價值愈發(fā)被人們意識到,從而帶動了數(shù)據(jù)挖掘技術的新發(fā)展,而數(shù)據(jù)挖掘技術推向了又一個新的階段作為web2.0時代的產(chǎn)物,社交網(wǎng)絡和網(wǎng)絡媒體的結合體,微博已經(jīng)被廣泛領域相關研究人員進行研究,例如社交網(wǎng)絡和媒體分析相關領域,再到計算機科學領域,例如信息見多和自然語言處理方向。全球范圍最流行的微博產(chǎn)品Twitter,已經(jīng)被用來作為研究微博這一新型產(chǎn)品類型特性的典型案例[1],人們也喜歡將它拿來與傳統(tǒng)社交網(wǎng)絡和網(wǎng)絡媒體進行對比[2.3]。在信息檢索領域,相關研究人員研究了微博檢索,與傳統(tǒng)網(wǎng)頁檢索對比[4.5].很多基于Twitter的新研究課題被挖掘了出來,比如事件檢測和追蹤[6,7.8]、用戶情感分析[9]、用戶標簽分析[10]等。1.2國內(nèi)外研究現(xiàn)狀在2011年的KDD會議上,數(shù)據(jù)挖掘和隱私問題首次引起了人們的關注,Marcopennacchiotti在推特上根據(jù)用戶的個人信息,微博內(nèi)容,通過微博發(fā)布相關數(shù)據(jù)(時間,數(shù)量),以及社會關系的信息(關注信息,粉絲信息)開發(fā)一個新的社會媒體的分類框架的發(fā)展,用于判斷用戶的政治取向,民族和價值取向等隱私內(nèi)容,這項研究,無疑給公眾揭露微博隱私信息問題,人們通常在不經(jīng)意間分布的內(nèi)容,暴露的信息遠比內(nèi)容本身大得多。相比國外的研究人員在對英文微博的研究中國的對中文微博的研究就顯得稀少多了,研究結果比較顯著的有清華大學自然語言處理研究,更重要的是,他們利用用戶發(fā)布的微博信息。根據(jù)微博的特點,進一步處理的微博內(nèi)容,在新浪微博上提取微博用戶關鍵詞可以準確、有效地確定用戶的興趣,而這些興趣的信息就可能是用戶的隱私內(nèi)容。第2章需求分析由于微博中蘊藏著巨大的隱私信息,以及用戶興趣信息,因此對微博的隱私挖掘是十分有必要的,然而微博不同于一般的科技文章或者新聞,用戶發(fā)布的微博內(nèi)容比較嘈雜,每條微博可能各有主題,并伴隨著表情、特殊符號(比如@:提到其他用戶)、轉發(fā)等相關性較小的內(nèi)容.如何對待這些內(nèi)容將直接影響得到的結果,本文將著重于微博嘈雜信息的處理,即對微博“噪音”的過濾與提取。本文的主要工作有以下幾點:1.界面簡潔美觀,易于操作,可以用方向鍵進行選擇操作。2.運行平臺為windows操作系統(tǒng),需要vs2012的相關組件支持。3.整個系統(tǒng)分為:過濾微博,讀取微博,刪除微博,批量過濾微博,退出系統(tǒng)五個部分。4.系統(tǒng)需提前建立一個微博文件夾,并在里面提前保存有微博文件。5.系統(tǒng)的核心過濾算法。⑴過濾固定“噪音”函數(shù)。過濾諸如表情,鏈接按鍵,視頻組件等固定的“噪音”。⑵過濾兩個固定字符串中間的“噪音”的函數(shù)。過濾諸如@某人,主題即兩個“#”中間的“噪音”的函數(shù),與上面的過濾固定噪音的函數(shù)組合起來可以過濾多種類型的噪音。第3章支持平臺與開發(fā)平臺的選擇3.1平臺環(huán)境由于本程序在提取文件目錄模塊中用到了windows系統(tǒng)的命令所以本程序需要在在windows操作系統(tǒng)下運行,需要VisualStudio2012相關的組件支持3.2開發(fā)工具的選擇本次設計所用的編程語言主要是c語言,開發(fā)用具是VisualStudio2012。C語言程序是操作內(nèi)存的程序,具有程序結構執(zhí)行效率高、編譯效率高、程序結構簡潔表達式簡練、靈活性強、等諸多優(yōu)點,相對于匯編語言還可以編寫規(guī)模較大的程序,因此可以更快的過濾微博同時,c語言相對于匯編語言可以使代碼的可重用性更強第4章系統(tǒng)的總體功能分析與結構圖4.1系統(tǒng)功能分析該系統(tǒng)將采用層次化模塊設計方法對系統(tǒng)總體進行設計和分析。本系統(tǒng)的功能模塊主要完成如下功能:4.1.1過濾微博功能過濾微博功能即是,先從指定文件路徑下提取所有文件的名稱,然后選擇其中的一個文件進行過濾,顯示,并將過濾后的微博保存在與程序的子目錄下,過濾后的微博文件名稱與過濾的前微博文件名稱相同。4.1.2讀取微博功能讀取微博的功能,即是從微博過濾后的文件路徑下提取過濾后的微博文件名稱,然后并讀取其中的內(nèi)容并予以顯示,方便隨時讀取過濾后微博的內(nèi)容,省去了查找文件的精力。4.1.3刪除微博功能一共提供了三種刪除模式,分別是刪除過濾前微博,即刪除一條過濾前的微博,刪除過濾后的微博即刪除一條過濾后的微博,以及批量刪除所有過濾后的微博。前兩種方便刪除單條的微博文件,最后一種方便對微博的批量刪除管理,文件進行管理。比如:對文件的刪除、過濾、批量管理等操作。4.1.4處理所有功能即一鍵過濾所有的待過濾的微博,雖然機器過濾的速度遠遠快于人的反應速度,但是如果讓人一條一條的過濾,機器的優(yōu)勢并不明顯,所以批量處理是必要的,處理所有,即一次將所有待過濾的微博文件進行過濾并保存,從而實現(xiàn)了批量過濾,大大的提高了執(zhí)行效率。4.1.5退出功能即退出程序4.2系統(tǒng)的功能特點1.操作簡單、界面友好,只需要操作方向鍵就可以完成。2.即時可見:對文件的操作(包括刪除過濾選擇)操作之后,在對應的路徑下的微博內(nèi)容將會立即更新,用戶可以隨時地確認自己過濾后的微博是否保存下來,過濾后的微博文件可以隨時打開確認內(nèi)容。3.功能完善:包括常見文件管理:讀取、過濾、刪除、批量過濾、批量刪除等各個方面,實現(xiàn)了大部分的對目錄和文件的管理要求,簡化了人的操作,比一般的控制臺應用操作簡易多了。4.3系統(tǒng)功能結構圖:圖4-1系統(tǒng)功能結構第5章數(shù)據(jù)結構的設計與主要全局變量介紹本文的微博的保存方式是以文本文件的形式保存在read文件夾目錄下,過濾后的微博也是以文本的形式保存在write文件夾下,兩個文件夾中的對應的文件名字相同,而在執(zhí)行期間,微博的內(nèi)容是以數(shù)組的形式存儲在內(nèi)存中的。在進行字符串分割期間中間變量保存在一個char**的指針之中,隨著分割函數(shù)的執(zhí)行動態(tài)地申請內(nèi)存,可以節(jié)約程序的執(zhí)行效率,而文件列表也保存在一個長度為200的二維數(shù)組之中,數(shù)組的長度保存在一個整形的filei全局變量之中,方便多個函數(shù)共享文件的數(shù)目。本程序的界面組成的實現(xiàn)主要用到控制臺輸出句柄,通過動態(tài)的控制來控制輸入文字的坐標與顏色,來實現(xiàn)列表式的文件選擇,讓用戶更加簡潔明了的理解軟件的使用方式,通過關閉光標的顯示,來讓整個程序的界面顯得與一般的控制臺應用程序相比顯得更加的界面友好由于待過濾的表情不是很頻繁的更改,所以本程序的過濾用的表情庫也是保存在全局的內(nèi)存之中,保存的方式是保存在二維數(shù)組之中,好處的可以減少從文件加載表情庫的時間,由于雙字符串的過濾不是很多,所以主題與@用戶的噪音的過濾是直接在主程序之中執(zhí)行的。第6章系統(tǒng)的詳細設計本系統(tǒng)共分為五個模塊,分別是:主界面模塊、文件選擇模塊、微博過濾模塊,批量管理、刪除模塊、退出模塊。

6.1主界面模塊圖6-1微博主界面6.1.1主界面功能說明:主界面模塊的主要,作用即是用戶對于主要功能的選擇,用戶可以通過按方向鍵或者小鍵盤以及wasd鍵來控制白色光標的移動來進行功能選擇按回車即是確認,進入二級功能界面。6.1.2主界面模塊流程圖圖6-2微博主界面流程圖6.2文件選擇模塊6.2.1文件選擇界面:圖6-3文件選擇界面流程圖功能說明:在文件選擇界面,用戶可以對需要過濾的微博文件或者待刪除的微博文件以及待讀取的微博文件進行選擇。通過該界面可以讓用戶更加清晰地選擇單一的待操作文件,而省去了自己輸入文件路徑,整個過程一目了然,經(jīng)過了文件選擇的操作用戶可以實現(xiàn)對微博的單挑操作,在該界面下為用戶提供了清晰的選擇界面,為文件進行標號用戶可以清晰的知道文件的數(shù)目,按上下鍵可以控制光標移動,按左右鍵可以翻頁,按回車進行選擇,按Esc鍵可以返回上一級菜單,為用戶提供了便捷的選擇空間。6.2.2流程圖:圖6-4文件選擇界面流程圖6.2.3主要程序代碼//=============================================================================//獲取文件列表//從指定文件夾中獲取所有文件的名稱并保存在全局的filename數(shù)組中,不包括文件夾voidgetfilename(char*fileroute){ filei=0; system("ifnotexist.\\tempmd.\\temp"); system(fileroute); if((fileF=fopen("temp/dir.txt","r"))==NULL) printf("openerror!\n"); while(!feof(fileF)) { fscanf(fileF,"%s",filename[filei]); filei++; } filei--; fclose(fileF); system("del.\\temp\\dir.txt");}6.3微博過濾模塊:6.3.1微博過濾模塊界面:圖6-5微博過濾界面功能說明:該部分即是本文的核心算法,具體包括字符串分割和字符串拼接兩部分作用就是將提取的微博進行過濾,過濾掉其中的噪音,其中噪音有兩種,其一是固定的噪聲即為表情等由固定字符串組成的噪聲,其二是由兩個字符串以及中間的部分組成的噪聲即為非固定噪聲但是規(guī)律就是在兩個固定的字符串中間的部分,例如主題轉發(fā)內(nèi)容@其他用戶的內(nèi)容等構成,兩種過濾模式共有兩種算法,但是都是基于第一種過濾算法。6.3.2流程圖:單條字符串分割圖6-6單條字符串分割流程圖圖6-7雙字符串分割流程圖圖6-8字符串拼接流程圖6.3.3、主要代碼://=============================================================================//字符串分割函數(shù)//分割字符串到一個字符串數(shù)組中,其中該數(shù)組第一位為分割后的個數(shù)char**StringSplit(char*string,constchar*split){char**result;//首先分配一個char*的內(nèi)存,然后再動態(tài)分配剩下的內(nèi)存result=(char**)malloc(sizeof(char*)*1);memset(result,0,sizeof(char*)*1);//定義一個遍歷用的指針和一個尋找位置用的指針char*p=string;char*pos=string;//無論是否存在該分割串,絕對都會分割到一個字符串intcount=1;while(*p!='\0')//遍歷字符串{char*temp;char*tt;//查找該字符串pos=strstr(p,split);//檢索目標字符串首次出現(xiàn)的位置//結果為0說明剩下的字符串中沒有該字符了if(pos==0){result=(char**)realloc(result,sizeof(char*)*(count+2));result[zero]=(char*)count;result[count]=p;result[count+1]=NULL;returnresult;}//分配臨時字符串空間temp=(char*)malloc(sizeof(char)*(pos-p+1));memset(temp,0,sizeof(char)*(pos-p+1));//設置頭指針,以便賦值時使用tt=temp;while(p<=pos){*temp++=*p++;}//將字符串結尾置零*--temp='\0';result=(char**)realloc(result,sizeof(char*)*(count+1));result[zero]=(char*)count;result[count]=tt;count++;//設置下一次遍歷時的指針(重要)。當split長度大于1時,不這樣設置會多賦值不必要的字符串p+=strlen(split)-1;}returnresult;}//=============================================================================//表情過濾函數(shù)//說明:express為待過濾表情//將過濾后的表情保存在express數(shù)組中voidRecover(char*express,char*bufa){ if(express=="")//防止輸入空串使程序進入死鎖 return; array=StringSplit(bufa,express);//過濾l=0;for(i=1;i<=(int)array[0];i++)//拼接{strcpy(bufa+l,array[i]); j=strlen(array[i]); if(i==(int)array[zero])//邊界處理 return; strcpy(bufa+l+j,"[衰]"); l=l+j+4; }}6.4批量處理模塊:6.4.1流程圖:圖6-9批量處理流程圖6.4.2、主要代碼:{ getfilename("dir.\\read/a:-d/b>.\\temp\\dir.txt"); //model=Menu1(); system("cls"); //printf(filename[model]); intmain_i; for(main_i=0;main_i<filei;main_i++) { start(filename[main_i]); } system("cls"); SetConsoleTextAttribute(g_hConsoleOutput,0x0F); gotoxyWithFullwidth(13,5); printf("已經(jīng)過濾完所有微博");}6.5刪除模塊:圖6-10刪除模塊主界面6.5.1刪除模塊功能說明:刪除模塊主要提供三種刪除微博文件的方式分別是刪除單條過濾前微博,刪除單條過濾后微博,與刪除所有微博。。6.5.2刪除模塊流程圖圖6-11刪除模塊流程圖第7章系統(tǒng)測試與維護7.1系統(tǒng)測試本系統(tǒng)完成后的綜合測試是由自己的同學與自己對系統(tǒng)進行測試。這部分測試目的是盡可能的發(fā)現(xiàn)錯誤,改正錯誤,并驗證此開發(fā)系統(tǒng)是否確實能夠滿足用戶的需要。經(jīng)過反復測試,測試結果為:對于微博無論是多表情還是空文件還有表情在邊界,將@符號與空格顛倒,以及沒有文件,等邊界信息均能夠完成該系統(tǒng)所要求達到的標準,在選擇文件上為了不讓非法數(shù)據(jù)的輸入,主要是通過限制輸入的權限的方式完成的,只能選擇有的文件不能選擇沒有的文件。7.2系統(tǒng)維護系統(tǒng)維護是負責控制和決定整個系統(tǒng)的可擴展性。如果還有更多的時間,開可以繼續(xù)添加表情庫的擴充功能,將程序運行期間動態(tài)申請的內(nèi)存也盡可能的及時的釋放第8章結論微博內(nèi)容提取系統(tǒng),本系統(tǒng)的開發(fā)將大大提高微博噪音過濾的工作效率,獲得純凈的微博界面,加快了微博數(shù)據(jù)挖掘的效率。此系統(tǒng)雖然是控制臺應用程序,但是由于控制臺輸出句柄的使用,讓程序界面變得一目了然易于操作,風格統(tǒng)一,這是優(yōu)于一般的控制臺程序的亮點。通過這次畢業(yè)設計,讓我對c的字符串的操作與文件的操作以及內(nèi)存的申請與釋放有了更深的了解,給我培養(yǎng)了對編程的興趣。通過畢業(yè)論文的撰寫,我獲得了小小的成就感,能夠通過自己的能力獨立解決從未遇到的困難、對于編程與代碼有了新的層次的理解,讓自己的知識更加的融會貫通,通過對代碼的錯誤的調(diào)試與設計,讓我產(chǎn)生了更加縝密的思維以及更加細致的設計,相信此次設計對于我將來的學習幫助將帶來巨大的影響。由于時間和能力有限的原因,課題的完成的還不夠完美,還有諸多方面仍可以進行更為統(tǒng)一而高效的改善,例如很多函數(shù)都可以進行統(tǒng)一的設計,讓整個項目的模塊化更強。吉林大學畢業(yè)論文第26頁吉林大學計算機科學技術學院致謝在數(shù)月的畢業(yè)設計即將結束之際,請允許我對支持和幫助我的指導老師楊可新副教授表示衷心的感謝。

參考文獻KwakH,LeeC,ParkH,MoonS.WhatisTwitter,asocialnetworkoranewsmedia?在對萬維網(wǎng):第十九屆國際會議.2010,591–600ZhaoWX,JiangJ,WengJ,HeJ,LimE,YanH,LiX.Comparingtwitterandtraditionalmediausingtopicmodels,In:Proceedingsofthe33rdEuropeanConference

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論