[碩士論文精品]基于p2p的中文搜索引擎的研究與應用_第1頁
[碩士論文精品]基于p2p的中文搜索引擎的研究與應用_第2頁
[碩士論文精品]基于p2p的中文搜索引擎的研究與應用_第3頁
[碩士論文精品]基于p2p的中文搜索引擎的研究與應用_第4頁
[碩士論文精品]基于p2p的中文搜索引擎的研究與應用_第5頁
已閱讀5頁,還剩69頁未讀 繼續(xù)免費閱讀

[碩士論文精品]基于p2p的中文搜索引擎的研究與應用.pdf 免費下載

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

南京郵電大學碩士研究生學位論文摘要摘要P2P搜索引擎是一種基于P2P網(wǎng)絡結構的全文檢索引擎,它是網(wǎng)絡技術研究中的一個新興領域,現(xiàn)有的P2P搜索技術在如何面對大規(guī)模的網(wǎng)絡節(jié)點保持系統(tǒng)的穩(wěn)定性、可靠性,減少對超級節(jié)點的依賴及對網(wǎng)絡節(jié)點共享資源的發(fā)現(xiàn)、索引、復雜搜索、深度搜索等方面還存在一些不足,本文在如何實現(xiàn)網(wǎng)絡穩(wěn)定可靠、對超級節(jié)點依賴少及高效的對資源進行發(fā)現(xiàn)索引、支持復雜搜索、中文處理和深度搜索等方面進行了深入的研究。針對傳統(tǒng)中文分詞算法的缺陷,本文提出了一種基于X一樹結構的中文分詞算法CSECHSPLITOR,CSECHSPLITOR算法首先在X樹結構初始節(jié)點查找酋字哈希值,再根據(jù)首字孩子節(jié)點指針在基于有序表的孩子節(jié)點上查找后繼元素,通過對比基于哈希表的新詞詞庫,動態(tài)移動首字指針,解析出數(shù)據(jù)中有效的分詞單位。在CSECHSPLITOR基礎上本文設計并實現(xiàn)了配套的全文檢索系統(tǒng);針對傳統(tǒng)P2P搜索技術所采用的網(wǎng)絡結構不足,提出了一種改進的三層半分布混合式P2P網(wǎng)絡結構,該網(wǎng)絡結構將系統(tǒng)網(wǎng)絡節(jié)點按功能劃分為引導節(jié)點、超級節(jié)點、普通節(jié)點,并擴展引導節(jié)點與超級節(jié)點定義采用純P2P模式連接的子網(wǎng)絡,盡最大可能的避免傳統(tǒng)模式下由于超級節(jié)點失效而導致局部網(wǎng)絡失效的問題,結合三層混合式半分布P2P網(wǎng)絡結構與全文檢索系統(tǒng)的基礎上實現(xiàn)了一種基于P2P的中文搜索引擎P2PCHINESESEARCHENGINEP2PCSE。通過構建了一個基于局域網(wǎng)的實驗環(huán)境,對P2PCSE系統(tǒng)中文分詞算法的效率、準確度,P2PCSE系統(tǒng)網(wǎng)絡的可靠性、可擴展性及P2PCSE系統(tǒng)資源搜索的覆蓋深度、準確度、滿意度進行了詳細的測試。實驗結果表明P2PCSE系統(tǒng)具有網(wǎng)絡穩(wěn)定可靠、資源覆蓋廣,支持復雜搜索的優(yōu)點。關鍵字對等網(wǎng)絡,中文分詞,搜索引擎露家郾毫大學矮套掰究生學譴論文AB爨弦蘸ABSTRACTFOROVERCOMINGTHEDISADVANTAGESINTHETRADITIONALCHINESEWORDSEGMENTATIONALGORITHM,AXTREEBASEDCHINESEWORDSEGMENTATIONALGORITHMCSECHSPLITORISPROPOSEDINTHISPAPERIFFIRSTLYLOOKUPTHEHASHVALUEOFTHEFIRSTWORDINTHEINITIALNODEOFTHEXTREE,THENSUBSEQUENTELEMENTSINCHILDNODEBASEDONORDEREDLISTACCORDINGTOPOINTEROFTHEFIRSTWORD|SCHILDNODEBYCOMPARINGTHENEWWORDSDICTIONARYBASEDONTHEHASHTABLEANDDYNARNICLYMOVINGTHEPOINTEROFTHEFIRSTWORD,EFFECTIVEWORDSEGMENTATIONCANBEPARSEDACOMPATIBLEFULLTEXTRETRIEVALSYSTEMISALSOIMPLEMENTEDBASEDONCSECHSPLITORTOIMPROVENETWORKSTRUCTUREOFTHETRADITIONALP2PSEARCHINGTECHNOLOGY,THISPAPERALSOPROPOSEDALLIMPROVEDDISTRIBUTIONOFTHETHREESEMIHYBRIDP2PNETWORK0DOTSP2PNETWORK,WHICHDEFINESTHENETWORKNODESASGUIDINGNODES,SUPERNODESANDNORMALNODESACCORDINGTOTHEIRFUNCTIONS。THEGAIDINGNODESANDSUPERNODESAREORGANIZEDASASUBNETWORKWITHPUREP2PMODEL。INTHEFOUNDATIONOFMOTSP2孫聯(lián)N,ORKANDFULLTEXTSEARCHINGSYSTEM,AP2PBASEDP2PCHINESESEARCHINGENGINEP2PCSEISSETUPBYBUILDINGALANBASEDEXPERIMENTALENVIRONMENT,TESTSFOREVALUATINGP2PCSESEFFICIENCY,ACCURACY,RELIABILITY,ACALABILITYANDTHEDEPTHCOVERAGE,SATISFACTION,INITSRESOUROCSEARCHINGARECONDUCTEDTHERESULTSSHOWTHATTHEP2PCSESYSTEMISSTABLEANDRELIABLEINNETWORKING,ANDALSOSUPPORTSCOMPLEXIBLESEARCHING。KEYWORDSP2P,CHINESEWORDSEGMENTATION,SEARCHENGINE南京郵電大學學位論文原創(chuàng)性聲明本入聲驥所至交的學位論文是我介入在導薅指替下進行韻研究工作及取得的研究成果。盡我所知,除了文中特別加以標注和致謝的地方外,論文中不包含萁縫入已經(jīng)發(fā)表或撰篤過贍研究戒暴,也不毽含麓獲得南京郵穰大學或其它教育機構的學位或證書藤使用過韻材料。與我一同工作的同志對本研究所傲的任何貢獻均旺在論文中作了明確的說明并表示了謝意。研究生簽名單日期繹南京郵電大學學位論文使用授權聲明南隸齠毫大學、率國科學技術瘩感研究所、國家霉書馕有投傈警本人所送交學位論文的復印件和電子文檔,可以采用影印、縮印或其它復制手段保存論文。本文電予文檔的內容和紙質論文的內容相一致。除在保密期內的保密論文努,兔誨論文被查窩幫借闋,可戮公布頂點集合礦P,10IS伽1;邊的集合E島10SFSN,OJSQ1,F(xiàn)CHILDNEXTCHARPSFINDNEXTCHARKEY,F(xiàn)ISRTPCHILD;IFNEXTCHARPFI1DELPRCVIOUSPARTICUNIT,PARTICARRAY;ADDCURRENTPANICUNIKPANICARRAY;FISRTPGETORIGINALPOSCURRENTPARTICUNIT,SENTENCE;ELSEIFMATCHNEWWORDNEWWORDSHASHTABLE,CURRENTPARTICUNITADDCURRENTPARTICUNIT,PARTICARRAY;FISRTPGETORIGINALPOSCURRENTPARTICUNIT,SENTENCE;ELSERETURNFALSE;FISRTPFH嬲HTABJEFINDFISRTPCHARCODE;南京郵電大學碩士研究生學位論文第四章P2PCSE系統(tǒng)全文檢索實現(xiàn)從X一樹的結構及上述步驟我們可以看出,CSECHSPLITOR查找算法每一次查找過程可以分為兩步,第一步是在首字哈希表中FHASHTABLE查找首字的過程,時間復雜度為OI,第二步為在首字指針所指孩子節(jié)點的有序表中查找后繼字及重復第二步的過程。據(jù)詞庫建立時候的統(tǒng)計數(shù)據(jù)顯示,孩子節(jié)點有序表的平均長度為5。而首字哈希表所有子樹的平均高度為3。假如一個句子的長度為N,那么它的中文分詞處理時間復雜度最好的情況下為D,平均情況為0CC16,在最壞的情況下,時間復雜度也遠小于ON2。43系統(tǒng)文件處理模塊P2PCSE中文件處理模塊負責索引解析共享文件夾下所有文件數(shù)據(jù),同時監(jiān)控該文件夾處理新增或失效文件數(shù)據(jù),進一步與服務器超級節(jié)點數(shù)據(jù)同步。文件處理模塊索引流程如下STEPL首先對共享文件按照表42對文件各項參數(shù)進行提取。STEP2對需要進行中文分詞處理的文件內容通過調用對應文件數(shù)據(jù)提取方法獲取文件內容,進一步調用分詞模塊處理分析。STEP3保存數(shù)據(jù)準備與超級節(jié)點進行索引數(shù)據(jù)同步。表42文件處理歸類表文件類型文件文件分詞處理分詞處文件數(shù)據(jù)提取方法大小名稱文件名理文件內容TXTJ0PARSETXTFILENASEDOC0,PARSEDOCFILENAMEHTM,PARSEHTMLFILENAMEPDF0,XVSDXPDF0XRARJ,XCMD0PARSECMDFILENAMEBAT0PARSEBATFILENAMEPY4PARSEPYFI1ENAMEMP3,PARSEMP3FILENAME南京郵電大學碩士研究生學位論文第四章P2PCSE系統(tǒng)全文檢索實現(xiàn)W8VXRXRMVBXACCXAVL,XMP4,XGIF_XJPG,XPNG0XPSDXSWF,0XFLY,XEXE,XTTFXDLL1TXBASH,PARSEBSHFIIENAMEXMLPARSEXMLFILENAMEASP0,PARSEASPFILENAMEPAP,PARSEPHPFIIENAME無文件名,X因篇幅所限,本表未列舉出所有擴展文件類型P2PCSE文件處理模塊對處理后的結果數(shù)據(jù)采用XML文檔格式存儲,其數(shù)據(jù)結構如表43所示。表43P2PCSE索引數(shù)據(jù)規(guī)格式索引數(shù)據(jù)眥格式示范FILESIZEFILEFULIPATHCFILEFULLPATH38南京郵電大學碩士研究生學位論文第四章P2PCSE系統(tǒng)全文檢索實現(xiàn)KEYFORFI1ENAMEKEYLKEY2|L0。各字段含義P2PCSEFILFILETYPFILESIZFILEFULLPATKEYFORFI1ENAMKEYSFORCONTENSYNCHRONIZEFLAEEEHETG文件節(jié)點文件類文件大文件全路徑文件名關鍵字文件內容關鍵是否完成同步標型小字志系統(tǒng)文件處理模塊只在普通節(jié)點上激活運行,利用P2PCSE普通節(jié)點的資源完成對共享文件的索引,從而減輕超級節(jié)點的壓力。文件索引核心處理算法使用偽碼描述如下VOIDPARSESHAREDFILESSHAREDDIRECTORYFORFILEINSHAREDDIRECTORYFILEPROPERTYGETFILEPROPERTYFILE11對不同類型的文件按照表42規(guī)定的要求對文件名稱和內容進行解析和分詞處理。IFFILEPROPERTYNEWFILEXMLNEWFILEXML;11生成新的空X甩文檔NEWFILEXMLWRITEFTFIIEPROPERTYFIIETYPE寫入文件類型NEWFILEXMLWRITEFFPFILEPROPERTYFILEFULLPATH寫入文件全路徑NEWFILEXMLVRRITEFNFIIEPROPERTYFILENAME寫入文件名稱NEWFILEXMLWRITEFSFILEPROPERTYFILESIZE寫入文件大小NEWFILEXMLWRITEKFFNFILEPROPERTYKEYFORFILENAME寫入經(jīng)過分詞處39南京郵電大學碩士研究生學位論文第四章P2PCSE系統(tǒng)全文檢索實現(xiàn)理的文件名稱關鍵字NEWFILEXMLWRITEKFFCFIIEPROPERTYKEYSFORCONTENT寫入經(jīng)過分詞處理的文件內容關鍵字NEWFILEXMLEND0ELSECONTINUE44系統(tǒng)文件索引儲存查詢模塊P2PCSE系統(tǒng)中文件索引儲存查詢模塊是為P2PCSE系統(tǒng)提供共享文件全文檢索數(shù)據(jù)儲存,節(jié)點查詢搜索服務的核心模塊。在整個系統(tǒng)中起關鍵的作用。普通節(jié)點關鍵字請求將通過分詞模塊處理分解為一個或者多個分詞單位,然后請求超級節(jié)點對該自治簇所有共享文件索引進行查詢。綜合目前儲存解決方案,P2PCSE系統(tǒng)文件索引儲存模塊可以采用如下方案XML文件儲存方式自定義二進制文件儲存方式關系數(shù)據(jù)庫儲存方式以MYSQL為代表通過綜合數(shù)據(jù)測試分析對三種方案得出表43所示表43P2PCSE索引存儲解決方案比較存儲類型查詢需要轉化線程安全查詢速度數(shù)據(jù)大小限制并發(fā)支持嘰文件否否慢無限制不支持白定義二進制是否慢無限制不支持關系數(shù)據(jù)庫否是快大于100G支持考慮到P2PCSE網(wǎng)絡模型對超級節(jié)點及引導節(jié)點可能的最大并發(fā)請求,根據(jù)表5L,以IOOW節(jié)點規(guī)模P2PCSE網(wǎng)絡,平均每個超級節(jié)點維護2000普通節(jié)點為例。該網(wǎng)絡將有500個超級節(jié)點,在最壞的情況下,某超級節(jié)點將接受22000次并發(fā)搜索請求。這就要求索引存儲查詢方案必須支持大規(guī)模并發(fā),而且查詢速度快的。通過上面綜合分析,P2PCSE系統(tǒng)采用開源的關系數(shù)據(jù)庫MYSQL方式存儲自治簇共享文南京郵電大學碩士研究生學位論文第四章P2PCSE系統(tǒng)全文檢索實現(xiàn)件索引數(shù)據(jù)數(shù)據(jù)。在P2PCSE系統(tǒng)中普通節(jié)點綜合分詞系統(tǒng)及文件屬性處理系統(tǒng)索引本機共享文件,在初始化和更新的情況下發(fā)送索引數(shù)據(jù)給超級節(jié)點。超級節(jié)點只負責存儲自治簇普通節(jié)點的經(jīng)過分詞處理后的關鍵字索引,超級節(jié)點本身不執(zhí)行分詞處理過程。其中負責存儲對應自治簇共享文件索引數(shù)據(jù)的核心表AUTONOMY_CLUSTERPARA如表44所示,AUTONOMYCLUSTERKEY如表45所示。表44共享文件參數(shù)儲存表FILEIDPEERIDFILETYPEFILESIZEFILE_FULLPATHFILE_NAMEKEY文件ID所在普文件類型文件大小文件全路徑文件名經(jīng)分詞處表主鍵通節(jié)點理后的關鍵字列ID表表45共享文件內容關鍵字儲存表KEYIDFILEIDPEERIDKEY_LIST表主鍵文件ID,普通節(jié)點ID,外鍵分詞單位列表用。,”分隔外鍵45本章小結在第三章P2PCSE系統(tǒng)設計方案分析的基礎上對系統(tǒng)關鍵全文檢索的實現(xiàn)做了詳細分析。綜合分析了全文檢索子系統(tǒng)的模型,提出了一種基于X一樹的中文分詞算法CSECHSPLITOR,對其模型及算法進行了詳細的定義和實現(xiàn)。對全文檢索子系統(tǒng)按照功能劃分為分詞處理模塊、文件處理模塊、索引儲存查詢模塊并分別對其進行詳細介紹和實現(xiàn)。毒褒蛞電大學矮蛩究生學位論文第五掌P2PCSE系統(tǒng)弼終縫穩(wěn)實濺第五章P2PCSE系統(tǒng)網(wǎng)絡結構實現(xiàn)第三章對P2PCSE系統(tǒng)總體設計做了詳細的分析,其中對P2PCSE系統(tǒng)的關鍵部分一網(wǎng)絡結構做了分析,為本章重點分析并實現(xiàn)系統(tǒng)網(wǎng)絡結構做了鋪墊。本章開篇首先介紹P2PCSE系統(tǒng)網(wǎng)絡結構模整,將網(wǎng)絡巾節(jié)點按照功能劃分為弓L導節(jié)點、超級節(jié)點、普通節(jié)點并分別進行定義,對節(jié)點間網(wǎng)絡連接模型進行分析。在此基礎上對實現(xiàn)P2PCSE系統(tǒng)網(wǎng)絡結構的關鍵部分分別進行介紹和實現(xiàn)。51系統(tǒng)網(wǎng)絡模型P2PCSE系統(tǒng)網(wǎng)絡結構基于改進的三層混合式半分布兩絡,其模型結構如圖爭重所示,網(wǎng)絡中節(jié)點根據(jù)節(jié)點硬件及網(wǎng)絡性能分為普通節(jié)點NNODE,超級節(jié)點SNODE,同時另外設置一個引導節(jié)點GNODE。其中孳L導節(jié)點及超級節(jié)點都為一臺或者多臺最多LO臺普通踅或者服務器構成的網(wǎng)絡,其模型結構如圖52所示,子網(wǎng)絡節(jié)點間采用全分布非結構化連接。實行贏相索引備份,增強系統(tǒng)健壯性,防止某點出現(xiàn)故障時候導致整個或者局部網(wǎng)絡失效,對搜索請求進行動態(tài)分配。引導節(jié)點與超級節(jié)點間采用中心化拓撲方式連接。引導節(jié)點負責新節(jié)點加入時候動態(tài)分配超級節(jié)點,超級節(jié)點的維護,超級節(jié)點失效時重新分配超級節(jié)點給普通節(jié)點。超級節(jié)點與附近的一定覯模的普通節(jié)點構成一個自治的節(jié)點簇,簇肉采用傳統(tǒng)的集中目錄式結構,其模型緒構如圖53所示,超級節(jié)點負責儲存索引該簇內所有普通節(jié)點數(shù)據(jù)索引,提供數(shù)據(jù)查詢,信息中轉服務,P2PCSE網(wǎng)絡中超級節(jié)點聞采用純P2P網(wǎng)絡結構連接。普逶節(jié)點提供P2PCSE系統(tǒng)隧終共享文件來源,負責對各囊節(jié)點共享文件數(shù)據(jù)進行梭索,并與其所在的自治簇超級節(jié)點進行索引數(shù)據(jù)同步。在P2PCSE系統(tǒng)中,為了避免超級節(jié)點間搜索請求轉發(fā)造成網(wǎng)絡數(shù)據(jù)堵塞及最壞情況下某超級節(jié)點超出極限值,規(guī)定P2PCSE系統(tǒng)中每個超級節(jié)點最多接受3000個并發(fā)搜索請求,超出限制返回服務不可用標志,直接拒絕請求。南京自學砸研究學位論立第五章P2PCSE幕統(tǒng)網(wǎng)絡結構實現(xiàn)普通節(jié)點普通節(jié)點普通節(jié)點普通節(jié)點普通節(jié)點普通節(jié)點普通節(jié)點普通節(jié)點普通節(jié)點圖51P2PCSE改進的三層混合網(wǎng)絡結構模型節(jié)點圖52P2P匕SE系統(tǒng)中超級節(jié)點及引導節(jié)點結構JJ一,、|、參自京郵電學碩究生學位論立第五章P2PCSE系統(tǒng)月培結構實幺啦、籮閏53P2PCS5系統(tǒng)自治簇結構模型P2PCSE兩層混合網(wǎng)絡模型中,在10萬規(guī)模普通節(jié)點的網(wǎng)絡中,經(jīng)過統(tǒng)計節(jié)點共享文件總數(shù)平均在3000個以內,每個文件經(jīng)過P2PCSE索引模塊處理后的索引數(shù)據(jù)約為05K見下文,每個節(jié)點的索引數(shù)據(jù)平均在3000051500K15H,假如每個超級節(jié)點負責維護1000個普通節(jié)點的文件索引數(shù)據(jù),每個超級節(jié)點負責維護的索引數(shù)據(jù)總量將在15M1000I5G左右。那么我們可以計算出超級節(jié)點的個數(shù)為10000100010個從下表我們可以看出不同規(guī)模網(wǎng)絡的所需超級節(jié)點總數(shù)及索引總數(shù)據(jù)。表51不同規(guī)模廂絡超級節(jié)點數(shù)目及索引敷據(jù)分析類型規(guī)模10萬I00萬1000萬5000萬方案一每個超紐節(jié)點維護500個普通節(jié)點超級節(jié)點數(shù)目20020000100,000索引數(shù)據(jù)大小750W75叫750H方案二每個超級節(jié)點維護1000個普通節(jié)點超紐節(jié)點數(shù)目10,000100000索引敫據(jù)大小L5G15G方案三每個超紐節(jié)點維護2000個醬通節(jié)點超級節(jié)點數(shù)目500500050000索引數(shù)據(jù)大小3G3G方案四每個超級節(jié)點維護5000個普通節(jié)點南京郵電大學碩士研究生學位論文第五章P2PCSE系統(tǒng)網(wǎng)絡結構實現(xiàn)超級節(jié)點數(shù)目20200200020,000索引數(shù)據(jù)大小75G75G75G75G方案五每個超級節(jié)點維護10000個普通節(jié)點超級節(jié)點數(shù)目10100100010,000索引數(shù)據(jù)大小15G15G15G15G從上表看出每個節(jié)點維護大于等于2000個普通節(jié)點的對超級節(jié)點的索引存儲壓力是適中和可取的。在P2PCSE系統(tǒng)中,采用表3I中的方案三。每個超級節(jié)點維護2000個普通節(jié)點。在P2PCSE系統(tǒng)中三層混合網(wǎng)絡結構中每個超級節(jié)點負責維護2000個普通節(jié)點,每個超級節(jié)點最大索引數(shù)據(jù)為3G。52P2PCSE系統(tǒng)網(wǎng)絡結構實現(xiàn)在P2PCSE系統(tǒng)設計方案中對網(wǎng)絡結構分析的基礎上,本節(jié)對實現(xiàn)P2PCSE網(wǎng)絡結構模型的關鍵處理方法進行了詳細分析及實現(xiàn),下面將一一介紹關鍵處理辦法細節(jié)。521對超級節(jié)點產(chǎn)生的處理超級節(jié)點是對應自治簇的核心,在P2PCSE中通過特定條件選擇超級節(jié)點。普通節(jié)點在加入網(wǎng)絡前,先計算自身硬件及網(wǎng)絡性能是否滿足超級節(jié)點的性能要求,然后提示用戶該節(jié)點適合成為超級節(jié)點。再得到用戶許可后,發(fā)送申請成為超級節(jié)點的請求REQUESTSNODE,DATA參數(shù)包含節(jié)點的網(wǎng)絡地址,性能評估,系統(tǒng)引導節(jié)點接受到該信息后,經(jīng)過綜合評估,對符合成為超級節(jié)點的請求予以成功回復REPLY,否則拒絕ERROR,該普通節(jié)點接受到反饋信息后,根據(jù)信息類別設置自身為超級節(jié)點或者設置為超級節(jié)點子節(jié)點,或者重新申請加入網(wǎng)絡。該過程用程序偽碼描述為VOIDREQUCSTIONSNODEDATA例斷節(jié)點綜合性能是否滿足要求RESULTPEERFITFORSNODEBYPERFORMANCEO;IFRESULTMINSTAND申請成為超級節(jié)點45南京郵電大學碩士研究生學位論文第五章P2PCSE系統(tǒng)網(wǎng)絡結構實現(xiàn)RESPONSESENDDATATONNODE,DATA;IFRESPONSE一REPLY設置為超級節(jié)點,或者為超級節(jié)子節(jié)點SETASSNODE0;顯示超級節(jié)點相關信息SHOWSNODELNF00;ELSE顯示不符合原因SHOWERRORINFOO;申請加入網(wǎng)絡JOINPEERID;ELSE申請加入網(wǎng)絡JOINPEERID;522對新節(jié)點加入的處理和現(xiàn)有的DHT一樣,P2PCSE網(wǎng)絡中新節(jié)點的加入至少要知道一個活動節(jié)點的地址IP,端口,而這個已知節(jié)點在本系統(tǒng)中設置為系統(tǒng)引導節(jié)點。新節(jié)點加入時,首先向系統(tǒng)引導節(jié)點發(fā)送連接請求JOIN,引導節(jié)點收到請求后根據(jù)已經(jīng)維護的超級節(jié)點列表選取合適的超級節(jié)點返回REPLY,其中DATA包括超級節(jié)點地址,否則引導節(jié)點NNODE因為節(jié)點已經(jīng)登陸或其他不適合登陸原因拒絕新節(jié)點請求,返回給新節(jié)點ERROR,DATA包含具體登陸失敗信息。當新節(jié)點成功收到引導節(jié)點的REPLY信息后,根據(jù)DATA參數(shù)中提供的超級節(jié)點地址信息向該超級節(jié)點發(fā)送JOIN,DATA參數(shù)包含自身地址參數(shù),超級節(jié)點接受連接返回REPLY,DATA參數(shù)包含歡迎及該自治簇相關信息。新節(jié)點成功加入網(wǎng)絡。否則收到ERROR數(shù)據(jù),申請加入網(wǎng)絡失敗,其流程如圖54南M電學硬研究生位論文第五章I2PCSE系統(tǒng)M結構實現(xiàn)所示再種走敗信息新節(jié)點許通節(jié)點普通節(jié)點普通節(jié)點圖54新節(jié)點加入流程圖523對普通節(jié)點失效和退出的處理在用戶關閉P2PCSE程序時候,程序向該節(jié)點所屬自治簇中超級節(jié)點發(fā)送PEER0UIT請求對應超級節(jié)點收到該請求后,將DT參數(shù)所代表的節(jié)點中自身節(jié)點列表中刪除,并返回REPLY數(shù)據(jù),程序收到該信息后,正常退出。由于網(wǎng)絡中斷等原因在客戶端還未來得及向對應超級節(jié)點發(fā)送退出請求時,該節(jié)點在此情況下屬于失效節(jié)點,在P2PCSE系統(tǒng)中,存在一種判斷節(jié)點是否有效機制,在自治簇中,超級節(jié)點每30分鐘采用多線程方式向自身所維護的普通節(jié)點列表發(fā)送PING數(shù)據(jù)目標節(jié)點接受到該命令后,如果程序正常運行立即返回ALIVE數(shù)據(jù)表明節(jié)點正常運行。如果節(jié)點超時投有返回,超級節(jié)點判斷該節(jié)點失效同時將其從自身維護的節(jié)點列表中刪除。正常退出情況用程序偽碼描述為VOIDPEERQUITPEERID南京郵電大學碩士研究生學位論文第五章P2PCSE系統(tǒng)網(wǎng)絡結構實現(xiàn)SENDDATATOSNODC,PEERQUIT;PEEROUITDONE0;失效情況下超級節(jié)點判斷節(jié)點是否有效其偽碼描述如下VOIDCHKFEERSALIVEPEERLISTFORPEERINPEERLISTNEWTHREADCHKALIVE,PEER;VOIDCHKALIVEPEERTRYRESP0璐ES船DDATATOPEEP酣GDATA;IFRESPONSEDONOTHIN90;ELSEDELETEEXPIREDPEERPEER;EXEEPTIONTNNEOUTEDELETEEXPIRCDPECRPEER;524普通節(jié)點文件索引的實現(xiàn)當節(jié)點成功加入網(wǎng)絡后,節(jié)點首先遍歷共享文件夾,利用P2PCSE全文檢索模塊索引歸類所有共享文件,進而與超級節(jié)點進行數(shù)據(jù)同步。普通節(jié)點與自治簇超級節(jié)點文件索引信息交換包括兩種類型南京郵電大學碩士研究生學位論文第五章P2PCSE系統(tǒng)網(wǎng)絡結構實現(xiàn)文件增加或者更新當普通節(jié)點初始化時候,或者普通節(jié)點共享文件夾中增加了新的文件或者文件內容改變,為了讓自治簇超級節(jié)點保持對整個自治簇節(jié)點共享文件索引的完整及致性,該普通節(jié)點需要提交增加新文件或者更新文件的請求,該普通節(jié)點向對應超級節(jié)點發(fā)送UPDATEFILE,DATA參數(shù)包括該普通節(jié)點網(wǎng)絡ID,更新或者增加動作及更新或者增加的文件經(jīng)過PZPCSE索引模塊處理后的結果。超級節(jié)點接受該參數(shù)后根據(jù)網(wǎng)絡ID,更新或者增加動作,進行相應更新數(shù)據(jù)或者增加數(shù)據(jù)操作,完成后返回REPLY成功信息,該普通節(jié)點標志該記錄成功。否則由于超時或者網(wǎng)絡中斷原因該普通節(jié)點記錄該信息為未完成狀態(tài),等待10分鐘后重新重復以上過程。該過程程序偽碼描述如下VOIDUPDATEFILEDATARESPONSCSENDDATATOSNODE,DATA;IFRESPONSEMARKSUECCSS4LOCALFILEUPDATEDATA;ELSEMARKFAILFLA94LOEALFILCUPDATEATA;TTMEDELAYO;UPDATEFILCDATA;文件刪除或者失效當用戶刪除或者移動共享文件夾中某文件時候,自治簇超級節(jié)點需要維護該簇網(wǎng)絡共享文件索引的一致。該普通節(jié)點需要通告對應超級節(jié)點某文件已失效,發(fā)送DELETEFILE,D觚A,DATA參數(shù)包括普通節(jié)點網(wǎng)絡,失效文件標志信息。對應超級節(jié)點接受該參數(shù)后,找到對應記錄后刪除,返回REPLY成功信息,該普通節(jié)點刪除對應記錄,過程完成,否則記錄該操作未完成,等待一10分鐘后重復以上過程。49南京郵電大學碩士研究生學位論文第五章P2PCSE系統(tǒng)網(wǎng)絡結構實現(xiàn)該過程程序偽碼描述如下VOIDDELETEFILEDATARCSPONSESENDDATATOSNODE,DATA;IFRESPONSEMARKSUCCESS4LOCAIFILEDELETCDATA;ELSEMARKFAILFLA94LOCALFILEDELETEDATA;TTMEDELAY0;DELETCFILEDATA;525對文件搜索請求的處理當某普通節(jié)點發(fā)出請求時,請求將先發(fā)送到自治簇的超級節(jié)點QUERYDATA包含請求節(jié)點網(wǎng)絡ID,搜索關鍵字,最少文件數(shù)目限定,搜索超時限定值。超級節(jié)點搜索符合該關鍵字語義的文件記錄,如果結果未滿足請求節(jié)點設置的最少文件總數(shù),即搜索不充分的情況下,該超級節(jié)點根據(jù)請求節(jié)點設置的最大轉發(fā)限定值隨機轉發(fā)搜索請求給P2PCSE網(wǎng)絡中其他超級節(jié)點,其他超級節(jié)點搜索到符合請求的記錄后根據(jù)DATA提供的請求節(jié)點網(wǎng)絡D,將結果發(fā)送給請求節(jié)點QUERYRESPONSE,DATA參數(shù)包含目標文件信息,所處目標節(jié)點網(wǎng)絡信息。請求節(jié)點接受搜索結果信息后將數(shù)據(jù)顯示,以供搜索者抉擇。該過程程序偽碼描述如下對超級節(jié)點端VOIDSEARCHDATA超級節(jié)點搜索數(shù)據(jù)庫所儲存的文件索引記錄RESPONSEP2PCSESEARCHERDATAKEYINFO;IFCHKRESULTFITREQUESTRESPONSE,DATAMINRECSET50南京郵電犬學碩士研究生學彼論文第五章P2PCS囂系統(tǒng)網(wǎng)絡結構實現(xiàn)SENDDATATODARAPEERID,RESPCINSE;ELSE緩篁搜索不充分的情況下轉發(fā)搜索請求RANDSENDDATATOSNODELIST,DATA;,對請求節(jié)點端VOIDQUERYDATASENDDATATOSNODE,DATA;RESULTQUERYRECCIVERDATASTLMEOUT;TFRESULTSHOWQUERYRESULTRESULT;ELSESHOWERRORLNFOO;5。3本章小結本章開篇系統(tǒng)的介紹了P2PCSE系統(tǒng)使用的蘭層混合式網(wǎng)絡結構模型,并將節(jié)點按類別劃為普通節(jié)點、超級節(jié)點及引導節(jié)點,對P2PCSE系統(tǒng)網(wǎng)絡紿構各節(jié)點功能進行了詳細定義。接羞對實現(xiàn)P2PCSE系統(tǒng)霹絡的各種主要功能進行分析和設計,并給粥了偽碼實現(xiàn)。本章和第四章是P2PCSE系統(tǒng)的關鍵部分,為第六章P2PCSE原型系統(tǒng)的實現(xiàn)打下了基礎。南京郵電大學碩士研究生學位論文第六章P2PCSE原型系統(tǒng)的實現(xiàn)與性能測試第六章P2PCSE原型系統(tǒng)的實現(xiàn)與性能測試在第三章對P2PCSE系統(tǒng)總體設計、第四章對全文檢索子系統(tǒng),第五章對網(wǎng)絡結構等關鍵技術實現(xiàn)的基礎上,采用PYTHON語言實現(xiàn)了P2PCSE方案的原型系統(tǒng),本章主要對P2PCSE系統(tǒng)文件搜索的流程、用戶界面進行詳細描述,詳細測試了P2PCSE系統(tǒng)中文分詞處理模塊并與常見中文分詞系統(tǒng)進行對比,最后對P2PCSE系統(tǒng)網(wǎng)絡結構各方面性能進行測試,得出P2PCSE系統(tǒng)性能總結。系統(tǒng)具體開發(fā)環(huán)境開發(fā)環(huán)境WINDOWSXPSP3CPUINTELPENTIUMDUALT2310146GHZ,2GDDR開發(fā)相關PYTHON25,WXPYTHON28界面語言LYSQL數(shù)據(jù)庫開發(fā)工具ECLIPSE系統(tǒng)運行平臺WINDOWS,UNIX,LINUX,MAC等操作系統(tǒng)。61P2PCSE系統(tǒng)文件搜索流程在P2PCSE系統(tǒng)中普通節(jié)點初次運行首先設置共享目錄,然后利用P2PCSE文件索引模塊全面索引本地共享文件,將其索引數(shù)據(jù)與該節(jié)點所在自治簇超級節(jié)點同步。普通節(jié)點執(zhí)行搜索請求,搜索請求將發(fā)送到該自治簇中的超級節(jié)點,超級節(jié)點查詢數(shù)據(jù)庫中儲存索引數(shù)據(jù)表,返回請求結果,在結果總數(shù)不符合請求者要求的情況下,超級節(jié)點將請求隨機轉發(fā)個制定數(shù)目的其他超級節(jié)點。超級節(jié)點再搜索到數(shù)據(jù)后,根據(jù)請求信息將搜索結果返回給請求節(jié)點,整個搜索過程完成。其具體流程如圖6L所示。自自電學碩士研兜生位論空第章P2PCSE原型I統(tǒng)的女現(xiàn)QN蛇I62系統(tǒng)用戶界面實現(xiàn)圖6LP2PCSE系統(tǒng)文件搜索流程圖STEP2普通肯點發(fā)送搜索請求,利用分詞模塊解析成有意義分詞單元,打包請求數(shù)據(jù)及相關參數(shù)發(fā)送給自精簇超級節(jié)點。TCPL程序初次運行首先設置燕享目錄然后索引所有共享文件井與詼自治簇超緞節(jié)點進行數(shù)據(jù)同步友好的用戶界面給用戶帶來良好的體驗,P2PCSE界面設計具體包括菜單部分,L3CO部分,搜索輸入框,功能按鈕部分及列表顯示部分。從而用使用者可以通過P2PCSE程序,方便的進行系統(tǒng)設置、搜索數(shù)據(jù)、發(fā)送信息、預覽搜索結果、下載文件等。其中設置菜單可以讓用戶設置搜索結果總數(shù)范圍、共享日錄、及一些其他參數(shù)。P2PCSE設置共享文件目錄如圖62所示,節(jié)點加入網(wǎng)絡后界面如圖63所示,節(jié)點發(fā)送信息界面如圖64所示,節(jié)點接受到信息后如圖65所示,節(jié)點搜索文件后結果列表如圖66所示。南京郵電上學碩T研究生學位論文第六章P2PCSE原型系統(tǒng)的實現(xiàn)與性能鍘H圖62P2FCSE用戶設置共享文件目錄當用戶運行P2PCSE系統(tǒng)時,如果是初次運行,程序要求設置共享目錄。用戶也可以在程序運行過程中點擊設置更改共享目錄地址。如圖62所示節(jié)點在成功加入網(wǎng)絡后得到本簇節(jié)點列表,共享目錄文件總數(shù)1066個,因為用戶沒有開始搜索,搜索結果為0。南京電大學碩士研究生學位論文第六章P2PCSE原I統(tǒng)的宴理與性能刮T姘般關于|髦臻疊。T,I一尸暑尸亡墨E。曩P2P中文搜索引擎FQNIL開燃I。JJ、J匹圈匝蟹臣至亟同壓至至I0J警主機名彌節(jié)點地址文件名稱立獻D、B11258214484148814T8214B陀1惦。JT。零曩呵一二;R841498143盯12T8T12887129HNE108414682141日2143ET1E7124小履最10E21啦8T1256EEI1,圈63P2PCSE系統(tǒng)節(jié)點加網(wǎng)絡后節(jié)點列表如圖63所示,節(jié)點在成功加入網(wǎng)絡后獲得該自治簇所有節(jié)點信息。節(jié)點信息包括兩個部分主機名稱,節(jié)點IP地址。同時狀態(tài)欄顯示節(jié)點總數(shù)為18個。南京郵電大學磺研究生學位論I第六章P2PCSEK型系統(tǒng)的實現(xiàn)與性測T圖64P2PCSE系統(tǒng)節(jié)點發(fā)送信息界面P2PCSE系統(tǒng)允許節(jié)點間發(fā)送簡單文字信息,如圖64所示節(jié)點SOPHIA選定主機名稱為IXAFEI的節(jié)點,點擊發(fā)送信息,出現(xiàn)信息發(fā)送具體界面。點擊0K按鈕可以將信息發(fā)送出去點擊CANCLE按鈕將取消信息發(fā)送。南京電上學碩士研究生學位論立艷六章P2P圓E原型系統(tǒng)的實現(xiàn)與性眩捌Z置好。尸暑尸亡旨皇黲簿鎣P2P中文搜索引擎QOEH_|開抬插|。_。;。FII,圓匿睡飄曩囊曩I鹱按“州。87緊CHTA“EJIE5口刪_川LE4眺铘箱醪,J蓑纂攀薯??谌滻囊辮羹,PENCL010B4145。PH、LOLO82,14L7二盎謄、;冀;I留越贏。IU10LOE2143JJI101087123巢果101087124小屁援LDL082142月10108T12S節(jié)點敦坶奉地文陣1068,拽索結果O_J十一再刊蠲。9Q2Z。圖P5P2瞄E系統(tǒng)節(jié)點接受到信息后界面節(jié)點接受到其他節(jié)點的文字信息如圖65所示,信息將由彈出提示框顯示提示框標題為發(fā)送信息來源節(jié)點的主機名稱和主機IP地址,點擊確定按鈕可以關閉信息。南京郵電大學頤士研究生學位論文第六章P2P岱E廈型系統(tǒng)的實現(xiàn)與性試FIELRSE薹I霉攀辮腳中文搜索引擎N誓謄鼗I;溪QUNIX燃R開始搜索I萋鬻霧I|燧圳I,黜III節(jié)贏。IF鬻譽鬣麟|犍送信息】I下娃件節(jié)點射表L跫伴獅舅J荔童薷Q“,|鴦5,UMX,001,婦LX噤10幔量5,1VNLXL18K5,IX001HLX115,駔IX,缸IXIMX瀚FJ0握5,ULX00I“XI2,皿IX,恤I棚L腳蠊篡夏黧冀1旺5,00I,LXOB31MLX,L,ULXM12IK5,ULXDOLHLXI2“5MXIHLX女L2口5,1X,1X1HLX撤1L社,眥I,LHLX臻L52,血1X,弧1刪1NHLX撤155K,1X001WLXL2“,1,HLXLBGK,一I,。0I,HLXIZ,鋤IX001,HLX撤L26K一X,1V丑LX擻23旺5,1“1,1FLX135,恤LX讓IXOEL仳LX辣1725,吐LX,1HLX撩096KJ,UNIX031,HLXJ1IX;I囂;盤孑器;鑒芝囂I囂8214BI皿LXI,VNLX女10LE塑I可點敲L吼萃地苴件106,攫露拮果T9L,以1卻呻2啦LO,培麓I63P2PCSE全文檢索子系統(tǒng)性能測試631中文分詞處理模塊性能測試在實驗中我們選了多篇平均長度為5004字包括空格的中文新聞內容。然后用四種流行分詞處理辦法及CSECHSPLITOR對它進行處理,來檢驗基于X一樹的分詞處理性能,實驗旦墮墅皇查蘭塑主堡墨蘭蘭堡堡苧墨查蘭堡豎璺型壘望墮壅翌皇絲墮翌蔓結果如圖67所示,其中”J”僅為了讀者容易分辨分詞單位所特加,經(jīng)過整理得出統(tǒng)計數(shù)據(jù)如表61所示圖67CSECKSPLITOR算法分詞處理結果圖表61刪SPLITOR分訶法與常見中文分詞法性能比較算法名稱算法描述平均耗時平均準確度簡單分詞法將文章按標點符號隔開威句子460MS無標準分詞法將文章的中文字分成一個一個的單字50岫SU。分別用表6_2中新詞關鍵字,普通關鍵字備LO個進行測試,并設置文件U等于I,統(tǒng)計平均結栗如表63所示表62測試用關鍵字表頦詞關鍵字。稀飯果醬走召弓最咔嚓醬紫8錯飯飯片片斑竹水撩潛水員恐龍青蛙小強抓狂包予小蝦老鳥大蝦愛老虎油普通關鍵字時候敏銳發(fā)現(xiàn)房地產(chǎn)業(yè)存在泡沫經(jīng)濟滑藩費盡周折說服投資者穗倍美國房地聲市場危機保護獲利一本萬利疑慮表63P2PCSE原型系統(tǒng)與相關系統(tǒng)綜合性能對比上述結果表明P2PCSE系統(tǒng)的搜索準確度及滿意度是很高的,充分證明了P2PCSE系統(tǒng)鴦定義的全文檢索子系統(tǒng)模型及CSECHSPLITOR算法的正確、可行性。之所以準確度和滿意度未能達到100,關鍵原因在于普通詞庫和新詞詞庫的收錄數(shù)量。理想狀態(tài)下普通詞庫及新詞詞庫收錄10096的數(shù)據(jù),理論上是可以準確度和滿意度達到完美的結果。64P2PCSE網(wǎng)絡結構性能及壓力測試測試環(huán)境教研室K機若干臺,CPU因特爾奔騰酷睿雙核T2310146GHZ硬盤釉1206IDE內存DDR22G系統(tǒng)WINDOWSXPSP3或UBUNTU8。掬網(wǎng)絡蜀域網(wǎng)1000MHUB。60南京郵電大學碩士研究生學位論文第六章P2PCSE原型系統(tǒng)的實現(xiàn)與性能測試采用四臺安裝有UBUNTU操作系統(tǒng)的普通PC中的兩臺組建P2PCSE系統(tǒng)引導節(jié)點,另外兩臺組建一個超級節(jié)點,在另外三臺安裝有UBUNTU操作系統(tǒng)的普通PC作為測試節(jié)點構建P2PCSE網(wǎng)絡,令節(jié)點性能壓力P內存占用量CPU占用量2100,測試機器在無負載的情況下P平均為20。根據(jù)不同條件請求下得出不同P的取值,繪制出性能測試圖。641系統(tǒng)在新節(jié)點加入時性能分析利用PYTHON程序模擬新節(jié)點的加入不同并發(fā)數(shù)目時請求對系統(tǒng)引導節(jié)點的壓力進行分析。PYTHON模擬程序分別模擬了O到30,000個節(jié)點同時并發(fā)發(fā)送加入網(wǎng)絡的請求給引導節(jié)點及超級節(jié)點,同時隨機讓組成超級節(jié)點和引導節(jié)點的一臺PC斷開網(wǎng)絡。得出統(tǒng)計數(shù)據(jù)如圖68所示圖68新節(jié)點加入時節(jié)點綜合壓力測試其中Y軸代表節(jié)點的節(jié)點性能壓力參見64節(jié),X軸代表并發(fā)請求規(guī)模,單位為500。由圖68知新節(jié)點加入先對引導節(jié)點發(fā)起請求,引導節(jié)點全局配置超級節(jié)點信息,根據(jù)引導節(jié)點返回信息,新節(jié)點向超級節(jié)點發(fā)送加入請求并握手,該超級節(jié)點首先執(zhí)行判斷該節(jié)點是否屬于新節(jié)點還是以前連接成功后來因為網(wǎng)絡中斷、主動下線等原因造成的重新連接。在該超級節(jié)點剩余維護能力范圍內,向請求節(jié)點發(fā)送準許連接標志等系列動作。在P2PCSE系統(tǒng)中一個超級節(jié)點只負責維護2000個普通節(jié)點,所以當節(jié)點超過2000后,系統(tǒng)引導節(jié)點不再增加新節(jié)點給該超級節(jié)點,超級節(jié)點性能保持為常數(shù)。在相同規(guī)模的新節(jié)點請求加入的過程中,超級節(jié)點比系統(tǒng)引導節(jié)點多執(zhí)行一些相關操作,故在0到2000的節(jié)點規(guī)模,超級節(jié)點壓力明顯大于系統(tǒng)引導節(jié)點,系統(tǒng)測試結果與理論分析保持一致。通過上面的分析可以看出P2PCSE模型使用的網(wǎng)絡結構對超級節(jié)點及引導節(jié)點性能有61南京郵電犬學殛圭研究生學鐓論文第六露I2PCSE蒙型系統(tǒng)豹實現(xiàn)與性能測試好的平衡保護作用,即使并發(fā)達規(guī)模很大,也不會造成引導節(jié)點和超級節(jié)點的崩潰,在組成超級節(jié)點和引導節(jié)點的一臺PC斷開網(wǎng)絡的情況下,系統(tǒng)依然保持穩(wěn)定,相比傳統(tǒng)半分布式網(wǎng)絡,P2PCSE系統(tǒng)更易擴展、更穩(wěn)定同時超級節(jié)點及引導節(jié)點更加可靠。642系統(tǒng)在節(jié)點失效和退出時性能分析利用PYTHON程序模擬2000個普通節(jié)點首先加入翳絡與超級節(jié)點構建成為一個自治簇。然后PYTHON程序模擬節(jié)點同時失效數(shù)目從0到2000,設置超級節(jié)點失效判斷機制時間間隔與該PYTHON模擬程序同步。經(jīng)過綜合數(shù)據(jù)得出結果如圖伊9所示勞發(fā)規(guī)援圖6_9失效或退出時候節(jié)點壓力綜合測試其中Y軸代表節(jié)點的節(jié)點性能綜合壓力,X軸代表并發(fā)請求規(guī)模,單位為20。從圖6曲可以看嬲,相同數(shù)露的普通節(jié)點在失效麓情況下超級節(jié)點所占的性能明顯高手普通節(jié)點退出的情況,是因為普通節(jié)點失效將由超級節(jié)點主動發(fā)送基于UDP通訊的PING請求然艨等待返回結果或者超時結果,而普通節(jié)點退出則是超級節(jié)點被動接受普通節(jié)點的退出請求,超級節(jié)點所執(zhí)行的主動請求動作對機器性麓消耗比被動接受明顯要多很多。通過上面綜合分析及圖69可以看出,P2PCSE系統(tǒng)在節(jié)點失效和退出最壞的情況下,節(jié)點依然在一個安全范圍,可見P2PCSE系統(tǒng)具備良好的可靠性。643系統(tǒng)在普通節(jié)點同步文件索引時性能分析利用PYTHON程序模擬從O到2000個普通節(jié)點并發(fā)情況同時發(fā)送P2PCSE系統(tǒng)所規(guī)定的文件索弓LXML文件,單個索弓L飆文件大小為LK情況下對自治簇超級節(jié)點及P2PCSE系統(tǒng)南京郵電大學碩士研究生學位論文第六章P2PCSE原型系統(tǒng)的實現(xiàn)與性能測試引導節(jié)點的性能壓力,得出統(tǒng)計數(shù)據(jù)如圖610所示拜毒疊|;善爹一J襄莖窿銎妻至薹妻到IIO葉一一一一I卜一J一卜一一一一1J4050OS1015笛衢嫣644系統(tǒng)在文件搜索請求時性能分析我們使用PC機中的一臺,安裝UBUNTU操作系統(tǒng)作為超級節(jié)點,使用PYTHON程序實現(xiàn)一個模擬測試節(jié)點發(fā)送搜索請求,退出請求。因為超級節(jié)點間轉發(fā)請求和普通節(jié)點對超級節(jié)點的請求實際是一樣的,所以這個模擬節(jié)點可以模擬了10W節(jié)點規(guī)模的網(wǎng)絡到IOOW節(jié)點規(guī)模的網(wǎng)絡對每個超級節(jié)點的搜索性能。P2PCSE系統(tǒng)設計方案在10W節(jié)點規(guī)模的網(wǎng)絡,平均每個超級節(jié)點維護2000個普通節(jié)點,網(wǎng)絡中共有超級節(jié)點總數(shù)為50。在LOOW節(jié)點規(guī)模的網(wǎng)絡中,超級節(jié)點個數(shù)為500個。設10萬到100萬規(guī)模的P2PCSE網(wǎng)絡中超級節(jié)點數(shù)目為D。P2PCSE系統(tǒng)限制轉發(fā)過程中隨機轉發(fā)數(shù)目,同時限定每個超級節(jié)點同時最多接受3000并發(fā)請求,超出限制返回服務不可用標志,直接拒絕請求。每個自治簇同時刻平均并發(fā)請求次數(shù)為C,C的范圍為0,2000,退出請求總數(shù)為Q,Q的范圍為0,2000即網(wǎng)絡中同時并發(fā)總數(shù)最大值為2000DC次。設搜索請求命令總數(shù)為Y,某超級節(jié)點接受到其他63。南京郵電大學碩士研究生學位論文第六章P2PCSE原型系統(tǒng)的實現(xiàn)與性能測試D個超級節(jié)點的轉發(fā)命令請求,Y與節(jié)點規(guī)模的關系為YDC2000。經(jīng)試驗測試統(tǒng)計節(jié)點性能綜合壓力與并發(fā)規(guī)模如圖611所示圖6一11并發(fā)搜索時節(jié)點壓力綜合測試其中Y軸代表節(jié)點的性能綜合壓力,X軸代表并發(fā)請求規(guī)模,單位為50。從圖61L可以看出P2PCSE系統(tǒng)的搜索開銷與節(jié)點并發(fā)規(guī)模3000內是以相同趨勢增長,隨著并發(fā)搜索請求包括其他超級節(jié)點轉發(fā)搜索請求的增加,超級節(jié)點所受壓力增大。當來自普通節(jié)點及其他超級節(jié)點轉發(fā)的并發(fā)請求達到最大值的時候,超級節(jié)點壓力達到最大值。因為系統(tǒng)限定超級節(jié)點最大接受其并發(fā)搜索請求的最大值,隨著并發(fā)請求的繼續(xù)擴大,節(jié)點壓力基本同系統(tǒng)設定的最大值時節(jié)點壓力相等,從圖上可以看出P2PCSE系統(tǒng)中超級節(jié)點的壓力不隨網(wǎng)絡規(guī)模的擴大而擴大,達到或超過系統(tǒng)設定安全并發(fā)值時,節(jié)點壓力始終保持穩(wěn)定。從圖6II上可以看出,P2PCSE系統(tǒng)網(wǎng)絡結構方案相比傳統(tǒng)半分布式系統(tǒng)隨著并發(fā)請求的增加,超級節(jié)點壓力并不一直隨之增加以致節(jié)點崩潰,P2PCSE系統(tǒng)具有很高的可靠性和穩(wěn)定性。65本章小結本章開篇詳細分析了P2PCSE系統(tǒng)文件搜索流程,介紹了P2PCSE系統(tǒng)各種情況下的界面。對P2PCSE全文檢索子系統(tǒng)中的關鍵部分一中文分詞算法進行了對比測試,對比采用CHORD模型的軟件進行搜索的準確度和滿意度測試,結果表明P2PCSE系統(tǒng)搜索準度和滿意度比較突出。最后設定了模擬測試環(huán)境測試系統(tǒng)網(wǎng)絡在各種并發(fā)請求下的綜合性能,南京郵電大學碩士研究生學位論文第六章P2PCSE原型系統(tǒng)的實現(xiàn)與性能測試得出P2PCSE系統(tǒng)的在網(wǎng)絡具備穩(wěn)定、可靠、可擴展的優(yōu)點。65南京郵電大學碩士研究生學位論文第七章論文總結與展望71全文總結第七章論文總結與展望本文針對中文搜索引擎技術及目前常見P2P搜索軟件的網(wǎng)絡結構進行國內外調研,提出了提出了一種基于X一樹結構的中文分詞算法及改進的三層混合式半分布網(wǎng)絡結構并在兩者結合的基礎上實現(xiàn)了P2PCSE原型系統(tǒng)。文章主要完成了如卞幾個方面的具體工作。1詳細分析了中文搜索引擎技術,并對影響中文搜索引擎搜索結果的關鍵技術中文分詞技術做了詳細的解析和研究,指出了傳統(tǒng)分詞方法的不足。2對比P2P模式與傳統(tǒng)CS模式的優(yōu)缺點,歸納總結了常見P2P搜索技術采用網(wǎng)絡結構模型,通過分析指出其缺陷。3給出P2PCSE系統(tǒng)的總體設計,詳細劃分其模塊并進行功能定義。對主要的通訊協(xié)議進行分析及實現(xiàn)。4提出一種基于X樹結構的中文分詞算法CSECHSPLITOR,對其進行詳細的分析和算法實現(xiàn),結合分詞處理模塊、文件處理模塊、文件索引儲存查詢模塊實現(xiàn)了全文檢索子系統(tǒng)。5提出一種改進的三層混合式半分布網(wǎng)絡結構,詳細分析了整體模型,給出節(jié)點定義及層與層之間的網(wǎng)絡連接方式。并對構建該網(wǎng)絡模型的關鍵部分進行了詳細的介紹和實現(xiàn)。6實現(xiàn)了P2PCSE原型系統(tǒng),分析了系統(tǒng)文件搜索流程,對各種情況下的系統(tǒng)界面進行介紹。對CSECHSPLITOR算法性能,全文檢索子系統(tǒng)的準確度與滿意度,及網(wǎng)絡結構在各種并發(fā)請求的性能下分別進行了測試,得出P2PCSE系統(tǒng)具備資源覆蓋廣、搜索結果準、網(wǎng)絡可靠、穩(wěn)定、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論