畢業(yè)設(shè)計(jì)(論文)開(kāi)題報(bào)告:媒體大數(shù)據(jù)的實(shí)時(shí)抓取與時(shí)空可視化_第1頁(yè)
畢業(yè)設(shè)計(jì)(論文)開(kāi)題報(bào)告:媒體大數(shù)據(jù)的實(shí)時(shí)抓取與時(shí)空可視化_第2頁(yè)
畢業(yè)設(shè)計(jì)(論文)開(kāi)題報(bào)告:媒體大數(shù)據(jù)的實(shí)時(shí)抓取與時(shí)空可視化_第3頁(yè)
畢業(yè)設(shè)計(jì)(論文)開(kāi)題報(bào)告:媒體大數(shù)據(jù)的實(shí)時(shí)抓取與時(shí)空可視化_第4頁(yè)
畢業(yè)設(shè)計(jì)(論文)開(kāi)題報(bào)告:媒體大數(shù)據(jù)的實(shí)時(shí)抓取與時(shí)空可視化_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

本科生畢業(yè)論文(設(shè)計(jì))文獻(xiàn)綜述和開(kāi)題報(bào)告姓名與學(xué)號(hào)指導(dǎo)教師年級(jí)與專業(yè)所在學(xué)院一、題目:MERGEFIELD\題目媒體大數(shù)據(jù)的實(shí)時(shí)抓取與時(shí)空可視化二、指導(dǎo)教師對(duì)文獻(xiàn)綜述和開(kāi)題報(bào)告的具體內(nèi)容要求:MERGEFIELD\內(nèi)容要求指導(dǎo)教師(簽名)年月日畢業(yè)論文(設(shè)計(jì))文獻(xiàn)綜述和開(kāi)題報(bào)告考核一、對(duì)文獻(xiàn)綜述、外文翻譯和開(kāi)題報(bào)告評(píng)語(yǔ)及成績(jī)?cè)u(píng)定:MERGEFIELD\姓名成績(jī)比例文獻(xiàn)綜述占(10%)開(kāi)題報(bào)告占(20%)外文翻譯占(10%)分值MERGEFIELD\文獻(xiàn)成績(jī)MERGEFIELD\開(kāi)題報(bào)告MERGEFIELD\外文翻譯開(kāi)題報(bào)告答辯小組負(fù)責(zé)人(簽名)年月日選題意義與背景相關(guān)背景 大數(shù)據(jù)是指利用信息收集和處理技術(shù)對(duì)所掌握的海量數(shù)據(jù)進(jìn)行專業(yè)化處理、分析的統(tǒng)稱。大數(shù)據(jù)是指那些無(wú)法使用常規(guī)工具獲得、存儲(chǔ)、處理和分析的數(shù)據(jù)集合,具有多樣性、復(fù)雜性和數(shù)據(jù)量龐大的特點(diǎn)。大數(shù)據(jù)無(wú)疑是創(chuàng)新、競(jìng)爭(zhēng)的前沿陣地,在2008年互聯(lián)網(wǎng)巨頭谷歌上線了“谷歌流感預(yù)測(cè)”,通過(guò)搜索引擎記錄獲取用戶訪問(wèn)記錄、數(shù)據(jù)分析與挖掘后獲得某地區(qū)的流感流行情況[2]。在2009年的冬季流感中,谷歌比美國(guó)官方早14天預(yù)測(cè)了冬季流感大流行的情況,從而大獲成功。 大數(shù)據(jù)的市場(chǎng)前景十分可觀。根據(jù)前瞻產(chǎn)業(yè)研究院《2014-2018年中國(guó)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展前景與投資戰(zhàn)略規(guī)劃分析報(bào)告前瞻》中的數(shù)據(jù)顯示,2012年中國(guó)大數(shù)據(jù)產(chǎn)業(yè)市場(chǎng)規(guī)模為4.5億元,初步估算,2014年將達(dá)到15億元。未來(lái)幾年大數(shù)據(jù)市場(chǎng)將繼續(xù)以超過(guò)100%的年均復(fù)合增長(zhǎng)率增長(zhǎng),到20xx年,大數(shù)據(jù)將成為百億級(jí)的產(chǎn)業(yè)。2014年市場(chǎng)研究公司MarketsandMarkets公布的報(bào)告顯示,2013年至2018年,全球大數(shù)據(jù)市場(chǎng)的年復(fù)合增長(zhǎng)率將為26%,從2013年的148.7億美元增長(zhǎng)至463.4億美元。大數(shù)據(jù)帶來(lái)的巨大的市場(chǎng)前景推動(dòng)著政策逐步向其傾斜,2011年以來(lái),中國(guó)計(jì)算機(jī)學(xué)會(huì)、中國(guó)通信學(xué)會(huì)先后成立了大數(shù)據(jù)委員會(huì),研究大數(shù)據(jù)中的科學(xué)與工程問(wèn)題,科技部的《中國(guó)云科技發(fā)展“十二五”專項(xiàng)規(guī)劃》和工信部的《物聯(lián)網(wǎng)“十二五”發(fā)展規(guī)劃》等都把大數(shù)據(jù)技術(shù)作為一項(xiàng)重點(diǎn)予以支持。其中工信部發(fā)布的物聯(lián)網(wǎng)“十二五”規(guī)劃上,把信息處理技術(shù)作為4項(xiàng)關(guān)鍵技術(shù)創(chuàng)新工程之一被提出來(lái),其中包括了海量數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘、圖像視頻智能分析,這都是大數(shù)據(jù)的重要組成部分。而另外3項(xiàng)關(guān)鍵技術(shù)創(chuàng)新工程,包括信息感知技術(shù)、信息傳輸技術(shù)、信息安全技術(shù),也都與“大數(shù)據(jù)”密切相關(guān)。 如何實(shí)時(shí)高效的獲取大數(shù)據(jù),主要是通過(guò)web中實(shí)時(shí)抓取大數(shù)據(jù),成為了國(guó)內(nèi)外研究的焦點(diǎn)。RBSE(Eichmann,1994)第一個(gè)爬蟲(chóng)程序發(fā)布,使得互聯(lián)網(wǎng)上信息的抓取成為了可能。伴隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,傳統(tǒng)普通爬蟲(chóng)爬取數(shù)據(jù)的過(guò)程已不適應(yīng)數(shù)據(jù)的快速提取。主題爬蟲(chóng)以其針對(duì)性強(qiáng),提取文本內(nèi)容相關(guān)度大,冗余小,資源開(kāi)銷小的特點(diǎn),非常適合應(yīng)用于本題目信息實(shí)時(shí)抓取模塊。本文可以為相關(guān)大數(shù)據(jù)實(shí)時(shí)獲取與數(shù)據(jù)挖掘領(lǐng)域提供一個(gè)有效的方法與指導(dǎo)。但是,現(xiàn)階段的主題爬蟲(chóng)技術(shù)還存在著許多問(wèn)題:1)主題爬蟲(chóng)技術(shù)的隧道問(wèn)題亟待解決。Web上的大量網(wǎng)頁(yè)具有多主題性,網(wǎng)頁(yè)集之間往往形成隧道,傳統(tǒng)的爬蟲(chóng)以網(wǎng)頁(yè)為單位爬行會(huì)導(dǎo)致無(wú)法穿過(guò)這些隧道。2)無(wú)法較好理解語(yǔ)義內(nèi)容。自然語(yǔ)言的同義詞現(xiàn)象比較復(fù)雜。而且中國(guó)文化博大精深,使得中文的表達(dá)比較晦澀難懂,都對(duì)計(jì)算機(jī)系統(tǒng)的自動(dòng)處理產(chǎn)生非常大的挑戰(zhàn)。3)對(duì)deepweb信息的關(guān)注度不夠。動(dòng)態(tài)頁(yè)面的信息已遠(yuǎn)遠(yuǎn)高于傳統(tǒng)的靜態(tài)文本頁(yè)面的信息。2000年7月,Brightplanet對(duì)DeepWeb做了一次較為全面的宏觀統(tǒng)計(jì),發(fā)布了Deepweb的白皮書(shū)(在該文中Brightplanet對(duì)DeepWeb的定義主要指的是Web數(shù)據(jù)庫(kù)),指出DeepWeb蘊(yùn)含的信息量是SurfaceWeb的400~500倍,并且DeepWeb蘊(yùn)含的信息量比SurfaceWeb的質(zhì)量更高。如何合理的挖掘這些潛在的海量信息也成為當(dāng)下主題爬蟲(chóng)領(lǐng)域中亟待解決的問(wèn)題。研究意義 本文針對(duì)傳統(tǒng)主題爬蟲(chóng)中出現(xiàn)的問(wèn)題,對(duì)傳統(tǒng)的主題爬蟲(chóng)模型進(jìn)行優(yōu)化,其研究意義主要體現(xiàn)在以下方面:利用主題爬蟲(chóng)進(jìn)行實(shí)時(shí)抓取。傳統(tǒng)的主題爬蟲(chóng)雖然對(duì)某個(gè)特定的主題進(jìn)行抓取,但是,應(yīng)用到本論文的主題——傳染病數(shù)據(jù)時(shí),由于傳染病數(shù)據(jù)要求具有時(shí)效性,說(shuō)明數(shù)據(jù)發(fā)布時(shí)間不能因?yàn)榕c主題相關(guān)度高而過(guò)久,我們?cè)谶x擇網(wǎng)頁(yè)時(shí)就必須考慮到網(wǎng)頁(yè)數(shù)據(jù)的發(fā)布時(shí)間問(wèn)題。高效運(yùn)行主題爬蟲(chóng)。研究如何在較短的時(shí)間內(nèi)獲取主題相關(guān)度較高的頁(yè)面。取得一個(gè)運(yùn)行時(shí)間與主題吻合的平衡點(diǎn)針對(duì)網(wǎng)絡(luò)爬蟲(chóng)可能出現(xiàn)的一些問(wèn)題,進(jìn)行優(yōu)化。國(guó)內(nèi)外現(xiàn)狀主題爬行蟲(chóng)在Web上抓取與用戶主題相關(guān)的網(wǎng)頁(yè),它的優(yōu)點(diǎn)是盡量檢索與下載主題相關(guān)的網(wǎng)頁(yè),同,可以有效減小搜集的范圍,提高資源的利用率,針對(duì)用戶感興趣的主題進(jìn)行集中、深入式的搜索,能夠發(fā)現(xiàn)大量通用搜索無(wú)法到達(dá)的區(qū)域,有效的提高查找的效率與水平,同時(shí)只要較少的存儲(chǔ)、處理費(fèi)用和網(wǎng)絡(luò)開(kāi)銷,能夠做到實(shí)時(shí)搜索。主題爬蟲(chóng)和通用搜索爬蟲(chóng)的最大區(qū)別主要是在URLs的爬行預(yù)測(cè)方面,對(duì)已經(jīng)爬行回來(lái)的網(wǎng)頁(yè)進(jìn)行主題相關(guān)性評(píng)價(jià)。各種各樣的技術(shù)被應(yīng)用到主題相關(guān)性評(píng)價(jià)上,但是大部分都是基于關(guān)鍵詞的向量空間模型,即認(rèn)為關(guān)鍵詞之間都是相互獨(dú)立的,對(duì)爬行預(yù)測(cè)停留在關(guān)鍵詞匹配的層面上,沒(méi)有挖掘詞語(yǔ)之間的語(yǔ)義關(guān)聯(lián)。讓機(jī)器理解Web網(wǎng)頁(yè)的語(yǔ)義信息,把爬蟲(chóng)的評(píng)分預(yù)測(cè)提高到理解自然語(yǔ)言的高度,為用戶提供更有效的檢索結(jié)果。為了獲取較高的網(wǎng)頁(yè)覆蓋率,通用爬蟲(chóng)通常按照廣度或深度優(yōu)先原則遍歷Web有向圖,缺乏網(wǎng)頁(yè)內(nèi)容的細(xì)致分析,過(guò)多的采集了無(wú)關(guān)和無(wú)意義的頁(yè)面,使得主題爬蟲(chóng)應(yīng)運(yùn)而生。主題爬行蟲(chóng)的特點(diǎn)是邊爬行邊分析計(jì)算,通過(guò)分析已經(jīng)抓取回來(lái)的網(wǎng)頁(yè)和用戶的查詢主題的相關(guān)性來(lái)對(duì)待爬行的URLs進(jìn)行得分預(yù)測(cè)。國(guó)外研究趨勢(shì)1994年DeBra等人提出的“fish-search”[1]是最初的應(yīng)用較廣的主題爬蟲(chóng)算法,被視為主題爬蟲(chóng)搜索策略的第一個(gè)算法,它將主題爬蟲(chóng)比喻為魚(yú)群,當(dāng)發(fā)現(xiàn)相關(guān)信息時(shí)進(jìn)行抓取子鏈接,來(lái)繼續(xù)尋找相關(guān)信息;當(dāng)沒(méi)有帶寬或存儲(chǔ)資源時(shí),則死掉。利用0或1判定內(nèi)容與查詢主題是否相關(guān),算法的關(guān)鍵是根據(jù)代表用戶感興趣的種子站點(diǎn)和主題關(guān)鍵詞,動(dòng)態(tài)維護(hù)待爬行URLs的優(yōu)先級(jí)隊(duì)列。1998年Hersovici等人提出了“shark-search”[2],對(duì)“fish-search”進(jìn)行了兩點(diǎn)改進(jìn),一是將相似度度量范圍從二值改為連續(xù)值0-1之間;二是相似度計(jì)算上不但繼承了雙親的值,而且充分利用了錨文本和其上下文。1998年,Stanford大學(xué)的Cho將著名的Pagerank[3]算法應(yīng)用于爬行策略中,通過(guò)頁(yè)面PageRank得分預(yù)測(cè)頁(yè)面重要程度,較好的結(jié)合了深度優(yōu)先和廣度優(yōu)先兩種方法的優(yōu)越性,使得搜索更加高效。J.M.Kleinberg在1999年提出基于鏈接分析的HITS算法[4],此算法估算一個(gè)網(wǎng)頁(yè)的權(quán)威值和中心值,這兩個(gè)值利用鏈接結(jié)構(gòu)中此網(wǎng)頁(yè)的入鏈數(shù)和出鏈數(shù)相互循環(huán)迭代計(jì)算,直到每一個(gè)網(wǎng)頁(yè)最近相鄰兩次的權(quán)威值、中心值的趨向相等。Chakrabarti[5]等人在1999年設(shè)計(jì)了一個(gè)基于樸素貝葉斯分類器預(yù)測(cè)方法的主題搜索引擎模型。系統(tǒng)抓取網(wǎng)頁(yè)的過(guò)程是,先由用戶從某一開(kāi)放的分類目錄體系,如Yahoo分類層次目錄中選取若干個(gè)子類節(jié)點(diǎn)作為主題信息,這些節(jié)點(diǎn)包含的一些頁(yè)面作為訓(xùn)練集,構(gòu)造一個(gè)分類器。當(dāng)抓取到一個(gè)新的頁(yè)面時(shí),首先提交到分類器進(jìn)行相關(guān)度判斷,如果頁(yè)面是個(gè)正例,則由此頁(yè)面指向的超鏈接放入工作池作為待抓取連接;否則將此頁(yè)面去掉。2000年,Dligenti等人提出了基于背景圖(context-graph)的搜索策略[6]。算法認(rèn)為具有相同主題的頁(yè)面具有相似的鏈接結(jié)構(gòu),通過(guò)構(gòu)建頁(yè)面的鏈接關(guān)系來(lái)構(gòu)建背景圖,最后判斷一個(gè)新頁(yè)面所在背景圖中的層次,來(lái)預(yù)測(cè)這個(gè)頁(yè)面距離主題頁(yè)面的距離,從而決定頁(yè)面中待爬行URLs的優(yōu)先級(jí)。2006年Hsu[7]等人在背景圖的基礎(chǔ)上又提出了相似背景圖,主要是通過(guò)計(jì)算已經(jīng)檢索的文檔和主題之間的距離,并且結(jié)合特定主題關(guān)鍵詞和一般關(guān)鍵詞的分布來(lái)構(gòu)造相似背景圖,來(lái)對(duì)待爬行URLs進(jìn)行排序。Menczer等人在2001年的研究評(píng)估了幾種不同搜集策略的優(yōu)劣[8],指出一個(gè)好的面向主題搜索引擎應(yīng)該將搜索的范圍盡量保持在空間中與主題鄰近的區(qū)域內(nèi)??偣苍u(píng)估了三種不同的搜集策略:1)BestFirst搜集器:利用向量空間模型(VSM),根據(jù)相關(guān)度大小確定優(yōu)先級(jí)加入隊(duì)列中以進(jìn)行網(wǎng)頁(yè)爬取。2)PageRank搜集器:根據(jù)PageRank排名的高低確定爬取網(wǎng)頁(yè)優(yōu)先級(jí)3)InfoSpiders:使用神經(jīng)網(wǎng)絡(luò)算法,考慮鏈接周圍的上下文。實(shí)驗(yàn)發(fā)現(xiàn)BcstFirst表現(xiàn)出性能最優(yōu),能將搜索范圍始終限制在搜索主題周圍。PageRank對(duì)于主題搜索任務(wù)來(lái)說(shuō),搜索的主題過(guò)于通用化,不能體現(xiàn)具體的主題。lnfoSpiders方法則介于兩者之間。Chakrabarti等人將頁(yè)面相關(guān)性判斷和頁(yè)面重要性評(píng)價(jià)分開(kāi)[9],結(jié)合了相關(guān)性反饋,取得了不錯(cuò)的效果。2003年Ehrig等人將基于本體的思想應(yīng)用到主題爬行中[10],并且

Dongetal.[11]使用使用向量機(jī)應(yīng)用了基于本體學(xué)習(xí)的主題爬蟲(chóng)來(lái)進(jìn)行網(wǎng)頁(yè)爬取。2005年Rungsawang等人利用對(duì)已經(jīng)收集到的網(wǎng)頁(yè)進(jìn)行學(xué)習(xí)[12],來(lái)指導(dǎo)以后的爬行行為。Guatam等人[13]采用支持向量機(jī)對(duì)頁(yè)面分類,以三種不同的鏈接背景進(jìn)行鏈接價(jià)值的預(yù)測(cè)來(lái)指導(dǎo)主題爬行的方向。Almpanidis等人[14]將文本分析與超鏈接分析結(jié)合起來(lái),通過(guò)構(gòu)建鄰接矩陣進(jìn)行分析來(lái)進(jìn)行爬行預(yù)測(cè),并且對(duì)基于BFBS的不同方法進(jìn)行比較,對(duì)比他們的計(jì)算效率。M.Kumar等人在2012年提出一種可學(xué)習(xí)的主題爬蟲(chóng)[15]。此主題爬蟲(chóng)主要分為3個(gè)過(guò)程。首先,此主題爬蟲(chóng)從ODP(OpenDirectoryProject)中收集與主題相關(guān)的網(wǎng)頁(yè),利用TF*IDF方法獲取這些網(wǎng)頁(yè)中所有詞項(xiàng)的TIDS(TF*IDFDefinitionSemantic),這些詞項(xiàng)的TIDS值用來(lái)描述給定的主題。其次,此主題爬蟲(chóng)利用給定主題相關(guān)閾值進(jìn)行首次爬行,直到達(dá)到指定的網(wǎng)頁(yè)數(shù),并計(jì)算這些網(wǎng)頁(yè)的中心值和權(quán)威值。最后,此主題爬蟲(chóng)選擇中心值較大的網(wǎng)頁(yè)集作為初始種子,不斷地從互聯(lián)網(wǎng)中下載網(wǎng)頁(yè),直到達(dá)到指定的網(wǎng)頁(yè)數(shù)。國(guó)內(nèi)研究狀況 相比國(guó)外,由于一些原因,國(guó)內(nèi)這方面的研究相比于國(guó)外起步較晚。 在爬取策略上,除了傳統(tǒng)方式的廣度優(yōu)先搜索算法,深度優(yōu)先搜索算法之外,隨著機(jī)器學(xué)習(xí)理論的逐步應(yīng)用,也逐漸出現(xiàn)了一些其他的算法,比如劉國(guó)靖等人[16]利用遺傳算法擴(kuò)展了網(wǎng)頁(yè)的抓取范圍,通過(guò)變異操作使得抓取的url可以突破區(qū)域的限制,得以抓取其他區(qū)域的網(wǎng)絡(luò)。在抓取靜態(tài)頁(yè)面方面,除了國(guó)內(nèi)傳統(tǒng)對(duì)基于貝葉斯分類器的主題爬蟲(chóng)的算法優(yōu)化[17]之外,針對(duì)網(wǎng)頁(yè)鏈接中的噪聲問(wèn)題以及主題的選取概念,熊忠陽(yáng)等人[18]基于維基百科以及網(wǎng)頁(yè)分塊的方法對(duì)主題爬行策略進(jìn)行研究,將維基百科作為主題知識(shí)庫(kù),通過(guò)網(wǎng)頁(yè)分塊,并引入塊相關(guān)度的概念,去除網(wǎng)頁(yè)中相關(guān)度不高的塊,有效改善了傳統(tǒng)主題爬行策略中基于關(guān)鍵詞集和從網(wǎng)頁(yè)整體分析鏈接優(yōu)先級(jí)的爬行策略的不足,但是如何優(yōu)化主題描述方面存在不足;受困于由概念相關(guān)度判斷引起的被訪問(wèn)的url僅局限于某一區(qū)域的問(wèn)題(即隧道問(wèn)題),關(guān)慧芬等人[19]基于本體概念對(duì)主題爬蟲(chóng)的爬行過(guò)程進(jìn)行改進(jìn),利用本體模型對(duì)url進(jìn)行判斷,對(duì)既不屬于主題相關(guān)又不屬于與待查主題有聯(lián)系的其他主題相關(guān)的url進(jìn)行刪除的主題爬行策略對(duì)主題爬蟲(chóng)進(jìn)行研究,但是實(shí)驗(yàn)發(fā)現(xiàn)初始情況并不理想,且爬行效率仍有待提高;張勇等人[20]改進(jìn)傳統(tǒng)的Context+Graph算法,利用詞頻差異特征而不是TF-IDF公式進(jìn)行特征詞選擇,查準(zhǔn)率和效率都有了進(jìn)一步的提升,但是并沒(méi)有考慮到頁(yè)面噪聲以及實(shí)際情況特征詞之間的語(yǔ)義重復(fù)的問(wèn)題;汪濤等人[21]利用概念空間模型,充分考慮到同義詞等語(yǔ)義問(wèn)題進(jìn)行主題爬蟲(chóng)的設(shè)計(jì),但是并沒(méi)有較好的解決好隧道效應(yīng)的問(wèn)題;張翔等人[22]改進(jìn)PageRank算法,加入時(shí)間因子進(jìn)行抓取,對(duì)根據(jù)時(shí)間的排序。但是,如今動(dòng)態(tài)網(wǎng)頁(yè)的興起,使得deepweb信息的抓取也成為了熱點(diǎn)。姚雙良等[23]對(duì)deepweb數(shù)據(jù)進(jìn)行挖掘提取,實(shí)現(xiàn)了機(jī)器自動(dòng)識(shí)別搜索框并持續(xù)搜索的特點(diǎn),但是其實(shí)現(xiàn)過(guò)程并不是基礎(chǔ)的基于機(jī)器學(xué)習(xí)搜索框的過(guò)程,尋找搜索框的過(guò)程較為機(jī)械;馬軍等[24]人提出了基于網(wǎng)頁(yè)上下文的web數(shù)據(jù)庫(kù)分類方法,該方法利用訓(xùn)練的學(xué)習(xí)實(shí)例獲取其領(lǐng)域語(yǔ)言知識(shí),并采用模糊分類集合對(duì)知識(shí)進(jìn)行表示,設(shè)計(jì)了針對(duì)Web數(shù)據(jù)庫(kù)分類的KNN算法,將查詢表單的頁(yè)面作為上下文,與Web數(shù)據(jù)庫(kù)內(nèi)容一起共同參與語(yǔ)義距離的計(jì)算;王輝等[25]研究學(xué)者提出了基于三分類器的特定領(lǐng)域DeepWeb入口自動(dòng)發(fā)現(xiàn)方法,該方法通過(guò)構(gòu)造網(wǎng)頁(yè)分類器、表單結(jié)構(gòu)分類器、表單內(nèi)容分類器三個(gè)部分的內(nèi)容逐步達(dá)到了對(duì)Web數(shù)據(jù)庫(kù)進(jìn)行分類的目的。存在問(wèn)題1)時(shí)間維度的表達(dá)。 傳統(tǒng)的主題爬蟲(chóng)是根據(jù)頁(yè)面相關(guān)度或者鏈接的Authority值判斷鏈接的優(yōu)先級(jí)。雖然在傳統(tǒng)的信息檢索過(guò)程中信息的相關(guān)度確實(shí)作為一個(gè)非常重要的指標(biāo)。但是,在傳染病模型中,考慮到抓取的信息必須具備時(shí)效性,即我們必須抓取的是近期的數(shù)據(jù)進(jìn)行分析,所以我們?cè)谠O(shè)計(jì)隊(duì)列時(shí)同樣還必須考慮到時(shí)間因素,即我們必須是對(duì)事件發(fā)生的時(shí)空關(guān)系進(jìn)行分析,所以傳統(tǒng)的主題爬蟲(chóng)的模型必須要經(jīng)過(guò)改進(jìn)。2)抓取的效率 由于主題爬蟲(chóng)最初應(yīng)用于搜索引擎中,傳統(tǒng)的主題爬蟲(chóng)分類策略的評(píng)價(jià)中大多數(shù)都很強(qiáng)調(diào)爬取的主題相關(guān)性而不關(guān)注爬取的時(shí)間復(fù)雜度。但是數(shù)據(jù)實(shí)時(shí)抓取要求我們關(guān)注算法的時(shí)間復(fù)雜度,如HITS算法則會(huì)因?yàn)闀r(shí)間復(fù)雜度量級(jí)大而不在考慮范圍內(nèi)。語(yǔ)義理解與學(xué)習(xí)傳染病預(yù)測(cè)要求機(jī)器要從模糊語(yǔ)義中不斷理解與學(xué)習(xí)以判斷主題的相關(guān)度。如應(yīng)當(dāng)抓取的頁(yè)面可能包含發(fā)熱等感冒癥狀卻沒(méi)有出現(xiàn)感冒的關(guān)鍵詞,而不應(yīng)當(dāng)抓取的頁(yè)面包含有感冒的關(guān)鍵詞但是卻不是我們所需要的頁(yè)面(如該頁(yè)面包含的主題是引發(fā)感冒的病菌的研究)。而經(jīng)資料查詢?cè)谌缃竦闹黝}爬蟲(chóng)的研究中鮮有這方面的研究。研究方案實(shí)驗(yàn)數(shù)據(jù) 基于百度搜索引擎的關(guān)于某傳染病具體名稱的信息檢索結(jié)果,取top50作為種子集。實(shí)驗(yàn)方法通過(guò)合作,實(shí)現(xiàn)論文結(jié)果展示。本人主要負(fù)責(zé)大數(shù)據(jù)的實(shí)時(shí)抓取模塊。實(shí)時(shí)抓取模塊的實(shí)線思路如下: 數(shù)據(jù)爬取策略:采用遺傳算法實(shí)現(xiàn)指導(dǎo)爬蟲(chóng)爬取數(shù)據(jù)。并根據(jù)結(jié)果不斷調(diào)整變異率和適應(yīng)度,保證良好的數(shù)據(jù)質(zhì)量 數(shù)據(jù)分析策略:利用百度搜索引擎,取百度結(jié)果的top50獲得種子url。利用向量空間模型,將主題分割成一系列的關(guān)鍵詞,采取TF-IDF算法對(duì)每個(gè)關(guān)鍵詞的權(quán)重進(jìn)行賦值,根據(jù)關(guān)鍵詞權(quán)重大小對(duì)關(guān)鍵詞順序進(jìn)行排列。利用相關(guān)度分析,使用術(shù)語(yǔ)空間對(duì)對(duì)每個(gè)url指向的網(wǎng)頁(yè)文件進(jìn)行線性表達(dá),并與關(guān)鍵詞ti求相關(guān)度,求得的相關(guān)度采用改進(jìn)的加入時(shí)間因子的貝葉斯分類器進(jìn)行分類,將該url放入與貝葉斯分類器分類的結(jié)果的隊(duì)列qi中根據(jù)隊(duì)列優(yōu)先級(jí)取url爬取網(wǎng)頁(yè),對(duì)網(wǎng)頁(yè)內(nèi)的url進(jìn)行(3)操作,直至結(jié)束。流程圖如下:種子u種子url貝葉斯分類器分類貝葉斯分類器分類優(yōu)先級(jí)為i的優(yōu)先級(jí)為i的隊(duì)列中有url?否I++頁(yè)面提取i>n否I++頁(yè)面提取i>n否刪除提取后的隊(duì)列中的url否刪除提取后的隊(duì)列中的url是是是是提取出鏈接url提取出鏈接url結(jié)束貝葉斯分類器分類貝葉斯分類器分類否否uurl主題與主題i相關(guān)?是是實(shí)施計(jì)劃 20xx.1.14-20xx.1.20文獻(xiàn)深入研究、技術(shù)探討。 20xx.1.21-20xx.2.15系統(tǒng)框架構(gòu)建、實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲(chóng)基本框架。 20xx.2.16-20xx.3.16構(gòu)建貝葉斯分類器,系統(tǒng)優(yōu)化,基本功能實(shí)現(xiàn)。 20xx.3.17-20xx.3.26攥寫畢業(yè)論文??尚行苑治?準(zhǔn)備以nutch框架為基礎(chǔ)爬行結(jié)構(gòu)進(jìn)行二次開(kāi)發(fā),實(shí)現(xiàn)網(wǎng)絡(luò)檢索功能。基礎(chǔ)框架已經(jīng)實(shí)現(xiàn),算法內(nèi)容也可以完成。參考文獻(xiàn)[1] P.DeBra,G.Houben,Y.Kornatzk,R.Post.Informationretrievalindistributedhypertexts[C].Proceedingsofthe4thRIAOConference,NewYork,1994,481-491.[2] M.Hersovici,M.Jacovi,etal.Theshark-searchalgorithm.Anapplication:tailoredwebsitemapping[J].ComputerNetworksandISDNSystems,1998,30(1-7):317-326.[3] SergeyBrin,LawrencePage.Theanatomyofalarge-scalehypertextualwebsearchengine[J].ComputerNetworksandISDNSystems,1998,30(1-7):107-117.[4] SergeyBrin,LawrencePage.Theanatomyofalarge-scalehypertextualwebsearchengine[J].ComputerNetworksandISDNSystems,1998,30(1-7):107-117.[5] S.Chakrabartia,M.V.D.Berg,B.Dom.Focusedcrawling:anewapproachtotopic-specificwebresourcediscovery[J].ComputerNetworks,1999,31(11-16):1623-1640.[6] M.Diligenti,F.M.Coetzee,S.Lawrence,C.L.GilesandM.Gori.Focusedcrawlingusingcontextgraphs[C].Proceedingsofthe26thInternationalConferenceonVeryLargeDatabase(VLDB),2000,527-534.[7]Ching-ChiHsua,FanWub.Topic-specificcrawlingontheWebwiththemeasurementsoftherelevancycontextgraph[J].InformationSystems,2006,31(4-5):232-246.[8] F.Menczer,G.Pant,P.Srinivasanetal.EvaluatingTopic-DrivenWebCrawlers.InProceedingsofthe24thAnnualInternationalACM/SIGIRConference,NewOrleans,USA,2001.[9] S.Chakrabarti,K.Punera,M.Subramanyam.Acceleratedfocusedcrawlingthroughonlinerelevancefeedback.InWWW,Hawaii,May2002.ACM.[10] M.Ehrig.Ontology-focusedCrawlingofWebDocuments.A.Maedche.InProceedingsofthe2003ACMsymposiumonAppliedcomputing.2003.[11] DongH,HussainFK.SOF:asemi-supervisedontology-learning-basedfocusedcrawler[J].Concurrency&ComputationPractice&Experience,2013,25(12):1755–1770.[12] ArnonRungsawang,NiranAngkawattanawit.Learnabletopic-specificwebcrawler.[J].J.NetworkandComputerApplications,2005,28:.[14] G.Almpan

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論