搜索引擎第二次實驗報告

上傳人：5*** IP屬地：湖北上傳時間：2022-01-09 格式：DOCX 頁數(shù)：6 大?。?57.04KB 積分：28 舉報 版權(quán)申訴

已閱讀5頁，還剩1頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、2016-2017-1學(xué)期搜索引擎技術(shù)實驗報告實驗二：實驗一、實驗?zāi)康模?根據(jù)網(wǎng)絡(luò)爬蟲的基本原理，實現(xiàn)一個簡易網(wǎng)絡(luò)爬蟲，需要達(dá)到以下指標(biāo)： 1、種子URL為； 2、至少抓取10000個頁面； 3、至少完成3輪抓取，每輪給出更新的URL及其數(shù)量；4、實現(xiàn)判重，列出每輪爬去時重復(fù)的URL數(shù)量；5、數(shù)據(jù)存放到數(shù)據(jù)庫中，能抽取出網(wǎng)頁中的標(biāo)題、頁面生成日期（http協(xié)議中的時間），至少包含標(biāo)題、時間、url、抓取時間、網(wǎng)頁正文這幾個字段。二、實驗方案：1. 爬蟲分析與設(shè)計我們組應(yīng)用的是java來寫爬蟲，我們應(yīng)用SSM框架將數(shù)據(jù)庫和應(yīng)用程序連接起來，可以在程序中更簡單的進(jìn)行數(shù)據(jù)庫插入、查詢等操作。在對ur

2、l處理的時候我們用的是Java的URL類，通過這個類可以獲得請求頭的一些信息，例如編碼方式。如何獲取url，我們一開始遇到了一些問題，直接解析網(wǎng)頁中的ref標(biāo)簽的時候得到的不全是網(wǎng)頁鏈接，所以轉(zhuǎn)換思路，我們先得到頁面中的<a>標(biāo)簽，然后再得到<a>標(biāo)簽里邊href中的url，然后再對url進(jìn)行處理。在處理url的時候，因為網(wǎng)頁中的url并不是全部以http開頭的，所以在url獲取部分，對url的格式進(jìn)行判斷，如果通常格式就進(jìn)行修改，例如，有的鏈接是”#”，我們就把開始搜索的url加到它的前邊，形成一個正確的url。圖1：應(yīng)用URL類獲取網(wǎng)頁內(nèi)容圖2：利用url請求頭獲取

3、編碼信息圖3：獲取a標(biāo)簽圖4-1：獲取url圖4-2：獲取url圖5：url判重2. 數(shù)據(jù)庫分析與設(shè)計我們設(shè)計了兩個表，一個是未爬取url表，兩一個是已經(jīng)爬取url表。未爬取的表中村的是搜索判重之后，還沒有爬取的url，已爬取的存儲爬取到的信息。圖6：判重后需要爬取的url表圖7：爬取后url信息存儲表圖9：去重后url的部分信息圖10：爬取結(jié)果部分信息圖11：網(wǎng)頁內(nèi)容存txt部分信息三、實驗結(jié)果及分析：試驗中每一次爬取的網(wǎng)頁數(shù)量都是超過了10000的，達(dá)到了數(shù)量上的要求，但是在處理的過程中，對于中文的解析有的并不理想，這個是因為有的url在請求頭里邊沒有網(wǎng)頁的編碼信息，所以對于這種網(wǎng)頁的處理

4、是按照“utf-8”的編碼方式處理的，所以得到的數(shù)據(jù)可能會有亂碼。此外有的網(wǎng)頁中沒有<title>標(biāo)簽，所以有的標(biāo)題不可以得到。在一開始的時候爬蟲程序就是簡單的按順序獲取網(wǎng)頁內(nèi)容，內(nèi)因程序?qū)懙男什桓撸廊?000+網(wǎng)頁就用了一個小時，所以在之后用到了三個線程同時爬取，使得爬取的速度有了很大的提升。圖12：三次爬取結(jié)果對比四、實驗總結(jié)：優(yōu)點：爬取數(shù)據(jù)的存取應(yīng)用了數(shù)據(jù)庫，相較文本而言，應(yīng)用數(shù)據(jù)庫在數(shù)據(jù)的存取上十分的方便，效率要高很多，因為如果用文本進(jìn)行存取，每一次比較數(shù)據(jù)的時候都要把文本遍歷一遍，時空效率都很低，另外用數(shù)據(jù)庫存數(shù)據(jù)條目很清晰，可以方便觀察爬取到的數(shù)據(jù)；爬取數(shù)據(jù)運(yùn)用多線程，有效的提高了爬取效率，在沒有用多線程進(jìn)行爬取的時候2000+個url爬取了1個小時，之后用了3個線程同時爬取數(shù)據(jù)，爬取的效率有了明顯的提高。缺點：文本處理有瑕疵，有的網(wǎng)頁在請求頭沒有給出編碼信息，所以獲得到的文本信息含有亂碼，有的沒有給出網(wǎng)頁的發(fā)布時間，所以只有把發(fā)布時間默認(rèn)成爬取的時間。有的網(wǎng)頁中沒有title標(biāo)簽，沒有辦法得到url的標(biāo)題。在網(wǎng)上看到了一些論

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

搜索引擎第二次實驗報告

文檔簡介

溫馨提示

最新文檔

評論

搜索引擎第二次實驗報告

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔