![搜索引擎-第二次實驗報告_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/9/366a8538-63e7-4ceb-876f-5b038b29cdb4/366a8538-63e7-4ceb-876f-5b038b29cdb41.gif)
![搜索引擎-第二次實驗報告_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/9/366a8538-63e7-4ceb-876f-5b038b29cdb4/366a8538-63e7-4ceb-876f-5b038b29cdb42.gif)
![搜索引擎-第二次實驗報告_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/9/366a8538-63e7-4ceb-876f-5b038b29cdb4/366a8538-63e7-4ceb-876f-5b038b29cdb43.gif)
![搜索引擎-第二次實驗報告_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/9/366a8538-63e7-4ceb-876f-5b038b29cdb4/366a8538-63e7-4ceb-876f-5b038b29cdb44.gif)
![搜索引擎-第二次實驗報告_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/9/366a8538-63e7-4ceb-876f-5b038b29cdb4/366a8538-63e7-4ceb-876f-5b038b29cdb45.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、2016-2017-1學期搜索引擎技術實驗報告實驗二:實驗一、實驗目的: 根據網絡爬蟲的基本原理,實現一個簡易網絡爬蟲,需要達到以下指標: 1、種子URL為; 2、至少抓取10000個頁面; 3、至少完成3輪抓取,每輪給出更新的URL及其數量;4、實現判重,列出每輪爬去時重復的URL數量;5、數據存放到數據庫中,能抽取出網頁中的標題、頁面生成日期(http協(xié)議中的時間),至少包含標題、時間、url、抓取時間、網頁正文這幾個字段。二、實驗方案:1. 爬蟲分析與設計我們組應用的是java來寫爬蟲,我們應用SSM框架將數據庫和應用程序連接起來,可以在程序中更簡單的進行數據庫插入、查詢等操作。在對ur
2、l處理的時候我們用的是Java的URL類,通過這個類可以獲得請求頭的一些信息,例如編碼方式。如何獲取url,我們一開始遇到了一些問題,直接解析網頁中的ref標簽的時候得到的不全是網頁鏈接,所以轉換思路,我們先得到頁面中的<a>標簽,然后再得到<a>標簽里邊href中的url,然后再對url進行處理。在處理url的時候,因為網頁中的url并不是全部以http開頭的,所以在url獲取部分,對url的格式進行判斷,如果通常格式就進行修改,例如,有的鏈接是”#”,我們就把開始搜索的url加到它的前邊,形成一個正確的url。圖1:應用URL類獲取網頁內容圖2:利用url請求頭獲取
3、編碼信息圖3:獲取a標簽圖4-1:獲取url圖4-2:獲取url圖5:url判重2. 數據庫分析與設計我們設計了兩個表,一個是未爬取url表,兩一個是已經爬取url表。未爬取的表中村的是搜索判重之后,還沒有爬取的url,已爬取的存儲爬取到的信息。圖6:判重后需要爬取的url表圖7:爬取后url信息存儲表圖9:去重后url的部分信息圖10:爬取結果部分信息圖11:網頁內容存txt部分信息三、實驗結果及分析:試驗中每一次爬取的網頁數量都是超過了10000的,達到了數量上的要求,但是在處理的過程中,對于中文的解析有的并不理想,這個是因為有的url在請求頭里邊沒有網頁的編碼信息,所以對于這種網頁的處理
4、是按照“utf-8”的編碼方式處理的,所以得到的數據可能會有亂碼。此外有的網頁中沒有<title>標簽,所以有的標題不可以得到。在一開始的時候爬蟲程序就是簡單的按順序獲取網頁內容,內因程序寫的效率不高,爬取2000+網頁就用了一個小時,所以在之后用到了三個線程同時爬取,使得爬取的速度有了很大的提升。圖12:三次爬取結果對比四、實驗總結:優(yōu)點:爬取數據的存取應用了數據庫,相較文本而言,應用數據庫在數據的存取上十分的方便,效率要高很多,因為如果用文本進行存取,每一次比較數據的時候都要把文本遍歷一遍,時空效率都很低,另外用數據庫存數據條目很清晰,可以方便觀察爬取到的數據;爬取數據運用多線程,有效的提高了爬取效率,在沒有用多線程進行爬取的時候2000+個url爬取了1個小時,之后用了3個線程同時爬取數據,爬取的效率有了明顯的提高。缺點:文本處理有瑕疵,有的網頁在請求頭沒有給出編碼信息,所以獲得到的文本信息含有亂碼,有的沒有給出網頁的發(fā)布時間,所以只有把發(fā)布時間默認成爬取的時間。有的網頁中沒有title標簽,沒有辦法得到url的標題。在網上看到了一些論
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 教師年度考核個人述職報告范文(19篇)
- 班主任教師工作簡述7篇
- 智慧安全政務云數據中心整體解決方案
- 某文旅景區(qū)概念性策略-策劃案例
- 《治安管理處罰法》知識競賽參考試題庫150題(含答案)
- 2025年武漢鐵路職業(yè)技術學院高職單招職業(yè)適應性測試近5年??及鎱⒖碱}庫含答案解析
- 2025年無錫城市職業(yè)技術學院高職單招語文2018-2024歷年參考題庫頻考點含答案解析
- 2025年曹妃甸職業(yè)技術學院高職單招語文2018-2024歷年參考題庫頻考點含答案解析
- 特種材料供應合同
- 二手設備的買賣合同范本
- 2025年度廚師職業(yè)培訓學院合作辦學合同4篇
- 《組織行為學》第1章-組織行為學概述
- 市場營銷試題(含參考答案)
- 2024年山東省泰安市高考物理一模試卷(含詳細答案解析)
- 護理指南手術器械臺擺放
- 腫瘤患者管理
- 四川省成都市高新區(qū)2024年七年級上學期語文期末試卷【含答案】
- 2025年中國航空部附件維修行業(yè)市場競爭格局、行業(yè)政策及需求規(guī)模預測報告
- 《應收培訓》課件
- 國土空間生態(tài)修復規(guī)劃
- 2024年醫(yī)療器械經營質量管理規(guī)范培訓課件
評論
0/150
提交評論