版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
網(wǎng)絡(luò)爬蟲·論文答辯定向爬取?腳本之家?文本信息網(wǎng)絡(luò)爬蟲·論文答辯定向爬取?腳本之家?文本信息CONTENTS目錄課題綜述1研究過(guò)程4目前現(xiàn)狀2研究結(jié)論5研究目標(biāo)3參考文獻(xiàn)6CONTENTS目錄課題綜述1研究過(guò)程4目前現(xiàn)狀2研究結(jié)論5目錄頁(yè)緒論P(yáng)ARTONE目錄頁(yè)緒論P(yáng)ARTONE<10%>80%選題意義搜索引擎作為一個(gè)輔助人們檢索信息的工具。但是,這些通用性搜索引擎也存在著一定的局限性。不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁(yè)。為了解決這個(gè)問題,一個(gè)靈活的爬蟲有著無(wú)可替代的重要意義。有效信息廣告、無(wú)用信息選題背景及意義<10%>80%選題意義搜索引擎作為一個(gè)輔助人們檢索信息的工
對(duì)于網(wǎng)絡(luò)延遲的處理,并且能夠開啟HTTPCHACHE,極大限度的提高爬取速度,偽造代理信息,表單等,讓目標(biāo)網(wǎng)站,認(rèn)為你是安全的具備可視化顯示,以網(wǎng)頁(yè)的形式有好的顯示數(shù)據(jù),并提供簡(jiǎn)單的搜索功能,能將數(shù)據(jù)簡(jiǎn)單分類,智能推薦研究目標(biāo)AC研究目標(biāo)B
使網(wǎng)絡(luò)爬蟲高效靈活,在主題網(wǎng)站中盡量全面的爬取信息,并且能夠自動(dòng)構(gòu)造URL,遞歸調(diào)用自身,開啟多線程快速的爬取,準(zhǔn)確提取有效信息,存儲(chǔ)到數(shù)據(jù)庫(kù)D整合數(shù)據(jù)信息,并以json格式存儲(chǔ)至Mongo,方面各個(gè)平臺(tái)使用,通過(guò)腳本程序,遷移到Mysql為依賴關(guān)系較強(qiáng)的項(xiàng)目使用E目標(biāo)網(wǎng)站地址:/article/1.htm對(duì)于網(wǎng)絡(luò)延遲的處理,并且能夠開啟HTTPCH目錄頁(yè)研究方法與思路PARTTWO目錄頁(yè)研究方法與思路PARTTWO網(wǎng)絡(luò)爬蟲基礎(chǔ)理論學(xué)習(xí)構(gòu)造URL、多線程、強(qiáng)大的抓取能力、信息提取任務(wù)python、scrapy、mongodb2016.04.32016.04.102016.04.172016.04.242015.05.12016.05.82016.05.152016.05.222016.05.29php、數(shù)據(jù)可視化顯示研究方法網(wǎng)絡(luò)爬蟲基礎(chǔ)理論學(xué)習(xí)構(gòu)造URL、多線程、強(qiáng)大的抓取能力、信息步驟一步驟二步驟三步驟四步驟五通過(guò)Internet查詢網(wǎng)絡(luò)爬蟲運(yùn)行機(jī)制,基本原理,根據(jù)所爬取的網(wǎng)站設(shè)計(jì)自己的爬蟲了解爬蟲理論機(jī)制學(xué)習(xí)Python,Scrapy框架的搭建,Mongodb的簡(jiǎn)單操作,Laravel,bootstrap框架學(xué)習(xí)、編寫、調(diào)試學(xué)習(xí)基礎(chǔ)知識(shí)老師的多次面談和郵件交流,解決了一些理論的疑點(diǎn)和實(shí)踐上的難點(diǎn),指導(dǎo)了爬蟲的設(shè)計(jì)和利弊分析,提供了很多的幫助老師教導(dǎo)設(shè)計(jì)和學(xué)習(xí)完基礎(chǔ)知識(shí)后,搭建了繁瑣的環(huán)境,在Windows下進(jìn)行了爬蟲的開發(fā)、調(diào)試,最終成功的實(shí)現(xiàn)了信息的爬取與提取爬蟲的編寫與調(diào)試將爬去下來(lái)的數(shù)據(jù),通過(guò)腳本程序進(jìn)行數(shù)據(jù)轉(zhuǎn)換,利用網(wǎng)頁(yè)技術(shù)可視化顯示可視化顯示研究步驟步驟一步驟二步驟三步驟四步驟五通過(guò)Internet查詢網(wǎng)絡(luò)爬目錄頁(yè)關(guān)鍵技術(shù)與難點(diǎn)PARTTHREE目錄頁(yè)關(guān)鍵技術(shù)與難點(diǎn)PARTTHREE關(guān)鍵技術(shù)主爬蟲的設(shè)計(jì)編寫數(shù)據(jù)的轉(zhuǎn)換與顯示Spider
主爬蟲文件的編寫,利用Scrapy根據(jù)網(wǎng)站的自身特性構(gòu)建URL,將抓取下來(lái)的網(wǎng)頁(yè)信息進(jìn)行信息提取,并將有用信息存儲(chǔ)到mongo數(shù)據(jù)庫(kù),監(jiān)測(cè)數(shù)據(jù)庫(kù)插入情況可視化顯示將Mongodb中的數(shù)據(jù)通過(guò)腳本程序復(fù)寫到MySQL,利于網(wǎng)站依賴關(guān)系處理,用Laravel框架編寫后臺(tái)控制邏輯,友好的Bootstrap前臺(tái)顯示。關(guān)鍵技術(shù)主爬蟲的設(shè)計(jì)編寫數(shù)據(jù)的轉(zhuǎn)換與顯示Spider可視化顯ScrapyScrapy環(huán)境搭建需要導(dǎo)入的一些關(guān)鍵包:python2.7、lxml、zope、Twisted、pyOpenSSL、pywin32、一定要注意版本,國(guó)內(nèi)一些也沒有,安裝依賴包就會(huì)將很多人拒之門外。Mongodb啟動(dòng)腳本:mongod--dbpath../data依賴包:pymongo主要類:Script2Pipeline(object)pymongo.MongoClient()tdb=client[]self.post.insert(scriptInfo)Spider關(guān)鍵代碼:src2Spider(scrapy.Spider):parse(self,response):scrapy.selector.Selector(response)new_url=self.url+str(self.pageNum)+".htm"yieldRequest(new_url,callback=self.parse)Data提取字段:title、desc、content、tag主配置:USER_AGENTCOOKIES_ENABLEDCONCURRENT_REQUESTSHTTPCACHE_ENABLEDMONGODB_CONFIG技術(shù)難點(diǎn)ScrapyScrapy環(huán)境搭建需要導(dǎo)入的一些關(guān)鍵包:pytVS
全球最大的中文搜索引擎、致力于讓網(wǎng)民更便捷地獲取信息,為了解決大規(guī)模數(shù)據(jù)管理計(jì)算,在金字塔計(jì)劃夭折后,最終也倒向了雅虎牽頭的Hadoop開源項(xiàng)目百度Google
Google的使命是整合全球范圍的信息,當(dāng)搜索引擎抓取到的結(jié)果越來(lái)越多時(shí),保證存儲(chǔ)和查詢速度的難度越來(lái)越高,研發(fā)Caffeine、Pregel、Dremel三種技術(shù)以解決這些問題。萬(wàn)網(wǎng)抓取率:25%大數(shù)據(jù)管理:Hadoop全球市場(chǎng)份額:8.13%萬(wàn)網(wǎng)抓取率:80%大數(shù)據(jù)管理:Spanner全球市場(chǎng)份額:67.49%案例對(duì)比分析VS全球最大的中文搜索引擎、致力于讓網(wǎng)民更便捷目錄頁(yè)研究成果與應(yīng)用PARTFOUR目錄頁(yè)研究成果與應(yīng)用PARTFOUR01完成了主題爬蟲編寫,兩條爬蟲同時(shí)爬取目標(biāo)網(wǎng)站四個(gè)多小時(shí),共提取出了有效信息85000條,以json格式,每一萬(wàn)條數(shù)據(jù)一張表的形式,保存至mongodb數(shù)據(jù)庫(kù)03通過(guò)laravel。bootstrap框架利用MVC框架,將數(shù)據(jù)優(yōu)雅的顯示到前臺(tái),并提供簡(jiǎn)單的查詢功能,但搜索功能還是不盡人意,在多重模糊查詢中由于mysql左連接的缺陷是的搜索速度非常的緩慢,有時(shí)還可能拖死m(xù)ysql數(shù)據(jù)庫(kù)02將mongodb數(shù)據(jù)庫(kù)中的數(shù)據(jù)經(jīng)過(guò)整合,首先使用自帶的CSV作為中間件進(jìn)行轉(zhuǎn)換時(shí)由于CSV文件的單個(gè)單元格最大存儲(chǔ)32,767個(gè)字符造成數(shù)據(jù)截取丟失,編寫自適應(yīng)錯(cuò)誤腳本程序?qū)ongodb中的數(shù)據(jù)轉(zhuǎn)換到了mysql數(shù)據(jù)庫(kù)成果形式01完成了主題爬蟲編寫,兩條爬蟲同時(shí)爬取目標(biāo)成果形式?腳本之家主爬蟲代碼片段成果形式?腳本之家主爬蟲代碼片段數(shù)據(jù)成果存儲(chǔ)展現(xiàn)形式數(shù)據(jù)成果存儲(chǔ)展現(xiàn)形式應(yīng)用前景
通過(guò)編寫靈活的爬蟲,簡(jiǎn)單有效的垂直爬取主題網(wǎng)站,踢去有用信提取,并作統(tǒng)計(jì)分析,保存至數(shù)據(jù)庫(kù),提供快速查詢接口。垂直化爬取
通過(guò)垂直化爬取的數(shù)據(jù)量比較小,在存儲(chǔ)和查詢方面都會(huì)大大提速,并且精度更高,信息使用率增高,減少能量消耗解除大數(shù)據(jù)管理
定向爬去網(wǎng)站信息,并進(jìn)行學(xué)習(xí)分析,提高只能利用,判斷該行業(yè)發(fā)展情況和未來(lái)走向,做出及時(shí)防范數(shù)據(jù)分析SpiderDATA應(yīng)用前景通過(guò)編寫靈活的爬蟲,簡(jiǎn)單有效的垂直爬取主題目錄頁(yè)論文總結(jié)PARTFIVE目錄頁(yè)論文總結(jié)PARTFIVE致謝THANKS!大學(xué)生活即將結(jié)束,在此,我要感謝所有教導(dǎo)我的老師和陪伴我一齊成長(zhǎng)的同學(xué),他們?cè)谖业拇髮W(xué)生涯給予了很大的幫助。本論文能夠順利完成,要特別感謝我的導(dǎo)師趙中英老師,趙中英老師對(duì)該論文從選題,構(gòu)思到最后定稿的各個(gè)環(huán)節(jié)給予細(xì)心指引與教導(dǎo),使我得以最終完成畢業(yè)論文設(shè)計(jì)!
最后,我要向百忙之中抽時(shí)間對(duì)本文進(jìn)行審閱,評(píng)議和參與本人論文答辯的各位老師表示感謝!懇請(qǐng)各位老師批評(píng)指正!致謝THANKS!大學(xué)生活即將結(jié)束,在此,網(wǎng)絡(luò)爬蟲·論文答辯定向爬取?腳本之家?文本信息網(wǎng)絡(luò)爬蟲·論文答辯定向爬取?腳本之家?文本信息CONTENTS目錄課題綜述1研究過(guò)程4目前現(xiàn)狀2研究結(jié)論5研究目標(biāo)3參考文獻(xiàn)6CONTENTS目錄課題綜述1研究過(guò)程4目前現(xiàn)狀2研究結(jié)論5目錄頁(yè)緒論P(yáng)ARTONE目錄頁(yè)緒論P(yáng)ARTONE<10%>80%選題意義搜索引擎作為一個(gè)輔助人們檢索信息的工具。但是,這些通用性搜索引擎也存在著一定的局限性。不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁(yè)。為了解決這個(gè)問題,一個(gè)靈活的爬蟲有著無(wú)可替代的重要意義。有效信息廣告、無(wú)用信息選題背景及意義<10%>80%選題意義搜索引擎作為一個(gè)輔助人們檢索信息的工
對(duì)于網(wǎng)絡(luò)延遲的處理,并且能夠開啟HTTPCHACHE,極大限度的提高爬取速度,偽造代理信息,表單等,讓目標(biāo)網(wǎng)站,認(rèn)為你是安全的具備可視化顯示,以網(wǎng)頁(yè)的形式有好的顯示數(shù)據(jù),并提供簡(jiǎn)單的搜索功能,能將數(shù)據(jù)簡(jiǎn)單分類,智能推薦研究目標(biāo)AC研究目標(biāo)B
使網(wǎng)絡(luò)爬蟲高效靈活,在主題網(wǎng)站中盡量全面的爬取信息,并且能夠自動(dòng)構(gòu)造URL,遞歸調(diào)用自身,開啟多線程快速的爬取,準(zhǔn)確提取有效信息,存儲(chǔ)到數(shù)據(jù)庫(kù)D整合數(shù)據(jù)信息,并以json格式存儲(chǔ)至Mongo,方面各個(gè)平臺(tái)使用,通過(guò)腳本程序,遷移到Mysql為依賴關(guān)系較強(qiáng)的項(xiàng)目使用E目標(biāo)網(wǎng)站地址:/article/1.htm對(duì)于網(wǎng)絡(luò)延遲的處理,并且能夠開啟HTTPCH目錄頁(yè)研究方法與思路PARTTWO目錄頁(yè)研究方法與思路PARTTWO網(wǎng)絡(luò)爬蟲基礎(chǔ)理論學(xué)習(xí)構(gòu)造URL、多線程、強(qiáng)大的抓取能力、信息提取任務(wù)python、scrapy、mongodb2016.04.32016.04.102016.04.172016.04.242015.05.12016.05.82016.05.152016.05.222016.05.29php、數(shù)據(jù)可視化顯示研究方法網(wǎng)絡(luò)爬蟲基礎(chǔ)理論學(xué)習(xí)構(gòu)造URL、多線程、強(qiáng)大的抓取能力、信息步驟一步驟二步驟三步驟四步驟五通過(guò)Internet查詢網(wǎng)絡(luò)爬蟲運(yùn)行機(jī)制,基本原理,根據(jù)所爬取的網(wǎng)站設(shè)計(jì)自己的爬蟲了解爬蟲理論機(jī)制學(xué)習(xí)Python,Scrapy框架的搭建,Mongodb的簡(jiǎn)單操作,Laravel,bootstrap框架學(xué)習(xí)、編寫、調(diào)試學(xué)習(xí)基礎(chǔ)知識(shí)老師的多次面談和郵件交流,解決了一些理論的疑點(diǎn)和實(shí)踐上的難點(diǎn),指導(dǎo)了爬蟲的設(shè)計(jì)和利弊分析,提供了很多的幫助老師教導(dǎo)設(shè)計(jì)和學(xué)習(xí)完基礎(chǔ)知識(shí)后,搭建了繁瑣的環(huán)境,在Windows下進(jìn)行了爬蟲的開發(fā)、調(diào)試,最終成功的實(shí)現(xiàn)了信息的爬取與提取爬蟲的編寫與調(diào)試將爬去下來(lái)的數(shù)據(jù),通過(guò)腳本程序進(jìn)行數(shù)據(jù)轉(zhuǎn)換,利用網(wǎng)頁(yè)技術(shù)可視化顯示可視化顯示研究步驟步驟一步驟二步驟三步驟四步驟五通過(guò)Internet查詢網(wǎng)絡(luò)爬目錄頁(yè)關(guān)鍵技術(shù)與難點(diǎn)PARTTHREE目錄頁(yè)關(guān)鍵技術(shù)與難點(diǎn)PARTTHREE關(guān)鍵技術(shù)主爬蟲的設(shè)計(jì)編寫數(shù)據(jù)的轉(zhuǎn)換與顯示Spider
主爬蟲文件的編寫,利用Scrapy根據(jù)網(wǎng)站的自身特性構(gòu)建URL,將抓取下來(lái)的網(wǎng)頁(yè)信息進(jìn)行信息提取,并將有用信息存儲(chǔ)到mongo數(shù)據(jù)庫(kù),監(jiān)測(cè)數(shù)據(jù)庫(kù)插入情況可視化顯示將Mongodb中的數(shù)據(jù)通過(guò)腳本程序復(fù)寫到MySQL,利于網(wǎng)站依賴關(guān)系處理,用Laravel框架編寫后臺(tái)控制邏輯,友好的Bootstrap前臺(tái)顯示。關(guān)鍵技術(shù)主爬蟲的設(shè)計(jì)編寫數(shù)據(jù)的轉(zhuǎn)換與顯示Spider可視化顯ScrapyScrapy環(huán)境搭建需要導(dǎo)入的一些關(guān)鍵包:python2.7、lxml、zope、Twisted、pyOpenSSL、pywin32、一定要注意版本,國(guó)內(nèi)一些也沒有,安裝依賴包就會(huì)將很多人拒之門外。Mongodb啟動(dòng)腳本:mongod--dbpath../data依賴包:pymongo主要類:Script2Pipeline(object)pymongo.MongoClient()tdb=client[]self.post.insert(scriptInfo)Spider關(guān)鍵代碼:src2Spider(scrapy.Spider):parse(self,response):scrapy.selector.Selector(response)new_url=self.url+str(self.pageNum)+".htm"yieldRequest(new_url,callback=self.parse)Data提取字段:title、desc、content、tag主配置:USER_AGENTCOOKIES_ENABLEDCONCURRENT_REQUESTSHTTPCACHE_ENABLEDMONGODB_CONFIG技術(shù)難點(diǎn)ScrapyScrapy環(huán)境搭建需要導(dǎo)入的一些關(guān)鍵包:pytVS
全球最大的中文搜索引擎、致力于讓網(wǎng)民更便捷地獲取信息,為了解決大規(guī)模數(shù)據(jù)管理計(jì)算,在金字塔計(jì)劃夭折后,最終也倒向了雅虎牽頭的Hadoop開源項(xiàng)目百度Google
Google的使命是整合全球范圍的信息,當(dāng)搜索引擎抓取到的結(jié)果越來(lái)越多時(shí),保證存儲(chǔ)和查詢速度的難度越來(lái)越高,研發(fā)Caffeine、Pregel、Dremel三種技術(shù)以解決這些問題。萬(wàn)網(wǎng)抓取率:25%大數(shù)據(jù)管理:Hadoop全球市場(chǎng)份額:8.13%萬(wàn)網(wǎng)抓取率:80%大數(shù)據(jù)管理:Spanner全球市場(chǎng)份額:67.49%案例對(duì)比分析VS全球最大的中文搜索引擎、致力于讓網(wǎng)民更便捷目錄頁(yè)研究成果與應(yīng)用PARTFOUR目錄頁(yè)研究成果與應(yīng)用PARTFOUR01完成了主題爬蟲編寫,兩條爬蟲同時(shí)爬取目標(biāo)網(wǎng)站四個(gè)多小時(shí),共提取出了有效信息85000條,以json格式,每一萬(wàn)條數(shù)據(jù)一張表的形式,保存至mongodb數(shù)據(jù)庫(kù)03通過(guò)laravel。bootstrap框架利用MVC框架,將數(shù)據(jù)優(yōu)雅的顯示到前臺(tái),并提供簡(jiǎn)單的查詢功能,但搜索功能還是不盡人意,在多重模糊查詢中由于mysql左連接的缺陷是的搜索速度非常的緩慢,有時(shí)還可能拖死m(xù)ysql數(shù)據(jù)庫(kù)02將mongodb數(shù)據(jù)庫(kù)中的數(shù)據(jù)經(jīng)過(guò)整合,首先使用自帶的CSV作為中間件
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年社會(huì)健康大班教案
- 財(cái)務(wù)部全年工作概述
- 《肺栓塞診治新進(jìn)展》課件
- 化妝師為客戶化妝設(shè)計(jì)妝容
- 兒童教育行業(yè)教育啟蒙培訓(xùn)心得
- 防務(wù)行業(yè)戰(zhàn)術(shù)訓(xùn)練培訓(xùn)總結(jié)
- 2024年稅務(wù)師題庫(kù)及完整答案
- 2024年計(jì)算機(jī)網(wǎng)絡(luò)個(gè)人簡(jiǎn)歷
- 2024年甘孜職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)有答案
- 農(nóng)村宅基地父母繼承協(xié)議書(2篇)
- 2025年安徽交控集團(tuán)招聘筆試參考題庫(kù)含答案解析
- 促進(jìn)臨床合理用藥持續(xù)改進(jìn)措施
- 精神科護(hù)理崗位競(jìng)聘
- 廣西北海市2023-2024學(xué)年八年級(jí)(上)期末數(shù)學(xué)試卷
- 非急救轉(zhuǎn)運(yùn)合同范例
- 車輛使用安全培訓(xùn)
- AutoCAD2024簡(jiǎn)明教程資料
- 《中國(guó)傳統(tǒng)文化》課件模板(六套)
- 民航客艙服務(wù)管理Ⅱ?qū)W習(xí)通超星期末考試答案章節(jié)答案2024年
- 兒科主任年終總結(jié)
- 期末 (試題) -2024-2025學(xué)年人教PEP版英語(yǔ)四年級(jí)上冊(cè)
評(píng)論
0/150
提交評(píng)論