《西普python安全腳本實(shí)驗(yàn)》用anonBrowser抓取Web頁(yè)面_第1頁(yè)
《西普python安全腳本實(shí)驗(yàn)》用anonBrowser抓取Web頁(yè)面_第2頁(yè)
《西普python安全腳本實(shí)驗(yàn)》用anonBrowser抓取Web頁(yè)面_第3頁(yè)
《西普python安全腳本實(shí)驗(yàn)》用anonBrowser抓取Web頁(yè)面_第4頁(yè)
《西普python安全腳本實(shí)驗(yàn)》用anonBrowser抓取Web頁(yè)面_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

用anonBrowser抓取Web頁(yè)面實(shí)驗(yàn)指導(dǎo)

實(shí)驗(yàn)十一用anonBrowser抓取Web頁(yè)面【實(shí)驗(yàn)介紹】1.概述Mechanize庫(kù)中的主要類Browser允許我們對(duì)瀏覽器中的任何內(nèi)容進(jìn)行操作,我們使用該庫(kù)來(lái)瀏覽網(wǎng)站、指定代理服務(wù)器、更改user-agentCookielib庫(kù)中含有幾個(gè)不同的能用來(lái)處理cookie的容器,此處使用的是一個(gè)能把各個(gè)不同的cookie保存到磁盤的容器,該功能允許用戶在收到cookie之后不必把它返回給網(wǎng)站并可以查看其中的內(nèi)容。2.實(shí)驗(yàn)?zāi)繕?biāo)了解anonBrowser類的編寫方法,學(xué)會(huì)使用anonBrowser類+BeautifulSoup解析href鏈接以及映射圖片。本實(shí)驗(yàn)主要要求學(xué)生掌握以下幾個(gè)方面:(1)了解Mechanize庫(kù)的基本知識(shí);(2)了解anonBrowser類的編寫方法;(3)掌握anonBrowser類+BeautifulSoup解析href鏈接以及映射圖片。3.實(shí)驗(yàn)環(huán)境Windows操作系統(tǒng);python3.x?!緦?shí)驗(yàn)步驟】1.打開Windows操作系統(tǒng)首先,我們需要進(jìn)入Windows操作系統(tǒng),界面圖如下:2.驗(yàn)證Python(1)按住快捷鍵“Win+R”打開運(yùn)行窗口,輸入cmd,進(jìn)入命令行窗口。(2)在命令行窗口輸入:python命令,驗(yàn)證是否存在。3.腳本設(shè)計(jì)思路(1)首先,我們了解Mechanize庫(kù)。使用該庫(kù)瀏覽互聯(lián)網(wǎng),并采取同樣的步驟在正常的瀏覽網(wǎng)頁(yè)時(shí)建立匿名和從web瀏覽器中清楚cookie。(2)其次,我們封裝代碼為python類。如果將這些添加到一個(gè)類里面將很有用,這些功能可以歸結(jié)為一個(gè)瀏覽器對(duì)象簡(jiǎn)單的調(diào)用,而不是導(dǎo)入我們的函數(shù)到某個(gè)文件使用笨拙的語(yǔ)法調(diào)用。我們這么做可以擴(kuò)展Browser類,我們的新Browser類將會(huì)有我們已經(jīng)創(chuàng)建過的函數(shù),以及初始化的附加功能。這將有利于提高代碼的可讀性,并封裝所有的功能在Browser類中直接處理。(3)最后,我們用anonBrowser類+BeautifulSoup解析Href鏈接。為了從目標(biāo)網(wǎng)站解析鏈接,我們有兩個(gè)選擇:(1)利用正則表達(dá)式來(lái)搜索和替換HTML代碼。(2)使用強(qiáng)大的第三方庫(kù)BeautifulSoup,可以在下面網(wǎng)站下載安裝:/software/BeautifulSoup/。4.編寫準(zhǔn)備(1)下載Mechanize庫(kù)。(2)編寫anonBrowser類。(3)準(zhǔn)備好自己需要解析的網(wǎng)址,(我們這里使用的網(wǎng)址是/)。5.編寫Python腳本(1)開始著手編寫Python腳本。打開Pycharm工具,界面圖如下:(2)我們創(chuàng)建一個(gè)類,名為anonBrowser。我們的新類有一個(gè)默認(rèn)的user-agents列表,接受列表添加進(jìn)去,以及用戶想使用的代理服務(wù)器列表。它還具有我們先前創(chuàng)建的三個(gè)功能,可以單獨(dú)也可以同時(shí)使用匿名函數(shù)。最后,anonymize提供等待60秒的選項(xiàng),增加在服務(wù)器日志請(qǐng)求訪問之間的時(shí)間。同時(shí)也不改變提供的信息,該額外的步驟減小了被識(shí)別為相同的源地址的機(jī)會(huì)。增加時(shí)間和模糊的通過安全是一個(gè)道理,但是額外的措施是有幫助的,時(shí)間通常不是一個(gè)問題。另一個(gè)程序可以以相同的方式使用這個(gè)新類。文件anonBrowser.py包含新類,如果想在導(dǎo)入調(diào)用是看到它,我們必須將它保存在腳本的目錄。完整代碼截圖:(3)用BeautifulSoup解析Href鏈接。為了從目標(biāo)網(wǎng)站解析鏈接,我們有兩個(gè)選擇:(1)利用正則表達(dá)式來(lái)搜索和替換HTML代碼。(2)使用強(qiáng)大的第三方庫(kù)BeautifulSoup,可以在下面網(wǎng)站下載安裝:/software/BeautifulSoup/。BeautifulSoup的創(chuàng)造者構(gòu)建了這個(gè)極好的庫(kù)來(lái)處理和解析HTML代碼和XML。首先,我們看看怎樣使用兩種方法找到鏈接,然后解釋為什么大多數(shù)情況下BeautifulSoup是很好的選擇。完整代碼截圖:運(yùn)行結(jié)果截圖:

實(shí)驗(yàn)報(bào)告一、實(shí)驗(yàn)報(bào)告Mechanize庫(kù)中的主要類Browser允許我們對(duì)瀏覽器中的任何內(nèi)容進(jìn)行操作,我們使用該庫(kù)來(lái)瀏覽網(wǎng)站、指定代理服務(wù)器、更改user-agentCookielib庫(kù)中含有幾個(gè)不同的能用來(lái)處理cookie的容器,此處使用的是一個(gè)能把各個(gè)不同的cookie保存到磁盤的容器,該功能允許用戶在收到cookie之后不必把它返回給網(wǎng)站并可以查看其中的內(nèi)容。1、實(shí)驗(yàn)?zāi)康牧私鈇nonBrowser類的編寫方法,學(xué)會(huì)使用anonBrowser類+BeautifulSoup解析href鏈接以及映射圖片。本實(shí)驗(yàn)主要要求學(xué)生掌握以下幾個(gè)方面:(1)了解Mechanize庫(kù)的基本知識(shí);(2)了解anonBrowser類的編寫方法;(3)掌握anonBrowser類+BeautifulSoup解析href鏈接以及映射圖片。2、實(shí)驗(yàn)環(huán)境Windows10操作系統(tǒng);Python3.x;PyCharm編譯器。3、實(shí)驗(yàn)準(zhǔn)備了解Mechanize庫(kù)的概念;了解BeautifulSoup庫(kù)的概念。4、實(shí)驗(yàn)過程(1)首先,我們了解Mechanize庫(kù)。使用該庫(kù)瀏覽互聯(lián)網(wǎng),并采取同樣的步驟在正常的瀏覽網(wǎng)頁(yè)時(shí)建立匿名和從web瀏覽器中清楚cookie。(2)其次,我們封裝代碼為python類。如果將這些添加到一個(gè)類里面將很有用,這些功能可以歸結(jié)為一個(gè)瀏覽器對(duì)象簡(jiǎn)單的調(diào)用,而不是導(dǎo)入我們的函數(shù)到某個(gè)文件使用笨拙的語(yǔ)法調(diào)用。我們這么做可以擴(kuò)展Browser類,我們的新Browser類將會(huì)有我們已經(jīng)創(chuàng)建過的函數(shù),以及初始化的附加功能。這將有利于提高代碼的可讀性,并封裝所有的功能在Browser類中直接處理。(3)最后,我們用anonBrowser類+BeautifulSoup解析Href鏈接。為了從目標(biāo)網(wǎng)站解析鏈接,我們有兩個(gè)選擇:(1)利用正則表達(dá)式來(lái)搜索和替換HTML代碼

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論