![關(guān)于python網(wǎng)絡(luò)爬蟲的實(shí)驗(yàn)_第1頁](http://file4.renrendoc.com/view/2bfb612068eb2e412e7914d3fd56f2eb/2bfb612068eb2e412e7914d3fd56f2eb1.gif)
![關(guān)于python網(wǎng)絡(luò)爬蟲的實(shí)驗(yàn)_第2頁](http://file4.renrendoc.com/view/2bfb612068eb2e412e7914d3fd56f2eb/2bfb612068eb2e412e7914d3fd56f2eb2.gif)
![關(guān)于python網(wǎng)絡(luò)爬蟲的實(shí)驗(yàn)_第3頁](http://file4.renrendoc.com/view/2bfb612068eb2e412e7914d3fd56f2eb/2bfb612068eb2e412e7914d3fd56f2eb3.gif)
![關(guān)于python網(wǎng)絡(luò)爬蟲的實(shí)驗(yàn)_第4頁](http://file4.renrendoc.com/view/2bfb612068eb2e412e7914d3fd56f2eb/2bfb612068eb2e412e7914d3fd56f2eb4.gif)
![關(guān)于python網(wǎng)絡(luò)爬蟲的實(shí)驗(yàn)_第5頁](http://file4.renrendoc.com/view/2bfb612068eb2e412e7914d3fd56f2eb/2bfb612068eb2e412e7914d3fd56f2eb5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
關(guān)于python網(wǎng)絡(luò)爬蟲的實(shí)驗(yàn)實(shí)踐目的:本次實(shí)踐的目的主要帶我們認(rèn)識python語言,學(xué)習(xí)python語言,掌握python語言,運(yùn)用python語言。讓我們明白python對于現(xiàn)在數(shù)據(jù)時(shí)代的重要性,以及讓我們發(fā)掘自己的專業(yè)興趣。另一個(gè)目的是掌握爬蟲的工作原理,學(xué)會(huì)從互聯(lián)網(wǎng)中搜集網(wǎng)頁,采集信息,這些網(wǎng)頁信息用于為搜索引擎建立索引從而提供支持。知道完成一次爬蟲需要幾個(gè)步驟分別是抓取網(wǎng)頁,數(shù)據(jù)存儲(chǔ),預(yù)處理,提供檢索服務(wù),網(wǎng)站排名。并不是所有的網(wǎng)站都可以爬的,在爬的過程中要特別注意Robots協(xié)議。對于統(tǒng)計(jì)專業(yè)的我們,學(xué)習(xí)python語言是必要的。學(xué)好它,自己以后的路走的才能更寬。更要明白現(xiàn)在的學(xué)科都是交叉在一起,相輔相成的,只學(xué)單一的一門專業(yè)課是遠(yuǎn)遠(yuǎn)不夠的,要對自己的未來有一個(gè)明確的目標(biāo),并且堅(jiān)定不移的要堅(jiān)持下去,更要活到老,學(xué)到老。學(xué)習(xí)算是一門最輕松的事情,處于大學(xué)生的我們,現(xiàn)在生活在安全幸福的環(huán)境里,我們就更應(yīng)該去積極學(xué)習(xí),做好自己的事情,肩負(fù)起恢復(fù)中華偉大革命的使命,每一個(gè)人都應(yīng)該如此。其實(shí)現(xiàn)在的我們不應(yīng)該只注重理論知識,更要將理論與實(shí)踐相結(jié)合,二者要同時(shí)發(fā)展,不斷改進(jìn),社會(huì)才能有更大的進(jìn)步。實(shí)踐內(nèi)容:經(jīng)過兩周的實(shí)踐,我們有了不少的收獲。以下就來分享一下我學(xué)到的知識:Python介紹Python是計(jì)算機(jī)語言,這毋庸置疑,在我看來,它也可以說是人類的第二大語言,它承載著很多偉人的思想。我認(rèn)為它在當(dāng)今這個(gè)數(shù)據(jù)時(shí)代起著至關(guān)重要的作用?,F(xiàn)在手機(jī)上使用的app以及各種功能,它都是人們靠自己睿智的頭腦經(jīng)過不斷的推敲才有了今天的結(jié)果。之前我們也從沒有想過,有一天,我還能隨時(shí)隨地和異地的朋友聯(lián)絡(luò),能第一時(shí)間就知道家之外的其他地方發(fā)生的事情??萍?,數(shù)據(jù)它們真的把世界聯(lián)絡(luò)了起來。它們,讓全世界的人民成為一家人。它們讓我們之間變得密不可分。然而,python的成長史也不是那么簡單,它是經(jīng)偉人們的悉心培養(yǎng)一步步才發(fā)展到今天如此厲害的角色。孕育他的母親是格蘭人吉多范羅范姆。從20世紀(jì)90年代降生至今,它已被廣泛用于各個(gè)領(lǐng)域。Python它比較簡單,易學(xué),上手操作也快,特別是對字符串操作特別靈活。Python通常采取縮進(jìn)的方式,以及簡單的語法。它最初的作用就是被設(shè)計(jì)用于編寫自動(dòng)化腳本,隨著版本的不斷更新,越來越多被用于獨(dú)立的,大型項(xiàng)目的開發(fā)。Python的領(lǐng)域也涉及的非常廣,在人工智能,教育,軟件開發(fā)都能看到它的身影?;菊Z法的展現(xiàn)1行與縮進(jìn):Python中最大的特點(diǎn)就是使用縮進(jìn)來表示代碼。一般是縮進(jìn)一個(gè)tab鍵的占位。2注釋:Python中分單行注釋和多行注釋3語句換行:Python通常是一行寫完一天語句,但是如果語句過長,就需要進(jìn)行處理。這時(shí)可以在語句的外側(cè)上加一對圓括號來實(shí)現(xiàn)。4變量:就是一種指向各種類型值得名字。5類型轉(zhuǎn)換:通俗來講就是一種映像,把英文模式的轉(zhuǎn)換為中文模式。6List列表:我們學(xué)到的內(nèi)容包括可以將列表元素清除,替換,計(jì)算某個(gè)數(shù)出現(xiàn)的次數(shù),找到元素的下標(biāo)位置,在指定位置插入元素,反轉(zhuǎn)列表,添加元素,找出兩個(gè)列表共有的元素,切片,轉(zhuǎn)換,賦值,重復(fù)等內(nèi)容。7元組:判斷元素是否在元組內(nèi),將兩個(gè)序列合并,索引元素,計(jì)算一個(gè)元素在元組出現(xiàn)的次數(shù),比教元組中的元素最大最小。8程序的分支結(jié)構(gòu):單分支,二分支(ifelse),多分知(ifelseif)9程序的控制處理:異常處理的基本使用,異常處理的高級使用10程序的循環(huán)結(jié)構(gòu):遍歷循環(huán),無限循環(huán),循環(huán)控制保留字網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲又稱為網(wǎng)絡(luò)蜘蛛,它是一種爬取網(wǎng)上內(nèi)容的工具,但是它的操作和實(shí)行都要按照一定規(guī)則進(jìn)行。大家都知道,每一個(gè)網(wǎng)頁通常都包含其他網(wǎng)頁的入口,那么網(wǎng)絡(luò)爬蟲則可以通過一個(gè)網(wǎng)頁的地址依次進(jìn)入其他網(wǎng)址獲取所需的內(nèi)容。爬蟲的基本流程包括:1向目標(biāo)網(wǎng)站發(fā)送一個(gè)請求,然后等待服務(wù)器的響應(yīng)2如果服務(wù)器正常相應(yīng),那么會(huì)得到一個(gè)回應(yīng),回應(yīng)便是所要獲取的頁面內(nèi)容。3進(jìn)而需要解析內(nèi)容,留下所需要的4最后保存內(nèi)容,保存形式可以多變。網(wǎng)絡(luò)爬蟲又可分為通用網(wǎng)絡(luò)爬蟲和聚焦網(wǎng)絡(luò)爬蟲通用網(wǎng)絡(luò)爬蟲:顧名思義,就是一種任何網(wǎng)頁都可以爬的爬蟲工具。搜索引擎抓取系統(tǒng)的主要目的就是把互聯(lián)網(wǎng)上的網(wǎng)頁下載到本地,然后形成一個(gè)互聯(lián)網(wǎng)內(nèi)容的鏡像備份。從互聯(lián)網(wǎng)中爬取的網(wǎng)頁也關(guān)乎著搜索引擎系統(tǒng)的效果好與壞,因?yàn)檫@些網(wǎng)頁信息用于為搜索引擎建立從而提供支持,它決定著整個(gè)引擎系統(tǒng)的內(nèi)容是否豐富,信息是否全面。聚焦網(wǎng)絡(luò)爬蟲:我們首先要依據(jù)爬取需求定義好該聚焦網(wǎng)絡(luò)爬蟲爬取的目標(biāo),以及進(jìn)行相關(guān)的描述首先了解一個(gè)概念URL:它是一種統(tǒng)一資源定位符。如何利用聚焦網(wǎng)絡(luò)爬蟲?第一步,要先獲取初始URL第二步,根據(jù)初始URL爬取網(wǎng)頁,來獲得新的URL第三步,從新的URL中,過濾掉與自己爬取目標(biāo)無關(guān)的連接,由于聚焦網(wǎng)絡(luò)爬蟲對網(wǎng)頁的抓取都帶有目的性,所以,與自己目標(biāo)無關(guān)的網(wǎng)頁鏈接都會(huì)被過濾掉。這就是一個(gè)去重和判斷爬取的進(jìn)程第四步,將過濾后的來鏈接放到URL隊(duì)伍中第五步,根據(jù)搜索算法,確定URL的優(yōu)先級,并確定下一步要抓取的URL地址。第六步,不斷獲取新的URL地址,重復(fù)此過程,持續(xù)學(xué)習(xí)成果在最后的結(jié)束階段,老師要求我們做一個(gè)關(guān)于自己學(xué)校的網(wǎng)頁。其實(shí)這個(gè)項(xiàng)目的完成會(huì)用到許多我們做練習(xí)時(shí)敲得代碼,這也為我們完成復(fù)雜項(xiàng)目時(shí)做了鋪墊。當(dāng)自己將網(wǎng)頁做出來的呢一刻,是真的體會(huì)到了一種學(xué)到了的感覺。以下分享一下寫的一部分代碼<html><head><title>西安xx大學(xué)登陸界面</tltle></head><body><formname="user"action="#"method="get"><tablealign="center"><tr><td>姓名</td><td><inputtype="text"name="username"/></td></tr></html>雖說只有兩周,但我們真的學(xué)到了好多,基礎(chǔ)的語法也學(xué)習(xí)過了,也學(xué)會(huì)去運(yùn)用它。也進(jìn)一步知道自己未來就業(yè)的方向還需要哪些知識來輔助自己,這一次實(shí)踐于我是一次非常好的成長經(jīng)驗(yàn)。實(shí)踐過程為期兩周的實(shí)踐周,我們的經(jīng)歷可以大致分為三大階段。第一階段:學(xué)習(xí)python基本語法,完成最基本的習(xí)題實(shí)踐的第一周,我們的日常就是每天早上上課,下午練習(xí)。這一期間,我們認(rèn)識了python,并且學(xué)習(xí)了最基本的語法,面對一些簡單的習(xí)題,自己也有一些做題的思路,做的習(xí)題多了,慢慢對敲代碼的感覺也都便熟悉了。以下有一些作業(yè)展示例:1到100余數(shù)為0的數(shù)陳列n=1
whilen<101:
temp=n%2
iftemp==0:
pass
else:
print(n)
n=n+1例;1到11=這11個(gè)數(shù)字中出列出不恒等于7的數(shù)n=1
whilen<11:
ifn==7:
pass
else:
print(n)
n=n+1
print('end')別看這些作業(yè)的題目非常簡單,但是想要一次做到位,并不是一件容易的事,它需要你不斷練習(xí),總結(jié)失敗經(jīng)驗(yàn),才能成功。做題需要考慮的方面有,首先你要寫出全部要用到的代碼,其次你要考慮格式的問題,python難就難在,如果縮進(jìn)不對,那你寫的代碼再完美,服務(wù)器也讀不出正確的答案。所以,在做這些練習(xí)的時(shí)候,需要及其認(rèn)真和細(xì)心去完成它。第二階段:學(xué)習(xí)網(wǎng)絡(luò)爬蟲,制作網(wǎng)頁網(wǎng)絡(luò)爬蟲非常重要,爬蟲技術(shù)主要針對與網(wǎng)絡(luò)網(wǎng)頁,可以自動(dòng)化瀏覽網(wǎng)絡(luò)中的信息,也可以說它是一種網(wǎng)絡(luò)機(jī)器人。學(xué)好它,可以幫助自己爬取所需的網(wǎng)頁內(nèi)容。網(wǎng)絡(luò)爬蟲技術(shù)不僅在網(wǎng)絡(luò)采集數(shù)據(jù),大數(shù)據(jù)分析有著重要的作用,也在網(wǎng)頁分析中是不可或缺的工具。通過使用爬蟲技術(shù),就可以滿足我們對數(shù)據(jù)的需求,對網(wǎng)絡(luò)營銷活動(dòng)進(jìn)一步修正或重新指定策略也提供了依據(jù)。第三階段:聽講座,完成自己的項(xiàng)目學(xué)校在最后給我們開展了Java的講座,和python對比起來,兩者還是有一些不同的。相同點(diǎn)是,它們都會(huì)通過中間語言來執(zhí)行,并且可以優(yōu)化。然而,二者最本質(zhì)的區(qū)別就是一個(gè)是腳本可以執(zhí)行解釋,一個(gè)是需要編譯通過才能解釋。在編程風(fēng)格方面,python就沒有呢么多的條條框框,更多用縮略語的變量。然而Java中也都是不嚴(yán)謹(jǐn)?shù)脑谏婕暗念I(lǐng)域方面,python覆蓋面更廣一些,在教育,娛樂,到一般的網(wǎng)站全都有。在語法方面,python要求格式整齊。Java不要求整齊,但是白能量需要一定聲明定義后才能用。在我看來,Java和python一樣都是強(qiáng)大的計(jì)算機(jī)語言。二者學(xué)好了用處都非常大,python主要的用途集中在web,科學(xué)計(jì)算,還有運(yùn)維。Java的用途就更廣了??梢宰龅臇|西也有很多,比如游戲,軟件,網(wǎng)站,以及現(xiàn)在各類手機(jī)app,都是由Java實(shí)現(xiàn)的。第二個(gè)講座,學(xué)校給我們開設(shè)了面試講座,這個(gè)講座也讓我們進(jìn)一步認(rèn)識到在面試的時(shí)候公司都喜歡提問哪類問題,更看重的是什么,以及我們?nèi)绾螒?yīng)對面試,如何留下好的印象。如果有特長的話,那就更好了,為自己能夠成功入職更有很大的幫助。這也是伴隨自己一生的閃光點(diǎn)。聽完講座,我最大的感受就是不僅專業(yè)知識要過硬,并且能力也很重要,走進(jìn)企業(yè),企業(yè)更看重你的能力,能力是最主要的。所以,在日常中,我們就要不斷鍛煉自己這方面,到時(shí)候不會(huì)因?yàn)檫@個(gè)而讓自己減分,未來我們都要加油,不斷成長,不斷成為更好的自己。實(shí)踐體會(huì)大二的暑期,我們進(jìn)行了在校兩周的社會(huì)實(shí)踐。而我選擇學(xué)習(xí)了python語言,一方面是因?yàn)樽约簩τ?jì)算機(jī)語言挺感興趣,另一方面是由于社會(huì)發(fā)展的現(xiàn)狀,大數(shù)據(jù)熱,而我的專業(yè)統(tǒng)計(jì)剛好又和大數(shù)據(jù)掛鉤,想要學(xué)好大數(shù)據(jù),那么學(xué)習(xí)一門計(jì)算機(jī)語言就顯得尤為重要。在實(shí)踐周期間,我們不只是學(xué)習(xí)python預(yù)言,學(xué)校也會(huì)給我們安排講座,讓我們了解到其他方面的一些知識。短暫的兩周,我們也受益匪淺。實(shí)踐的第一周,我們早上上半天課,下午半天就留給我們自己練習(xí)。但是練習(xí)題做起來都不是那么容易的,有時(shí)候一個(gè)小的縮進(jìn)錯(cuò)誤就會(huì)讓自己離正確答案又遠(yuǎn)了一步。簡短的幾道題,時(shí)常會(huì)花費(fèi)自己一下午的時(shí)間。好在這些都經(jīng)歷過了。來教我們的老師,人很隨和,一點(diǎn)架子都沒有,也特別熱心,凡事都為我們著想。經(jīng)常上課的時(shí)候,一句話會(huì)重復(fù)三四遍,就怕我們沒聽清楚。練習(xí)的時(shí)候,老師也經(jīng)常轉(zhuǎn)著看我們練習(xí),不懂的地方,他都會(huì)耐心講,真是一位不錯(cuò)的老師。在我們第二個(gè)實(shí)踐周快要結(jié)束的時(shí)候,老師告訴我們最后自己要獨(dú)立完成一個(gè)項(xiàng)目,此次實(shí)踐才算結(jié)束了。這個(gè)項(xiàng)目就是做我們學(xué)校的一個(gè)網(wǎng)頁。網(wǎng)頁上面會(huì)有一些個(gè)人的基本問題和選項(xiàng)。聽起來就很高大上,但是做起來也是很困難。那首要面對的就是如何寫網(wǎng)頁的代碼,以及一些基本問題的代碼。寫完之后,也不一定就能運(yùn)行,需要對你的格式進(jìn)行檢查,有沒有縮進(jìn)的問題,亦或是代碼哪里還有問題。這些都清楚之后,那么你做的網(wǎng)頁才有可能成功。當(dāng)自己敲打出來的代碼,并可以正常運(yùn)行的時(shí)候,自己之前所有為敲代碼吃下的苦都不算什么,因?yàn)檫@意味著你進(jìn)步了并且真正的掌握了。從這一刻,我就領(lǐng)會(huì)到了敲代碼是多么酷的一件事情,大家現(xiàn)在經(jīng)常使用的各類軟件,都是通過代碼實(shí)現(xiàn)的,所以現(xiàn)在才是大數(shù)據(jù)時(shí)代,未來十年,二十年,我認(rèn)為我們一定可以利用這些數(shù)字而去統(tǒng)治世界,這真的很奇妙。我希望自己即使只學(xué)了兩周的課程,也要堅(jiān)持下去,利用課余時(shí)間,多去了解它,琢磨它,希望自己有一天真的可以以此去解決自己還有身邊人存在的問題,學(xué)以致用,讓自己掌握這種能力?,F(xiàn)在就自己目前所讀的統(tǒng)計(jì)專業(yè)來說,學(xué)習(xí)一門計(jì)算機(jī)語言是很重要的,日后在自己的發(fā)展道路上肯定會(huì)有用。我知道現(xiàn)在的一切都離不開數(shù)據(jù),未來二三十年也是一樣,多一項(xiàng)本領(lǐng)肯定不會(huì)吃虧,所以我認(rèn)為學(xué)習(xí)它是非常有必要的。同時(shí),我也很慶幸自己在實(shí)踐周期間選擇了這門課程,它帶著我認(rèn)識了計(jì)算機(jī)語言,很開心自己有這么一段學(xué)習(xí)經(jīng)歷,日后肯定會(huì)對自己有所幫助。不僅如此,我也認(rèn)識到了自己身上不足的一些地方,我知道想要學(xué)好python語言不是一朝一夕就能完成的,它需要堅(jiān)強(qiáng)的毅力及耐心。自己也算是急性子,做題總做不對的時(shí)候,就會(huì)感到煩躁。但通常這樣,只會(huì)越來越糟,自己也很容易失去興趣,我希望自己再遇到這種情況的時(shí)候,深呼吸,冷靜下來,慢慢來,認(rèn)真檢查自己的代碼,有時(shí)候就是需要這樣認(rèn)真的時(shí)刻,往往就能找到正確的答案。自己應(yīng)該再勤奮一些,既然選擇了它,那就應(yīng)該拿出百分之百的努力去面對它,只有當(dāng)自己真的完成它的那一刻,那一瞬間滿滿的自豪感和榮譽(yù)感會(huì)讓自己變得更有自信,做事也會(huì)事半功倍。遇到不會(huì)解決問題的時(shí)候,要及時(shí)和他人溝通,不要把問題擱置不管,那之后問題只會(huì)越積越多,自己的麻煩也越來越多,那樣永遠(yuǎn)也不會(huì)進(jìn)步了。學(xué)校在實(shí)踐周快要結(jié)束的時(shí)候,還給我們安排了Java的講座和求職的講座。我認(rèn)為這兩點(diǎn)個(gè)講座對我們幫助也很大。而求職的講座,老師分享了許多她在面試別人時(shí)一般愛問的問題還告訴我們面試時(shí)的一些陷阱,以及分享了我們這個(gè)行業(yè)的現(xiàn)狀并告訴我們今后該如何做,我認(rèn)為這些對我們幫助
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030全球商店可視化工具行業(yè)調(diào)研及趨勢分析報(bào)告
- 2025年全球及中國單立柱托盤堆垛機(jī)行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報(bào)告
- 嚴(yán)守黨的生活紀(jì)律維護(hù)黨員良好形象黨員教育培訓(xùn)課件
- 作用方法局麻作用吸收作用表面麻醉浸潤麻醉麻醉蛛網(wǎng)膜下腔麻醉硬膜外麻醉講解
- 醫(yī)學(xué)儀器外貿(mào)購銷合同范本年
- 土地房屋轉(zhuǎn)讓簡單合同范本
- 服裝設(shè)計(jì)與生產(chǎn)加工合同
- 項(xiàng)目承包服務(wù)合同范本
- 財(cái)務(wù)管理系統(tǒng)開發(fā)合作合同
- 店面房出租經(jīng)營合同書
- 心力衰竭業(yè)務(wù)學(xué)習(xí)護(hù)理課件
- 《項(xiàng)脊軒志》公開課課件【一等獎(jiǎng)】
- 美發(fā)學(xué)徒助理職業(yè)規(guī)劃書
- 法醫(yī)病理學(xué)課件
- 職代會(huì)提案征集表
- 介紹uppc技術(shù)特點(diǎn)
- 《諫逐客書》理解性默寫(帶答案)最詳細(xì)
- 《黑駿馬》讀書筆記思維導(dǎo)圖
- 2023年物理會(huì)考真題貴州省普通高中學(xué)業(yè)水平考試試卷
- 盤扣式懸挑腳手架專項(xiàng)施工方案
- 高中教師業(yè)務(wù)知識考試 數(shù)學(xué)試題及答案
評論
0/150
提交評論