python爬蟲能做什么_第1頁
python爬蟲能做什么_第2頁
python爬蟲能做什么_第3頁
python爬蟲能做什么_第4頁
python爬蟲能做什么_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第頁python爬蟲能做什么〔python〕是一門非常簡單易學好用,同時功能強大的〔編程〕語言,具有豐富和強大的庫,開發(fā)效率特別高。下面是我為您整理的關(guān)于python爬蟲能做什么,希望對你有所幫助。

python爬蟲能做什么

世界上80%的爬蟲是基于Python開發(fā)的,學好爬蟲技能,可為后續(xù)的〔大數(shù)據(jù)〕分析、挖掘、機器學習等提供重要的數(shù)據(jù)源。

什么是爬蟲?

網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機器人,在FOAF社區(qū)中間,更常常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。

其實通俗的講就是通過程序去獲取web頁面上自己想要的數(shù)據(jù),也就是自動抓取數(shù)據(jù)

爬蟲可以做什么?

你可以用爬蟲爬圖片,爬取視頻等等你想要爬取的數(shù)據(jù),只要你能通過瀏覽器訪問的數(shù)據(jù)都可以通過爬蟲獲取。

爬蟲的本質(zhì)是什么?

模擬瀏覽器打開網(wǎng)頁,獲取網(wǎng)頁中我們想要的那部分數(shù)據(jù)

瀏覽器打開網(wǎng)頁的過程:

當你在瀏覽器中輸入地址后,經(jīng)過DNS服務(wù)器找到服務(wù)器主機,向服務(wù)器發(fā)送一個請求,服務(wù)器經(jīng)過解析后發(fā)送給用戶瀏覽器結(jié)果,包括html,js,css等文件內(nèi)容,瀏覽器解析出來最后浮現(xiàn)給用戶在瀏覽器上看到的結(jié)果所以用戶看到的瀏覽器的結(jié)果就是由HTML代碼構(gòu)成的,我們爬蟲就是為了獲取這些內(nèi)容,通過分析和過濾html代碼,從中獲取我們想要資源。

python爬蟲的應(yīng)用

系統(tǒng)編程:提供API(ApplicationProgrammingInterface應(yīng)用程序編程接口),能方便進行系統(tǒng)維護和〔管理〕,Linux下標志性語言之一,是很多系統(tǒng)管理員理想的編程工具。

圖形處理:有PIL、Tkinter等圖形庫支持,能方便進行圖形處理。

數(shù)學處理:NumPy擴大提供大量與許多標準數(shù)學庫的接口。

文本處理:python提供的re模塊能支持正則表達式,還提供SGML,XML分析模塊,許多程序員利用python進行XML程序的開發(fā)。數(shù)據(jù)庫編程:程序員可通過遵循PythonDB-API(數(shù)據(jù)庫應(yīng)用程序編程接口)規(guī)范的模塊與MicrosoftSQLServer,Oracle,Sybase,DB2,MySQL、SQLite等數(shù)據(jù)庫通信。python自帶有一個Gadfly模塊,提供了一個完整的SQL環(huán)境。網(wǎng)絡(luò)編程:提供豐富的模塊支持sockets編程,能方便快速地開發(fā)分布式應(yīng)用程序。很多大規(guī)模軟件開發(fā)計劃例如Zope,Mnet及BitTorrent.Google都在廣泛地使用它。

Web編程:應(yīng)用的開發(fā)語言,支持最新的XML技術(shù)。

多媒體應(yīng)用:Python的PyOpenGL模塊封裝了"OpenGL應(yīng)用程序編程接口',能進行二維和三維圖像處理。PyGame模塊可用于編寫游戲軟件。

pymo引擎:PYMO全稱為pythonmemoriesoff,是一款運行于SymbianS60V3,Symbian3,S60V5,Symbian3,Android系統(tǒng)上的AVG游戲引擎。因其基于python2.0平臺開發(fā),并且適用于創(chuàng)建秋之回憶(memoriesoff)風格的AVG游戲,故命名為PYMO。

黑客編程:python有一個hack的庫,內(nèi)置了你熟悉的或不熟悉的函數(shù),但是缺少成就感。

什么是Python?

Python(大蟒蛇)是一門解釋型、面向?qū)ο?、帶有動態(tài)語義的高級程序〔制定〕語言。

在于1989年,由一位名叫GuidovanRossum(吉多.范羅蘇姆),為打發(fā)時間制定了Python語言,第一個發(fā)行版公開于1991年。

Python是一款純粹的自由軟件,源代碼和解釋器CPython都遵循了GPL(GNUGeneralPublicLicense)協(xié)議。

Python語法清楚簡潔,最有特色的是用空白符作為語句的縮進。

Python具有強大而豐富的類庫,也常常被別人說是膠水語言,可以跟其它語言(c/c++)寫的模塊結(jié)合在一起。常見的狀況是使用Python快速生成程序的原型,然后有一部分必須要有特別高的要求,必須要其它語言改寫。例如3D游戲中的圖形渲染必須要用到C/C++編寫,然后封裝成.py擴大類庫由Python調(diào)用。必須要注意的使用擴大類型必須要合計跨平臺性。

優(yōu)點:

1.簡單:Python是一種代表簡單主義思想的語言。

2.易用:Python簡單容易上手,因為有簡單容易看懂的文檔。

3.速度快:運行速度快,因為Python中的標準庫和第三方庫都是C語言編寫的,所以很快。

4.免費、開源:Python是一款FLOSS(自由/源代碼軟件)之一,使用者可以自由地發(fā)布這個軟件的拷貝、閱讀它的源代碼、對它做改動、把它的一部分用于新的自由軟件中。FLOSS是基于一個團體分享知識的概念。

5.高層語言:用Python語言編寫程序的時候無必須合計諸如如何管理你的程序使用的內(nèi)存一類的底層細節(jié)。

6.可移植性:由于它的開源本質(zhì),Python已經(jīng)被移植在許多平臺上(經(jīng)過改動使它能夠工作在不同平臺上)。這些平臺包括Linux、Windows、FreeBSD、Macintosh、Solaris、OS/2、Amiga、AROS、AS/400、BeOS、OS/390、z/OS、PalmOS、QNX、VMS、Psion、AcomRISCOS、VxWorks、PlayStation、SharpZaurus、WindowsCE、PocketPC、Symbian以及Google基于〔linux〕開發(fā)的android平臺。

7.解釋性:一個用編譯性語言比如C或C++寫的程序可以從源文件(即C或C++語言)轉(zhuǎn)換到一個你的計算機使用的語言(二進制代碼,即0和1)。這個過程通過編譯器和不同的標記、選項完成。運行程序的時候,連接/轉(zhuǎn)載器軟件把你的程序從硬盤復制到內(nèi)存中并且運行。而Python語言寫的程序不必須要編譯成二進制代碼。你可以直接從源代碼運行程序。在計算機內(nèi)部,Python解釋器把源代碼轉(zhuǎn)換成稱為字節(jié)碼的中間形式,然后再把它翻譯成計算機使用的機器語言并運行。這使得使用Python更加簡單。也使得Python程序更加易于移植。

8.面向?qū)ο螅篜ython既支持面向過程的編程也支持面向?qū)ο蟮木幊?。?面向過程'的語言中,程序是由過程或僅僅是可重用代碼的函數(shù)構(gòu)建起來的。在"面向?qū)ο?的語言中,程序是由數(shù)據(jù)和功能組合而成的對象構(gòu)建起來的。

9.可擴大性:如果必須要一段關(guān)鍵代碼運行得更快或者希望某些算法不公開,可以部分程序用C或C++編寫,然后在Python程序中使用它們。

10.可嵌入性:可以把Python嵌入C/C++程序,從而向程序用戶提供腳本功能。

11.豐富的庫:Python標準庫確實很龐大。它可以幫助處理各種工作,包括正則表達式、文檔生成、單元測試、線程、數(shù)據(jù)庫、網(wǎng)頁瀏覽器、CGI、FTP、電子郵件、XML、XML-RPC、HTML、WAV文件、密碼系統(tǒng)、GUI(圖形用戶界面)、Tk和其他與系統(tǒng)有關(guān)的操作。

這被稱作Python的"功能齊全'理念。除了標準庫以外,還有許多其他高質(zhì)量的庫,如wxPython、Twisted和Python圖像庫等等。

12.規(guī)范的代碼:Python采納強制縮進的方式使得代碼具有較好可讀性。而Python語言寫的程序不必須要編譯成二進制代碼。

缺點:

1.單行語句和命令行輸出問題:很多時候不能將程序連寫成一行,如importsys;foriinsys.path:printi。而perl和awk就無此限制,可以較為方便的在shell下完成簡單程

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論