版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
常用Python爬蟲庫(kù)匯總Python爬蟲,全稱Python網(wǎng)絡(luò)爬蟲,是一種按照一定的規(guī)則,自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或腳本,主要用于抓取證券交易數(shù)據(jù)、天氣數(shù)據(jù)、網(wǎng)站用戶數(shù)據(jù)和圖片數(shù)據(jù)等,Python為支持網(wǎng)絡(luò)爬蟲正常功能實(shí)現(xiàn),內(nèi)置了大量的庫(kù),主要有以下類型:一、Python爬蟲網(wǎng)絡(luò)庫(kù)Python爬蟲網(wǎng)絡(luò)庫(kù)主要包括:urllib、requests、grab、pycurl、urllib3、httplib2、RoboBrowser、MechanicalSoup、mechanize、socket、UnirestforPython、hyper、PySocks、treq以及aiohttp等。二、Python網(wǎng)絡(luò)爬蟲框架Python網(wǎng)絡(luò)爬蟲框架主要包括:grab、scrapy、pyspider、cola、portia、restkit以及demiurge等。三、HTML/XML解析器lxml:C語(yǔ)言編寫高效HTML/XML處理庫(kù),支持XPath;cssselect:解析DOM樹和CSS選擇器;pyquery:解析DOM樹和jQuery選擇器;BeautifulSoup:低效HTML/XML處理庫(kù),純Python實(shí)現(xiàn);html5lib:根據(jù)WHATWG規(guī)范生成HTML/XML文檔的DOM,該規(guī)范被用在現(xiàn)在所有的瀏覽器上;feedparser:解析RSS/ATOMfeeds;MarkupSafe:為XML/HTML/XHTML提供了安全轉(zhuǎn)義的字符串;xmltodict:一個(gè)可以讓你在處理XML時(shí)感覺像在處理JSON一樣的Python模塊;xhtml2pdf:將HTML/CSS轉(zhuǎn)換為PDF;untangle:輕松實(shí)現(xiàn)將XML文件轉(zhuǎn)換為Python對(duì)象;Bleach:清理HTML(需要html5lib);四、文本處理difflib:幫助進(jìn)行差異化比較;Levenshtein:快速計(jì)算Levenshtein距離和字符串相似度;fuzzywuzzy:模糊字符串匹配;esmre:正則表達(dá)式加速器;ftfy:自動(dòng)整理Unicode文本,減少碎片化;unidecode:將Unicode文本轉(zhuǎn)為ASCII;uniout:打印可讀字符,而不是被轉(zhuǎn)義的字符串;chardet:兼容Python的2/3的字符編碼器;xpinyin:一個(gè)將中國(guó)漢字轉(zhuǎn)為拼音的庫(kù);pangu.py:格式化文本中CJK和字母數(shù)字的間距。awesome-slugify:一個(gè)可以保留unicode的Pythonslugify庫(kù);python-slugify:一個(gè)可以將Unicode轉(zhuǎn)為ASCII的Pythonslugify庫(kù);unicode-slugify:一個(gè)可以將生成Unicodeslugs的工具;pytils:處理俄語(yǔ)字符串的簡(jiǎn)單工具(包括pytils.translit.slugify);PLY:lex和yacc解析工具的Python實(shí)現(xiàn);pyparsing:一個(gè)通用框架的生成語(yǔ)法分析器;python-nameparser:解析人的名字的組件;phonenumbers:解析,格式化,存儲(chǔ)和驗(yàn)證國(guó)際電話號(hào)碼;python-user-agents:瀏覽器用戶代理的解析器;HTTPAgentParser:Python的HTTP代理分析器。五、特定格式文件處理tablib:一個(gè)把數(shù)據(jù)導(dǎo)出為XLS、CSV、JSON、YAML等格式的模塊;textract:從各種文件中提取文本,比如Word、PowerPoint、PDF等;messytables:解析混亂的表格數(shù)據(jù)的工具;rows:一個(gè)常用數(shù)據(jù)接口,支持的格式很多,目前支持CSV,HTML,XLS,TXT;python-docx:讀取,查詢和修改的MicrosoftWord2007/2008的docx文件;xlwt/xlrd:從Excel文件讀取寫入數(shù)據(jù)和格式信息;XlsxWriter:一個(gè)創(chuàng)建Excel.xlsx文件的Python模塊;xlwings:一個(gè)BSD許可的庫(kù),可以很容易地在Excel中調(diào)用Python,反之亦然;openpyxl:一個(gè)用于讀取和寫入的Excel2010XLSX/XLSM/xltx/XLTM文件的庫(kù);Marmir:提取Python數(shù)據(jù)結(jié)構(gòu)并將其轉(zhuǎn)換為電子表格;PDFMiner:一個(gè)從PDF文檔中提取信息的工具;PyPDF2:一個(gè)能夠分割、合并和轉(zhuǎn)換PDF頁(yè)面的庫(kù);ReportLab:允許快速創(chuàng)建豐富的PDF文檔;pdftables:直接從PDF文件中提取表格;Python-Markdown:一個(gè)用Python實(shí)現(xiàn)的JohnGruber的Markdown;Mistune:速度最快,功能全面的Markdown純Python解析器;markdown2:一個(gè)完全用Python實(shí)現(xiàn)的快速的Markdown;PyYAML:一個(gè)Python的YAML解析器;cssutils:一個(gè)Python的CSS庫(kù);feedparser:通用的feed解析器;sqlparse:一個(gè)非驗(yàn)證的SQL語(yǔ)句分析器;http-parser:C語(yǔ)言實(shí)現(xiàn)的HTTP請(qǐng)求/響應(yīng)消息解析器;opengraph:一個(gè)用來解析OpenGraph協(xié)議標(biāo)簽的Python模塊;pefile:一個(gè)多平臺(tái)的用于解析和處理可移植執(zhí)行體(即PE)文件的模塊;psd-tools:將AdobePhotoshopPSD(即PE)文件讀取到Python數(shù)據(jù)結(jié)構(gòu)。六、自然語(yǔ)言處理NLTK:編寫Python程序來處理人類語(yǔ)言數(shù)據(jù)的最好平臺(tái);Pattern:Python的網(wǎng)絡(luò)挖掘模塊;TextBlob:為深入自然語(yǔ)言處理任務(wù)提供了一致的API。是基于NLTK以及Pattern的巨人之肩上發(fā)展的;jieba:中文分詞工具;SnowNLP:中文文本處理庫(kù);loso:另一個(gè)中文分詞庫(kù);genius:基于條件隨機(jī)域的中文分詞;langid.py:獨(dú)立的語(yǔ)言識(shí)別系統(tǒng);Korean:一個(gè)韓文形態(tài)庫(kù);pymorphy2:俄語(yǔ)形態(tài)分析器(詞性標(biāo)注+詞形變化引擎);PyPLN:用Python編寫的分布式自然語(yǔ)言處理通道。這個(gè)項(xiàng)目的目標(biāo)是創(chuàng)建一種簡(jiǎn)單的方法使用NLTK通過網(wǎng)絡(luò)接口處理大語(yǔ)言庫(kù)。七、瀏覽器自動(dòng)化與仿真selenium:自動(dòng)化真正的瀏覽器(Chrome瀏覽器,火狐瀏覽器,Opera瀏覽器,IE瀏覽器);Ghost.py:對(duì)PyQt的webkit的封裝(需要PyQT);Spynner:對(duì)PyQt的webkit的封裝(需要PyQT);Splinter:通用API瀏覽器模擬器(seleniumweb驅(qū)動(dòng),Django客戶端,Zope)。八、多重處理threading:Python標(biāo)準(zhǔn)庫(kù)的線程運(yùn)行。對(duì)于I/O密集型任務(wù)很有效。對(duì)于CPU綁定的任務(wù)沒用,因?yàn)閜ythonGIL;multiprocessing:標(biāo)準(zhǔn)的Python庫(kù)運(yùn)行多進(jìn)程;celery:基于分布式消息傳遞的異步任務(wù)隊(duì)列/作業(yè)隊(duì)列;concurrent-futures:concurrent-futures模塊為調(diào)用異步執(zhí)行提供了一個(gè)高層次的接口。九、異步網(wǎng)絡(luò)編程庫(kù)asyncio:(在Python3.4+版本以上的Python標(biāo)準(zhǔn)庫(kù))異步I/O,時(shí)間循環(huán),協(xié)同程序和任務(wù);Twisted:基于事件驅(qū)動(dòng)的網(wǎng)絡(luò)引擎框架;Tornado:一個(gè)網(wǎng)絡(luò)框架和異步網(wǎng)絡(luò)庫(kù);pulsar:Python事件驅(qū)動(dòng)的并發(fā)框架;diesel:Python的基于綠色事件的I/O框架;gevent:一個(gè)使用greenlet的基于協(xié)程的Python網(wǎng)絡(luò)庫(kù);eventlet:有WSGI支持的異步框架;Tomorrow:異步代碼的奇妙的修飾語(yǔ)法。十、隊(duì)列celery:基于分布式消息傳遞的異步任務(wù)隊(duì)列/作業(yè)隊(duì)列;huey:小型多線程任務(wù)隊(duì)列;RQ:基于Redis的輕量級(jí)任務(wù)隊(duì)列管理器;simpleq:一個(gè)簡(jiǎn)單的,可無限擴(kuò)展,基于AmazonSQS的隊(duì)列;python-gearman:Gearman的PythonAPI。十一、云計(jì)算picloud:云端執(zhí)行Python代碼;:云端執(zhí)行R,Python和matlab代碼。十二、電子郵件flanker:電子郵件地址和Mime解析庫(kù);Talon:Mailgun庫(kù)用于提取消息的報(bào)價(jià)和簽名。十三、網(wǎng)址和網(wǎng)絡(luò)地址操作furl:一個(gè)小的Python庫(kù),使得操縱URL簡(jiǎn)單化;purl:一個(gè)簡(jiǎn)單的不可改變的URL以及一個(gè)干凈的用于調(diào)試和操作的API;urllib.parse:用于打破統(tǒng)一資源定位器(URL)的字符串在組件之間的隔斷,為了結(jié)合組件到一個(gè)URL字符串,并將“相對(duì)URL”轉(zhuǎn)化為一個(gè)絕對(duì)URL,稱之為“基本URL”;tldextract:從URL的注冊(cè)域和子域中準(zhǔn)確分離TLD,使用公共后綴列表;etaddr:用于顯示和操縱網(wǎng)絡(luò)地址的Python庫(kù)。十四、網(wǎng)頁(yè)內(nèi)容提取ewspaper:用Python進(jìn)行新聞提取、文章提取和內(nèi)容策展;html2text:將HTML轉(zhuǎn)為Markdown格式文本;python-goose:HTML內(nèi)容、文章提取器;lassie:人性化的網(wǎng)頁(yè)內(nèi)容檢索工具;micawber:一個(gè)從網(wǎng)址中提取豐富內(nèi)容的小庫(kù);sumy:一個(gè)自動(dòng)匯總文本文件和HTML網(wǎng)頁(yè)的模塊;Haul:一個(gè)可擴(kuò)展的圖像爬蟲;python-readability:arc90readability工具的快速Python接口;scrapely:從HTML網(wǎng)頁(yè)中提取結(jié)構(gòu)化數(shù)據(jù)的庫(kù);youtube-dl:一個(gè)從YouTube下載視頻的小命令行程序;you-get:Python3的YouTube、優(yōu)酷/Niconico視頻下載器;WikiTeam:下載和保存wikis的工具。十五、WebSocketCrossbar:開源的應(yīng)用消息傳遞路由器;AutobahnPython:提供了WebSocket協(xié)議和WAMP協(xié)議的Python實(shí)現(xiàn)并且開源;WebSocket-for-Python:Python2和3以及PyPy的WebSocket客戶端和服務(wù)器庫(kù)。十六、DNS解析dnsyo:在全球超過1500個(gè)的DNS服務(wù)器上
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 12417.1-2024無源外科植入物骨接合與關(guān)節(jié)置換植入器械第1部分:骨接合植入器械特殊要求
- 二零二五年度鋼材水泥市場(chǎng)調(diào)研與風(fēng)險(xiǎn)評(píng)估合同2篇
- 二零二五年度變壓器節(jié)能補(bǔ)貼申請(qǐng)與使用合同范本3篇
- 二零二五版加工承攬合同全文詳盡規(guī)定承攬物、報(bào)酬及質(zhì)量標(biāo)準(zhǔn)3篇
- 二零二五版合伙人業(yè)務(wù)拓展合同范本3篇
- 二零二五年度貨物包裝合同范本3篇
- 2025年度森林防火物資儲(chǔ)備與供應(yīng)標(biāo)準(zhǔn)植樹承包合同示范文本3篇
- 2024版權(quán)轉(zhuǎn)讓合同轉(zhuǎn)讓價(jià)格及支付方式
- 2024版環(huán)保設(shè)備生產(chǎn)與安裝合同
- 二零二五年房產(chǎn)分割公證合同書3篇
- 河南省鄭州外國(guó)語(yǔ)高中-【高二】【上期中】【把握現(xiàn)在 蓄力高三】家長(zhǎng)會(huì)【課件】
- 天津市武清區(qū)2024-2025學(xué)年八年級(jí)(上)期末物理試卷(含解析)
- 2025年中煤電力有限公司招聘筆試參考題庫(kù)含答案解析
- 企業(yè)內(nèi)部控制與財(cái)務(wù)風(fēng)險(xiǎn)防范
- 高端民用航空復(fù)材智能制造交付中心項(xiàng)目環(huán)評(píng)資料環(huán)境影響
- 建設(shè)項(xiàng)目施工現(xiàn)場(chǎng)春節(jié)放假期間的安全管理方案
- 胃潴留護(hù)理查房
- 植物細(xì)胞中氨基酸轉(zhuǎn)運(yùn)蛋白的一些已知或未知的功能
- 山東省高等學(xué)校精品課程
- 三菱張力控制器LE-40MTA-E說明書
- 生活垃圾填埋場(chǎng)污染控制標(biāo)準(zhǔn)
評(píng)論
0/150
提交評(píng)論