版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
老師:李挺第十三章正則表達式正則表達式是對字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符、及這些特定字符的組合,組成一個“規(guī)則字符串”,實現(xiàn)對字符串的一種過濾。01正則表達式正則表達式的定義正則的優(yōu)點1、靈活性、邏輯性和功能性非常強2、可以用簡單的方式快速實現(xiàn)字符串的控制3、在多種編程語言中都有相同使用Regularexpression簡稱RE爬蟲爬取網頁的目的在于獲取網頁上的信息。網頁上的信息太多無關字符,需要使用簡便方法來提取。正則的庫rere庫是python自帶的庫。無需安裝importre02re庫匹配match()嘗試從字符串的起始位置匹配一個模式,如果不是起始位置匹配成功的話,match()就返回none,如果匹配,就返回匹配成功的結果;search()在匹配時,search()方法會依次掃描字符串,直到找到第一個符合規(guī)則的字符串,然后返回匹配內容,如果搜索完了還沒有找到,就返回None。findall()搜索整個字符串,然后返回匹配正則表達式的所有內容。sub()修改文本,與replace相似;例如:想要把一串文本中的所有數字都去掉compile()將正則字符串編譯成正則表達式對象,以便在后面的匹配中復用requests.get(url,params=None,**kwargs)requests.get(url)構造一個向服務器請求資源的Request對象由request庫自動生成請求服務器接收到請求,會將對應資源發(fā)送給客戶端返回一個包含服務器資源的Response對象url:獲取指定頁面的鏈接params:url中的額外參數,字典或字節(jié)流格式,可選的**kwargs:12個控制訪問的參數,可選的返回的Response信息包含服務器返回的信息和Requests信息請可打開pycharm觀察源代碼封裝屬性說明r.status_codeHTTP請求的返回狀態(tài),200表示連接成功r.textHTTP響應內容的字符串形式,即url對應的頁面內容r.encoding從HTTPheader中猜測的相應內容編碼方式r.apparent_encoding從內容中分析出的相應內容編碼方式(備選編碼方式)r.contentHTTP相應內容的二進制形式200表示連接成功,404代表客戶端在瀏覽網頁時,服務器無法正常提供信息,或是服務器無法回應且不知原因Response對象的信息HTTPheader/get該網站會判斷如果客戶端發(fā)起的是GET請求的話,它返回相應的請求信息。添加額外信息現(xiàn)在想添加兩個額外信息,其中name是zhangsan,sex是man例如:info={'name':'zhangsan','sex':'man'}r=requests.get('/get',params=info)r=requests.get('http:///get?name=zhangsan&sex=man')百度和360搜索如何自動的實現(xiàn)搜索關鍵詞?百度和360搜索為搜索關鍵詞提供了接口百度搜索接口:https:///s?wd=關鍵詞360搜索接口:https:///s?q=關鍵詞求的鏈接自動被構造成控制范圍字headers修改請求頭headers內容http://host[path]host:合法的Internet主機域名或IP地址
path:請求資源的路徑,指主機服務器對應的地址例如:/https:///creator/featured-question/knowledge-planHTTP的全稱是HyperTextTransferProtocol,中文名叫作超文本傳輸協(xié)議HTTPS的全稱是HyperTextTransferProtocoloverSecureSocketLayer,是以安全為目標的HTTP通道,簡單講是HTTP的安全版,即HTTP下加入SSL層,簡稱為HTTPS。URL格式狀態(tài)碼:百度百科狀態(tài)碼即可;POST請求向服務器傳送數據表單信息data:提交字符信息files:文件上傳form:提交表單信息高級部分cookies:Cookies指某些網站為了辨別用戶身份、進行會話跟蹤而存儲在用戶本地終端上的數據。http的一個特點無狀態(tài):
http協(xié)議對事務處理是沒有記憶功能的。當我們向服務器發(fā)送請求后,服務器解析此請求,然后返回對應的響應,服務器負責完成這個過程,而且這個過程是完全獨立的,服務器不會記錄前后狀態(tài)的變化,也就是缺少狀態(tài)記錄。例如密碼登錄無法實現(xiàn)。用于保持HTTP連接狀態(tài)的技術就出現(xiàn)了,它們分別是會話和Cookies會話和Cookies會話在服務端,也就是網站的服務器,用來保存用戶的會話信息;Cookies在客戶端,也可以理解為瀏覽器端,有了Cookies,瀏覽器在下次訪問網頁時會自動附帶上它發(fā)送給服務器,服務器通過識別Cookies并鑒定出是哪個用戶,然后再判斷用戶是否是登錄狀態(tài),然后返回對應的響應。我們可以理解為Cookies里面保存了登錄的憑證,有了它,只需要在下次請求攜帶Cookies發(fā)送請求而不必重新輸入用戶名、密碼等信息重新登錄了。會話CookiesSet-Cookie高級部分--會話維持利用get()或post()每一次請求都是獨立的,相當于每次發(fā)出請求類似打開一個新的瀏覽器訪問,而不是瀏覽器中的選項卡中訪問。如何實現(xiàn)下一次訪問與上一次訪問是相互關聯(lián)的?兩次請求時設置一樣的cookies維持同一個會話相當于打開一個新的瀏覽器選項卡而不是新開一個瀏覽器如何創(chuàng)建會話維持?requests.session()利用Session,可以做到模擬同一個會話而不用擔心Cookies的問題。它通常用于模擬登錄成功之后再進行下一步的操作。項目實現(xiàn)—模擬登錄爬取github網頁輸入賬號信息可能出現(xiàn)郵箱驗證進入個人主頁獲取當前賬戶的設置/login/sessions/verified-device/session/settings/profile使用代理服務器代理服務器作為一種既是服務器又是客戶機的中間程序,主要用于轉發(fā)客戶系統(tǒng)的網絡訪問請求。作用例如:1、黑客利
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度教育機構教材文印制作合同3篇
- 2025版能源項目股權轉讓協(xié)議標準范本3篇
- 二零二五版押運員離職交接與保密協(xié)議范本3篇
- 私人所有房產無償贈與合同
- 場地租賃合作合同書
- 演出場地出租合同范文
- 期貨理財委托協(xié)議書
- 武漢市商品買賣合同
- 主播合作協(xié)議樣板
- 2025-2030全球鋰電池氣凝膠隔熱墊行業(yè)調研及趨勢分析報告
- 大連高新區(qū)整體發(fā)展戰(zhàn)略規(guī)劃(產業(yè)及功能布局)
- 2024年智慧工地相關知識考試試題及答案
- 未婚生子的分手協(xié)議書
- 輸液室運用PDCA降低靜脈輸液患者外滲的發(fā)生率品管圈(QCC)活動成果
- YY/T 0681.2-2010無菌醫(yī)療器械包裝試驗方法第2部分:軟性屏障材料的密封強度
- GB/T 8005.2-2011鋁及鋁合金術語第2部分:化學分析
- 不動產登記實務培訓教程課件
- 不銹鋼制作合同范本(3篇)
- 2023年系統(tǒng)性硬化病診斷及診療指南
- 煙氣管道阻力計算
- 《英語教師職業(yè)技能訓練簡明教程》全冊配套優(yōu)質教學課件
評論
0/150
提交評論