




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
目錄反爬蟲技術12主動干擾技術3信息隱藏技術1Jasmine.More1.反爬蟲技術2反爬蟲技術310%0%網(wǎng)絡訪問流量20%30%40%現(xiàn)狀40%~60%網(wǎng)絡流量由爬蟲貢獻,爬蟲趨于智能化發(fā)展爬蟲遍布各類網(wǎng)站,票務類、電商類、招聘類、銀行類、政府類、社交類等影響消耗網(wǎng)絡資源,影響正常客戶訪問,增加網(wǎng)站運營成本爬取產(chǎn)品、價格信息,不正當競爭混淆網(wǎng)站用戶生態(tài),影響營銷分析50%60%70%80%90%100%2013-20142015-2016爬蟲訪問流量人訪問流量爬蟲分類及應對自動化工具+瀏覽器自動化工具+瀏覽器內核(Selenium+PhantomJS)代理IP池,Cookie池,UA,referer偽裝不進行偽裝網(wǎng)頁爬蟲瀏覽器爬蟲簡單網(wǎng)頁爬蟲高級網(wǎng)頁爬蟲無界面瀏覽器爬蟲界面瀏覽器爬蟲不執(zhí)行Javascript執(zhí)行Javascript,高級應對檢查HTTPHeader設備指紋訪問頻次數(shù)據(jù)服務設備指紋爬蟲行為深度分析設備指紋數(shù)據(jù)服務人機識別設備指紋數(shù)據(jù)服務人機識別爬蟲行為分析常規(guī)應對檢查HTTPHeader訪問頻次訪問頻次基于JS反爬蟲訪問頻次驗證碼訪問頻次驗證碼服務端限制“請求頭設置”反爬蟲策略:HTTP的請求頭是在每次向網(wǎng)絡服務器發(fā)送請求時,傳遞的一組屬性和配置信息。HTTP定義了十幾種請求頭類型,如python-requests、User-Agent等,易被發(fā)現(xiàn),網(wǎng)站運維如發(fā)現(xiàn)攜帶有這類請求頭的數(shù)據(jù)包,拒絕訪問目標網(wǎng)站可能會對HTTP請求頭的每個屬性進行“是否常規(guī)訪問”的判斷,但如果把User-Agent屬性設置成其他無關參數(shù),偽裝成通用搜索引擎或者其他瀏覽器請求頭,例如設置r=requests.get(url,headers={’User-Agent’:’Baiduspider’})就可解決。
服務端限制“簽名請求規(guī)則”反爬蟲策略:簽名請求指在請求url中增加一個sign字段,通常取值為自定義字段的md5校驗碼。對于每一次HTTP或者HTTPS協(xié)議請求,網(wǎng)站根據(jù)訪問中的簽名信息驗證訪問請求者
身份,判斷是否允許繼續(xù)訪問。爬蟲技術人員對待此類網(wǎng)站,通常會判斷發(fā)起請求方,如果是JS發(fā)起的請求,簽名規(guī)則可以在JS函數(shù)中尋找,再根據(jù)規(guī)則去構造簽名;如果是App發(fā)起的請求,最大可能是由于前端調用原生封裝,或者原生發(fā)起等多種原因。情況復雜的,需要反編譯App包,但也不一定能成功,需要反復調試驗證
服務端限制“流量限制”反爬蟲策略:監(jiān)控用戶是否快速地提交表單,或者快速地與網(wǎng)站進行交互,從而限制速度異常、短時間大量下載信息的IP訪問。容易誤傷其他正常瀏覽用戶,因為同一區(qū)域內的其他用戶可能有著相同的IP,所以一般很少采用此方法限制爬蟲。爬蟲技術人員如果發(fā)現(xiàn)請求被限制,可嘗試請求延遲,通過AJAX延時加載、異步更新腳本技術延遲網(wǎng)頁加載的速度,避免被目標網(wǎng)站查封。還可考慮使用分布式爬取或者購買代理IP設置代理池的方式解決
服務端限制“cookie/cookies限制”反爬蟲策略:“cookie/cookies限制”指服務器對每一個訪問網(wǎng)頁的用戶都設置cookie/cookies,給其一個cookie/cookies字段。網(wǎng)站為了辨別用戶身份、進行session跟蹤,當該cookies訪問超過某一個閾值時就禁止掉該cookie/cookies,導
致數(shù)據(jù)爬取失敗。網(wǎng)絡爬蟲想要模擬真實用戶請求,就需要擬造匿名身份,然后填入cookie/cookies中,在每一次訪問時帶上cookie/cookies,如果登錄用戶cookie/cookies信息在固定周期內失效,那就要找到登錄接口,重新模擬登錄,存儲cookie/cookies,再重新發(fā)起數(shù)據(jù)請求
服務端限制“驗證碼限制”反爬蟲策略:驗證碼是基于人能從圖片中識別出文字和數(shù)字而機器卻不能的原理產(chǎn)生的,是網(wǎng)站最常用來驗證是爬取機器人還是普通用戶在瀏覽的方式之一。爬蟲工具可建立簡單的驗證碼庫,如對圖片里的字母或者數(shù)字進行識別讀取,可使用識圖的模塊包或一些驗證碼識別第三方庫(pytesser,PIL)來破解。但復雜驗證碼,無法通過識圖識別,可以考慮使用第三方收費服務或通過機器學習讓爬蟲自動識別復雜驗證碼,識別后程序自動輸入驗證碼繼續(xù)數(shù)據(jù)爬取
服務端限制“數(shù)據(jù)加密”反爬蟲策略:有些網(wǎng)站把ajax請求的所有參數(shù)全部加密,根本沒辦法構造所需要的數(shù)據(jù)請求。有的網(wǎng)站反爬蟲策略更復雜,還把一些基本的功能都封裝了,全部都是在調用網(wǎng)站自己的接口,且接口參數(shù)也是加密的爬蟲可以考慮用selenium+phantomJS框架,調用瀏覽器內核,并利用phantomJS執(zhí)行js模擬人為操作,觸發(fā)頁面中的js腳本。從填寫表單到點擊按鈕再到滾動頁面,不考慮具體的請求和響應過程,全程模擬人瀏覽頁面獲取數(shù)據(jù)的過程。用這套框架幾乎能繞過大多數(shù)的反爬蟲,因為它不是偽裝成瀏覽器來獲取數(shù)據(jù),它本身就是瀏覽器。服務端限制“Youtube鏈接”反爬蟲策略:很多國外科技公司網(wǎng)站都以Youtube為平臺設有專門視頻頻道,介紹其最新產(chǎn)品、技術路線、技術原理等。針對Youtube平臺市場上有較為成熟的開源工具,爬取解決方案主
要解決代理訪問和開源工具的有機結合。先爬取采集任務入口下所有列表頁地址,根據(jù)地址調用國外代理,再利用Youtube-DL開源工具進行二次封裝爬取視頻,通過技術手段判定爬取任務是否完成。代理負責避開流量監(jiān)控,開源工具負責解決Youtube加密防爬。
前端限制“CSS或HTML標簽”干擾反爬蟲策略:前端通過CSS或者HTML標簽控制一些關鍵信息安全,例如利用CSS來控制圖片的偏移量顯示出來,或把文字偽裝成圖片,干擾混淆關鍵數(shù)據(jù)。針對此類反爬蟲機制沒有通用手段,需要對網(wǎng)頁抽樣分析,反復測試,尋找其規(guī)則,然后替換成正確的數(shù)據(jù)。
前端限制“自定義字體”反爬蟲策略:某些網(wǎng)站在源碼上的字體不是正常字體編碼,而是自定義的一種字體,調用自定義的TTF文件來渲染網(wǎng)頁中的文字,真實內容通過一種對應關系最終在頁面上展示,而不在網(wǎng)頁源代碼中展示,通過復制或者簡單的采集無法爬取到真實的數(shù)據(jù)雖然反爬蟲在源代碼中隱藏了真正的字體,但最終如果要在頁面上展示還是需要導入字體包,找到字體文件,下載后使用font解析模塊包對TTF文件進行解析,解析出一個字體編碼集合,與模塊包
里的文字編碼進行映射,再反推轉換對應關系即可獲得真實正確的內容。
前端限制“元素錯位”反爬蟲策略:是指網(wǎng)站維護人員利用偽裝或錯位一些關鍵信息的定位,讓爬蟲爬不到真實正確的內容。如設置一個合同數(shù)據(jù)相關網(wǎng)頁內容中的價格顯示,先用backgroudimage標簽渲染,再用標簽設置偏移量,展示錯誤的標簽,形成視覺上正確的價格。通常先用上述各種方法找到樣式文件,根據(jù)backgroudpostion值和圖片數(shù)字進行映射,然后根據(jù)HTML標簽里class名稱,匹配出CSS里對應class中content的內容進行替換。
前端限制“隱藏元素”反爬蟲策略:用隱含字段阻止網(wǎng)絡數(shù)據(jù)采集的方式主要有兩種。第一種是表單頁面上的一個字段可以用服務器生成的隨機變量表示。如果提交時這個值不在表單處理頁面上,服務器就認為這個提交不是從原始表單頁面上提交的,而是由一個網(wǎng)絡機器人提交。另一種是通過隱藏偽裝元素保護重要數(shù)據(jù),在重要數(shù)據(jù)的標簽里加入一些干擾性標簽,干擾數(shù)據(jù)的獲取。元素的屬性隱藏和顯示,主要是通過type="hidden"和style="display:none;"。繞開第一種表單交驗的方式最佳方法為先采集表單所在頁面上生成的隨機變量,然后再提交到表單,處理頁面第二種情況則需要過濾掉干擾混淆的HTML標簽,或者只讀取有效數(shù)據(jù)的HTML標簽的內容。Jasmine.More2.主動干擾技術16中文信息存在主動干擾的主要原因政治斗爭需要。境內外敵對勢力依托互聯(lián)網(wǎng),采用主動干擾方法,源源不斷地制作和傳播大量本應受到嚴格管制的有害信息和不良信息,將互聯(lián)網(wǎng)演變?yōu)閷ξ疫M行西化、分化的新“陣地”,導致網(wǎng)上出現(xiàn)大量遭受過主動干擾的中文不良信息。經(jīng)濟利益驅使。搜索引擎優(yōu)化師SEO為了提高搜索引擎的效率、網(wǎng)上營銷商為了給自己的商鋪帶來巨大的經(jīng)濟利益,這些需求驅使眾多的網(wǎng)絡技術人員和信息技術愛好者成為網(wǎng)絡中文主動干擾信息的制造者,導致網(wǎng)絡上出現(xiàn)大量遭受中文主動干擾過的信息。中文主動干擾概念網(wǎng)絡攻擊者了解中文特點,依據(jù)漢語同音字、繁體字與簡體字并存的特點,利用中文分詞技術的困難性,采用在中文連續(xù)文本中隨機夾雜符號(如宣揚邪教的信息“法?//*輪*!功”),和/或用繁體字/同音字代替(如用“法輪攻”代替“法輪功”)某個中文關鍵詞的方法,欺騙并繞開各種過濾器,造成網(wǎng)絡內容安全處理效果大幅下降。中文主動干擾概念在不改變文本信息語義的情況下,對文本信息進行干擾,造成計算機無法執(zhí)行自動中文信息處理的技術。由于刪除操作會導致顯著的語義改變,故中文主動干擾方法主要采用插入干擾和替代干擾兩種方式插入干擾插入干擾是指在文本的某個字后插入信息值為零的子串。一般插入無實際意義的英文字母、標點符號或特殊符號,如%、*、/,&、#、@等。如“抖音”替換成“抖、音”或“抖aaba音”。替代干擾縮寫替代諧音替代諧音與縮寫結合替代象形替代昵稱替代同義替代火星文替代假古文替代外文替代替代干擾Jasmine.More3.信息隱藏技術2324信息隱藏存在原因
信息之所以能夠隱藏在多媒體數(shù)據(jù)中主要是基于兩個事實。
其一,多媒體信息本身存在很大的冗余性。從信息論的角度看,未壓縮的多媒體信息的編碼效率是很低的,所以將這些機密信息嵌入到多媒體信息中進行秘密傳送是完全可行的,并不會影響到多媒體信息本身的傳送和使用。
其二,人類的聽覺和視覺系統(tǒng)都有一定的掩蔽效應。人們可以充分利用這種掩蔽性將信息隱藏而不被察覺。25信息隱藏與傳統(tǒng)密碼學的區(qū)別密碼學技術主要是研究如何將機密信息進行特殊的編碼,以形成不可識別的密碼形式(密文)進行傳遞。
信息隱藏則主要研究如何將某一機密信息秘密隱藏于另一公開的信息中,然后通過公開信息的傳輸來傳遞機密信息。密碼僅僅隱藏了信息的內容,而信息隱藏不但隱藏了信息的內容而且隱藏了信息的存在。26信息加密和隱藏
(b)隱藏27
(c)隱密2829信息隱藏的原理框圖
信息隱藏系統(tǒng)的特征(1)魯棒性(Robustness,健壯性)魯棒性指不因宿主文件的某種改動而導致隱藏信息丟失的能力。(2)不可檢測性(Imperceptibility)不可檢測性指隱蔽宿主與原始宿主具有一致的特性,如具有一致的統(tǒng)計噪聲分布,以便使非法攔截者無法判斷是否藏有隱蔽信息。30(3)透明性(Invisibility)利用人類視覺系統(tǒng)或人類聽覺系統(tǒng)的特性,經(jīng)過一系列隱藏處理,使目標數(shù)據(jù)沒有明顯的質量降低現(xiàn)象,而隱藏的數(shù)據(jù)卻無法人為地看見或聽見。(4)安全性隱藏的信息內容應是安全的,最好經(jīng)過某種加密后再隱藏,同時隱藏的具體位置也應是安全的,至少不會因格式變換而遭到破壞。31(5)自恢復性由于經(jīng)過一些操作或變換后,可能會使原圖產(chǎn)生較大的破壞。如果只從留下的片段數(shù)據(jù),就能恢復隱藏信息,而且恢復過程中不需要宿主信息,這就是所謂的自恢復性。(6)可糾錯性為了保證隱藏信息的完整性,使其在經(jīng)過各種操作和變換后仍能很好地恢復,通常采取糾錯編碼方法。3233隱藏技術分類根據(jù)信息隱藏技術的應用目的和載體對象不同,信息隱藏可分為許多分支。
(1)隱寫術(2)數(shù)字水?。?)隱蔽信道(4)閾下信道34隱寫術隱寫術是一種隱蔽通信技術,其主要目的是將重要的信息隱藏起來,以便不引起人注意地進行傳輸和存儲。隱寫術在其發(fā)展過程中逐漸形成了兩大分支,即語義隱寫(藏頭詩)和技術隱寫(隱形墨水)。數(shù)字水印
數(shù)字水印技術是信息隱藏技術的另一重要分支,數(shù)字水印技術通過在原始數(shù)據(jù)中嵌入秘密信息——水印來證實該數(shù)據(jù)的所有權。這種被嵌入的水印可以是一段文字、標識、序列號等,而且這種水印通常是不可見或不可察的,它與原始數(shù)據(jù)(如圖象、音頻、視頻數(shù)據(jù))緊密結合并隱藏其中,并可以經(jīng)歷一些不破壞原數(shù)據(jù)使用價值或商用價值的操作而能保存下來。
35隱蔽信道隱蔽信道是指允許進程以危害系統(tǒng)安全策略的方式傳輸信息的通信信道。隱蔽信道分析工作包括信道識別、度量和處置。信道識別是對系統(tǒng)的靜態(tài)分析,強調對設計和代碼進行分析發(fā)現(xiàn)所有潛在的隱蔽信道。信道度量是對信道傳輸能力和威脅程度的評價。信道處置措施包括信道消除、限制和審計。
閾下信道
閾下信道是指在基于公鑰密碼技術的數(shù)字簽名、認證等應用密碼體制的輸出密碼數(shù)據(jù)中建立起來的一種隱蔽信道,除指定的接收者外,任何其他人均不知道密碼數(shù)據(jù)中是否有閾下消息存在。
隱蔽信道3637信息隱藏技術信息隱藏技術分類
根據(jù)應用場合的不同要求,信息隱藏技術可以分為隱寫術和數(shù)字水印兩個主要分支。
隱寫術研究的重點是如何實現(xiàn)信息的偽裝的隱蔽性;而數(shù)字水印則需要考慮水印信息是否穩(wěn)健等特性,如對各種可能攻擊的敏感性等。根據(jù)隱藏協(xié)議,信息隱藏還可分為無密鑰信息隱藏、私鑰信息隱藏、公鑰信息隱藏。
38信息隱藏技術要求
(1)隱寫術:隱寫術的要求包括不可感知性和不可檢測性、秘密性、較大的容量以及算法實現(xiàn)簡單。(2)魯棒水?。呼敯羲∽钪匾囊蟀ú豢筛兄?、魯棒性、能解決所有權問題、秘密性以及算法實現(xiàn)簡單等。
(3)完全脆弱水?。和耆嗳跛∽钪匾囊蟀ú豢筛兄?、對任何處理的敏感性、秘密性以及算法實現(xiàn)簡單等。(4)半脆弱水?。和瑫r具有魯棒水印和脆弱水印的特點,它具有一定的魯棒性,可以抵抗常規(guī)的圖像處理操作(合理操作)對水印的影響;另外它對圖像內容的篡改(惡意篡改)具有識別利定位的能力39空域信息隱藏技術空域隱藏技術是指在圖像、視頻、音頻等載體的空間上進行信息隱藏。通過直接改變宿主媒體的某些像素值(采樣值)來嵌入數(shù)據(jù)??沼蛐畔㈦[藏技術無需對原始媒體進行變換,計算簡單,效率較高,但由于水印要均衡不可感知性和穩(wěn)健性,因而可選擇的屬性范圍較小。此外,難以抵抗常見信號處理的攻擊及噪聲干擾的影響,魯棒性較差。
40基于替換LSB的空域信息隱藏
LSB(theLeastSignificantBits)即最不重要比特位。改變LSB主要的考慮是不重要數(shù)據(jù)的調整對原始圖像的視覺效果影響較小。以圖像為例,圖像部分像素的最低一個或者多個位平面的值被隱藏數(shù)據(jù)所替換。即載體像素的LSB平面根據(jù)要隱藏的數(shù)據(jù)改變?yōu)椤?”或者不變,以此達到隱藏信息的目的。
41lena圖片8個位平面效果圖42基于替換LSB的空域信息隱藏
基于替換的LSB的隱藏方法具有如下特點:(1)具有較大的信息隱藏容量(2)計算簡單。(3)掩密圖像失真小。(4)隱藏數(shù)據(jù)的魯棒性較差。
43基于替換LSB的空域信息隱藏
例:設待隱藏信息為1001,取灰度圖像的4個像素值(0-255整數(shù))的最低位進行隱藏。
隱藏前8位灰度值二進制表示隱藏后二進制隱藏后八位灰度值340010001000100011351801011010010110100180255111111111111111025420000001000000011344替換系統(tǒng)最低比特位替換LSB。最早被開發(fā)出來的,也是使用最為廣泛的替換技術。黑白圖像通常用8個比特來表示每一個像素(Pixel)的明亮程度,即灰階值(Gray-value)。彩色圖像則用3個字節(jié)來分別記錄RGB三種顏色的亮度。將信息嵌入至最低比特,對宿主圖像(Cover-image)的圖像品質影響最小,其嵌入容量最多為圖像文件大小的八分之一。45(1)每個文件只能非壓縮地存放一幅彩色圖像。(2)文件頭由54個字節(jié)的數(shù)據(jù)段組成,其中包含該位圖文件的類型、大小、尺寸及打印格式等。(3)從第55個字節(jié)開始,是該文件的圖像數(shù)據(jù)部分,數(shù)據(jù)的排列順序以圖像的左下角為起點,每連續(xù)3個字節(jié)便描述圖像一個像素點的顏色信息,這3個字節(jié)分別代表藍、綠、紅三基色在此像素中的亮度。例如某連續(xù)3個字節(jié)為:00H,00H,F(xiàn)FH,則表示該像素的顏色為純紅色。46RGB(0,0,255)RGB(0,0,254)RGB(0,0,248)47一幅24位BMP圖像,由54字節(jié)的文件頭和圖像數(shù)據(jù)部分組成,其中文件頭不能隱藏信息,從第55字節(jié)開始為圖像數(shù)據(jù)部分,可以隱藏信息。圖像數(shù)據(jù)部分由一系列的8位二進制數(shù)(字節(jié))所組成,每個8位二進制數(shù)中“1”的個數(shù)或者為奇數(shù)或者為偶數(shù)。我們約定:若一個字節(jié)中“1”的個數(shù)為奇數(shù),則稱該字節(jié)為奇性字節(jié),用“1”表示;若一個字節(jié)中“1”的個數(shù)為偶數(shù),則稱該字節(jié)為偶性字節(jié),用“0”表示。我們用每個字節(jié)的奇偶性來表示隱藏的信息。48舉例例如,設一段24位BMP文件的數(shù)據(jù)為:
01100110,00111101,10001111,00011010,00000000,10101011,001
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 食堂收購合同范本
- 3《影子的秘密》(教學設計)-2023-2024學年科學三年級下冊教科版
- 維修路燈合同范本
- 14《學習有方法》第1課時 教學設計-2023-2024學年道德與法治二年級下冊統(tǒng)編版
- 9獵人海力布 教學設計-2024-2025學年語文五年級上冊統(tǒng)編版
- Lesson 5 What does she do?(單元整體教學設計)-2024-2025學年接力版英語五年級上冊
- 30米跑 教學設計-2024-2025學年高一上學期體育與健康人教版必修第一冊
- 6 一封信(教學設計)-2024-2025學年統(tǒng)編版語文二年級上冊
- 24《生物的啟示》教學設計 -2023-2024學年科學四年級下冊青島版(五四制)
- Module 3 Unit 2 You can use the computers.(教學設計)-2023-2024學年外研版(一起)英語五年級下冊
- 2025年中國南光集團有限公司招聘筆試參考題庫含答案解析
- 工程造價鑒定申請書
- 五年級下冊數(shù)學北師大版課件練習一
- 《房屋建筑發(fā)展史》課件
- 第6章平面圖形的初步認識數(shù)學探究雞蛋餅的分割教案2024-2025學年蘇科版(2024)七年級數(shù)學上冊
- 麻醉、精神藥品培訓課件
- 新媒體導論彭蘭課件
- 安全生產(chǎn)管理制度匯編(一般化工企業(yè))
- 第4周-2023-2024學年人教版數(shù)學七年級上冊周周練(含答案)
- 公務員考試申論試題與參考答案(2025年)
- DB41T 2599-2024 煤礦地震監(jiān)測站網(wǎng)技術規(guī)范
評論
0/150
提交評論