![Spark大數(shù)據(jù)分析實(shí)務(wù) 課件 項(xiàng)目1 廣告流量檢測違規(guī)識別需求分析-項(xiàng)目實(shí)施V1.0_第1頁](http://file4.renrendoc.com/view14/M05/25/05/wKhkGWZ_bwKAbDd3AAERn-xIkR8862.jpg)
![Spark大數(shù)據(jù)分析實(shí)務(wù) 課件 項(xiàng)目1 廣告流量檢測違規(guī)識別需求分析-項(xiàng)目實(shí)施V1.0_第2頁](http://file4.renrendoc.com/view14/M05/25/05/wKhkGWZ_bwKAbDd3AAERn-xIkR88622.jpg)
![Spark大數(shù)據(jù)分析實(shí)務(wù) 課件 項(xiàng)目1 廣告流量檢測違規(guī)識別需求分析-項(xiàng)目實(shí)施V1.0_第3頁](http://file4.renrendoc.com/view14/M05/25/05/wKhkGWZ_bwKAbDd3AAERn-xIkR88623.jpg)
![Spark大數(shù)據(jù)分析實(shí)務(wù) 課件 項(xiàng)目1 廣告流量檢測違規(guī)識別需求分析-項(xiàng)目實(shí)施V1.0_第4頁](http://file4.renrendoc.com/view14/M05/25/05/wKhkGWZ_bwKAbDd3AAERn-xIkR88624.jpg)
![Spark大數(shù)據(jù)分析實(shí)務(wù) 課件 項(xiàng)目1 廣告流量檢測違規(guī)識別需求分析-項(xiàng)目實(shí)施V1.0_第5頁](http://file4.renrendoc.com/view14/M05/25/05/wKhkGWZ_bwKAbDd3AAERn-xIkR88625.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
廣告流量檢測違規(guī)識別流程分析項(xiàng)目實(shí)施了解正常的廣告投放流程了解廣告流量違規(guī)現(xiàn)狀了解廣告流量常見違規(guī)方式了解廣告流量常見違規(guī)方式廣告流量檢測違規(guī)識別流程分析了解正常的廣告投放流程一般而言,廣告投放系統(tǒng)包含四大功能模塊,如下表。功能模塊說明需求方平臺(DSP)廣告主或廣告代理商服務(wù)平臺,廣告主通過本平臺管理廣告創(chuàng)意、設(shè)置廣告活動、配置廣告投放策略、完成廣告投放廣告交易平臺(ADX)連接需求方和供應(yīng)方,整合媒體方資源,按照預(yù)先設(shè)置的廣告競價(jià)規(guī)則,將勝出者的廣告下發(fā)到廣告位進(jìn)行展示供應(yīng)方平臺(SSP)媒體方(供應(yīng)方)服務(wù)平臺,媒體方通過該平臺完成廣告資源的管理,如管理廣告位、控制廣告展示(版式)、查詢廣告位流量庫存、廣告位排期管理等數(shù)據(jù)管理平臺(DMP)支持第三方數(shù)據(jù)接入,為廣告投放提供人群標(biāo)簽進(jìn)行受眾精準(zhǔn)定向,建立用戶畫像,進(jìn)行人群標(biāo)簽的管理以及再投放,整合管理各方數(shù)據(jù)且提供數(shù)據(jù)統(tǒng)計(jì)分析,輸出各種數(shù)據(jù)報(bào)告,用來指導(dǎo)供需雙方進(jìn)行廣告投放策略優(yōu)化了解正常的廣告投放流程廣告投放流程如下圖。了解正常的廣告投放流程廣告投放流程可分為以下7個(gè)部分:需求方運(yùn)營人員根據(jù)廣告主的要求,上傳創(chuàng)意,并配置廣告投放策略。供應(yīng)方運(yùn)營人員審核創(chuàng)意,對廣告位的流量進(jìn)行排期,并配置廣告投放策略。用戶打開手機(jī)、電腦等軟件,觸發(fā)終端的廣告位請求,終端向廣告系統(tǒng)發(fā)起廣告請求。DMP模塊向SSP/ADX模塊獲取更豐富的用戶畫像信息,然后將用戶畫像信息傳遞給DSP模塊,由DSP模塊根據(jù)預(yù)先設(shè)置的廣告投放策略選出需要投放的廣告,如健身房廣告。了解正常的廣告投放流程DMP模塊獲取應(yīng)該展示的廣告為健身房廣告,并將健身房廣告在軟件終端進(jìn)行展示,完成廣告的投放。軟件終端完成健身房廣告播放后,將用戶行為上報(bào)給DMP模塊,DMP模塊根據(jù)用戶行為等數(shù)據(jù)生成各種數(shù)據(jù)報(bào)告。廣告主通過DMP模塊查詢廣告投放數(shù)據(jù)報(bào)告,作為下次廣告投放的決策參考。了解正常的廣告投放流程了解廣告流量違規(guī)現(xiàn)狀了解廣告流量常見違規(guī)方式了解廣告流量常見違規(guī)方式廣告流量檢測違規(guī)識別流程分析了解廣告流量違規(guī)現(xiàn)狀在現(xiàn)代生活中,網(wǎng)絡(luò)作為一個(gè)能夠隨時(shí)隨地了解到世界各處信息的一個(gè)強(qiáng)有力的工具,早已滲透入人們生活的點(diǎn)點(diǎn)滴滴,人們了解一個(gè)新的事物的開始都是從網(wǎng)絡(luò)上尋找資源,網(wǎng)絡(luò)逐漸替代以往獲取信息的方式。同時(shí),大批商戶選擇將商品放置在互聯(lián)網(wǎng)平臺借此推廣,巨大的需求推動了網(wǎng)絡(luò)上投放廣告代理平臺的出現(xiàn),以及利用廣告流量作假謀取利益的不法商戶。了解廣告流量違規(guī)現(xiàn)狀互聯(lián)網(wǎng)虛假流量,是指通過特殊的方式,模仿人類瀏覽行為生成的訪問流量。如通過設(shè)置程序,每分鐘訪問一次某網(wǎng)站的主頁,即屬于虛假流量。廣告主尋找媒體投放廣告的目的是將信息傳達(dá)給目標(biāo)受眾,以此促進(jìn)銷售量。而媒體的責(zé)任則是盡可能引導(dǎo)更多的用戶瀏覽該信息。瀏覽量的增加一般情況下可以促進(jìn)銷售量的增加。同等條件下,流量大的網(wǎng)站收取的廣告費(fèi)用更高,因此,部分網(wǎng)站受利益的驅(qū)使,會通過違規(guī)方式產(chǎn)生虛假流量。了解廣告流量違規(guī)現(xiàn)狀低質(zhì)量虛假流量的問題在數(shù)字營銷行業(yè)中一直存在,虛假流量的存在給廣告主帶來了嚴(yán)重的損失。一方面虛假流量提高了廣告費(fèi)用,直接損害了廣告主的利益。另一方面,廣告監(jiān)測行為數(shù)據(jù)被越來越多地用于建模和做決策,如繪制用戶畫像、跨設(shè)備識別對應(yīng)用戶等。但是,違規(guī)行為,惡意曝光,甚至是在用戶完全無感知的情況下被控制訪問等產(chǎn)生的不由用戶主觀發(fā)出的行為,這些惡意流量給廣告監(jiān)測行為數(shù)據(jù)帶來了巨大的噪聲,給模型訓(xùn)練造成了很大影響。了解正常的廣告投放流程了解廣告流量違規(guī)現(xiàn)狀了解廣告流量常見違規(guī)方式了解廣告流量常見違規(guī)方式廣告流量檢測違規(guī)識別流程分析了解廣告流量常見違規(guī)方式互聯(lián)網(wǎng)時(shí)代以流量為核心,廣告如果有更多的流量那么也意味著更多的關(guān)注,更高的收入,廣告主在互聯(lián)網(wǎng)投放廣告時(shí)往往會依據(jù)流量信息來設(shè)計(jì)投放方案,廣告流量違規(guī)不僅僅會使廣告主選擇錯(cuò)誤的廣告投放方案,造成無用功。同時(shí)后期根據(jù)用戶瀏覽信息進(jìn)而對現(xiàn)有廣告的修改方案也會出現(xiàn)偏差,常常會引發(fā)蝴蝶效應(yīng)造成不可估量的損失。因此,對廣告流量進(jìn)行違規(guī)檢測進(jìn)而加以防范是非常有必要的,對于廣告的瀏覽信息數(shù)據(jù)往往十分龐大,人工進(jìn)行篩選極不現(xiàn)實(shí),一般會通過算法對海量瀏覽信息進(jìn)行自動化的篩選甄別。了解廣告流量常見違規(guī)方式常見的幾種廣告流量違規(guī)方式,如下表。流量違規(guī)方式說明腳本刷量通過設(shè)定程序,使電腦按一定的規(guī)則訪問目標(biāo)網(wǎng)站,以增加網(wǎng)站的訪問量或點(diǎn)擊量控制肉雞訪問利用互聯(lián)網(wǎng)上受病毒感染的電腦訪問目標(biāo)網(wǎng)站頁面代碼修改通過病毒感染或其他方式,在媒體網(wǎng)站插入隱藏代碼,在其頁面加載肉眼不可見的指向目標(biāo)網(wǎng)站的小頁面DNS劫持通過篡改DNS服務(wù)器上的數(shù)據(jù),強(qiáng)制修改用戶電腦的訪問位置,使原本訪問網(wǎng)站被動修改為目標(biāo)網(wǎng)站了解廣告流量常見違規(guī)方式違規(guī)者通過各項(xiàng)技術(shù),不斷模擬人的行為,增大識別違規(guī)流量的難度。例如,控制分時(shí)間段的IP訪問量,使用正常的用戶代理商(User-Agent,UA),控制在頁面曝光的時(shí)間、訪問的路徑等,訪問流量通過上述手段的處理,雖然識別難度增大了,但并不意味著違規(guī)流量是不可識別的。機(jī)器模擬的流量是通過軟件實(shí)現(xiàn),必定與人類的點(diǎn)擊流量存在一定的差異。了解正常的廣告投放流程了解廣告流量違規(guī)現(xiàn)狀了解廣告流量常見違規(guī)方式了解廣告流量常見違規(guī)方式廣告流量檢測違規(guī)識別流程分析了解廣告流量常見違規(guī)方式一般來說,真實(shí)流量一般自然(真實(shí)的流量在各個(gè)維度中表現(xiàn)一定是自然的)且多樣(網(wǎng)民喜好各不相同,行為也多種多樣)。而對于虛假流量,常表現(xiàn)出一定的目的性(虛假流量的產(chǎn)生一定和某個(gè)特定的目的有關(guān))和規(guī)律性(特定的目的導(dǎo)致虛假流量一定有特殊的規(guī)律)。由于虛假流量與真實(shí)流量在具體訪問行為有較大差異,圍繞用戶行為可從如下幾個(gè)方面識別出虛假流量。了解廣告流量常見違規(guī)方式基本屬性基本屬性具體包括了時(shí)間維度或地域維度、終端類型、操作系統(tǒng)、聯(lián)網(wǎng)方式、運(yùn)營商、IP地址分布情況等,其中時(shí)間維度或地域維度、終端類型具體說明如下。時(shí)間維度或地域維度。正常的流量訪問分布在一天中的各個(gè)時(shí)段,地理分布較為均勻(區(qū)域性投放或活動除外)、訪問趨勢較為平緩。而不同流量出現(xiàn)時(shí)間段特殊、來源區(qū)域集中、趨勢突增的情況。因此,通過流量產(chǎn)生的時(shí)間、地理位置、訪問趨勢變化都可以成為判斷虛假流量的參考方式。了解廣告流量常見違規(guī)方式終端類型。不同的渠道覆蓋不同的用戶群,用戶終端會有一定的區(qū)別。終端類型是一個(gè)更寬泛的概念,包括了設(shè)備的物理形態(tài)(如計(jì)算機(jī)、手機(jī)、平板等),而操作系統(tǒng)(如Windows、iOS、Android等)、聯(lián)網(wǎng)方式(如Wi-Fi、4G/5G等)和運(yùn)營商(如中國移動、中國聯(lián)通、中國電信等)則是終端類型的具體屬性。描述了設(shè)備的操作系統(tǒng)類型、聯(lián)網(wǎng)方式和所屬的網(wǎng)絡(luò)運(yùn)營商。如果對方是中國移動的客戶,那么終端來自于移動運(yùn)營商。排除特殊渠道的應(yīng)用商店,大部分渠道的用戶終端與整個(gè)互聯(lián)網(wǎng)終端分布是類似的。因此,在正常情況下,用戶訪問設(shè)備應(yīng)該多元化。同理,用戶的設(shè)備操作系統(tǒng)、聯(lián)網(wǎng)方式、運(yùn)營商等設(shè)備屬性,同樣可以成為判斷虛假流量的參考標(biāo)準(zhǔn)。了解廣告流量常見違規(guī)方式產(chǎn)品參與度產(chǎn)品參與度具體包括跳出率、用戶訪問深度、平均訪問時(shí)長、用戶行為路徑、頁面點(diǎn)擊情況、流量留存情況、單頁面人均訪問次數(shù)等,如下表。產(chǎn)品參與度說明跳出率通常通過跳出率來衡量網(wǎng)站性能與質(zhì)量等,跳出率也可以作為辨別虛假流量的參考指標(biāo)。如果跳出率過高,那么除了要判斷投放渠道的質(zhì)量和定位客戶群體是否精準(zhǔn)外,還應(yīng)該警惕虛假流量用戶訪問深度用戶訪問深度是用戶一次瀏覽網(wǎng)站、App的深度,是衡量網(wǎng)站服務(wù)效率的重要指標(biāo)之一。以刷量為目的的虛假流量,用戶訪問深度通常非常低。當(dāng)然,造成用戶訪問深度不夠的原因有多種,如新投放的落地頁的失敗引導(dǎo)等。在觀察此指標(biāo)時(shí),應(yīng)先排除產(chǎn)品較大改動造成的訪問深度不足等特殊情況,或與其他渠道的流量數(shù)據(jù)綜合比較,進(jìn)行科學(xué)評估了解廣告流量常見違規(guī)方式續(xù)上表產(chǎn)品參與度說明平均訪問時(shí)長平均訪問時(shí)長指標(biāo),主要用來衡量用戶與網(wǎng)站、App交互的深度。交互越深,相應(yīng)停留的時(shí)長也越長。顯然虛假流量追求的是“量”,而非“時(shí)長”,因此平均訪問時(shí)長也可以配合幾個(gè)網(wǎng)站參與度指標(biāo)一起分析用戶行為路徑用戶在App或網(wǎng)站中的訪問行為路徑,用戶路徑的分析模型可以將用戶行為進(jìn)行可視化展示。因此通常用戶通過渠道到網(wǎng)站后會有不同的行為,一般會從落地頁開始進(jìn)行分流,會訪問不同的頁面,并在不同的頁面結(jié)束對網(wǎng)站的訪問。顯然,用戶在App或網(wǎng)站中的一系列行為操作的順序是沒規(guī)律的。而對于虛假流量,雖然通過某些方式完成2~3次點(diǎn)擊,但行為路徑也是預(yù)先設(shè)定,有跡可循的了解廣告流量常見違規(guī)方式續(xù)上表產(chǎn)品參與度說明頁面點(diǎn)擊情況虛假流量用戶的頁面點(diǎn)擊通常是不點(diǎn)擊,或雜亂點(diǎn)擊的,借助熱力圖工具可以較為容易地發(fā)現(xiàn)問題留存情況留存可以判斷用戶忠誠度,真實(shí)的流量總會有一部分訪問者會再次訪問,而虛假流量在合作結(jié)束后是不會進(jìn)行模擬再次訪問、點(diǎn)擊廣告等收尾工作的流量的單頁面人均訪問次數(shù)如果某個(gè)落地頁面的人均訪問次數(shù)很高,如人均訪問次數(shù)4次以上,那么就很可疑,原因是在一次訪問中用戶一般是不會多次瀏覽同一個(gè)落地頁的。結(jié)合該頁面在網(wǎng)站整體的人均訪問次數(shù)進(jìn)行對比,結(jié)果會更加準(zhǔn)確了解廣告流量常見違規(guī)方式除基本屬性和產(chǎn)品參與度之外,還可以從業(yè)務(wù)的轉(zhuǎn)化情況進(jìn)行虛假流量的識別。很多違規(guī)流量可以模仿人類行為,成功繞過跳出率、平均訪問深度和停留時(shí)長這些宏觀指標(biāo),但是要模仿一個(gè)業(yè)務(wù)轉(zhuǎn)化則較難,如果宏觀指標(biāo)表現(xiàn)得好,但業(yè)務(wù)轉(zhuǎn)化很少的話,那么需要提高警覺,該流量很有可能是違規(guī)流量。了解正常的廣告投放流程了解廣告流量違規(guī)現(xiàn)狀了解廣告流量常見違規(guī)方式了解廣告流量常見違規(guī)方式廣告流量檢測違規(guī)識別流程分析廣告流量檢測違規(guī)識別流程分析本案例的目標(biāo)是建立互聯(lián)網(wǎng)虛假流量識別模型,精準(zhǔn)識別虛假違規(guī)流量記錄。對廣告檢測中獲得的歷史流量數(shù)據(jù)進(jìn)行選擇性抽取,采用無放回隨機(jī)抽樣法抽取7天的流量記錄作為原始建模數(shù)據(jù)。根據(jù)目標(biāo)將廣告檢測中的流量違規(guī)識別的整體實(shí)現(xiàn)流程進(jìn)行拆分,如下圖。廣告流量檢測違規(guī)識別流程分析廣告流量檢測違規(guī)識別實(shí)現(xiàn)流程的步驟如下。將7天的流量記錄存儲至Hive數(shù)據(jù)倉庫。對Hive中的數(shù)據(jù)集進(jìn)行數(shù)據(jù)探索分析,包括缺失值、冗余字段的基礎(chǔ)探索和流量違規(guī)的行為特征的業(yè)務(wù)探索。根據(jù)探索分析結(jié)果得出的清洗規(guī)則,對數(shù)據(jù)進(jìn)行相應(yīng)的預(yù)處理,包括處理缺失值、構(gòu)建特征、數(shù)據(jù)標(biāo)準(zhǔn)化、構(gòu)建建模樣本。建立不同的虛假流量識別模型,并對模型進(jìn)行評估及對比。保存效果較好的模型,模擬新數(shù)據(jù)產(chǎn)生,加載保存好的模型進(jìn)行應(yīng)用。廣告流量檢測違規(guī)識別流程分析在廣告檢測中,每一秒都會采集一條或多條狀態(tài)數(shù)據(jù)。由于采集頻率較高,所以數(shù)據(jù)的規(guī)模是非常龐大的。而Spark分布式計(jì)算框架在大數(shù)據(jù)處理效率方面具有很大的優(yōu)勢,而且Spark提供了一個(gè)機(jī)器學(xué)習(xí)算法庫MLlib,可以簡化復(fù)雜的建模實(shí)現(xiàn)過程,使用更加簡便。因此,廣告流量檢測違規(guī)識別案例主要采用Spark大數(shù)據(jù)技術(shù)對流量數(shù)據(jù)進(jìn)行探索分析和處理,并通過Spark技術(shù)實(shí)現(xiàn)模型構(gòu)建、預(yù)測、評估、應(yīng)用的過程。Spark框架本身并沒有存儲功能,但Spark可以讀取本地文件系統(tǒng)、MySQL數(shù)據(jù)庫、Hive數(shù)據(jù)倉庫、HBase分布式數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 質(zhì)量控制在提高實(shí)驗(yàn)室效率中的作用
- DB3702T 46.1-2024地理標(biāo)志產(chǎn)品 平度大花生 第1部分:生產(chǎn)技術(shù)規(guī)程
- 二手貨物交易合同樣本
- 個(gè)人對個(gè)人貸款合同樣本參考
- XX區(qū)青少年活動中心建設(shè)項(xiàng)目合同
- 專項(xiàng)建筑企業(yè)流動資金貸款合同
- 個(gè)人間借款合同格式及條款解析
- 中外貿(mào)易合作合同條款
- 產(chǎn)品試用合同范本
- 2024年湖南省公務(wù)員錄用考試《行測》真題及答案解析
- 心尖球形綜合征
- DBJT 13-460-2024 既有多層住宅建筑增設(shè)電梯工程技術(shù)標(biāo)準(zhǔn)
- 中國證監(jiān)會證券市場交易結(jié)算資金監(jiān)控系統(tǒng)證券公司接口規(guī)范
- 2025屆天津市部分學(xué)校高三年級八校聯(lián)考英語試題含解析
- 微項(xiàng)目 探討如何利用工業(yè)廢氣中的二氧化碳合成甲醇-2025年高考化學(xué)選擇性必修第一冊(魯科版)
- 廣東省廣州市黃埔區(qū)2024-2025學(xué)年八年級物理上學(xué)期教學(xué)質(zhì)量監(jiān)測試題
- 水產(chǎn)品冷凍加工原料處理與加工技術(shù)考核試卷
- 全新保密協(xié)議模板公安下載(2024版)
- 財(cái)務(wù)管理學(xué)(第10版)課件 第1章 總論
- GB/T 4008-2024錳硅合金
評論
0/150
提交評論