Spark大數(shù)據(jù)分析實務(wù) 課件 項目8 基于TipDM大數(shù)據(jù)挖掘建模平臺實現(xiàn)廣告流量檢測違規(guī)識別-知識準(zhǔn)備V1.0_第1頁
Spark大數(shù)據(jù)分析實務(wù) 課件 項目8 基于TipDM大數(shù)據(jù)挖掘建模平臺實現(xiàn)廣告流量檢測違規(guī)識別-知識準(zhǔn)備V1.0_第2頁
Spark大數(shù)據(jù)分析實務(wù) 課件 項目8 基于TipDM大數(shù)據(jù)挖掘建模平臺實現(xiàn)廣告流量檢測違規(guī)識別-知識準(zhǔn)備V1.0_第3頁
Spark大數(shù)據(jù)分析實務(wù) 課件 項目8 基于TipDM大數(shù)據(jù)挖掘建模平臺實現(xiàn)廣告流量檢測違規(guī)識別-知識準(zhǔn)備V1.0_第4頁
Spark大數(shù)據(jù)分析實務(wù) 課件 項目8 基于TipDM大數(shù)據(jù)挖掘建模平臺實現(xiàn)廣告流量檢測違規(guī)識別-知識準(zhǔn)備V1.0_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于TipDM大數(shù)據(jù)挖掘建模平臺實現(xiàn)廣告流量檢測違規(guī)識別知識準(zhǔn)備教學(xué)目標(biāo)知識目標(biāo)了解TipDM大數(shù)據(jù)挖掘建模平臺的相關(guān)概念和特點。技能目標(biāo)能夠使用TipDM大數(shù)據(jù)挖掘建模平臺完成廣告流量檢測違規(guī)識別項目總體流程的設(shè)計、配置。能夠使用TipDM大數(shù)據(jù)挖掘建模平臺完成項目流程的實現(xiàn)。教學(xué)目標(biāo)素質(zhì)目標(biāo)具備快速學(xué)習(xí)能力,能夠快速上手使用TipDM大數(shù)據(jù)挖掘建模平臺。具有總結(jié)概括信息能力,能夠根據(jù)項目4~7的項目流程,配置可用于TipDM大數(shù)據(jù)挖掘建模平臺的總體流程。具有學(xué)以致用的實踐能力,能夠使用TipDM大數(shù)據(jù)挖掘建模平臺的組件實現(xiàn)具體問題。思維導(dǎo)圖項目背景在本書中介紹了使用Spark來實現(xiàn)廣告流量檢查違規(guī)識別項目,相較于傳統(tǒng)Spark解析器,TipDM大數(shù)據(jù)挖掘建模平臺具有流程化、去編程化等特點,滿足不懂編程的用戶使用數(shù)據(jù)分析技術(shù)的需求。本項目將介紹如何使用TipDM大數(shù)據(jù)挖掘建模平臺,然后通過該平臺實現(xiàn)廣告流量檢查違規(guī)識別。項目目標(biāo)根據(jù)項目4~7的內(nèi)容,設(shè)計廣告流量檢測違規(guī)識別項目的總體流程,通過TipDM大數(shù)據(jù)挖掘建模平臺實現(xiàn)廣告流量檢測的違規(guī)識別。目標(biāo)分析使用TipDM大數(shù)據(jù)挖掘建模平臺實現(xiàn)廣告流量檢測數(shù)據(jù)的獲取。使用TipDM大數(shù)據(jù)挖掘建模平臺實現(xiàn)廣告流量檢測數(shù)據(jù)的處理。使用TipDM大數(shù)據(jù)挖掘建模平臺實現(xiàn)模型的構(gòu)建與評估。平臺簡介TipDM大數(shù)據(jù)挖掘建模平臺是由廣東泰迪智能科技股份有限公司自主研發(fā),面向大數(shù)據(jù)挖掘項目的工具。平臺使用Java語言開發(fā),采用B/S結(jié)構(gòu)(Browser/Server,瀏覽器/服務(wù)器模式),用戶不需要下載客戶端,可通過瀏覽器進(jìn)行訪問。平臺簡介平臺具有支持多種語言、操作簡單、無須編程語言基礎(chǔ)等特點,以流程化的方式將數(shù)據(jù)輸入/輸出、統(tǒng)計分析、數(shù)據(jù)預(yù)處理、挖掘與建模等環(huán)節(jié)進(jìn)行連接,從而實現(xiàn)大數(shù)據(jù)挖掘的目的。平臺界面如下圖。平臺簡介讀者可通過訪問平臺查看具體的界面情況。微信搜索公眾號“泰迪學(xué)社”或“TipDataMining”,關(guān)注公眾號。關(guān)注公眾號后,回復(fù)“建模平臺”,獲取平臺訪問方式。平臺簡介在介紹如何使用平臺實現(xiàn)項目分析之前,需要引入平臺的幾個概念,其基本介紹如下表。概念基本介紹組件將建模過程中涉及的輸入/輸出、數(shù)據(jù)探索、數(shù)據(jù)預(yù)處理、繪圖、建模等操作分別進(jìn)行封裝,每一個封裝好的模塊稱之為組件。組件分為系統(tǒng)組件和個人組件。(1)系統(tǒng)組件可供所有用戶使用(2)個人組件由個人用戶編輯,僅供個人賬號使用工程為實現(xiàn)某一數(shù)據(jù)挖掘目標(biāo),將各組件通過流程化的方式進(jìn)行連接,整個數(shù)據(jù)流程稱為一個工程參數(shù)每個組件都有提供給用戶進(jìn)行設(shè)置的內(nèi)容,這部分內(nèi)容稱為參數(shù)共享庫用戶可以將配置好的工程、數(shù)據(jù)集,分別公開到模型庫、數(shù)據(jù)集庫中作為模板,分享給其他用戶,其他用戶可以使用共享庫中的模板,創(chuàng)建一個無須配置組件便可運行的工程平臺簡介TipDM大數(shù)據(jù)挖掘建模平臺主要有以下幾個特點。平臺組件基于Python、R以及Hadoop/Spark分布式引擎,用于數(shù)據(jù)分析。Python、R以及Hadoop/Spark是常見的用于數(shù)據(jù)分析的語言或工具,高度契合行業(yè)需求。用戶可在沒有Python、R或Hadoop/Spark編程基礎(chǔ)的情況下,使用直觀的拖曳式圖形界面構(gòu)建數(shù)據(jù)分析流程,無須編程。提供公開可用的數(shù)據(jù)分析示例實訓(xùn),一鍵創(chuàng)建,快速運行。支持挖掘流程每個節(jié)點的結(jié)果在線預(yù)覽。平臺包含Python、Spark、R三種工具的組件包,用戶可以根據(jù)實際需求靈活選擇不同的語言進(jìn)行數(shù)據(jù)挖掘建模。平臺簡介下面將對平臺的這5個模塊進(jìn)行介紹:共享庫數(shù)據(jù)連接數(shù)據(jù)集我的工程個人組件共享庫登錄平臺后,用戶即可看到“共享庫”模塊系統(tǒng)提供的示例工程(模板)?!肮蚕韼臁蹦K主要用于標(biāo)準(zhǔn)大數(shù)據(jù)挖掘建模案例的快速創(chuàng)建和展示。通過“共享庫”模塊,用戶可以創(chuàng)建一個無須導(dǎo)入數(shù)據(jù)及配置參數(shù)就能夠快速運行的工程。用戶可以將自己搭建的工程公開到“共享庫”模塊,作為工程模板,供其他用戶一鍵創(chuàng)建。同時,每一個模板的創(chuàng)建者都具有模板的所有權(quán),能夠?qū)δ0暹M(jìn)行管理。數(shù)據(jù)連接“數(shù)據(jù)連接”模塊支持從DB2、SQLServer、MySQL、Oracle、PostgreSQL等常用關(guān)系數(shù)據(jù)庫導(dǎo)入數(shù)據(jù),導(dǎo)入數(shù)據(jù)時的“新建連接”對話框如下圖。數(shù)據(jù)集“數(shù)據(jù)集”模塊主要用于數(shù)據(jù)挖掘建模工程中數(shù)據(jù)的導(dǎo)入與管理。支持從本地導(dǎo)入任意類型的數(shù)據(jù)。導(dǎo)入數(shù)據(jù)時的“新增數(shù)據(jù)集”對話框如下圖。我的工程“我的工程”模塊主要用于數(shù)據(jù)挖掘建模流程化的創(chuàng)建與管理,工程示例流程如下圖。通過單擊“工程”欄下的(“新建工程”)按鈕,用戶可以創(chuàng)建空白工程并通過“組件”欄下的組件進(jìn)行工程配置,將數(shù)據(jù)輸入/輸出、預(yù)處理、挖掘建模、模型評估等環(huán)節(jié)通過流程化的方式進(jìn)行連接,達(dá)到數(shù)據(jù)挖掘與分析的目的。對于完成度優(yōu)秀的工程,可以將其公開到“共享庫”中,作為模板讓其他使用者學(xué)習(xí)和借鑒。我的工程在“組件”欄下,平臺提供了輸入/輸出組件、Python組件、R語言組件、Spark組件等算法系統(tǒng)組件,如下圖,用戶可直接使用。輸入/輸出組件提供工程輸出與輸出組件,包括輸入源、輸出源、輸出到數(shù)據(jù)庫等。我的工程1.Python組件Python組件包含Python腳本、預(yù)處理、統(tǒng)計分析、時間序列、分類、模型評估、模型預(yù)測、回歸、聚類、關(guān)聯(lián)規(guī)則、文本分析、深度學(xué)習(xí)和繪圖,共13大類。Python組件的類別介紹如下表。類別介紹Python腳本“Python腳本”類提供一個Python代碼編輯框。用戶可以在代碼編輯框中粘貼已經(jīng)寫好的程序代碼并直接運行,無須再額外配置成算法預(yù)處理“預(yù)處理”類提供對數(shù)據(jù)進(jìn)行預(yù)處理的組件,包括數(shù)據(jù)標(biāo)準(zhǔn)化、缺失值處理、表堆疊、數(shù)據(jù)篩選、行列轉(zhuǎn)置、修改列名、衍生變量、數(shù)據(jù)拆分、主鍵合并、新增序列、數(shù)據(jù)排序、記錄去重和分組聚合等統(tǒng)計分析“統(tǒng)計分析”類提供對數(shù)據(jù)整體情況進(jìn)行統(tǒng)計的常用組件,包括因子分析、全表統(tǒng)計、正態(tài)性檢驗、相關(guān)性分析、卡方檢驗、主成分分析和頻數(shù)統(tǒng)計等我的工程類別介紹時間序列“時間序列”類提供常用的時間序列組件,包括ARCH、AR模型、MA模型、灰色預(yù)測、模型定階和ARIMA等分類“分類”類提供常用的分類組件,包括樸素貝葉斯、支持向量機(jī)、CART分類樹、邏輯回歸、神經(jīng)網(wǎng)絡(luò)和K最近鄰等模型評估“模型評估”類提供了用于模型評價的組件,包括模型評估模型預(yù)測“模型預(yù)測”類提供了用于模型預(yù)測的組件,包括模型預(yù)測回歸“回歸”類提供常用的回歸組件,包括CART回歸樹、線性回歸、支持向量回歸和K最近鄰回歸等我的工程類別介紹聚類“聚類”類提供常用的聚類組件,包括層次聚類、DBSCAN密度聚類和K-Means等關(guān)聯(lián)規(guī)則“關(guān)聯(lián)規(guī)則”類提供常用的關(guān)聯(lián)規(guī)則組件,包括Apriori和FP-Growth等文本分析“文本分析”類提供對文本數(shù)據(jù)進(jìn)行清洗、特征提取與分析的常用組件,包括情感分析、文本過濾、TF-IDF、Word2Vec等深度學(xué)習(xí)“深度學(xué)習(xí)”類提供常用的深度學(xué)習(xí)組件,包括循環(huán)神經(jīng)網(wǎng)絡(luò)、ALS(AlternatingLeastSquares,交替最小二乘)和卷積神經(jīng)網(wǎng)絡(luò)繪圖“繪圖”類提供常用的畫圖組件,可以繪制柱形圖、折線圖、散點圖、餅圖和詞云圖等我的工程2.R語言組件R語言組件包含R語言腳本、預(yù)處理、統(tǒng)計分析、分類、時間序列、聚類、回歸和關(guān)聯(lián)分析,共8大類。R語言組件的類別介紹如下表。類別介紹R語言腳本“R語言腳本”類提供一個R語言代碼編輯框。用戶可以在代碼編輯框中粘貼已經(jīng)寫好的代碼并直接運行,無須額外配置組件預(yù)處理“預(yù)處理”類提供對數(shù)據(jù)進(jìn)行預(yù)處理的組件,包括缺失值處理、異常值處理、表連接、表合并、數(shù)據(jù)標(biāo)準(zhǔn)化、記錄去重、數(shù)據(jù)離散化、排序、數(shù)據(jù)拆分、頻數(shù)統(tǒng)計、新增序列、字符串拆分、字符串拼接、修改列名等統(tǒng)計分析“統(tǒng)計分析”類提供對數(shù)據(jù)整體情況進(jìn)行統(tǒng)計的常用組件,包括卡方檢驗、因子分析、主成分分析、相關(guān)性分析、正態(tài)性檢驗和全表統(tǒng)計等我的工程類別介紹分類“分類”類提供常用的分類組件,包括樸素貝葉斯、CART分類樹、C4.5分類樹、BP神經(jīng)網(wǎng)絡(luò)、KNN、SVM和邏輯回歸等時間序列“時間序列”類提供常用的時間序列組件,包括ARIMA和指數(shù)平滑等聚類“聚類”類提供常用的聚類組件,包括K-Means、DBSCAN密度聚類和系統(tǒng)聚類等回歸“回歸”類提供常用的回歸組件,包括CART回歸樹、C4.5回歸樹、線性回歸、嶺回歸和KNN回歸等關(guān)聯(lián)分析“關(guān)聯(lián)分析”類提供常用的關(guān)聯(lián)規(guī)則組件,包括Apriori等我的工程3.Spark組件Spark組件包含預(yù)處理、統(tǒng)計分析、分類、聚類、回歸、降維、協(xié)同過濾和頻繁模式挖掘,共8大類。Spark組件的類別介紹如下表。類別介紹預(yù)處理“預(yù)處理”類提供對數(shù)據(jù)進(jìn)行預(yù)處理的組件,包括數(shù)據(jù)去重、數(shù)據(jù)過濾、數(shù)據(jù)映射、數(shù)據(jù)反映射、數(shù)據(jù)拆分、數(shù)據(jù)排序、缺失值處理、數(shù)據(jù)標(biāo)準(zhǔn)化、衍生變量、表連接、表堆疊和數(shù)據(jù)離散化等統(tǒng)計分析“統(tǒng)計分析”類提供對數(shù)據(jù)整體情況進(jìn)行統(tǒng)計的常用組件,包括行列統(tǒng)計、全表統(tǒng)計、相關(guān)性分析和重復(fù)值缺失值探索分類“分類”類提供常用的分類組件,包括邏輯回歸、決策樹、梯度提升樹、樸素貝葉斯、隨機(jī)森林、線性支持向量機(jī)和多層感知神經(jīng)網(wǎng)絡(luò)等我的工程類別介紹聚類“聚類”類提供常用的聚類組件,包括K-Means、二分K-Means聚類和混合高斯模型等回歸“回歸”類提供常用的回歸組件,包括線性回歸、廣義線性回歸、決策樹回歸、梯度提升樹回歸、隨機(jī)森林回歸和保序回歸等降維

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論