第7章 基于TipDM大數(shù)據(jù)挖掘建模平臺實現(xiàn)文本生成_第1頁
第7章 基于TipDM大數(shù)據(jù)挖掘建模平臺實現(xiàn)文本生成_第2頁
第7章 基于TipDM大數(shù)據(jù)挖掘建模平臺實現(xiàn)文本生成_第3頁
第7章 基于TipDM大數(shù)據(jù)挖掘建模平臺實現(xiàn)文本生成_第4頁
第7章 基于TipDM大數(shù)據(jù)挖掘建模平臺實現(xiàn)文本生成_第5頁
已閱讀5頁,還剩48頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于TipDM大數(shù)據(jù)挖掘建模平臺實現(xiàn)文本生成1實現(xiàn)文本生成目錄平臺簡介2TipDM大數(shù)據(jù)挖掘建模平臺是由廣東泰迪智能科技股份有限公司自主研發(fā)的面向大數(shù)據(jù)挖掘項目的工具。該平臺使用Java語言開發(fā),采用瀏覽器/服務(wù)器(Browser/Server,B/S)結(jié)構(gòu),用戶不需要下載客戶端,可通過瀏覽器進(jìn)行訪問。該平臺具有支持多種語言、操作簡單、無須編程語言基礎(chǔ)等特點,以流程化的方式對數(shù)據(jù)輸入/輸出、統(tǒng)計與分析、數(shù)據(jù)預(yù)處理、挖掘與建模等環(huán)節(jié)進(jìn)行連接,從而達(dá)成大數(shù)據(jù)挖掘的目的。讀者可通過訪問該平臺查看具體的界面情況,訪問平臺的具體步驟如下。微信搜索公眾號“泰迪學(xué)社”或“TipDataMining”,并關(guān)注公眾號。關(guān)注公眾號后,回復(fù)“建模平臺”,獲取平臺的訪問方式。平臺簡介平臺界面如右圖所示。平臺簡介本章將以文本生成為例,介紹使用平臺實現(xiàn)案例的流程。在介紹之前,需要引入平臺的幾個概念。組件:對建模過程涉及的輸入與輸出、數(shù)據(jù)探索、數(shù)據(jù)預(yù)處理、建模、模型評估等算法分別進(jìn)行封裝,每一個封裝好的模塊被稱為組件。組件分為系統(tǒng)組件和個人組件。系統(tǒng)組件可供所有用戶使用,個人組件由個人用戶編輯,僅供個人賬號使用。工程:為實現(xiàn)某一數(shù)據(jù)挖掘目標(biāo),將各組件通過流程化的方式進(jìn)行連接,整個數(shù)據(jù)挖掘流程被稱為工程。參數(shù):每個組件都給用戶提供了需設(shè)置的內(nèi)容,這部分內(nèi)容稱為參數(shù)。共享庫:用戶可以將配置好的工程、數(shù)據(jù)集,分別公開到模型庫、數(shù)據(jù)集庫中作為模板,分享給其他用戶,其他用戶可以使用共享庫中的模板,創(chuàng)建無須配置組件便可運行的工程。平臺簡介TipDM大數(shù)據(jù)挖掘建模平臺主要有以下幾個特點。平臺組件基于Python、R以及Spark分布式引擎,進(jìn)行數(shù)據(jù)分析。Python、R以及Spark是目前常見的用于數(shù)據(jù)分析的語言或工具,高度契合行業(yè)需求。用戶可在沒有Python、R或者Hadoop/Spark編程基礎(chǔ)的情況下,使用直觀的拖曳式圖形界面構(gòu)建數(shù)據(jù)分析流程,無須編程。提供公開可用的數(shù)據(jù)分析示例工程,一鍵創(chuàng)建、快速運行。支持挖掘流程每個節(jié)點的結(jié)果在線預(yù)覽。平臺包含Python、R、Spark這3種工具的組件包,用戶可以根據(jù)實際需求,靈活選擇不同的工具進(jìn)行數(shù)據(jù)挖掘建模。平臺簡介登錄平臺后,用戶即可看到“共享庫”模塊系統(tǒng)提供的示例工程(模板),如下圖所示。共享庫“共享庫”模塊主要用于標(biāo)準(zhǔn)大數(shù)據(jù)挖掘建模案例的快速創(chuàng)建和展示。通過“共享庫”模塊,用戶可以創(chuàng)建無須導(dǎo)入數(shù)據(jù)及配置參數(shù)就能夠快速運行的工程。用戶也可以將自己搭建的工程生成為模板,公開到“共享庫”模塊,供其他用戶一鍵創(chuàng)建實訓(xùn)。同時,每一個模板的創(chuàng)建者都具有模板的所有權(quán),能夠?qū)δ0暹M(jìn)行管理共享庫“

數(shù)據(jù)連接”模塊支持從DB2、SQLServer、MySQL、Oracle、PostgreSQL等常用關(guān)系數(shù)據(jù)庫導(dǎo)入數(shù)據(jù)。導(dǎo)入數(shù)據(jù)時的“新建連接”對話框如下圖所示。在輸入了連接名、連接地址、用戶名、密碼后單擊測試連接,成功新建數(shù)據(jù)庫連接。數(shù)據(jù)連接新建數(shù)據(jù)庫連接后,“數(shù)據(jù)集”模塊主要用于數(shù)據(jù)挖掘建模工程中數(shù)據(jù)的導(dǎo)入與管理,支持從本地導(dǎo)入任意類型的數(shù)據(jù)。導(dǎo)入數(shù)據(jù)時的“新增數(shù)據(jù)集”對話框如下圖所示。數(shù)據(jù)連接“我的工程”模塊主要用于數(shù)據(jù)挖掘建模流程化的創(chuàng)建與管理,工程示例流程如下圖所示。我的工程通過單擊“工程”欄下的

(新建工程)按鈕,用戶可以創(chuàng)建空白工程并通過“組件”欄下的組件進(jìn)行工程的配置,將數(shù)據(jù)輸入輸出、數(shù)據(jù)預(yù)處理、挖掘建模、模型評估等環(huán)節(jié)通過流程化的方式進(jìn)行連接,達(dá)到數(shù)據(jù)挖掘的目的。對于完成度優(yōu)秀的工程,可以將其公開到“共享庫”中,讓其他使用者學(xué)習(xí)和借鑒。我的工程在“組件”欄下,平臺提供了輸入/輸出組件、Python組件、R組件、Spark組件等相同組件,如下圖所示。輸入/輸出組件提供工程輸出與輸出組件。包括對象存儲輸入源、輸出源、hive輸入源、輸出到數(shù)據(jù)庫、hdfs輸入源、輸入源、數(shù)據(jù)庫輸入源、http輸入源等。我的工程Python算法包可分為13類,具體如下?!癙ython腳本”類提供一個Python代碼編輯框。用戶可以在代碼編輯框中粘貼已經(jīng)寫好的程序代碼并直接運行,無須額外配置算法?!邦A(yù)處理”類提供對數(shù)據(jù)進(jìn)行清洗的組件,包括數(shù)據(jù)標(biāo)準(zhǔn)化、缺失值處理、表堆疊、數(shù)據(jù)篩選、行列轉(zhuǎn)置、修改列名、衍生變量、數(shù)據(jù)拆分、主鍵合并、新增序列、數(shù)據(jù)排序、記錄去重和分組聚合等。“統(tǒng)計分析”類提供對數(shù)據(jù)整體情況進(jìn)行統(tǒng)計的常用組件,包括因子分析、全表統(tǒng)計、正態(tài)性檢驗、相關(guān)性分析、卡方檢驗、主成分分析和頻數(shù)統(tǒng)計等。“時間序列”類提供常用的時間序列組件,包括ARIMA等。“分類”類提供常用的分類組件,包括樸素貝葉斯、支持向量機(jī)、CART分類樹、邏輯回歸、神經(jīng)網(wǎng)絡(luò)和K最近鄰等。我的工程“模型評估”類提供用于模型評估的組件,包括模型評估。“模型預(yù)測”類提供用于模型預(yù)測的組件,包括模型預(yù)測“回歸”類提供常用的回歸算法,包括CART回歸樹、線性回歸、支持向量回歸和K最近鄰回歸等?!熬垲悺鳖愄峁┚垲惤M件,包括層次聚類、DBSCAN密度聚類和K-Means等?!瓣P(guān)聯(lián)規(guī)則”類提供常用的關(guān)聯(lián)規(guī)則算法,包括Apriori和FP-Growth等?!拔谋痉治觥鳖愄峁ξ谋緮?shù)據(jù)進(jìn)行清洗、特征提取與分析的常用算法,包括情感分析、文本過濾、文本分詞、TF-IDF、Word2Vec等。“深度學(xué)習(xí)”類提供常用的深度學(xué)習(xí)組件,包括循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等。“繪圖”類提供常用的畫圖組件,包括柱形圖、折線圖、散點圖、餅圖和詞云圖。我的工程R語言組件包含8類,具體如下?!癛語言腳本”類提供一個R語言代碼編輯框。用戶可以在代碼編輯框中粘貼已經(jīng)寫好的程序代碼并直接運行,無須額外配置組件?!邦A(yù)處理”類提供對數(shù)據(jù)進(jìn)行預(yù)處理的組件,包括缺失值處理、異常值處理、表連接、表合并、數(shù)據(jù)標(biāo)準(zhǔn)化、記錄去重、數(shù)據(jù)離散化、排序、數(shù)據(jù)拆分、頻數(shù)統(tǒng)計、新增序列、字符串拆分、字符串拼接、修改列名和衍生變量等?!敖y(tǒng)計分析”類提供對數(shù)據(jù)整體情況進(jìn)行統(tǒng)計的常用組件,包括卡方檢驗、因子分析、主成分分析、相關(guān)性分析、正態(tài)性檢驗和全表統(tǒng)計等?!胺诸悺鳖愄峁┏S玫姆诸惤M件,包括樸素貝葉斯、CART分類樹、C4.5分類樹、BP神經(jīng)網(wǎng)絡(luò)、KNN、SVM和邏輯回歸等。“時間序列”類提供常用的時間序列組件,包括ARIMA和指數(shù)平滑等我的工程“聚類”類提供常用的聚類組件,包括K-Means、DBSCAN和系統(tǒng)聚類等?!盎貧w”類提供常用的回歸組件,包括CART回歸樹、C4.5回歸樹、線性回歸、嶺回歸和KNN回歸等?!瓣P(guān)聯(lián)分析”類提供常用的關(guān)聯(lián)規(guī)則組件,包括Apriori等。我的工程Spark算法包可分為8類,具體如下?!邦A(yù)處理”類提供對數(shù)據(jù)進(jìn)行清洗的組件,包括數(shù)據(jù)去重、數(shù)據(jù)過濾、數(shù)據(jù)映射、數(shù)據(jù)反映射、數(shù)據(jù)拆分、數(shù)據(jù)排序、缺失值處理、數(shù)據(jù)標(biāo)準(zhǔn)化、衍生變量、表連接、表堆疊和數(shù)據(jù)離散化等?!敖y(tǒng)計分析”類提供對數(shù)據(jù)整體情況進(jìn)行統(tǒng)計分析的常用算法,包括行列統(tǒng)計、全表統(tǒng)計、相關(guān)性分析和重復(fù)值缺失值探索等?!胺诸悺鳖愄峁┏S玫姆诸愃惴?,包括邏輯回歸、決策樹、梯度提升樹、樸素貝葉斯、隨機(jī)森林、線性支持向量機(jī)和多層感知神經(jīng)網(wǎng)絡(luò)等。我的工程“聚類”類提供常用的聚類算法,包括K-Means聚類、二分K-Means聚類和混合高斯模型等?!盎貧w”類提供常用的回歸算法,包括線性回歸、廣義線性回歸、決策樹回歸、梯度提升樹回歸、隨機(jī)森林回歸和保序回歸等?!敖稻S”類提供常用的數(shù)據(jù)降維組件,包括PCA降維?!皡f(xié)同過濾”類提供常用的智能推薦算法,包括ALS算法等?!邦l繁模式挖掘”類提供常用的頻繁項集挖掘組件,包括FP-Growth。我的工程“個人組件”模塊主要滿足用戶的個性化需求。在用戶使用過程中,可根據(jù)自己的需求定制組件,方便使用。目前該模塊支持通過Python和R語言進(jìn)行個人組件的定制,單擊

(添加組件)按鈕,用戶可控制個人組件,如下圖所示。個人算法1實現(xiàn)文本生成目錄平臺簡介2以文本生成案例為例,在TipDM數(shù)據(jù)挖掘建模平臺上配置對應(yīng)實訓(xùn),展示流程的配置過程。詳細(xì)流程的配置過程,可訪問平臺進(jìn)行查看。在TipDM數(shù)據(jù)挖掘建模平臺上配置文本生成實訓(xùn)的總體流程如圖所示。實現(xiàn)文本生成在TipDM數(shù)據(jù)挖掘建模平臺上配置文本生成實訓(xùn),主要包括以下4個步驟。文本預(yù)處理,包括數(shù)據(jù)處理,字典創(chuàng)建以及序列生成。定義文本生成類的構(gòu)造函數(shù),權(quán)重初始化以及構(gòu)造網(wǎng)絡(luò)。設(shè)置配置項,執(zhí)行訓(xùn)練并定義文本生成器用于生成文本。調(diào)用主函數(shù)生成文本,觀察并分析生成的文本。實現(xiàn)文本生成本章所使用的數(shù)據(jù)為一份英文文本(txt文件)。使用TipDM數(shù)據(jù)挖掘建模平臺導(dǎo)入數(shù)據(jù),步驟如下。新增數(shù)據(jù)集。單擊【實訓(xùn)數(shù)據(jù)】模塊,選擇【新增數(shù)據(jù)集】,如圖所示。配置數(shù)據(jù)源設(shè)置新增數(shù)據(jù)集參數(shù)。在【封面圖片】中隨意選擇一張封面圖片。在【名稱】中填入“文本數(shù)據(jù)集”?!居行冢ㄌ欤宽椷x擇【永久】。在【描述】中填入“文本生成”?!驹L問權(quán)限】項選擇【私有】。單擊【點擊上傳】選擇需要上傳的文件。等待顯示成功后,單擊【確定】按鈕,即可上傳數(shù)據(jù),如圖所示。配置數(shù)據(jù)源數(shù)據(jù)上傳完成后,新建一個命名為【文本生成】的空白實訓(xùn),配置一個【輸入源】算法,步驟如下。拖曳【輸入源】算法。在【實訓(xùn)】欄下方的【算法】欄中,找到【系統(tǒng)算法】模塊中【內(nèi)置算法】下的【輸入/輸出】類。拖曳【輸入/輸出】類中的【輸入源】算法至畫布中。配置數(shù)據(jù)源配置【輸入源】算法。單擊畫布中的【輸入源】算法,然后單擊畫布右側(cè)【參數(shù)配置】欄中的【數(shù)據(jù)集】框,輸入“文本數(shù)據(jù)集”。在彈出的下拉框中選擇【文本數(shù)據(jù)集】,在【名稱】框中勾選【book.txt】。右鍵單擊【輸入源】算法,選擇【重命名】并輸入“文本數(shù)據(jù)集”,如圖所示。配置數(shù)據(jù)源1.數(shù)據(jù)處理對于原始的文本數(shù)據(jù),含有大量的標(biāo)點符號以及存在大小寫并存的情況,因此需先對文本數(shù)據(jù)檢查處理,并生成一個字符列表,具體步驟如下。文本預(yù)處理本章數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)處理,字典創(chuàng)建,序列生成。創(chuàng)建【數(shù)據(jù)處理】算法。進(jìn)入【個人算法】模塊,單擊【個人算法】欄的加號新增個人算法,在【算法名稱】框中輸入算法名“數(shù)據(jù)處理”,將數(shù)據(jù)處理的代碼放入【算法代碼】中,并在【#<editable>】行和【#</editable>】行之間插入輸入配置和輸出配置,如圖所示。文本預(yù)處理連接【數(shù)據(jù)處理】算法。拖曳【數(shù)據(jù)處理】算法至畫布中,并與【文本數(shù)據(jù)集】算法相連接,如圖所示。文本預(yù)處理對于生成的字符列表,還需創(chuàng)建字典用于字符的編碼和解碼,具體步驟如下。創(chuàng)建【字典創(chuàng)建】算法。進(jìn)入【個人算法】模塊,單擊【個人算法】欄的加號新增個人算法,在【算法名稱】框中輸入算法名“字典創(chuàng)建”。將字典創(chuàng)建的代碼放入【算法代碼】中,并在【#<editable>】行和【#</editable>】行之間插入輸入配置和輸出配置,如圖所示。文本預(yù)處理2.字典創(chuàng)建

連接【字典創(chuàng)建】算法。拖曳【字典創(chuàng)建】算法至畫布中,并與【數(shù)據(jù)處理】算法相連接,如圖所示。文本預(yù)處理對于網(wǎng)絡(luò),需要形成一個給定長度的序列,每個序列將由窗口中包含的字符組成,具體步驟如下。創(chuàng)建【序列生成】算法。進(jìn)入【個人算法】模塊,單擊【個人算法】欄的加號新增個人算法,在【算法名稱】框中輸入算法名“序列生成”。將序列生成的代碼放入【算法代碼】中,并在【#<editable>】行和【#</editable>】行之間插入輸入配置和輸出配置,如圖所示。文本預(yù)處理3.序列生成連接【序列生成】算法。拖曳【序列生成】算法至畫布中,并與【字典創(chuàng)建】算法相連接,如圖所示。文本預(yù)處理1.文本生成類的構(gòu)造函數(shù)定義用于初始化神經(jīng)網(wǎng)絡(luò)每一層的參數(shù),具體步驟如下。構(gòu)建網(wǎng)絡(luò)在網(wǎng)絡(luò)的構(gòu)建中,需要創(chuàng)建文本生成類的構(gòu)造函數(shù)以及構(gòu)建網(wǎng)絡(luò)。創(chuàng)建【文本生成類的構(gòu)造函數(shù)】算法。進(jìn)入【個人算法】模塊,單擊【個人算法】欄的加號新增個人算法,在【算法名稱】框中輸入算法名“文本生成類的構(gòu)造函數(shù)”,將文本生成類的構(gòu)造函數(shù)的代碼放入【算法代碼】中,并在【#<editable>】行和【#</editable>】行之間插入輸入配置和輸出配置,如圖所示。構(gòu)建網(wǎng)絡(luò)連接【文本生成類的構(gòu)造函數(shù)】算法。拖曳【文本生成類的構(gòu)造函數(shù)】算法至畫布中,并與【序列生成】算法相連接,如圖所示。構(gòu)建網(wǎng)絡(luò)完成了包含隱藏狀態(tài)和單元狀態(tài)的張量的定義后,即可開始整個體系結(jié)構(gòu)的組裝,具體步驟如下。創(chuàng)建【構(gòu)建網(wǎng)絡(luò)】算法。進(jìn)入【個人算法】模塊,單擊【個人算法】欄的加號新增個人算法,在【算法名稱】框中輸入算法名“構(gòu)建網(wǎng)絡(luò)”。將構(gòu)建網(wǎng)絡(luò)的代碼放入【算法代碼】中,并在【#<editable>】行和【#</editable>】行之間插入輸入配置和輸出配置,如圖所示。構(gòu)建網(wǎng)絡(luò)2.構(gòu)建網(wǎng)絡(luò)連接【構(gòu)建網(wǎng)絡(luò)】。拖曳【構(gòu)建網(wǎng)絡(luò)】算法至畫布中,并與【文本生成類的構(gòu)造函數(shù)】算法相連接,如圖所示。構(gòu)建網(wǎng)絡(luò)1.設(shè)置配置項在設(shè)置配置項中,需要設(shè)置循環(huán)次數(shù)和輸入數(shù)據(jù)的批量大小,具體步驟如下。訓(xùn)練網(wǎng)絡(luò)網(wǎng)絡(luò)的訓(xùn)練主要分為設(shè)置配置項、執(zhí)行效率、文本生成3個步驟。創(chuàng)建【設(shè)置配置項】算法。進(jìn)入【個人算法】模塊,單擊【個人算法】欄的加號新增個人算法,在【算法名稱】框中輸入算法名“設(shè)置配置項”,將設(shè)置配置項的代碼放入【算法代碼】中,并在【#<editable>】行和【#</editable>】行之間插入輸入配置和輸出配置,如圖所示。訓(xùn)練網(wǎng)絡(luò)連接【設(shè)置配置項】算法。拖曳【設(shè)置配置項】算法至畫布中,并與【構(gòu)建網(wǎng)絡(luò)】算法相連接,如圖所示。訓(xùn)練網(wǎng)絡(luò)為了執(zhí)行訓(xùn)練,需要初始化網(wǎng)絡(luò)和優(yōu)化器,一旦網(wǎng)絡(luò)被訓(xùn)練,將需要保存神經(jīng)網(wǎng)絡(luò)的權(quán)重,以便以后使用它們來生成文本,具體步驟如下。創(chuàng)建【執(zhí)行訓(xùn)練】算法。進(jìn)入【個人算法】模塊,單擊【個人算法】欄的加號新增個人算法,在【算法名稱】框中輸入算法名“執(zhí)行訓(xùn)練”。將執(zhí)行訓(xùn)練的代碼放入【算法代碼】中,并在【#<editable>】行和【#</editable>】行之間插入輸入配置和輸出配置,如圖所示。訓(xùn)練網(wǎng)絡(luò)2.執(zhí)行訓(xùn)練連接【執(zhí)行訓(xùn)練】算法。拖曳【執(zhí)行訓(xùn)練】算法至畫布中,并與【設(shè)置配置項】算法相連接,如圖所示。訓(xùn)練網(wǎng)絡(luò)在文本的生成中,需要先加載訓(xùn)練好的權(quán)重,然后從序列集合中隨機(jī)抽取一個樣本作為模式,開始生成下一個字符,定義文本生成器的具體步驟如下。創(chuàng)建【文本生成器】算法。進(jìn)入【個人算法】模塊,單擊【個人算法】欄的加號新增個人算法,在【算法名稱】框中輸入算法名“文本生成器”。將文本生成器的代碼放入【算法代碼】中,并在【#<editable>】行和【#</editable>】行之間插入輸入配置和輸出配置,如圖所示。訓(xùn)練網(wǎng)絡(luò)3.文本生成器連接【文本生成器】算法。拖曳【文本生成器】算法至畫布中,并與【執(zhí)行訓(xùn)練】算法相連接,如圖所示。訓(xùn)練網(wǎng)絡(luò)在完成了文本預(yù)處理、構(gòu)建網(wǎng)絡(luò)、訓(xùn)練網(wǎng)絡(luò)的函數(shù)定義后,需要通過主函數(shù)進(jìn)行調(diào)用,得到文本生成的結(jié)果,并對結(jié)果進(jìn)行分析,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論