




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘軟件與工具2022/12/24知識(shí)管理與數(shù)據(jù)分析實(shí)驗(yàn)室1數(shù)據(jù)挖掘軟件與工具2022/12/17知識(shí)管理與數(shù)據(jù)分析實(shí)驗(yàn)數(shù)據(jù)挖掘是多學(xué)科知識(shí)的綜合,涵蓋了數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)、可視化技術(shù)、信息科學(xué)、機(jī)器學(xué)習(xí)等多方面知識(shí)。數(shù)據(jù)挖掘的重要作用已為人們了解,為了實(shí)現(xiàn)有效的數(shù)據(jù)挖掘,絕大多數(shù)用戶必須借助于合適的數(shù)據(jù)挖掘軟件,所以,數(shù)據(jù)挖掘軟件的研究是數(shù)據(jù)挖掘的一個(gè)重要研究方向。2022/12/24知識(shí)管理與數(shù)據(jù)分析實(shí)驗(yàn)室2一、數(shù)據(jù)挖掘軟件—重要研究方向數(shù)據(jù)挖掘是多學(xué)科知識(shí)的綜合,涵蓋了數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)、可視化3二、數(shù)據(jù)挖掘軟件的發(fā)展代次特征DM算法支持集成性分布計(jì)算數(shù)據(jù)模型可視化功能1作為一個(gè)獨(dú)立的應(yīng)用和移動(dòng)數(shù)據(jù)/各種計(jì)算設(shè)備的數(shù)據(jù)聯(lián)合獨(dú)立的系統(tǒng)單個(gè)機(jī)器向量數(shù)據(jù)無(wú)2和數(shù)據(jù)庫(kù)以及數(shù)據(jù)倉(cāng)庫(kù)集成多個(gè)算法:能夠挖掘一次不能放進(jìn)內(nèi)存的數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)同質(zhì)、局部區(qū)域的計(jì)算機(jī)群集有些系統(tǒng)支持對(duì)象,文本和連續(xù)的媒體數(shù)據(jù)基本圖表3和預(yù)測(cè)模型系統(tǒng)集成多個(gè)算法數(shù)據(jù)管理和預(yù)言模型系統(tǒng)intranet/extranet網(wǎng)絡(luò)計(jì)算支持半結(jié)構(gòu)化數(shù)據(jù)和web數(shù)據(jù)較復(fù)雜多維圖形及動(dòng)畫(huà)4和移動(dòng)數(shù)據(jù)/各種計(jì)算設(shè)備的數(shù)據(jù)聯(lián)合多個(gè)算法數(shù)據(jù)管理、預(yù)言模型、移動(dòng)系統(tǒng)移動(dòng)和各種計(jì)算設(shè)備普遍存在的計(jì)算模型交互式可視化挖掘流程設(shè)計(jì)和結(jié)果展示功能3二、數(shù)據(jù)挖掘軟件的發(fā)展代次特征DM算法支持集成性分布計(jì)算數(shù)數(shù)據(jù)挖掘功能數(shù)據(jù)挖掘估計(jì)Estimation分類Classification預(yù)測(cè)Prediction關(guān)聯(lián)規(guī)則AssociationRules描述與可視化DescriptionandVisualization聚類Cluster數(shù)據(jù)挖掘功能數(shù)據(jù)挖掘估計(jì)Estimation分類Classi數(shù)據(jù)挖掘模型的分類數(shù)據(jù)描述和匯總(Datadescriptionandsummarization)細(xì)分(Segmentation)概念描述(Conceptdescriptions)分類(Classification)預(yù)測(cè)(Prediction)相關(guān)分析(Dependencyanalysis)5數(shù)據(jù)挖掘模型的分類數(shù)據(jù)描述和匯總(Datadescript數(shù)據(jù)挖掘技術(shù)的分類6數(shù)據(jù)挖掘描述預(yù)測(cè)統(tǒng)計(jì)回歸關(guān)聯(lián)規(guī)則決策樹(shù)可視化聚類順序關(guān)聯(lián)匯總神經(jīng)網(wǎng)絡(luò)分類時(shí)間序列預(yù)測(cè)數(shù)據(jù)挖掘技術(shù)的分類6數(shù)數(shù)據(jù)挖掘的典型結(jié)果——金融
問(wèn)題描述:預(yù)測(cè)信用水平是好還是差,銀行據(jù)此決定是否向客戶發(fā)放貸款,發(fā)放多少結(jié)果描述:(決策樹(shù))7收入大于5萬(wàn)元/年是否有無(wú)儲(chǔ)蓄帳戶是否房主否是是否批準(zhǔn)不批準(zhǔn)批準(zhǔn)數(shù)據(jù)挖掘的典型結(jié)果——金融問(wèn)題描述:預(yù)測(cè)信用水平是好還是差數(shù)據(jù)挖掘的典型結(jié)果——電信
問(wèn)題描述:根據(jù)客戶信息,預(yù)測(cè)客戶流失可能性結(jié)果描述:(神經(jīng)網(wǎng)絡(luò))8輸入流失概率(0.87)輸出男293000元/月套餐A130元/月…………數(shù)據(jù)挖掘的典型結(jié)果——電信問(wèn)題描述:根據(jù)客戶信息,預(yù)測(cè)客戶數(shù)據(jù)挖掘的典型結(jié)果——零售問(wèn)題描述:如何決定超市中商品的擺放來(lái)增加銷售額結(jié)果描述:(Web圖)9數(shù)據(jù)挖掘的典型結(jié)果——零售問(wèn)題描述:如何決定超市中商品的擺放數(shù)據(jù)挖掘的典型結(jié)果——制造業(yè)
問(wèn)題描述:如何對(duì)市場(chǎng)進(jìn)行細(xì)分,使產(chǎn)品滿足最有價(jià)值客戶結(jié)果描述:(Koholen聚類)10數(shù)據(jù)挖掘的典型結(jié)果——制造業(yè)問(wèn)題描述:如何對(duì)市場(chǎng)進(jìn)行細(xì)分,數(shù)據(jù)挖掘的典型結(jié)果——政府
問(wèn)題描述:如何從眾多申請(qǐng)經(jīng)費(fèi)或者納稅中發(fā)現(xiàn)欺詐結(jié)果描述:(回歸、神經(jīng)網(wǎng)絡(luò))11數(shù)據(jù)挖掘的典型結(jié)果——政府問(wèn)題描述:如何從眾多申請(qǐng)經(jīng)費(fèi)或者BusinessUnderstanding商業(yè)理解過(guò)程理解商業(yè)目標(biāo)熟悉業(yè)務(wù)流程統(tǒng)一業(yè)務(wù)術(shù)語(yǔ)成本/收益分析當(dāng)前系統(tǒng)評(píng)估主要用戶使用者結(jié)果的輸出形式挖掘任務(wù)的結(jié)果和現(xiàn)有系統(tǒng)的集成任務(wù)分解挖掘目標(biāo)分解為子任務(wù)將商業(yè)目標(biāo)轉(zhuǎn)化為數(shù)據(jù)挖掘任務(wù)約束條件確認(rèn)資源數(shù)據(jù)保護(hù)制度等制定項(xiàng)目計(jì)劃1商業(yè)目標(biāo)的確認(rèn)數(shù)據(jù)挖掘目標(biāo)的確定數(shù)據(jù)挖掘成功的標(biāo)準(zhǔn)BusinessUnderstanding商業(yè)理解過(guò)程1商DataUnderstanding數(shù)據(jù)理解過(guò)程數(shù)據(jù)源情況數(shù)據(jù)處理范圍數(shù)據(jù)源訪問(wèn)情況數(shù)據(jù)描述數(shù)據(jù)質(zhì)量描述基本統(tǒng)計(jì)值/匯總值數(shù)據(jù)探索數(shù)據(jù)分布相關(guān)性分析缺失值處理空值處理奇異值處理2收集數(shù)據(jù)數(shù)據(jù)描述數(shù)據(jù)探索數(shù)據(jù)質(zhì)量檢查DataUnderstanding數(shù)據(jù)理解過(guò)程2收集數(shù)據(jù)DataPreparation數(shù)據(jù)準(zhǔn)備過(guò)程數(shù)據(jù)整合多個(gè)數(shù)據(jù)表的數(shù)據(jù)聯(lián)合數(shù)據(jù)的匯總和聚合數(shù)據(jù)選擇記錄的選擇和排除數(shù)據(jù)集合構(gòu)成:測(cè)試集,檢驗(yàn)集數(shù)據(jù)轉(zhuǎn)換函數(shù)轉(zhuǎn)換標(biāo)準(zhǔn)化處理離散化處理數(shù)據(jù)清洗數(shù)據(jù)缺失值處理數(shù)據(jù)派生新變量的生成3數(shù)據(jù)合并和清洗數(shù)據(jù)選擇數(shù)據(jù)轉(zhuǎn)換DataPreparation數(shù)據(jù)準(zhǔn)備過(guò)程3Modeling數(shù)據(jù)建模過(guò)程選擇合適的建模技術(shù)數(shù)據(jù)預(yù)處理的情況依賴于數(shù)據(jù)挖掘問(wèn)題類型和輸出形式構(gòu)建模型訓(xùn)練環(huán)境訓(xùn)練樣本的構(gòu)建模型建立選擇初始化參數(shù)設(shè)置模型估計(jì)考慮過(guò)訓(xùn)練的情況誤差分布的調(diào)查模型參數(shù)修正及其原因4依據(jù)目標(biāo)選擇模型構(gòu)建模型訓(xùn)練環(huán)境模型建立和評(píng)估Modeling數(shù)據(jù)建模過(guò)程4依據(jù)目標(biāo)選擇模型Evaluation模型評(píng)估過(guò)程模型評(píng)估根據(jù)專家的知識(shí)和經(jīng)驗(yàn)進(jìn)行人工評(píng)估從商業(yè)角度來(lái)評(píng)價(jià)結(jié)果的有效性定義參照對(duì)象計(jì)算升益曲線(LiftCurve)期望的投資回報(bào)率(ROI)對(duì)整個(gè)數(shù)據(jù)挖掘過(guò)程進(jìn)行回顧決定下一步驟模型發(fā)布的時(shí)機(jī)發(fā)布框架結(jié)構(gòu)進(jìn)一步改進(jìn)模型5依據(jù)測(cè)試集模型評(píng)估不同模型的檢驗(yàn)標(biāo)準(zhǔn)技術(shù)標(biāo)準(zhǔn)和商業(yè)準(zhǔn)則Evaluation模型評(píng)估過(guò)程5依據(jù)測(cè)試集模型評(píng)估Deployment模型發(fā)布過(guò)程數(shù)據(jù)挖掘結(jié)果的發(fā)布方式模型的結(jié)果輸出到數(shù)據(jù)庫(kù)形成簡(jiǎn)單的報(bào)表結(jié)果轉(zhuǎn)化為可解釋的業(yè)務(wù)規(guī)則在線實(shí)時(shí)地模型評(píng)分過(guò)程數(shù)據(jù)的輸入輸出與原有業(yè)務(wù)系統(tǒng)的集成實(shí)時(shí)數(shù)據(jù)的來(lái)源和結(jié)果反饋模型運(yùn)用的模式實(shí)時(shí)處理批處理自動(dòng)化問(wèn)題(周期)6結(jié)果的發(fā)布方式數(shù)據(jù)挖掘結(jié)果的運(yùn)用數(shù)字到業(yè)務(wù)知識(shí)轉(zhuǎn)化Deployment模型發(fā)布過(guò)程6結(jié)果的發(fā)布方式Clementine的軟件構(gòu)成ClementineClient;ClementineServer;ClementineBatch;SPSSDataAccessPack;ClementineSolutionPublisher(Optional)。18Clementine的軟件構(gòu)成ClementineClieClementine的兩種運(yùn)行方式單機(jī)版運(yùn)行以下情況必須使用單機(jī)版運(yùn)行:數(shù)據(jù)存儲(chǔ)在本機(jī),且不能在網(wǎng)絡(luò)上共享;機(jī)器不聯(lián)網(wǎng);無(wú)ClementineServer可供使用。以下情況可以使用單機(jī)版運(yùn)行:要處理的數(shù)據(jù)量很?。ū热纾盒∮?M)并且數(shù)據(jù)存儲(chǔ)在單機(jī)或可到達(dá)局域網(wǎng)處;單機(jī)內(nèi)存、硬盤相對(duì)要處理的數(shù)據(jù)量來(lái)說(shuō)足夠大,并且速度也滿足要求。19C/S結(jié)構(gòu)運(yùn)行以下情況必須使用C/S結(jié)構(gòu)運(yùn)行:?jiǎn)螜C(jī)內(nèi)存或者硬盤不夠大,難以運(yùn)行大量數(shù)據(jù);單機(jī)上沒(méi)有或者無(wú)法配置數(shù)據(jù)連結(jié),無(wú)法從數(shù)據(jù)庫(kù)中獲取數(shù)據(jù);組織規(guī)則不允許下載大量數(shù)據(jù)到單機(jī)。以下情況可以使用C/S結(jié)構(gòu)運(yùn)行:要處理的數(shù)據(jù)量很大,并且存儲(chǔ)在可以通過(guò)SPSSDataAccess技術(shù)可到達(dá)的數(shù)據(jù)庫(kù)處;單機(jī)速度慢,ClementineServer運(yùn)行的機(jī)器配置高。Clementine的兩種運(yùn)行方式單機(jī)版運(yùn)行www.broaClementine的系統(tǒng)結(jié)構(gòu)20Clementine的三層結(jié)構(gòu):1、數(shù)據(jù)庫(kù)層;通過(guò)ClementineServer進(jìn)行調(diào)度,把那些可以通過(guò)SQL語(yǔ)句執(zhí)行的數(shù)據(jù)操作過(guò)程以SQL語(yǔ)句的形式導(dǎo)入數(shù)據(jù)庫(kù)并在其中進(jìn)行;2、服務(wù)器端;進(jìn)行調(diào)度,不能在數(shù)據(jù)庫(kù)層面進(jìn)行的操作在服務(wù)器端進(jìn)行(比如數(shù)據(jù)挖掘模型計(jì)算過(guò)程)3、客戶端。在三層結(jié)構(gòu)下通過(guò)ClementineServer進(jìn)行調(diào)度,由客戶端向服務(wù)器端發(fā)送數(shù)據(jù)挖掘指令,并接受和展示數(shù)據(jù)挖掘結(jié)果。ClementineClient和ClementineServer通過(guò)SDL(StreamDescriptionLanguage
)之間進(jìn)行信息交換,ClementineServer和Database通過(guò)SQL語(yǔ)句進(jìn)行信息交換。Clementine的系統(tǒng)結(jié)構(gòu)www.broadtargetClementine運(yùn)行的兩種方式圖形界面方式適用操作系統(tǒng)Windows系列特點(diǎn):圖形化界面與客戶直接交互適合交互式分析過(guò)程21命令行方式使用操作系統(tǒng)Windows系列Unix系列特點(diǎn):命令行操作不能生成圖形,所有結(jié)果保存在文件里或者數(shù)據(jù)庫(kù)中適合于以下情況使用:運(yùn)行耗時(shí)較長(zhǎng)的建模過(guò)程希望在后臺(tái)運(yùn)行一些耗時(shí)較長(zhǎng)的數(shù)據(jù)準(zhǔn)備過(guò)程希望按照一定的時(shí)間定期運(yùn)行(比如每周、每月等)希望把Clementine(數(shù)據(jù)挖掘過(guò)程)運(yùn)行過(guò)程嵌入應(yīng)用系統(tǒng)中Clementine運(yùn)行的兩種方式圖形界面方式www.broClementine的界面和設(shè)計(jì)思路可視化界面四個(gè)區(qū)域分別是建模區(qū)、結(jié)點(diǎn)區(qū)、模型描述區(qū)、項(xiàng)目管理區(qū)通過(guò)連接結(jié)點(diǎn)構(gòu)成數(shù)據(jù)流建立模型Clementine通過(guò)7類結(jié)點(diǎn)的連接完成數(shù)據(jù)挖掘工作,它們是:Source(源結(jié)點(diǎn)):Database、Var.Files等RecordOps(記錄處理結(jié)點(diǎn)):Select、Sample等`FieldOps(字段處理結(jié)點(diǎn)):Type、Filter等Graphs(圖形結(jié)點(diǎn)):Plot、Distribute等Modeling(模型結(jié)點(diǎn)):NeuralNet、C5.0等Output(輸出結(jié)點(diǎn)):Table、Matrix等22Clementine的界面和設(shè)計(jì)思路可視化界面www.bro七大類節(jié)點(diǎn)按功能分為七大類節(jié)點(diǎn)數(shù)據(jù)源節(jié)點(diǎn)記錄處理節(jié)點(diǎn)變量處理節(jié)點(diǎn)圖形節(jié)點(diǎn)模型節(jié)點(diǎn)輸出節(jié)點(diǎn)導(dǎo)出節(jié)點(diǎn)七大類節(jié)點(diǎn)按功能分為七大類節(jié)點(diǎn)圖形基本版產(chǎn)生圖形種類圖形基本版產(chǎn)生圖形種類記錄和變量的處理對(duì)于記錄的處理對(duì)于變量的處理DEMO數(shù)據(jù)探索數(shù)據(jù)清洗記錄和變量的處理對(duì)于記錄的處理豐富的數(shù)據(jù)挖掘模型聚類算法模型關(guān)聯(lián)分析模型決策樹(shù)模型其它模型回歸模型OracleDMIBMDB2IntelligentMinerSQLSERVER2005AnalysisServices
豐富的數(shù)據(jù)挖掘模型聚類算法模型關(guān)聯(lián)分析模型決策樹(shù)模型其它模型使用演示使用演示2022/12/24知識(shí)管理與數(shù)據(jù)分析實(shí)驗(yàn)室28ThankYou!2022/12/17知識(shí)管理與數(shù)據(jù)分析實(shí)驗(yàn)室28Thank數(shù)據(jù)挖掘軟件與工具2022/12/24知識(shí)管理與數(shù)據(jù)分析實(shí)驗(yàn)室29數(shù)據(jù)挖掘軟件與工具2022/12/17知識(shí)管理與數(shù)據(jù)分析實(shí)驗(yàn)數(shù)據(jù)挖掘是多學(xué)科知識(shí)的綜合,涵蓋了數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)、可視化技術(shù)、信息科學(xué)、機(jī)器學(xué)習(xí)等多方面知識(shí)。數(shù)據(jù)挖掘的重要作用已為人們了解,為了實(shí)現(xiàn)有效的數(shù)據(jù)挖掘,絕大多數(shù)用戶必須借助于合適的數(shù)據(jù)挖掘軟件,所以,數(shù)據(jù)挖掘軟件的研究是數(shù)據(jù)挖掘的一個(gè)重要研究方向。2022/12/24知識(shí)管理與數(shù)據(jù)分析實(shí)驗(yàn)室30一、數(shù)據(jù)挖掘軟件—重要研究方向數(shù)據(jù)挖掘是多學(xué)科知識(shí)的綜合,涵蓋了數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)、可視化31二、數(shù)據(jù)挖掘軟件的發(fā)展代次特征DM算法支持集成性分布計(jì)算數(shù)據(jù)模型可視化功能1作為一個(gè)獨(dú)立的應(yīng)用和移動(dòng)數(shù)據(jù)/各種計(jì)算設(shè)備的數(shù)據(jù)聯(lián)合獨(dú)立的系統(tǒng)單個(gè)機(jī)器向量數(shù)據(jù)無(wú)2和數(shù)據(jù)庫(kù)以及數(shù)據(jù)倉(cāng)庫(kù)集成多個(gè)算法:能夠挖掘一次不能放進(jìn)內(nèi)存的數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)同質(zhì)、局部區(qū)域的計(jì)算機(jī)群集有些系統(tǒng)支持對(duì)象,文本和連續(xù)的媒體數(shù)據(jù)基本圖表3和預(yù)測(cè)模型系統(tǒng)集成多個(gè)算法數(shù)據(jù)管理和預(yù)言模型系統(tǒng)intranet/extranet網(wǎng)絡(luò)計(jì)算支持半結(jié)構(gòu)化數(shù)據(jù)和web數(shù)據(jù)較復(fù)雜多維圖形及動(dòng)畫(huà)4和移動(dòng)數(shù)據(jù)/各種計(jì)算設(shè)備的數(shù)據(jù)聯(lián)合多個(gè)算法數(shù)據(jù)管理、預(yù)言模型、移動(dòng)系統(tǒng)移動(dòng)和各種計(jì)算設(shè)備普遍存在的計(jì)算模型交互式可視化挖掘流程設(shè)計(jì)和結(jié)果展示功能3二、數(shù)據(jù)挖掘軟件的發(fā)展代次特征DM算法支持集成性分布計(jì)算數(shù)數(shù)據(jù)挖掘功能數(shù)據(jù)挖掘估計(jì)Estimation分類Classification預(yù)測(cè)Prediction關(guān)聯(lián)規(guī)則AssociationRules描述與可視化DescriptionandVisualization聚類Cluster數(shù)據(jù)挖掘功能數(shù)據(jù)挖掘估計(jì)Estimation分類Classi數(shù)據(jù)挖掘模型的分類數(shù)據(jù)描述和匯總(Datadescriptionandsummarization)細(xì)分(Segmentation)概念描述(Conceptdescriptions)分類(Classification)預(yù)測(cè)(Prediction)相關(guān)分析(Dependencyanalysis)33數(shù)據(jù)挖掘模型的分類數(shù)據(jù)描述和匯總(Datadescript數(shù)據(jù)挖掘技術(shù)的分類34數(shù)據(jù)挖掘描述預(yù)測(cè)統(tǒng)計(jì)回歸關(guān)聯(lián)規(guī)則決策樹(shù)可視化聚類順序關(guān)聯(lián)匯總神經(jīng)網(wǎng)絡(luò)分類時(shí)間序列預(yù)測(cè)數(shù)據(jù)挖掘技術(shù)的分類6數(shù)數(shù)據(jù)挖掘的典型結(jié)果——金融
問(wèn)題描述:預(yù)測(cè)信用水平是好還是差,銀行據(jù)此決定是否向客戶發(fā)放貸款,發(fā)放多少結(jié)果描述:(決策樹(shù))35收入大于5萬(wàn)元/年是否有無(wú)儲(chǔ)蓄帳戶是否房主否是是否批準(zhǔn)不批準(zhǔn)批準(zhǔn)數(shù)據(jù)挖掘的典型結(jié)果——金融問(wèn)題描述:預(yù)測(cè)信用水平是好還是差數(shù)據(jù)挖掘的典型結(jié)果——電信
問(wèn)題描述:根據(jù)客戶信息,預(yù)測(cè)客戶流失可能性結(jié)果描述:(神經(jīng)網(wǎng)絡(luò))36輸入流失概率(0.87)輸出男293000元/月套餐A130元/月…………數(shù)據(jù)挖掘的典型結(jié)果——電信問(wèn)題描述:根據(jù)客戶信息,預(yù)測(cè)客戶數(shù)據(jù)挖掘的典型結(jié)果——零售問(wèn)題描述:如何決定超市中商品的擺放來(lái)增加銷售額結(jié)果描述:(Web圖)37數(shù)據(jù)挖掘的典型結(jié)果——零售問(wèn)題描述:如何決定超市中商品的擺放數(shù)據(jù)挖掘的典型結(jié)果——制造業(yè)
問(wèn)題描述:如何對(duì)市場(chǎng)進(jìn)行細(xì)分,使產(chǎn)品滿足最有價(jià)值客戶結(jié)果描述:(Koholen聚類)38數(shù)據(jù)挖掘的典型結(jié)果——制造業(yè)問(wèn)題描述:如何對(duì)市場(chǎng)進(jìn)行細(xì)分,數(shù)據(jù)挖掘的典型結(jié)果——政府
問(wèn)題描述:如何從眾多申請(qǐng)經(jīng)費(fèi)或者納稅中發(fā)現(xiàn)欺詐結(jié)果描述:(回歸、神經(jīng)網(wǎng)絡(luò))39數(shù)據(jù)挖掘的典型結(jié)果——政府問(wèn)題描述:如何從眾多申請(qǐng)經(jīng)費(fèi)或者BusinessUnderstanding商業(yè)理解過(guò)程理解商業(yè)目標(biāo)熟悉業(yè)務(wù)流程統(tǒng)一業(yè)務(wù)術(shù)語(yǔ)成本/收益分析當(dāng)前系統(tǒng)評(píng)估主要用戶使用者結(jié)果的輸出形式挖掘任務(wù)的結(jié)果和現(xiàn)有系統(tǒng)的集成任務(wù)分解挖掘目標(biāo)分解為子任務(wù)將商業(yè)目標(biāo)轉(zhuǎn)化為數(shù)據(jù)挖掘任務(wù)約束條件確認(rèn)資源數(shù)據(jù)保護(hù)制度等制定項(xiàng)目計(jì)劃1商業(yè)目標(biāo)的確認(rèn)數(shù)據(jù)挖掘目標(biāo)的確定數(shù)據(jù)挖掘成功的標(biāo)準(zhǔn)BusinessUnderstanding商業(yè)理解過(guò)程1商DataUnderstanding數(shù)據(jù)理解過(guò)程數(shù)據(jù)源情況數(shù)據(jù)處理范圍數(shù)據(jù)源訪問(wèn)情況數(shù)據(jù)描述數(shù)據(jù)質(zhì)量描述基本統(tǒng)計(jì)值/匯總值數(shù)據(jù)探索數(shù)據(jù)分布相關(guān)性分析缺失值處理空值處理奇異值處理2收集數(shù)據(jù)數(shù)據(jù)描述數(shù)據(jù)探索數(shù)據(jù)質(zhì)量檢查DataUnderstanding數(shù)據(jù)理解過(guò)程2收集數(shù)據(jù)DataPreparation數(shù)據(jù)準(zhǔn)備過(guò)程數(shù)據(jù)整合多個(gè)數(shù)據(jù)表的數(shù)據(jù)聯(lián)合數(shù)據(jù)的匯總和聚合數(shù)據(jù)選擇記錄的選擇和排除數(shù)據(jù)集合構(gòu)成:測(cè)試集,檢驗(yàn)集數(shù)據(jù)轉(zhuǎn)換函數(shù)轉(zhuǎn)換標(biāo)準(zhǔn)化處理離散化處理數(shù)據(jù)清洗數(shù)據(jù)缺失值處理數(shù)據(jù)派生新變量的生成3數(shù)據(jù)合并和清洗數(shù)據(jù)選擇數(shù)據(jù)轉(zhuǎn)換DataPreparation數(shù)據(jù)準(zhǔn)備過(guò)程3Modeling數(shù)據(jù)建模過(guò)程選擇合適的建模技術(shù)數(shù)據(jù)預(yù)處理的情況依賴于數(shù)據(jù)挖掘問(wèn)題類型和輸出形式構(gòu)建模型訓(xùn)練環(huán)境訓(xùn)練樣本的構(gòu)建模型建立選擇初始化參數(shù)設(shè)置模型估計(jì)考慮過(guò)訓(xùn)練的情況誤差分布的調(diào)查模型參數(shù)修正及其原因4依據(jù)目標(biāo)選擇模型構(gòu)建模型訓(xùn)練環(huán)境模型建立和評(píng)估Modeling數(shù)據(jù)建模過(guò)程4依據(jù)目標(biāo)選擇模型Evaluation模型評(píng)估過(guò)程模型評(píng)估根據(jù)專家的知識(shí)和經(jīng)驗(yàn)進(jìn)行人工評(píng)估從商業(yè)角度來(lái)評(píng)價(jià)結(jié)果的有效性定義參照對(duì)象計(jì)算升益曲線(LiftCurve)期望的投資回報(bào)率(ROI)對(duì)整個(gè)數(shù)據(jù)挖掘過(guò)程進(jìn)行回顧決定下一步驟模型發(fā)布的時(shí)機(jī)發(fā)布框架結(jié)構(gòu)進(jìn)一步改進(jìn)模型5依據(jù)測(cè)試集模型評(píng)估不同模型的檢驗(yàn)標(biāo)準(zhǔn)技術(shù)標(biāo)準(zhǔn)和商業(yè)準(zhǔn)則Evaluation模型評(píng)估過(guò)程5依據(jù)測(cè)試集模型評(píng)估Deployment模型發(fā)布過(guò)程數(shù)據(jù)挖掘結(jié)果的發(fā)布方式模型的結(jié)果輸出到數(shù)據(jù)庫(kù)形成簡(jiǎn)單的報(bào)表結(jié)果轉(zhuǎn)化為可解釋的業(yè)務(wù)規(guī)則在線實(shí)時(shí)地模型評(píng)分過(guò)程數(shù)據(jù)的輸入輸出與原有業(yè)務(wù)系統(tǒng)的集成實(shí)時(shí)數(shù)據(jù)的來(lái)源和結(jié)果反饋模型運(yùn)用的模式實(shí)時(shí)處理批處理自動(dòng)化問(wèn)題(周期)6結(jié)果的發(fā)布方式數(shù)據(jù)挖掘結(jié)果的運(yùn)用數(shù)字到業(yè)務(wù)知識(shí)轉(zhuǎn)化Deployment模型發(fā)布過(guò)程6結(jié)果的發(fā)布方式Clementine的軟件構(gòu)成ClementineClient;ClementineServer;ClementineBatch;SPSSDataAccessPack;ClementineSolutionPublisher(Optional)。46Clementine的軟件構(gòu)成ClementineClieClementine的兩種運(yùn)行方式單機(jī)版運(yùn)行以下情況必須使用單機(jī)版運(yùn)行:數(shù)據(jù)存儲(chǔ)在本機(jī),且不能在網(wǎng)絡(luò)上共享;機(jī)器不聯(lián)網(wǎng);無(wú)ClementineServer可供使用。以下情況可以使用單機(jī)版運(yùn)行:要處理的數(shù)據(jù)量很?。ū热纾盒∮?M)并且數(shù)據(jù)存儲(chǔ)在單機(jī)或可到達(dá)局域網(wǎng)處;單機(jī)內(nèi)存、硬盤相對(duì)要處理的數(shù)據(jù)量來(lái)說(shuō)足夠大,并且速度也滿足要求。47C/S結(jié)構(gòu)運(yùn)行以下情況必須使用C/S結(jié)構(gòu)運(yùn)行:?jiǎn)螜C(jī)內(nèi)存或者硬盤不夠大,難以運(yùn)行大量數(shù)據(jù);單機(jī)上沒(méi)有或者無(wú)法配置數(shù)據(jù)連結(jié),無(wú)法從數(shù)據(jù)庫(kù)中獲取數(shù)據(jù);組織規(guī)則不允許下載大量數(shù)據(jù)到單機(jī)。以下情況可以使用C/S結(jié)構(gòu)運(yùn)行:要處理的數(shù)據(jù)量很大,并且存儲(chǔ)在可以通過(guò)SPSSDataAccess技術(shù)可到達(dá)的數(shù)據(jù)庫(kù)處;單機(jī)速度慢,ClementineServer運(yùn)行的機(jī)器配置高。Clementine的兩種運(yùn)行方式單機(jī)版運(yùn)行www.broaClementine的系統(tǒng)結(jié)構(gòu)48Clementine的三層結(jié)構(gòu):1、數(shù)據(jù)庫(kù)層;通過(guò)ClementineServer進(jìn)行調(diào)度,把那些可以通過(guò)SQL語(yǔ)句執(zhí)行的數(shù)據(jù)操作過(guò)程以SQL語(yǔ)句的形式導(dǎo)入數(shù)據(jù)庫(kù)并在其中進(jìn)行;2、服務(wù)器端;進(jìn)行調(diào)度,不能在數(shù)據(jù)庫(kù)層面進(jìn)行的操作在服務(wù)器端進(jìn)行(比如數(shù)據(jù)挖掘模型計(jì)算過(guò)程)3、客戶端。在三層結(jié)構(gòu)下通過(guò)ClementineServer進(jìn)行調(diào)度,由客戶端向服務(wù)器端發(fā)送數(shù)據(jù)挖掘指令,并接受和展示數(shù)據(jù)挖掘結(jié)果。ClementineClient和ClementineServer通過(guò)SDL(StreamDescriptionLanguage
)之間進(jìn)行信息交換,ClementineServer和Database通過(guò)SQL語(yǔ)句進(jìn)行信息交換。Clementine的系統(tǒng)結(jié)構(gòu)www.broadtargetClementine運(yùn)行的兩種方式圖形界面方式適用操作系統(tǒng)Windows系列特點(diǎn):
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 深海探險(xiǎn)起點(diǎn):船舶租賃合同揭秘
- 飛行員培訓(xùn)合同合作意向范本
- 車險(xiǎn)代理合同書(shū)樣本
- 企業(yè)員工培訓(xùn)合作協(xié)議合同
- 股權(quán)激勵(lì)實(shí)施合同協(xié)議
- 施工領(lǐng)域農(nóng)民工勞動(dòng)合同模板
- 汽車購(gòu)銷合同其一:條款解析
- 小學(xué)生心理課件
- 無(wú)線廣播電視傳輸中的信號(hào)傳輸信道分配考核試卷
- 天然氣儲(chǔ)層滲透性改善技術(shù)考核試卷
- 2024年甘肅天水麥積山石窟藝術(shù)研究所招聘工作人員考試真題
- 2025年山東省榮成市屬事業(yè)單位招聘崗位及歷年高頻重點(diǎn)模擬試卷提升(共500題附帶答案詳解)
- 火星表面材料分析-深度研究
- 《職業(yè)技能等級(jí)評(píng)價(jià)規(guī)范編制指南編制說(shuō)明》
- 《教育強(qiáng)國(guó)建設(shè)規(guī)劃綱要(2024-2035年)》解讀講座
- 畜禽養(yǎng)殖場(chǎng)惡臭污染物排放及其處理技術(shù)研究進(jìn)展
- 超聲內(nèi)鏡引導(dǎo)下穿刺活檢術(shù)的配合及護(hù)理
- 新生兒常見(jiàn)的產(chǎn)傷及護(hù)理
- 代寫回憶錄合同
- 2024年10月自考00149國(guó)際貿(mào)易理論與實(shí)務(wù)試題及答案
- 天耀中華合唱簡(jiǎn)譜大劇院版
評(píng)論
0/150
提交評(píng)論