




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第十三章
知識發(fā)現
(二)
2024/2/81主要內容研究背景MSMiner體系結構元數據數據倉庫平臺數據采掘集成工具2024/2/82典型的知識發(fā)現系統SAS公司的SASEnterpriseMinerIBM公司的IntelligentMinerSolution公司的Clementine加拿大SimonFraserUniv.的DBMiner中科院計算技術研究所的MSMiner等2024/2/83
知識發(fā)現工具SASSAS公司的SASEnterpriseMiner是一種通用的數據挖掘工具。通過收集分析各種統計資料和客戶購買模式,SASEnterpriseMiner可以幫助您發(fā)現業(yè)務的趨勢,解釋已知的事實,預測未來的結果,并識別出完成任務所需的關鍵因素,以實現增加收入、降低成本。2024/2/84
知識發(fā)現工具SASSASEnterpriseMiner提供"抽樣-探索-轉換-建模-評估"(SEMMA)的處理流程。數據挖掘算法有:·聚類分析,SOM/KOHONEN神經網絡分類算法·關聯模式/序列模式分析·多元回歸模型·決策樹模型(C45,CHAID,CART)·神經網絡模型(MLP,RBF)
·SAS/STAT,SAS/ETS等模塊提供的統計分析模型和時間序列分析模型也可嵌入其中。2024/2/85
知識發(fā)現工具IntelligentMiner
IBM公司的IntelligentMiner具有典型數據集自動生成、關聯發(fā)現、序列規(guī)律發(fā)現、概念性分類和可視化顯示等功能。它可以自動實現數據選擇、數據轉換、數據發(fā)掘和結果顯示。若有必要,對結果數據集還可以重復這一過程,直至得到滿意結果為止。2024/2/86
知識發(fā)現工具ClementineSolution公司的Clementine提供了一個可視化的快速建立模型的環(huán)境。它由數據獲取(DataAccess)、探查(Investigate)、整理(Manipulation)、建模(Modeling)和報告(Reporting)等部分組成。都使用一些有效、易用的按鈕表示,用戶只需用鼠標將這些組件連接起來建立一個數據流,可視化的界面使得數據挖掘更加直觀交互,從而可以將用戶的商業(yè)知識在每一步中更好的利用。2024/2/87數據挖掘工具:公用系統
MLC++MatlabWeka2024/2/88
知識發(fā)現工具MSMiner
中科院計算技術研究所智能信息處理開放實驗室開發(fā)的MSMiner是一種多策略知識發(fā)現平臺,能夠提供快捷有效的數據挖掘解決方案,提供多種知識發(fā)現方法。MSMiner具有下列特點:
.基于數據倉庫和新型的元數據管理按照主題創(chuàng)建數據倉庫,并通過元數據進行管理和維護。
.數據的抽取、轉換、裝載等預處理方便,支持OLAP查詢。
2024/2/89MSMiner的特點提供決策樹、支持向量機、粗糙集、模糊聚類、基于范例推理、統計方法、神經計算等多種數據挖掘算法,支持特征抽取、分類、聚類、預測、關聯規(guī)則發(fā)現、統計分析等數據挖掘功能,并支持高層次的決策分析功能。實現了可視化的任務編輯環(huán)境,以及功能強大的任務處理引擎,能夠快捷有效地實現各種數據轉換和數據挖掘任務。
可擴展性好。轉換規(guī)則和挖掘算法是封裝的、模塊化的,系統提供了一個開放的、靈活通用的接口,使用戶能夠加入新的規(guī)則和算法。
容易進行二次開發(fā)。
2024/2/810數據倉庫:特征面向主題集成性穩(wěn)定性隨時間變化2024/2/811數據倉庫:OLAPROLAP:RelationalOLAPMOLAP:MultidimensionalOLAPHOLAP:HybridOLAP2024/2/812數據挖掘和數據倉庫的結合數據倉庫為數據挖掘提供經良好處理的數據源數據挖掘為數據倉庫提供深層數據分析手段2024/2/813MSMiner體系結構設計目標:
提供快捷有效的數據挖掘解決方案。設計要求:開放性可擴展性效率易用性2024/2/814MSMiner體系結構MSMiner體系結構示意圖客戶端服務器端元數據模塊執(zhí)行數據采掘任務編輯數據采掘任務數據采掘集成工具數據抽取和集成主題組織OLAP可視化數據倉庫管理器數據倉庫OLEDBforODBC2024/2/815元數據的內容關于外部數據源的關于內部數據的(包括數據庫、表、字段的信息)關于數據倉庫的(包括事實表、維表、立方以及其它的中間表)關于用戶信息的數據采掘算法(包括算法的參數信息)關于采掘任務的(包括采掘步驟、每個步驟的所用的參數)2024/2/816元數據:元數據庫2024/2/817元數據:元數據對象模型設計思路一致性完備性易維護性2024/2/818元數據是層次的嵌套的封裝的互相聯系的采用面向對象的方法共有60多個類元數據的結構2024/2/819數據倉庫平臺:結構MSMiner數據倉庫結構示意圖外部數據數據倉庫元數據數據抽取、清洗、聚集、轉換主題2主題1主題nOLAP及可視化工具數據采掘集成工具...2024/2/820數據倉庫平臺:數據抽取和集成數據的簡單抽取和集成數據的復雜處理面向數據挖掘的數據預處理2024/2/821數據抽取和集成:MSETL
MSETL系統作為MSMiner數據挖掘平臺的一個重要組成部分,主要完成從業(yè)務數據源到分析數據源的轉換功能。具體包括從異質業(yè)務數據源中抽取需要的數據,對這些數據進行多種預處理,把經過處理后的數據裝載入指定數據倉庫/數據庫2024/2/822數據抽取和集成:MSETL
用戶界面(ETL轉換函數和ETL任務)邏輯處理元數據管理數據庫服務器2024/2/823數據抽取和集成:MSETL支持多種數據源和目的數據庫良好的可擴充性高效率的調度執(zhí)行功能增量更新功能2024/2/824數據抽取和集成:MSETL2024/2/825數據抽取和集成:MSETL2024/2/826數據倉庫平臺:數據倉庫建模產品號產品名稱產品目錄產品維表訂單號訂貨日期訂貨維表客戶號客戶名稱客戶地址客戶維表產品號客戶號訂單號時間標識地區(qū)名稱產品數量總價事實表時間標識月季度年時間維表地區(qū)名稱省別地區(qū)維表星型模型2024/2/827OLAPMOLAP,ROLAP,HOLAPOLAP的操作Slice(切片)Dice(切塊)Rollup(上卷)Drilldown(下鉆)Pivot(旋轉)OLAP方案
采用了自主開發(fā)的OLAPServer2024/2/828數據立方體2024/2/829數據倉庫平臺:OLAP的實現2024/2/830數據挖掘集成工具:結構數據挖掘集成工具結構示意圖數據倉庫平臺任務編輯任務規(guī)劃和執(zhí)行算法庫算法管理元數據任務模型庫、算法描述2024/2/831數據挖掘集成工具:數據挖掘任務模型Step1Step2Step4Step3Step5DMTask=(V,R)V={x|x∈StepObjects}R={<x,y>|P(x,y)∧x,y∈V}2024/2/832數據挖掘集成工具:數據挖掘任務模型步驟對象BNF語法定義:<StepObject>::=<Attribute_List>;<Method_List><Attribute_List>::= [<Attribute>|<Attribute>;<Attribute_List>]<Attribute>::=<Name>,<Value><Method_List>::=[<Method>|<Method>;<Method_List>]<Method>::=<Name>,<Script><Name>::=[<char>|<string>]<Value>::=[<char>|<string>|<integer>|<float>]<Script>::=<DML_Sentence>*2024/2/833數據挖掘集成工具:編輯任務模型任務向導2024/2/834數據挖掘集成工具:編輯任務模型任務編輯圖板2024/2/835數據挖掘集成工具:處理任務模型人機界面主控模塊規(guī)劃器解釋器緩存函數庫黑板任務模型庫數據采掘任務處理引擎的結構2024/2/836數據挖掘集成工具:處理任務模型任務規(guī)劃和解釋執(zhí)行S1S3S2S4S5S1-S2-S3-S4-S52024/2/837數據挖掘集成工具:DML語言DML函數人機交互和控制臺輸入/輸出數值計算字符串處理圖形、圖表展示文件操作數據庫訪問網絡通訊對象訪問消息處理和流程控制黑板操作外部功能調用其它輔助功能2024/2/838數據挖掘集成工具:內嵌決策樹SOM神經網絡粗糙集關聯規(guī)則2024/2/839決策樹2024/2/840知識約簡知識約簡——在保持知識庫的分類或決策能力不變的條件下,刪除其中不相關或不重要知識冗余知識——資源的浪費;干擾人們作出正確而簡潔的決策RoughSet——把那些無法確認的個體都歸屬于邊界線區(qū)域,而這種邊界線區(qū)域被定義為上近似集和下近似集之差集(Z.Pawlak)
知識約簡是粗糙集的核心內容之一
2024/2/841RoughSet約簡2024/2/842數據挖掘集成工具:外聯BP神經網絡統計分析模糊聚類超曲面分類SVM貝葉斯網絡基于范例推理(CBR)隱馬爾科夫模型(HMM)2024/2/843BP用于預測2024/2/844統計工具線性回歸模型
——一元線性回歸、多元線性回歸、逐步回歸
非線性回歸模型——二次曲線、三次曲線、指數曲線、冪指數曲線、生產函數等模型
確定型時間序列模型——指數平滑法、趨勢移動平均法(水平趨勢、線性趨勢和二次曲線趨勢)、成長曲線模型(Compertz曲線、Logistic曲線和修正指數曲線)、季節(jié)指數法隨機型時間序列模型(自回歸-移動平均模型ARMA)相關分析
2024/2/845自回歸移動平均(ARMA)2024/2/846模糊聚類基于傳遞閉包的模糊聚類
——計算模糊相似矩陣的傳遞閉包,
從而獲得傳遞閉包法的模糊聚類基于攝動的模糊聚類
——參數系
相似矩陣的最優(yōu)模糊等價陣及其等價標準型獲得失真最小的模糊聚類2024/2/847數據挖
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 涼山安全咨詢合同范例
- 公司過戶個人合同范本
- 農村置換地合同范例
- 入股買賣合同范本
- 分包合同范例電工
- 借款委托合同范例
- 公司舊廠房租賃合同范例
- 兒童家庭服務合同范例
- 專家集體跳槽合同范例
- 農場租憑合同范例
- 勞務派遣勞務外包項目方案投標文件(技術方案)
- 2024年吉安職業(yè)技術學院單招職業(yè)技能測試題庫附答案
- 2024年蘇州市職業(yè)大學單招職業(yè)適應性測試題庫完整版
- 2024年廣州港集團有限公司招聘筆試沖刺題(帶答案解析)
- 2024年國家社會科學基金年度項目申請書;2024年國家社會科學基金重大項目投標書
- 小學生主題班會 傳承雷鋒精神 爭做時代新人 課件
- 產品尺寸檢測報告
- 《小龍蝦工廠化人工繁育技術規(guī)程》
- 03J111-1輕鋼龍骨內隔墻
- SCL-90心理測試試卷
- 法語冠詞總結
評論
0/150
提交評論