




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘陳 昕2015.04數(shù)據(jù)挖掘掘的應用用人文地理理數(shù)據(jù)挖掘掘的應用用娛樂傳媒媒數(shù)據(jù)挖掘掘的應用用智慧城市市數(shù)據(jù)挖掘掘的應用用商業(yè)零售售數(shù)據(jù)挖掘掘的應用用Web推薦數(shù)據(jù)挖掘掘的應用用體育競技技VS數(shù)據(jù)挖掘掘的應用用大數(shù)據(jù)應應用信息安全全輿情分析析能效優(yōu)化化商務智能能與數(shù)據(jù)據(jù)挖掘工工具商務智能能與數(shù)據(jù)據(jù)挖掘工工具商務智能能與數(shù)據(jù)據(jù)挖掘工工具商務智能能與數(shù)據(jù)據(jù)挖掘功功能計劃預測 預算 實際 分 析 沒有絕對正確的答案 依靠分析 眾多的預測方案 靈活的要求 核心:數(shù)數(shù)據(jù)參 考書書目目1.數(shù)據(jù)挖掘掘概念與與技術,JiaweiHanMichelineKamber著,范明明、孟孟小峰等等譯,
2、機機械工工業(yè)出版版社出版版2.數(shù)據(jù)倉庫庫,W.H.Inmon著,王志志海等譯譯 ,機機械工工業(yè)出版版社出版版3.數(shù)據(jù)倉庫庫技術與與聯(lián)機分分析處理理,王珊珊等編編著,科科學出版版社出版版4.數(shù)據(jù)挖掘掘實踐,OliviaParrRud著,朱揚揚勇、左子葉等譯,機機械工業(yè)業(yè)出版社社出版數(shù)據(jù)倉庫庫以及數(shù)數(shù)據(jù)挖掘掘是目前前數(shù)據(jù)庫庫領域最最為活躍躍的一個個方面,受到學學術界與與產業(yè)界界的廣泛泛關注。典型應應用環(huán)境境如DSS,EIS,ERP。大型數(shù)數(shù)據(jù)庫的的數(shù)據(jù)倉倉庫解決決方案有有:InformixMetaCubeOracleExpressSybaseQuickStartDataMartDB2DataWar
3、ehouseManagerSQLServerAnalysis servicesNCRTeradataWarehouse對各類海海量數(shù)據(jù)據(jù)需要自自動分析析、分類類、匯總總、發(fā)現(xiàn)現(xiàn)和描述述數(shù)據(jù)蘊蘊涵的趨趨勢、標標記異常常等課程簡介介各類管理理人員需需要從大大量復雜雜的業(yè)務務數(shù)據(jù)中中獲取各各自權限限內的決決策信息息,及時時把握市市場變化化脈搏,作出正正確有效效的判斷斷與抉擇擇隨著數(shù)據(jù)據(jù)庫系統(tǒng)統(tǒng)的逐日日運行,數(shù)據(jù)將將堆積越越來越龐龐大數(shù)據(jù)處理理的重點點需要從從傳統(tǒng)業(yè)業(yè)務擴展展到業(yè)務務數(shù)據(jù)的的聯(lián)機分分析處理理,并得得到面向向各種管管理主題題的統(tǒng)計計信息和和決策支支持信息息數(shù)據(jù)倉庫庫是基于于大規(guī)模模數(shù)據(jù)庫
4、庫的DSS環(huán)境的核核心課程簡介介數(shù)據(jù)倉庫庫的基本本概念多維數(shù)據(jù)據(jù)模型數(shù)據(jù)倉庫庫的系統(tǒng)統(tǒng)結構數(shù)據(jù)倉庫庫的實現(xiàn)現(xiàn)基于數(shù)據(jù)據(jù)倉庫的的數(shù)據(jù)挖挖掘課程簡介介數(shù)據(jù)挖掘掘通常稱稱為數(shù)據(jù)據(jù)庫中的的知識發(fā)現(xiàn)現(xiàn)(KDD),是自自動的或或方便的的模式提提取,這這些模式代表隱藏藏在大型型數(shù)據(jù)庫庫、數(shù)據(jù)據(jù)倉庫或或其他大大量信息息存儲中中的知識識涉及的學學科有:數(shù)據(jù)庫庫技術、人工智智能、機機器學習習、神經(jīng)經(jīng)網(wǎng)絡、統(tǒng)計學學、模式式識別、知識庫庫、知識識獲取、信息檢檢索、高高性能計計算和數(shù)數(shù)據(jù)可視視化課程簡介介數(shù)據(jù)挖掘掘的概念念數(shù)據(jù)挖掘掘的功能能數(shù)據(jù)挖掘掘的分類類與主要要問題數(shù)據(jù)挖掘掘系統(tǒng)的的結構挖掘大型型數(shù)據(jù)庫庫中的關關聯(lián)
5、規(guī)則則分類與預預測聚類分析析復雜類型型的數(shù)據(jù)據(jù)挖掘數(shù)據(jù)倉庫庫與數(shù)據(jù)據(jù)挖掘的的應用與與發(fā)展趨趨勢課程簡介介一、數(shù)據(jù)據(jù)倉庫與與數(shù)據(jù)挖挖掘概述述二、數(shù)據(jù)據(jù)倉庫的的OLAP技術三、數(shù)據(jù)據(jù)預處理理四、數(shù)據(jù)據(jù)挖掘的的系統(tǒng)結結構五、挖掘掘大型數(shù)數(shù)據(jù)庫中中的關聯(lián)聯(lián)規(guī)則六、分類類與預測測七、聚類類分析八、復雜雜類型的的數(shù)據(jù)挖挖掘九、數(shù)據(jù)據(jù)倉庫與與數(shù)據(jù)挖挖掘的應應用與發(fā)發(fā)展趨勢勢課程結構構1.什么是數(shù)數(shù)據(jù)倉庫庫2.什么是數(shù)數(shù)據(jù)挖掘掘3.數(shù)據(jù)挖掘掘的功能能4.數(shù)據(jù)挖掘掘的分類類5.數(shù)據(jù)挖掘掘的主要要問題第一章數(shù)數(shù)據(jù)倉庫庫與數(shù)據(jù)據(jù)挖掘概概述第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫1.數(shù)據(jù)倉庫庫的產生生當前的數(shù)數(shù)據(jù)處理理與數(shù)據(jù)據(jù)分為
6、兩兩類:操作型處處理與數(shù)數(shù)據(jù)分析型或或信息型型處理與與數(shù)據(jù)第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫1.數(shù)據(jù)倉庫庫的產生生操作型處處理:又又稱事務務處理,是指對對數(shù)據(jù)庫庫聯(lián)機的的日常操操作,通通常是對對一個或或一組記記錄的查查詢和修修改,主主要為企企業(yè)的特特定應用用服務,所關心心的是響響應時間間,數(shù)據(jù)據(jù)的安全全性和完完整性操作型環(huán)環(huán)境是以以單一數(shù)數(shù)據(jù)庫為為中心的的數(shù)據(jù)環(huán)環(huán)境第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫1.數(shù)據(jù)倉庫庫的產生生分析型處處理:又又稱信息息型處理理,是針針對制定定決策過過程中管管理方面面的需求求而進行行的處理理,通過過瀏覽大大量數(shù)據(jù)據(jù)找出其其中的趨趨勢。如如DSS,EIS等分析型環(huán)環(huán)境是一一種新的的體系
7、化化環(huán)境操作型數(shù)據(jù)(原始數(shù)據(jù))分析型數(shù)據(jù)(導出數(shù)據(jù))細節(jié)的綜合的,或提煉的在存取瞬間是準確的代表過去的數(shù)據(jù)可更新不更新操作需求事先可知道操作需求事先不知道生命周期符合SDLC完全不同的生命周期對性能要求高對性能要求寬松一個時刻操作一個單元一個時刻操作一個集合事務驅動分析驅動面向應用面向分析一次操作數(shù)據(jù)量小一次操作數(shù)據(jù)量大支持日常操作支持管理需求第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫1.數(shù)據(jù)倉庫庫的產生生操作型數(shù)數(shù)據(jù)和分分析型數(shù)數(shù)據(jù)的不不同而導導致的數(shù)數(shù)據(jù)分離離和自然然擴展過過程:操作型原子/數(shù)據(jù)倉庫部門/數(shù)據(jù)集市個體第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫2.數(shù)據(jù)倉庫庫的定義義數(shù)據(jù)倉庫庫之父W
8、.H.Inmon給出了定定義:數(shù)據(jù)倉庫庫是一個面面向主題題的、集集成的、不可更更新的且且隨時間間不斷變變化的數(shù)數(shù)據(jù)集合合,用來來支持管管理人員員的決策策第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫2.數(shù)據(jù)倉庫庫的定義義面向主題題主題:是是在較高高層次上上將企業(yè)業(yè)信息系系統(tǒng)中的的數(shù)據(jù)綜綜合、歸歸類并進進行分析析利用的的抽象,即對應應企業(yè)中中某一宏宏觀分析析領域所所涉及的的分析對對象面向主題題的數(shù)據(jù)據(jù)組織方方式就是是對分析析對象的的數(shù)據(jù)的的一個完完整、一一致的描描述,能能完整、統(tǒng)一地地刻畫各各個分析析對象所所涉及的的企業(yè)各各項數(shù)據(jù)據(jù),以及及數(shù)據(jù)之之間的聯(lián)聯(lián)系第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫2.數(shù)據(jù)倉庫庫的定義義面向主題題
9、每個主題題在數(shù)據(jù)據(jù)倉庫中中都是由由一組關關系表實實現(xiàn)的主題的實實現(xiàn)基于于關系數(shù)數(shù)據(jù)庫在具體實實現(xiàn)中,一個主主題可以以劃分成成多個表表,主題題只是一一個邏輯輯的概念念基于一個個主題的的所有表表都含有有一個稱稱為公共共鍵碼的的屬性作作為其主主碼的一一部分第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫2.數(shù)據(jù)倉庫庫的定義義面向主題題Customer IDFrom date To dateNameAddressPhoneSexCustomer IDFrom date To dateNameAddressCredit ratingemployerSexCustomer IDActivity dateAmountLocati
10、onFor item第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫2.數(shù)據(jù)倉庫庫的定義義數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)是集成成的要統(tǒng)一源源數(shù)據(jù)中中所有矛矛盾之處處,如同同名異義義、字長長不一致致等等進行數(shù)據(jù)據(jù)綜合和和計算。數(shù)據(jù)綜綜合可以以從原有有數(shù)據(jù)庫庫抽取數(shù)數(shù)據(jù)生成成,但許許多是在在數(shù)據(jù)倉倉庫內部部生成第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫2.數(shù)據(jù)倉庫庫的定義義數(shù)據(jù)倉庫庫數(shù)據(jù)是是不可更更新數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)主要供供企業(yè)決決策分析析使用,所涉及及的數(shù)據(jù)據(jù)操作主主要是數(shù)數(shù)據(jù)查詢詢,一般般不進行行修改操操作數(shù)據(jù)庫中中進行聯(lián)聯(lián)機處理理的數(shù)據(jù)據(jù)經(jīng)過集集成輸入入到數(shù)據(jù)據(jù)倉庫中中,數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)超過存存儲期限限,這些些數(shù)據(jù)將將從當前前數(shù)據(jù)倉
11、倉庫中刪刪去DWMS比DBMS簡單,但但查詢要要求高第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫2.數(shù)據(jù)倉庫庫的定義義數(shù)據(jù)倉庫庫數(shù)據(jù)隨隨時間不不斷變化化數(shù)據(jù)倉庫庫隨時間間變化不不斷增加加新的內內容數(shù)據(jù)倉庫庫隨時間間變化不不斷刪除除舊的內內容數(shù)據(jù)倉庫庫中包含含有大量量的綜合合數(shù)據(jù),這些數(shù)數(shù)據(jù)隨時時間變化化不斷地地進行重重新綜合合數(shù)據(jù)倉庫庫數(shù)據(jù)的的碼鍵包包含時間間項,標標明歷史史時期第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫3.數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)組織3.1組織結構構元數(shù)據(jù)高度綜合級輕度綜合級當前細節(jié)級早期細節(jié)級20022003年每月銷售表20022003年每周銷售表20022003年銷售情況表20002003年銷售明細表第一節(jié)什什
12、么么是數(shù)據(jù)據(jù)倉庫3.數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)組織3.1組織結構構數(shù)據(jù)倉庫庫中的不不同綜合合級別,稱為“粒度”。粒度度越大,表示細細節(jié)程度度越低,綜合程程度越高高元數(shù)據(jù)(metadata):關于于數(shù)據(jù)的的數(shù)據(jù)操作型環(huán)環(huán)境向數(shù)數(shù)據(jù)倉庫庫環(huán)境轉轉換而建建立的元數(shù)據(jù)數(shù)據(jù)倉庫庫中用來來與終端端用戶的的多維商商業(yè)模型型/前端工具具之間建建立映射射,也為為DSS元數(shù)據(jù)第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫3.數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)組織3.2粒度與分分割粒度是數(shù)數(shù)據(jù)倉庫庫的重要要概念粒度是指指數(shù)據(jù)倉倉庫的數(shù)數(shù)據(jù)單位位中保存存數(shù)據(jù)的的細化或或綜合程程度的級級別細化程度度越高,粒度級級就越小小;細化化程度越越低粒度度級就越越大一般采用
13、用多重粒粒度級:高細節(jié)節(jié)級、低低細節(jié)級級第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫3.數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)組織3.2粒度與分分割分割是數(shù)數(shù)據(jù)倉庫庫的重要要概念分割是指指將數(shù)據(jù)據(jù)分散到到各自的的物理單單元中去去以便能能分別獨獨立處理理,以提提高數(shù)據(jù)據(jù)處理效效率數(shù)據(jù)分割割后的數(shù)數(shù)據(jù)單元元稱為分分片數(shù)據(jù)分割割標準依依據(jù)實際際情況確確定,一一般應包包括日期期項分割使數(shù)數(shù)據(jù)更易易重構、索引、重組、恢復、監(jiān)控第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫3.數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)組織3.2粒度與分分割簡單分割割實例,分片以以時間標標準來組組織:健康保險生命保險事故保險2001分片1分片2分片32002分片4分片5分片62003分片7分片8分片9第
14、一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫3.數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)組織3.3數(shù)據(jù)組織織形式簡單堆積積文件:數(shù)據(jù)逐逐天積累累輪轉綜合合文件:按日、周、月月、年組組織數(shù)據(jù)據(jù)集簡化直接接文件:每隔一一定時間間的數(shù)據(jù)據(jù)庫快照照連續(xù)文件件:通過過比較兩兩個簡單單直接文文件不同同而生成成第二節(jié)什什么么是數(shù)據(jù)據(jù)挖掘1.數(shù)據(jù)挖掘掘的提出出數(shù)據(jù)挖掘掘是信息息技術自自然演化化的結果果數(shù)據(jù)收集集、數(shù)據(jù)據(jù)庫創(chuàng)建建數(shù)據(jù)管理理:數(shù)據(jù)據(jù)存儲和和檢索,數(shù)據(jù)庫庫事務處處理數(shù)據(jù)分析析與理解解:涉及及數(shù)據(jù)倉倉庫和數(shù)數(shù)據(jù)挖掘掘第二節(jié)什什么么是數(shù)據(jù)據(jù)挖掘1.數(shù)據(jù)挖掘掘的提出出數(shù)據(jù)庫技技術的發(fā)發(fā)展歷史史20世紀60年代,功功能強大大的數(shù)據(jù)據(jù)庫系統(tǒng)統(tǒng)70年代
15、,從從網(wǎng)狀和和層次到到關系數(shù)數(shù)據(jù)庫系系統(tǒng)、建建模工具具、索引引和數(shù)據(jù)據(jù)組織技技術,聯(lián)聯(lián)機事務務處理OLTP80年代,使使用先進進的數(shù)據(jù)據(jù)模型,如面向向對象模模型、對對象關系系模型、演繹模模型第二節(jié)什什么么是數(shù)據(jù)據(jù)挖掘1.數(shù)據(jù)挖掘掘的提出出數(shù)據(jù)倉庫庫技術數(shù)據(jù)清理理:文件件之間轉轉換、存存儲介質質轉移、清除過過期數(shù)據(jù)據(jù)、層次次轉換(操作型型到分析析型)數(shù)據(jù)集成成:從操操作型環(huán)環(huán)境到分分析型環(huán)環(huán)境聯(lián)機分析析處理OLAP:是一種種分析技技術,具具有匯總總、合并并和聚集集功能,以及從從不同角角度觀察察信息的的能力第二節(jié)什什么么是數(shù)據(jù)據(jù)挖掘1.數(shù)據(jù)挖掘掘的提出出數(shù)據(jù)的豐豐富增強強了對功功能更強強的數(shù)據(jù)據(jù)分
16、析工工具的需需求對海量數(shù)數(shù)據(jù)的理理解,遠遠遠超出出人的能能力,產產生“數(shù)數(shù)據(jù)墳墓墓”決策者缺缺乏從海海量數(shù)據(jù)據(jù)中提取取有價值值知識的的工具,許多專專家系統(tǒng)統(tǒng)技術還還是依賴賴經(jīng)驗數(shù)據(jù)挖掘掘工具進進行數(shù)據(jù)據(jù)分析,可以發(fā)發(fā)現(xiàn)重要要的數(shù)據(jù)據(jù)模式,破除數(shù)數(shù)據(jù)與信信息的鴻鴻溝第二節(jié)什什么么是數(shù)據(jù)據(jù)挖掘2.數(shù)據(jù)挖掘掘的定義義數(shù)據(jù)挖掘掘是指從大大量數(shù)據(jù)據(jù)中提取取或“挖挖掘”知知識。通通常也可可理解為為數(shù)據(jù)庫庫中的知知識發(fā)現(xiàn)現(xiàn)KDD,也可以以理解為為KDD的一個基基本步驟驟。還有有提法:數(shù)據(jù)庫中中知識挖挖掘知識提取取數(shù)據(jù)/模式分析析數(shù)據(jù)考古古數(shù)據(jù)捕撈撈第二節(jié)什什么么是數(shù)據(jù)據(jù)挖掘2.數(shù)據(jù)挖掘掘的定義義知識發(fā)現(xiàn)現(xiàn)過
17、程7個步驟如如下:1)數(shù)據(jù)清清理:消消除噪聲聲或不一一致2)數(shù)據(jù)集集成:多多種數(shù)據(jù)據(jù)源組合合在一起起3)數(shù)據(jù)選選擇:從從數(shù)據(jù)庫庫中檢索索與分析析任務相相關的數(shù)數(shù)據(jù)。4)數(shù)據(jù)變變換:數(shù)數(shù)據(jù)變換換或統(tǒng)一一成適合合挖掘的的形式,如匯總總或聚集集操作5)數(shù)據(jù)挖挖掘:使使用智能能方法提提取數(shù)據(jù)據(jù)模式第二節(jié)什什么么是數(shù)據(jù)據(jù)挖掘2.數(shù)據(jù)挖掘掘的定義義知識發(fā)現(xiàn)現(xiàn)過程7個步驟如如下:6)模式評評估:根根據(jù)某種種興趣度度量,識識別表示示知識的的真正有有趣的模模式7)知識表表示:使使用可視視化和知知識表示示技術,向用戶戶提供挖挖掘的知知識第二節(jié)什什么么是數(shù)據(jù)據(jù)挖掘2.數(shù)據(jù)挖掘掘的定義義知識發(fā)現(xiàn)現(xiàn)過程7個步驟如如下:
18、數(shù)據(jù)倉庫知識數(shù)據(jù)庫清理與集成選擇與變換數(shù)據(jù)挖掘模式評估與表示第二節(jié)什什么么是數(shù)據(jù)據(jù)挖掘2.數(shù)據(jù)挖掘掘的定義義數(shù)據(jù)挖掘掘的廣義定定義:數(shù)數(shù)據(jù)挖掘掘是從存存放在數(shù)數(shù)據(jù)庫、數(shù)據(jù)倉倉庫或其其他信息息庫中的的大量數(shù)數(shù)據(jù)中挖挖掘有趣趣知識的的過程第二節(jié)什什么么是數(shù)據(jù)據(jù)挖掘3.數(shù)據(jù)挖掘掘系統(tǒng)的的主要成成分數(shù)據(jù)庫、數(shù)據(jù)倉倉庫或其其他信息息庫數(shù)據(jù)庫或或數(shù)據(jù)倉倉庫服務務器知識庫數(shù)據(jù)挖掘掘引擎模式評估估模塊圖形用戶戶界面第二節(jié)什什么么是數(shù)據(jù)據(jù)挖掘4.數(shù)據(jù)挖掘掘的應用用環(huán)境關系數(shù)據(jù)據(jù)庫數(shù)據(jù)倉庫庫事務數(shù)據(jù)據(jù)庫高級數(shù)據(jù)據(jù)庫系統(tǒng)統(tǒng)和高級級數(shù)據(jù)庫庫第二節(jié)什什么么是數(shù)據(jù)據(jù)挖掘第三節(jié)數(shù)數(shù)據(jù)據(jù)挖掘功功能1.數(shù)據(jù)挖掘掘功能數(shù)據(jù)挖掘掘
19、功能用于指定定數(shù)據(jù)挖掘掘任務中要找的的模式類類型。數(shù)數(shù)據(jù)挖挖掘任務務一般分分為兩類類:描述和預測描述性挖挖掘任務務刻劃數(shù)數(shù)據(jù)庫中中數(shù)據(jù)的的一般特特性預測性挖挖掘任務務在當前前數(shù)據(jù)上上進行推推斷,以以進行預預測第三節(jié)數(shù)數(shù)據(jù)據(jù)挖掘功功能2.概念/類描述:特征化化和區(qū)分分數(shù)據(jù)可以以與類或或概念相相關聯(lián)。用匯總總的、簡簡潔的、精確的的方式描描述每個個類和概概念稱為為類/概念描述述這種描述述可以通通過以下下方法得得到:數(shù)據(jù)特征征化:目目標類數(shù)數(shù)據(jù)的一一般特征征或特性性的匯總總數(shù)據(jù)區(qū)分分:將目目標類對對象的一一般特性性與一個個或多個個對比類類對象的的一般特特性進行行比較數(shù)據(jù)特征征化和比比較第三節(jié)數(shù)數(shù)據(jù)據(jù)挖
20、掘功功能3.關聯(lián)分析析關聯(lián)分析析發(fā)現(xiàn)關聯(lián)聯(lián)規(guī)則,這些規(guī)規(guī)則展示示屬性-值頻繁地地在給定定數(shù)據(jù)集集中一起起出現(xiàn)的的條件。關聯(lián)分分析適用用于事務務數(shù)據(jù)分分析關聯(lián)規(guī)則則形式化描描述為,解釋為為“滿足足X中條件的的數(shù)據(jù)庫庫元組也也滿足Y中的條件件”多維關聯(lián)聯(lián)規(guī)則一個以上上屬性或或謂詞之之間的關關聯(lián)規(guī)則則單維關聯(lián)聯(lián)規(guī)則包含單個個謂詞的的關聯(lián)規(guī)規(guī)則第三節(jié)數(shù)數(shù)據(jù)據(jù)挖掘功功能4.分類與預預測分類就是找出出描述并并區(qū)分數(shù)數(shù)據(jù)類或或概念的的模型(或函數(shù)數(shù)),以以便能夠夠使用模模型預測測類標記未未知的對象類類預測是構造和和使用模模型評估估無標號號樣本類類,或評評估給定定樣本可可能具有有的屬性性值或值值區(qū)間第三節(jié)數(shù)數(shù)
21、據(jù)據(jù)挖掘功功能4.分類與預預測數(shù)據(jù)分類類的基本本技術有有:判定樹歸歸納貝葉斯分分類貝葉斯網(wǎng)網(wǎng)絡神經(jīng)網(wǎng)絡絡第三節(jié)數(shù)數(shù)據(jù)據(jù)挖掘功功能5.聚類分析析將物理或或抽象對對象的集集合分組組成為由由類似的的對象組組成的多多個類的的過程成成為聚類(clustering)由聚類所所生成的的簇是一一組數(shù)據(jù)據(jù)對象的的集合,同一簇簇中的的對象彼彼此相似似,而與與其他簇簇中的對對象相異異通過聚類類,人能能夠識別別密集的的和稀疏疏的區(qū)域域,因而而發(fā)現(xiàn)全全局的分分布模式式,以及及數(shù)據(jù)屬屬性之間間的有趣趣的相互互關系聚類第三節(jié)數(shù)數(shù)據(jù)據(jù)挖掘功功能5.聚類分析析聚類分析析是數(shù)據(jù)挖挖掘的一一個功能能,能夠夠作為一一個獨立立的工具具來獲得得數(shù)據(jù)分分布的情情況,觀觀察每個個簇的特特點,集集中對特特定的某某些簇做做進一步步的分析析。此外外,聚類類分析也也可以作作為其他他算法的的預處理理步驟聚類技術術主要有有:劃
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 幼兒園安全檢查的自查報告(3篇)
- 二零二五年度醫(yī)療機構醫(yī)生全職雇傭合同范本
- 二零二五年度培訓機構員工知識產權侵權糾紛處理合同范本
- 二零二五年度學校事業(yè)單位財務人員勞動合同
- 二零二五年度書畫藝術市場調研與合作研究合同
- 2025年度裝飾裝修工程結算合同模板
- 二零二五年度合作社土地流轉項目實施合同
- 二零二五年度園林綠化工程預算咨詢服務協(xié)議
- 二零二五年度醫(yī)院陪護人員就業(yè)保障與福利合同
- 2025年度超齡員工用工免責協(xié)議書(高科技產業(yè)適用)
- 兩層鋼結構廠房施工方案
- 班級凝聚力主題班會12
- 初中語文“經(jīng)典誦讀與海量閱讀”校本課程實施方案
- 北京市東城區(qū)2021-2022學年第一學期四年級期末考試語文試卷(含答案)
- 2025 春夏·淘寶天貓運動戶外行業(yè)趨勢白皮書
- 西門子S7-1200 PLC應用技術項目教程(第3版) 課件 1.認識S7-1200PLC寬屏-(LAD+SCL)
- 《稅法》(第六版)全書教案電子講義
- 翻斗車司機安全培訓
- 計算機軟件配置管理計劃規(guī)范
- 《勞動保障監(jiān)察條例》課件
- 河南省勞動關系協(xié)調員職業(yè)技能大賽技術工作文件
評論
0/150
提交評論