




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、數(shù)據倉庫與數(shù)據挖掘邊雪芬共六十八頁 第一(dy)部分 數(shù)據倉庫2022/7/202HD-bxf共六十八頁數(shù)據倉庫1.1 從數(shù)據庫到數(shù)據倉庫1.2 什么(shn me)是數(shù)據倉庫1.3 DBMS vs. DWMS1.4 數(shù)據倉庫的系統(tǒng)結構與相關問題1.5 數(shù)據倉庫的相關概念 1.1 從數(shù)據庫到數(shù)據倉庫2022/7/203HD-bxf共六十八頁1.1 從數(shù)據庫到數(shù)據倉庫Why數(shù)據倉庫數(shù)據庫:主要用于事務處理。數(shù)據庫技術一直力圖使自己能勝任從事務處理、批處理到分析處理的各種類型的信息處理任務。但它對分析處理的支持一直不能令人滿意,尤其是當以事務處理為主的OLTP(on-line transactio
2、n processing ,聯(lián)機事務處理 )應用與以分析處理為主的DSS(Decision Support System ,決策支持系統(tǒng))應用共存于同一個數(shù)據庫系統(tǒng)中時,這兩種類型的處理發(fā)生了明顯(mngxin)的沖突。2022/7/204HD-bxf共六十八頁1.1 從數(shù)據庫到數(shù)據倉庫Why數(shù)據倉庫“蜘蛛網”問題為了避免企業(yè)中各部門或各用戶間的沖突和簡化用戶的數(shù)據視圖,一種稱作“抽取程序”的方法目前被廣泛地應用。不加控制的連續(xù)抽取最終導致系統(tǒng)內的數(shù)據間形成了錯綜復雜的網狀結構,人們形象地稱為“蜘蛛網”。企業(yè)的規(guī)模越大,“蜘蛛網”問題就越嚴重。雖然網上的任意兩個節(jié)點的數(shù)據可能歸根結底是從一個原
3、始庫中抽取出來的,但它們的數(shù)據沒有統(tǒng)一的時間基準,抽取算法各不相同,抽取級別也不相同,并且可能參考不同的外部數(shù)據。因而對同一問題的分析(fnx),不同節(jié)點卻會產生不同甚至截然相反的結果。這當然使決策者無從下手。2022/7/205HD-bxf共六十八頁1.1 從數(shù)據庫到數(shù)據倉庫事務型系統(tǒng)和分析型系統(tǒng)的分離事務型系統(tǒng)處理以傳統(tǒng)的數(shù)據庫為中心進行企業(yè)的日常業(yè)務處理例如:電信行業(yè)的記費數(shù)據庫、銀行(ynhng)數(shù)據庫使用人員為企業(yè)的具體操作人員處理的數(shù)據為企業(yè)業(yè)務的細節(jié)信息目標是實現(xiàn)企業(yè)的業(yè)務運營分析型系統(tǒng)分析數(shù)據背后的關聯(lián)和規(guī)律,為企業(yè)的決策提供可靠有效的依據。例如:對高校大學生就業(yè)信息進行分析,
4、以幫助學校指定招生計劃并合理設置專業(yè)。使用人員為企業(yè)的中高層管理者或從事數(shù)據分析的工程師處理的數(shù)據為企業(yè)的宏觀信息目標是為企業(yè)決策者提供信息支持2022/7/206HD-bxf共六十八頁1.1 從數(shù)據庫到數(shù)據倉庫事務型系統(tǒng)和分析(fnx)型系統(tǒng)的分離可見,在事務型環(huán)境中直接構建分析型應用是不合適的。要提高分析和決策的效率和有效性,分析型處理及其數(shù)據必須與操作型處理及其數(shù)據相分離。必須把分析數(shù)據從事務處理環(huán)境中提取出來,按照DSS處理的需要進行重新組織,建立單獨的分析處理環(huán)境。數(shù)據倉庫正是為了構建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據存儲和組織技術。 2022/7/207HD-bxf共六十八頁1.
5、1 從數(shù)據庫到數(shù)據倉庫對數(shù)據的處理分兩類:操作型處理(OLTP on-line transaction processing )操作型處理對數(shù)據的存取操作頻率高而每次操作處理的時間短; 數(shù)據庫系統(tǒng)分析型處理(OLAP on-line analytical processing )在分析處理環(huán)境中,某個DSS應用程序可能需要連續(xù)幾個小時,從而消耗大量(dling)的系統(tǒng)資源。數(shù)據倉庫系統(tǒng)2022/7/208HD-bxf共六十八頁第一章 數(shù)據倉庫概述(i sh)1.1 從數(shù)據庫到數(shù)據倉庫1.2 什么是數(shù)據倉庫1.3 DBMS vs. DWMS1.4 數(shù)據倉庫的系統(tǒng)結構與相關問題(wnt)1.5 數(shù)
6、據倉庫的相關概念 1.2 什么是數(shù)據倉庫2022/7/209HD-bxf共六十八頁什么是數(shù)據倉庫 “A data warehouse is a subject-oriented, integrated, time-variant, and nonvolatile collection of data in support of managements decision-making process.” W.H.Inmon. 1992 數(shù)據倉庫是面向主題的、集成的、穩(wěn)定(wndng)的、隨時間變化的數(shù)據集合,用于支持管理決策過程。 1.2 什么(shn me)是數(shù)據倉庫2022/7/2010HD
7、-bxf共六十八頁Data Warehouse PropertiesSubjectOrientedIntegratedTime VariantNon VolatileDataWarehouse2022/7/2011HD-bxf共六十八頁1.2 什么(shn me)是數(shù)據倉庫數(shù)據倉庫的四個主要特征數(shù)據倉庫是面向主題的(Subject-Oriented)操作型數(shù)據庫的數(shù)據組織面向事務處理任務,各個業(yè)務系統(tǒng)之間各自分離,而數(shù)據倉庫中的數(shù)據是按照一定的主題域進行組織。主題是一個抽象的概念,指用戶使用數(shù)據倉庫進行決策時所關心的重點方面,一個主題通常與多個操作型信息系統(tǒng)相關。是對各分析對象所涉及的操作數(shù)據
8、庫中的數(shù)據的集成,是更高級別的數(shù)據抽象。典型的主題領域:客戶;產品;交易;帳目數(shù)據倉庫圍繞一些主題,排除對于決策無用(w yn)的數(shù)據,提供特定主體的簡明視圖。2022/7/2012HD-bxf共六十八頁1.2 什么(shn me)是數(shù)據倉庫數(shù)據倉庫的四個主要特征數(shù)據倉庫是面向(min xin)主題的(Subject-Oriented)例如,若企業(yè)決策人員預分析客戶的財務信息,則需要把關于客戶的各種財務信息綜合在“Customer Financial ”這一主題中。 2022/7/2013HD-bxf共六十八頁 Operational SystemsSavingsSharesLoansInsu
9、ranceEquityPlansCustomerFinancial InformationData Warehouse Subject Area2022/7/2014HD-bxf共六十八頁1.2 什么(shn me)是數(shù)據倉庫2022/7/2015HD-bxf共六十八頁1.2 什么(shn me)是數(shù)據倉庫數(shù)據倉庫的四個主要特征數(shù)據倉庫是集成的(Integrated)數(shù)據倉庫的數(shù)據來自于多個不同的數(shù)據源。多個數(shù)據源經常是異種或異構的,存在數(shù)據重復和語義不一致問題。 不是(b shi)對這些數(shù)據源中某些數(shù)據的復制,而是對這些數(shù)據源中數(shù)據的進一步抽象。它需要按照統(tǒng)一的結構、一致的格式、一致的度量單
10、位、一致的語義,從不同的數(shù)據源提取數(shù)據并進行清洗、轉換、綜合、抽象,最后集成為面向主題的數(shù)據集合,確保數(shù)據的綜合性、宏觀性和一致性。 2022/7/2016HD-bxf共六十八頁J Jones女1945年7月20日J Jones去年有兩張罰單一次大事故人壽保險汽車保險J JonesMain大街123號已婚房產保險J Jones兩個孩子高血壓健康保險J Jones女1945年7月20日出生去年有兩張罰單一次大事故Main大街123號已婚兩個孩子高血壓顧客2022/7/2017HD-bxf共六十八頁1.2 什么(shn me)是數(shù)據倉庫數(shù)據倉庫的四個主要特征數(shù)據倉庫是隨時間不斷變化的(Time-V
11、ariant)數(shù)據倉庫中的歷史數(shù)據應該隨時間的延長不斷增加新的數(shù)據內容(周期性更新)。通過這些信息,可以對企業(yè)的發(fā)展歷程和未來(wili)趨勢做出定量分析和預測。隨時間不斷的延長,數(shù)據倉庫中一些數(shù)據的歷史將越來越久。一般情況下,歷史久遠的數(shù)據將不再被決策者關心。所以,數(shù)據倉庫的數(shù)據超過一定的期限,就要被刪除。數(shù)據倉庫中大量數(shù)據都是綜合數(shù)據。這些綜合數(shù)據一般都與時間有關,如按照時間段進行綜合的數(shù)據。這些綜合數(shù)據要隨著時間的延長而不斷地變化。 2022/7/2018HD-bxf共六十八頁1.2 什么(shn me)是數(shù)據倉庫DataTime01/201202/ 201203/ 2012Data f
12、or JanuaryData for FebruaryData for MarchData Warehouse2022/7/2019HD-bxf共六十八頁1.2 什么(shn me)是數(shù)據倉庫數(shù)據倉庫的四個主要特征數(shù)據倉庫是非易失的(Non-Volatile)數(shù)據倉庫的數(shù)據主要供企業(yè)決策分析之用,很少進行修改,所涉及的數(shù)據操作主要有兩類:數(shù)據加載數(shù)據查詢和聯(lián)機分析 數(shù)據倉庫的數(shù)據一般都是歷史數(shù)據,是對多個不同數(shù)據源進行統(tǒng)計、綜合和重組后導出的數(shù)據。只要(zhyo)數(shù)據源中與數(shù)據倉庫相關的數(shù)據不發(fā)生改變,數(shù)據倉庫中的數(shù)據就不應該被改變。一般來說,無需事務管理、并發(fā)控制與恢復等機制2022/7/2
13、020HD-bxf共六十八頁Typically data in the data warehouse is not updated or deleted.ReadLoadINSERT ReadUPDATEDELETEOperational DatabasesWarehouse Database2022/7/2021HD-bxf共六十八頁Changing DataOperational DatabasesWarehouse DatabaseFirst time loadRefreshRefreshRefreshPurgeorArchive2022/7/2022HD-bxf共六十八頁1.2 什么(
14、shn me)是數(shù)據倉庫數(shù)據倉庫的其它特征數(shù)據倉庫中的數(shù)據量非常大。級,級數(shù)據倉庫是數(shù)據庫技術的一種新的應用,而且到目前為止,數(shù)據倉庫一般還是應用數(shù)據庫管理(gunl)系統(tǒng)來管理(gunl)其中的數(shù)據。數(shù)據倉庫的使用人員較少。2022/7/2023HD-bxf共六十八頁第一章 數(shù)據倉庫概述(i sh)1.1 從數(shù)據庫到數(shù)據倉庫1.2 什么是數(shù)據倉庫1.3 DBMS vs. DWMS1.4 數(shù)據倉庫的系統(tǒng)結構與相關問題(wnt)1.5 數(shù)據倉庫的相關概念 1.3 DBMS vs. DWMS2022/7/2024HD-bxf共六十八頁1.3 DBMS vs. DWMS OLTP (聯(lián)機事務處理(c
15、hl))On-Line Transaction ProcessingMajor task of traditional relational DBMSDay-to-day operations: 采購, 庫存, 銀行業(yè), 制造業(yè), 工資發(fā)放, 注冊系統(tǒng), 賬目管理等。2022/7/2025HD-bxf共六十八頁1.3 DBMS vs. DWMS OLAP (聯(lián)機分析(fnx)處理)On-Line Analytical ProcessingMajor task of data warehouse systemData analysis and decision making2022/7/2026
16、HD-bxf共六十八頁1.3 DBMS vs. DWMS 2022/7/2027HD-bxf共六十八頁1.3 DBMS vs. DWMS DBMSDWMS具有功能OLTPOLAP數(shù)據視圖當前的歷史的細粒度的綜合的局部的集成的設計目的面向應用面向分析查詢90%事先可知道 90%是ad hoc的updateread-only but complex queries一次操作所涉及的數(shù)據量小一次操作所涉及的數(shù)據量大開發(fā)周期需求驅動數(shù)據驅動ad hoc:機動(jdng)的;臨時的;特設的 2022/7/2028HD-bxf共六十八頁第一章 數(shù)據倉庫概述(i sh)1.1 從數(shù)據庫到數(shù)據倉庫1.2 什么(
17、shn me)是數(shù)據倉庫1.3 DBMS vs. DWMS1.4 數(shù)據倉庫的系統(tǒng)結構與相關問題1.5 數(shù)據倉庫的相關概念 1.4 數(shù)據倉庫的系統(tǒng)結構與相關問題2022/7/2029HD-bxf共六十八頁1.4 數(shù)據倉庫的系統(tǒng)結構與相關(xinggun)問題E: ExtractT: TransformL: LoadData MartData Mart數(shù)據倉庫系統(tǒng)結構Data SourcesMulti-Tiered ArchitectureData StorageFront-End Tools2022/7/2030HD-bxf共六十八頁數(shù)據倉庫系統(tǒng)結構數(shù)據源(DataSource)數(shù)據(shj)倉
18、庫的數(shù)據(shj)存儲(DataStorage)應用工具(ApplicationTools)可視化用戶界面(Visualization)。1.4 數(shù)據倉庫的系統(tǒng)結構與相關(xinggun)問題2022/7/2031HD-bxf共六十八頁1.4 數(shù)據倉庫的系統(tǒng)結構與相關(xinggun)問題相關問題數(shù)據倉庫數(shù)據模型邏輯數(shù)據結構代數(shù)操作數(shù)據倉庫數(shù)據定義與操作語言數(shù)據倉庫存儲與索引結構OLAP操作實現(xiàn)算法OLAP查詢處理與優(yōu)化數(shù)據提取、轉換(zhunhun)與加載數(shù)據維護2022/7/2032HD-bxf共六十八頁第一章 數(shù)據倉庫概述(i sh)1.1 從數(shù)據庫到數(shù)據倉庫1.2 什么(shn me)
19、是數(shù)據倉庫1.3 DBMS vs. DWMS1.4 數(shù)據倉庫的系統(tǒng)結構與相關問題1.5 數(shù)據倉庫的相關概念 1.5 數(shù)據倉庫的相關概念2022/7/2033HD-bxf共六十八頁1.5 數(shù)據倉庫的基本概念ETL:extract/transformation/loadETL工具就是進行數(shù)據(shj)的抽取、轉換和“凈化提煉”處理?!皟艋釤挕奔磳亩鄠€不同業(yè)務數(shù)據(shj)庫所抽取的數(shù)據(shj),進行數(shù)據(shj)項名稱的統(tǒng)一、位數(shù)的統(tǒng)一、編碼的統(tǒng)一和形式的統(tǒng)一,消除重復數(shù)據(shj)。ETL工具包括:data extract, data transform, data cleaning, d
20、ata loading.2022/7/2034HD-bxf共六十八頁1.5 數(shù)據倉庫的基本概念數(shù)據抽?。―ata Extraction) 從數(shù)據倉庫的角度來看,并不是業(yè)務數(shù)據庫中的所有數(shù)據都是決策支持所必需的。通常,數(shù)據倉庫按照分析的主題來組織數(shù)據,我們只需提取出系統(tǒng)分析必需的那一部分數(shù)據。例如,某超市確定以分析客戶的購買行為為主題建立數(shù)據倉庫,則我們只需將同客戶購買行為相關的數(shù)據提取出來,而超市服務員工(yungng)的數(shù)據就沒有必要放進數(shù)據倉庫。 2022/7/2035HD-bxf共六十八頁1.5 數(shù)據倉庫的基本概念數(shù)據清洗(Data Cleaning)將錯誤的、不一致的數(shù)據在進入數(shù)據倉庫
21、之前予以更正或刪除,以免(ymin)影響決策支持系統(tǒng)決策的正確性。2022/7/2036HD-bxf共六十八頁1.5 數(shù)據倉庫的基本概念數(shù)據清洗(Data Cleaning)企業(yè)常常為不同的應用對象建立不同的業(yè)務數(shù)據庫,這些業(yè)務系統(tǒng)中可能包含(bohn)重復的信息,存在數(shù)據不一致現(xiàn)象。例:2022/7/2037HD-bxf共六十八頁1.5 數(shù)據倉庫的基本概念數(shù)據清洗(Data Cleaning)由于冗余的數(shù)據存放在不同(b tn)的數(shù)據庫中,如果不同(b tn)數(shù)據庫間的數(shù)據刷新不是實時的,則可能出現(xiàn)數(shù)據不同(b tn)步的情況。例:2022/7/2038HD-bxf共六十八頁1.5 數(shù)據倉庫
22、的基本概念數(shù)據(shj)轉換(Data Transformation)由于業(yè)務系統(tǒng)可能使用不同的數(shù)據庫廠商的產品,各種數(shù)據庫產品提供的數(shù)據類型可能不同,因此需要將不同格式的數(shù)據轉換成統(tǒng)一的數(shù)據格式。例:2022/7/2039HD-bxf共六十八頁1.5 數(shù)據倉庫的基本概念數(shù)據裝載將數(shù)據按照物理數(shù)據模型定義的表結構裝入數(shù)據倉庫,包括(boku)清空數(shù)據域、填充空格、有效性檢查等。2022/7/2040HD-bxf共六十八頁1.5 數(shù)據倉庫的基本概念數(shù)據倉庫存儲(Data Repository) 數(shù)據倉庫存儲就是用于存放(cnfng)數(shù)據倉庫數(shù)據和元數(shù)據的存儲空間。數(shù)據的存儲方式主要有3 種:多維
23、數(shù)據庫關系型數(shù)據庫這兩種存儲方式的結合。 2022/7/2041HD-bxf共六十八頁1.5 數(shù)據倉庫的基本概念數(shù)據業(yè)務系統(tǒng)中提取的或者從外部數(shù)據源中導入的數(shù)據經過清洗、轉化后成為數(shù)據倉庫的原始數(shù)據。由于需要數(shù)據倉庫進行 OLAP 分析和數(shù)據挖掘,因此需要在原始數(shù)據的基礎上增加(zngji)冗余信息,比如進行大量的預運算,建立多維數(shù)據庫,以求迅速的展現(xiàn)數(shù)據。2022/7/2042HD-bxf共六十八頁1.5 數(shù)據倉庫的基本概念元數(shù)據(Metadata)數(shù)據是對事物的描述,“元數(shù)據”就是描述數(shù)據的數(shù)據,它提供了有關數(shù)據的環(huán)境,用于構造、維持(wich)、管理和使用數(shù)據倉庫。數(shù)據倉庫的元數(shù)據主要包
24、含兩類數(shù)據:第一種是為了從操作型環(huán)境向數(shù)據倉庫環(huán)境轉換而建立的元數(shù)據,它包括所有源數(shù)據項的名稱、屬性及其在提取倉庫中的轉化;第二種元數(shù)據在數(shù)據倉庫中是用來與最終用戶的多維商業(yè)模型和前端工具之間建立映射的。2022/7/2043HD-bxf共六十八頁1.5 數(shù)據倉庫的基本概念在轉換后,(User_ID,User_Name,Address)3 列原始的存放位置、進行的清洗轉化(zhunhu)處理、數(shù)據最終的存放位置、數(shù)據格式、數(shù)據使用的規(guī)則等等都將作為元數(shù)據的一部分。2022/7/2044HD-bxf共六十八頁1.5 數(shù)據倉庫的基本概念主題(Subject)主題(Subject)是一個在較高層次上
25、將數(shù)據歸類的標準,每一個主題基本對應一個宏觀的分析領域。面向主題的數(shù)據組織方式(fngsh),就是在較高層次上對分析對象數(shù)據的一個完整、一致的描述,能完整、統(tǒng)一地刻畫各個分析對象所涉及的企業(yè)各項數(shù)據,以及數(shù)據之間的聯(lián)系。2022/7/2045HD-bxf共六十八頁1.5 數(shù)據倉庫的基本概念維度(dimension)維()是指人們觀察(gunch)事物的角度。在數(shù)據倉庫中比較常用的維主要有:時間維、客戶維、產品維、地區(qū)維等。人們從某個維的角度觀察數(shù)據,還可以根據細節(jié)程度的不同形成多個描述層次,該多個描述層次就稱為維層次。2022/7/2046HD-bxf共六十八頁1.5 數(shù)據倉庫的基本概念數(shù)據立
26、方體數(shù)據倉庫中維的概念類似于關系表的屬性。數(shù)據立方體是指由兩個或更多個屬性即兩個或更多個維來描述或分類的數(shù)據。在三維的情況下以圖形來表示,該類數(shù)據具有立方體結構,一般稱為數(shù)據立方體。雖然我們通常從幾何意義的角度將立方體理解為三維的,但是(dnsh)在數(shù)據倉庫中數(shù)據立方體是一個 維的概念?!澳钞a品在某個月份在某個地區(qū)的銷售收入是多少”2022/7/2047HD-bxf共六十八頁1.5 數(shù)據倉庫的基本概念聯(lián)機分析處理(OLAP)OLAP是使分析人員、管理人員、或執(zhí)行人員能夠從多角度對信息進行快速、一致、交互地存取,從而獲得對數(shù)據(shj)的更深入了解的一類軟件技術。OLAP技術的目的是滿足決策支持
27、或者滿足在多維環(huán)境下特定的查詢和報表需求,技術核心為“維”。2022/7/2048HD-bxf共六十八頁2022/7/2049HD-bxf共六十八頁 第二(d r)部分 數(shù)據挖掘2022/7/2050HD-bxf共六十八頁數(shù)據挖掘為什么要進行數(shù)據挖掘什么(shn me)是數(shù)據挖掘數(shù)據挖掘在什么類型的數(shù)據上進行數(shù)據挖掘的功能數(shù)據挖掘方法的分類如何度量挖掘結果數(shù)據挖掘的主要問題是什么2022/7/2051HD-bxf共六十八頁 Necessity Is the Mother of InventionData explosion problem Automated data collection t
28、ools and mature database technology lead to tremendous amounts of data accumulated and/or to be analyzed in databases, data warehouses, and other information repositories We are drowning in data, but starving for knowledge! Solution: Data warehousing and data miningData warehousing and on-line analy
29、tical processingMining interesting knowledge (rules, regularities, patterns, constraints) from data in large databases2022/7/2052HD-bxf共六十八頁Data mining applicationsThe Google system uses a mathematical algorithm calledPageRank to estimate the relative importance of individual web pages based on link
30、 patternsThe Advanced Scout system analyzes the logs of NBA games to uncover interesting pieces of information (e.g., “when player X is on the floor, player Ys shot accuracy decreases from 75% to 30%.”) As of 1997 the system was in use by several NBA teamsMotivation: Why data mining?PR是英文Pagerank 的縮
31、寫形式,Pagerank取自Google的創(chuàng)始人LarryPage,它是Google排名運算法則(排名公式)的一部分,Pagerank是Google對網頁重要性的評估,是Google用來衡量一個網站(wn zhn)的好壞的唯一標準。PR值的級別從1到10級,10級為滿分。PR值越高說明該網頁越受歡迎。Google把自己的網站的PR值定到9,這說明Google這個網站是非常受歡迎的,也可以說這個網站非常重要。一個PR值為1的網站表明這個網站不太具有流行度,而PR值為7到10則表明這個網站非常受歡迎。2022/7/2053HD-bxf共六十八頁Motivation: Why data mining
32、?Applications電信公司股票信息超市(cho sh):尿布和啤酒Other ApplicationsText mining (news group, email, documents) and Web miningStream data mining2022/7/2054HD-bxf共六十八頁什么(shn me)是數(shù)據挖掘Data mining is the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns from h
33、uge volume of data 從大量數(shù)據中抽取出隱含的、有潛在用途的、未知的、人們可以理解的、有價值的信息和模式的過程(guchng)。這些新發(fā)現(xiàn)的規(guī)律、模式、信息和概念具有潛在使用價值。2022/7/2055HD-bxf共六十八頁數(shù)據挖掘是知識發(fā)現(xiàn)(fxin)的同義詞數(shù)據挖掘是知識發(fā)現(xiàn)中必不可少的一個步驟什么(shn me)是數(shù)據挖掘2022/7/2056HD-bxf共六十八頁什么(shn me)是數(shù)據挖掘Data preprocessingData in the real world is dirty不完整的存在空值, 缺少感興趣的屬性(shxng)或僅包含聚集數(shù)據含有噪聲的含有錯
34、誤或存在偏離期望的孤立點值e.g., Salary=“-10”不一致的數(shù)據值存在偏差e.g., Age=“42” Birthday=“03/07/1997”e.g., Was rating “1,2,3”, now rating “A, B, C”e.g., discrepancy between duplicate records數(shù)據預處理可以改進數(shù)據的質量,提高數(shù)據挖掘的精度2022/7/2057HD-bxf共六十八頁Major Tasks in Data PreprocessingData cleaningFill in missing values, smooth noisy data
35、, identify or remove outliers, and resolve inconsistenciesData integrationIntegration of multiple databases, data cubes, or filesData transformationNormalization and aggregationData reductionObtains reduced representation in volume but produces the same or similar analytical resultsData discretizati
36、onPart of data reduction but with particular importance, especially for numerical data2022/7/2058HD-bxf共六十八頁Forms of data preprocessing 2022/7/2059HD-bxf共六十八頁2022/7/2060HD-bxf共六十八頁2022/7/2061HD-bxf共六十八頁數(shù)據挖掘在什么類型(lixng)的數(shù)據上進行Relational databaseData warehouseTransactional databaseAdvanced database and
37、 information repositoryObject-relational databaseSpatial and temporal dataTime-series data Stream dataMultimedia databaseHeterogeneous and legacy(遺產(ychn) databaseText databases & WWW2022/7/2062HD-bxf共六十八頁數(shù)據挖掘的功能(gngnng)Concept description: Characterization(描述) and discrimination(區(qū)別)Generalize(歸納(gu
38、n), summarize(總結), and contrast data characteristics, e.g., dry vs. wet regionsAssociation (correlation and causality)Diaper Beer 0.5%, 75%Classification and Prediction ClassificationTo find a model for predicting the class labels of unseen dataPresentation: decision-tree, classification rule, neural ne
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030中國草本植物飲料行業(yè)市場深度分析及發(fā)展趨勢與投資研究報告
- 空調購銷合同
- 2025-2030中國自卸汽車行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報告
- 安達市屋面防水維修工程施工合同
- 2025-2030中國腦脊液管理產品行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報告
- 2025-2030中國端乙烯基聚二甲基硅氧烷行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報告
- 2025-2030中國移動支付SD卡行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報告
- 2025-2030中國離心管架行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報告
- 2025-2030中國碎漿行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報告
- 2025-2030中國石油天然氣檢測行業(yè)市場發(fā)展分析及前景趨勢與投資研究報告
- 湖北省2025屆高三(4月)調研模擬考試英語試題及答案
- 血液制品規(guī)范輸注
- 2025-2030中國生物醫(yī)藥行業(yè)市場深度調研及發(fā)展趨勢與投資前景預測研究報告
- 專利代理師高頻題庫新版2025
- 肝硬化護理新進展
- 2025年征信業(yè)務合規(guī)培訓
- 2025年全國國家版圖知識競賽題庫及答案(中小學組)
- 2025項目部與供應商安全生產物資供應合同
- 統(tǒng)借統(tǒng)還合同協(xié)議
- 2025年上半年中國十五冶金建設集團限公司公開招聘中高端人才易考易錯模擬試題(共500題)試卷后附參考答案
- XX鎮(zhèn)衛(wèi)生院綜治信訪維穩(wěn)工作方案
評論
0/150
提交評論