數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 課件(含思政案例)第 1 章 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概論_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 課件(含思政案例)第 1 章 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概論_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 課件(含思政案例)第 1 章 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概論_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 課件(含思政案例)第 1 章 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概論_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 課件(含思政案例)第 1 章 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概論_第5頁
已閱讀5頁,還剩73頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第一章概論本章內(nèi)容數(shù)據(jù)倉庫概述數(shù)據(jù)挖掘簡(jiǎn)介數(shù)據(jù)挖掘的主要任務(wù)數(shù)據(jù)倉庫與挖掘的區(qū)別與聯(lián)系30五月20242數(shù)據(jù)倉庫概述數(shù)據(jù)倉庫(DataWarehouse)技術(shù)是為了有效地把操作型數(shù)據(jù)集成到統(tǒng)一的環(huán)境中以提供決策型數(shù)據(jù)訪問的各種技術(shù)和模塊的總稱。其目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境,為企業(yè)提供決策支持(DecisionSupport)。被譽(yù)為數(shù)據(jù)倉庫之父的美國著名信息工程學(xué)家WilliamH.Inmon將數(shù)據(jù)倉庫定義為一個(gè)面向主題(subjectoriented)的、集成(integrated)的、隨時(shí)間變化(timevariant)的、但信息本身相對(duì)穩(wěn)定(non-volatile)的數(shù)據(jù)集合,用于對(duì)管理決策過程的支持。數(shù)據(jù)倉庫概述數(shù)據(jù)倉庫主要具有以下四個(gè)特征。1.面向主題數(shù)據(jù)倉庫都是基于某個(gè)明確主題,僅需要與該主題相關(guān)的數(shù)據(jù),如顧客、供應(yīng)商、產(chǎn)品銷售方。數(shù)據(jù)倉庫關(guān)注決策者的數(shù)據(jù)建模與分析,而不是單位的日常操作和事務(wù)處理。2.集成性通常,構(gòu)建數(shù)據(jù)倉庫將多個(gè)異構(gòu)數(shù)據(jù)源使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù)整合為一致性數(shù)據(jù)。在此過程中會(huì)有一些ETL操作,要統(tǒng)一源數(shù)據(jù)中所有的矛盾之處,如字段的同名異義、單位不統(tǒng)一和字長(zhǎng)不一致等問題。數(shù)據(jù)倉庫概述數(shù)據(jù)倉庫主要具有以下四個(gè)特征。3.隨時(shí)間變化數(shù)據(jù)倉庫一般關(guān)注的是歷史數(shù)據(jù),其數(shù)據(jù)是定期從操作型應(yīng)用系統(tǒng)中批量載入的,這使得數(shù)據(jù)倉庫中的數(shù)據(jù)總是擁有時(shí)間維度。4.穩(wěn)定性操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實(shí)時(shí)更新,其數(shù)據(jù)是不穩(wěn)定的。數(shù)據(jù)倉庫的數(shù)據(jù)主要用于決策分析,其涉及的數(shù)據(jù)操作主要是大量歷史數(shù)據(jù)的查詢和定期更新。如操作型數(shù)據(jù)庫中的數(shù)據(jù)可以隨時(shí)被更新和訪問,可以從中抽取若干年(如5-10年)數(shù)據(jù)構(gòu)建數(shù)據(jù)倉庫,數(shù)據(jù)倉庫建成后一般不會(huì)被修改,具有相對(duì)穩(wěn)定性。因此數(shù)據(jù)只需要數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問兩種操作。數(shù)據(jù)倉庫的穩(wěn)定性和時(shí)變性并不矛盾。從大的時(shí)間段看,它是變化的,但從小的時(shí)間范圍看它是穩(wěn)定的。數(shù)據(jù)倉庫概述數(shù)據(jù)倉庫與數(shù)據(jù)庫的對(duì)比:數(shù)據(jù)庫數(shù)據(jù)倉庫面向應(yīng)用面向主題數(shù)據(jù)是詳盡的數(shù)據(jù)是綜合的和歷史的保存業(yè)務(wù)數(shù)據(jù)保存過去和現(xiàn)在的數(shù)據(jù)數(shù)據(jù)是可更新的數(shù)據(jù)不可更新對(duì)數(shù)據(jù)的操作是重復(fù)的對(duì)數(shù)據(jù)的操作是啟發(fā)式的操作需求事先可知操作需求臨時(shí)決定數(shù)據(jù)非冗余數(shù)據(jù)時(shí)常冗余查詢基本是原始數(shù)據(jù)查詢基本是經(jīng)過加工的數(shù)據(jù)事務(wù)處理需要的是當(dāng)前的數(shù)據(jù)決策分析需要過去和現(xiàn)在的數(shù)據(jù)很少有復(fù)雜計(jì)算有很多復(fù)雜計(jì)算支持事務(wù)處理支持決策分析數(shù)據(jù)倉庫概述分別面向數(shù)據(jù)庫和數(shù)據(jù)倉庫,OLTP主要是在網(wǎng)絡(luò)環(huán)境下面向交易的事務(wù)處理,以快速的事務(wù)響應(yīng)和頻繁的數(shù)據(jù)修改為特征,是用戶利用數(shù)據(jù)庫快速處理具體業(yè)務(wù);而OLAP則支持復(fù)雜的分析操作,側(cè)重于對(duì)分析人員和高層管理人員的決策支持,協(xié)助決策者從多方面和多角度,以多維的數(shù)據(jù)形式觀察企業(yè)的狀態(tài)并了解企業(yè)的變化。OLTP和OLAP是兩類不同的應(yīng)用,它們各自的特點(diǎn)如表1-2所示。數(shù)據(jù)倉庫概述OLTP和OLAP對(duì)比OLTPOLAP以數(shù)據(jù)庫為基礎(chǔ)以數(shù)據(jù)倉庫為基礎(chǔ)細(xì)節(jié)性數(shù)據(jù)綜合性數(shù)據(jù)當(dāng)前數(shù)據(jù)歷史數(shù)據(jù)數(shù)據(jù)經(jīng)常更新不更新但周期性刷新一次處理的數(shù)據(jù)量小一次處理的數(shù)據(jù)量大對(duì)響應(yīng)時(shí)間要求高響應(yīng)時(shí)間合理用戶數(shù)量大用戶數(shù)量相對(duì)較小面向操作人員支持日常操作面向決策人員支持決策需要面向應(yīng)用,事務(wù)驅(qū)動(dòng)面向分析,分析驅(qū)動(dòng)數(shù)據(jù)倉庫概述一個(gè)典型的數(shù)據(jù)倉庫系統(tǒng)通常包括數(shù)據(jù)源、數(shù)據(jù)存儲(chǔ)與管理、OLAP服務(wù)器以及前端工具與應(yīng)用4個(gè)部分。1.數(shù)據(jù)源數(shù)據(jù)源是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),即系統(tǒng)的數(shù)據(jù)來源,通常包括企事業(yè)單位的各種內(nèi)部信息和外部信息。AvinashKaushik在《WebAnalytics》一書中將數(shù)據(jù)的來源分為點(diǎn)擊流數(shù)據(jù)(Clickstream)、運(yùn)營數(shù)據(jù)(Outcomes)、調(diào)研數(shù)據(jù)(Research/Qualitative)和競(jìng)爭(zhēng)對(duì)手?jǐn)?shù)據(jù)(CompetitiveData)四部分?jǐn)?shù)據(jù)。數(shù)據(jù)倉庫概述一個(gè)典型的數(shù)據(jù)倉庫系統(tǒng)通常包括數(shù)據(jù)源、數(shù)據(jù)存儲(chǔ)與管理、OLAP服務(wù)器以及前端工具與應(yīng)用4個(gè)部分。2.數(shù)據(jù)的存儲(chǔ)與管理數(shù)據(jù)的存儲(chǔ)與管理是整個(gè)數(shù)據(jù)倉庫系統(tǒng)的核心。數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫的特性。數(shù)據(jù)倉庫在現(xiàn)有業(yè)務(wù)系統(tǒng)的基礎(chǔ)上,對(duì)數(shù)據(jù)進(jìn)行抽取、清理和集成,按主題重新組織,最終確定數(shù)據(jù)倉庫的物理存儲(chǔ)結(jié)構(gòu),同時(shí)組織存儲(chǔ)數(shù)據(jù)倉庫元數(shù)據(jù)。按數(shù)據(jù)的覆蓋程度和存儲(chǔ)規(guī)模,數(shù)據(jù)倉庫分為企業(yè)級(jí)數(shù)據(jù)倉庫和部門級(jí)數(shù)據(jù)倉庫。數(shù)據(jù)倉庫概述一個(gè)典型的數(shù)據(jù)倉庫系統(tǒng)通常包括數(shù)據(jù)源、數(shù)據(jù)存儲(chǔ)與管理、OLAP服務(wù)器以及前端工具與應(yīng)用4個(gè)部分。3.OLAP服務(wù)器OLAP服務(wù)器對(duì)需要分析的數(shù)據(jù)按照多維數(shù)據(jù)模型進(jìn)行重組,以支持用戶從多角度多層次分析數(shù)據(jù),實(shí)現(xiàn)決策支持。4.前端工具與應(yīng)用

前端工具主要包括各種數(shù)據(jù)分析工具、報(bào)表工具、查詢工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉庫的開發(fā)應(yīng)用。數(shù)據(jù)倉庫概述數(shù)據(jù)倉庫應(yīng)用:1.決策支持

數(shù)據(jù)倉庫系統(tǒng)提供了各種業(yè)務(wù)數(shù)據(jù),用戶利用各種訪問工具從數(shù)據(jù)倉庫中獲取業(yè)務(wù)運(yùn)營情況數(shù)據(jù),以便進(jìn)行決策分析。2.客戶分類與評(píng)價(jià)

以客戶為中心的業(yè)務(wù)決策的核心是細(xì)分市場(chǎng),即把客戶劃分為不同類型然后有針對(duì)性的進(jìn)行市場(chǎng)營銷。數(shù)據(jù)倉庫系統(tǒng)中積累了大量客戶相關(guān)數(shù)據(jù)作為分類與評(píng)價(jià)的依據(jù),可以很方便快捷地實(shí)現(xiàn)客戶評(píng)價(jià)與分類。3.市場(chǎng)自動(dòng)化決策支持幫助企業(yè)制定產(chǎn)品和市場(chǎng)策略,客戶分類評(píng)價(jià)為企業(yè)指出了目標(biāo)客戶的范圍,市場(chǎng)自動(dòng)化則幫助企業(yè)實(shí)現(xiàn)促銷管理。數(shù)據(jù)倉庫概述基于Hadoop/Spark的數(shù)據(jù)倉庫技術(shù)數(shù)據(jù)倉庫是一種解決方案,在真正實(shí)現(xiàn)時(shí),必須依賴于數(shù)據(jù)工具平臺(tái)。目前,以Hadoop/Spark為代表的大規(guī)模數(shù)據(jù)處理技術(shù)已成為新一代數(shù)據(jù)倉庫平臺(tái)的基礎(chǔ)設(shè)施組件,在此基礎(chǔ)上構(gòu)建的平臺(tái)具有高模塊化、松耦合和并行化特點(diǎn),針對(duì)不同應(yīng)用領(lǐng)域及其需求,通過組件之間靈活組合與高效協(xié)作,提供定制化的數(shù)據(jù)倉庫平臺(tái),并結(jié)合數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)組件,構(gòu)建強(qiáng)大的數(shù)據(jù)分析生態(tài)系統(tǒng)。當(dāng)前流行的基于分布式系統(tǒng)架構(gòu)的數(shù)據(jù)倉庫工具有Hive、SparkSQL等。數(shù)據(jù)倉庫概述1.基于Hive的數(shù)據(jù)倉庫技術(shù)

Hive是一種底層封裝了Hadoop的數(shù)據(jù)倉庫處理工具,用來進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)化和加載。Hive數(shù)據(jù)倉庫工具能將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供完整的SQL查詢功能,將SQL語句轉(zhuǎn)變?yōu)镸apReduce任務(wù)來執(zhí)行。Hadoop和MapReduce是Hive架構(gòu)的基礎(chǔ)。2.基于SparkSQL的數(shù)據(jù)倉庫技術(shù)

由于Hive中把HiveSQL轉(zhuǎn)換成MapReduce然后提交到集群中去執(zhí)行,盡管簡(jiǎn)化了編寫MapReduce程序的復(fù)雜性,但是MapReduce這種計(jì)算模型執(zhí)行效率比較慢。SparkSQL是Spark的一個(gè)組件,用于結(jié)構(gòu)化數(shù)據(jù)的計(jì)算,它在結(jié)構(gòu)上和Hive類似,但底層不再使用MapReduce,而是使用Spark。從長(zhǎng)遠(yuǎn)看,Hive負(fù)責(zé)數(shù)據(jù)倉庫存儲(chǔ),進(jìn)行數(shù)據(jù)多維度查詢,SparkSQL負(fù)責(zé)高速計(jì)算。知識(shí)是人類對(duì)客觀世界的觀察和了解,是人類對(duì)客觀世界是什么、為什么、應(yīng)該怎么做的認(rèn)知,知識(shí)推動(dòng)人類的進(jìn)步和發(fā)展。人類所作出的正確判斷和決策,以及采取正確的行動(dòng)都是基于智慧和知識(shí)。數(shù)據(jù)是反映客觀事物的數(shù)字、詞語、聲音和圖像等,是可以進(jìn)行計(jì)算加工的“原料”。數(shù)據(jù)是對(duì)客觀事物的數(shù)量、屬性、位置及其相互關(guān)系的抽象表示,適合于保存、傳遞和處理。TheExplosiveGrowthofData-------fromterabytestopetabytes數(shù)據(jù)挖掘簡(jiǎn)介數(shù)據(jù)挖掘簡(jiǎn)介30五月202416與日俱增的數(shù)據(jù)量數(shù)據(jù)挖掘簡(jiǎn)介自動(dòng)數(shù)據(jù)收集工具和成熟的數(shù)據(jù)庫技術(shù)使得大量的數(shù)據(jù)被收集,存儲(chǔ)在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中以待分析。主要的數(shù)據(jù)來源與領(lǐng)域:Web,e-commerce,transactions,stocks,…Science:Remotesensing,bioinformatics,scientificsimulation,…Societyandeveryone:news,YouTube172016年每分鐘產(chǎn)生的海量數(shù)據(jù)“數(shù)據(jù)豐富,信息貧乏”數(shù)據(jù)挖掘簡(jiǎn)介面對(duì)大量的數(shù)據(jù),迫使人們不斷尋找新的工具,對(duì)規(guī)律進(jìn)行探索,為決策提供有價(jià)值的信息。數(shù)據(jù)挖掘有助于發(fā)現(xiàn)趨勢(shì),揭示已知的事實(shí),預(yù)測(cè)未知的結(jié)果。人們迫切希望能夠?qū)A繑?shù)據(jù)進(jìn)行分析挖掘,發(fā)現(xiàn)并提取隱含在數(shù)據(jù)中的有價(jià)值信息。30五月202418WhyDataMining?Wearedrowningindata,butstarvingforknowledge!

“Necessityisthemotherofinvention”解決辦法:數(shù)據(jù)倉庫(DataWarehouse)和在線分析處理(OLAP)數(shù)據(jù)挖掘—在大量數(shù)據(jù)中發(fā)現(xiàn)有用的知識(shí)、模式、規(guī)律、約束等數(shù)據(jù)庫技術(shù)的演化1960s及之前:文件系統(tǒng)1970s:層次數(shù)據(jù)庫和網(wǎng)狀數(shù)據(jù)庫1980s:各種高級(jí)數(shù)據(jù)庫系統(tǒng)(擴(kuò)展的關(guān)系數(shù)據(jù)庫,面向?qū)ο髷?shù)據(jù)庫等)面向應(yīng)用的數(shù)據(jù)庫系統(tǒng)(spatial數(shù)據(jù)庫,時(shí)序數(shù)據(jù)庫,多媒體數(shù)據(jù)庫等)1990s:數(shù)據(jù)挖掘,數(shù)據(jù)倉庫,多媒體數(shù)據(jù)庫,Web數(shù)據(jù)庫2000s流數(shù)據(jù)管理和挖掘數(shù)據(jù)挖掘及應(yīng)用Web技術(shù)(XML,數(shù)據(jù)集成)andglobalinformationsystems20數(shù)據(jù)挖掘簡(jiǎn)介數(shù)據(jù)挖掘(DataMining)是人工智能和數(shù)據(jù)庫領(lǐng)域研究的熱點(diǎn)問題,是指從大量有噪聲的、不完全的、模糊和隨機(jī)的數(shù)據(jù)中,提取出隱含在其中的、事先不知道但具有潛在利用價(jià)值的信息的過程。這個(gè)定義包括幾層含義:數(shù)據(jù)必須是真實(shí)的、大量的并且含有噪聲的;發(fā)現(xiàn)的是用戶感興趣的可以接受、理解和運(yùn)用的知識(shí);僅支持特定的問題,并不要求放之四海而皆準(zhǔn)的知識(shí)。與數(shù)據(jù)挖掘的含義類似的還有一些術(shù)語如從數(shù)據(jù)中心挖掘知識(shí)、知識(shí)提取、數(shù)據(jù)/模式分析等。30五月202421WhatIsDataMining?Datamining(knowledgediscoveryfromdata)數(shù)據(jù)挖掘--從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),是統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的綜合。數(shù)據(jù)挖掘是從數(shù)據(jù)中自動(dòng)地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu);數(shù)據(jù)挖掘大部分的價(jià)值在于利用數(shù)據(jù)挖掘技術(shù)改善預(yù)測(cè)模型。AlternativenamesKnowledgediscovery(mining)indatabases(KDD),knowledgeextraction,data/patternanalysis,dataarcheology,datadredging,informationharvesting,businessintelligence,etc.并非所有東西都是數(shù)據(jù)挖掘查詢、專家系統(tǒng)、小型的科學(xué)計(jì)算、統(tǒng)計(jì)22數(shù)據(jù)挖掘(DataMining,DM),是從大量的、有噪聲的、不完全的、模糊和隨機(jī)的數(shù)據(jù)中,提取出隱含在其中的、人們事先不知道的、具有潛在利用價(jià)值的信息和知識(shí)的過程。這個(gè)定義包含以下幾層含義:數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識(shí);發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用;不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識(shí),僅支持特定的問題DataInformationKnowledgeWisdomWhatIsDataMining?數(shù)據(jù)挖掘簡(jiǎn)介并非所有的東西都是數(shù)據(jù)挖掘基于數(shù)據(jù)倉庫的OLAP系統(tǒng)OLAP系統(tǒng)專注與數(shù)據(jù)的匯總,而數(shù)據(jù)挖掘系統(tǒng)可以對(duì)數(shù)據(jù)進(jìn)行多種復(fù)雜的處理。機(jī)器學(xué)習(xí)系統(tǒng),數(shù)據(jù)統(tǒng)計(jì)分析系統(tǒng)

這些系統(tǒng)所處理的數(shù)據(jù)容量往往很有限信息系統(tǒng)

專注于數(shù)據(jù)的查詢處理。相比于上述系統(tǒng),數(shù)據(jù)挖掘系統(tǒng)關(guān)注更廣的范圍

是一個(gè)多學(xué)科的融合。30五月202424數(shù)據(jù)挖掘簡(jiǎn)介ThisisaviewfromtypicalmachinelearningandstatisticscommunitiesInputDataPatternInformationKnowledgeDataMiningDataPre-ProcessingPost-ProcessingDataintegrationNormalizationFeatureselectionDimensionreductionPatterndiscoveryAssociation&correlationClassificationClusteringOutlieranalysis…………PatternevaluationPatternselectionPatterninterpretationPatternvisualization數(shù)據(jù)分析與數(shù)據(jù)挖掘數(shù)據(jù)分析(DataAnalysis,DA)是數(shù)學(xué)與計(jì)算機(jī)科學(xué)相結(jié)合的產(chǎn)物,是指用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對(duì)收集來的大量數(shù)據(jù)進(jìn)行分析,提取有用信息和形成結(jié)論,對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過程。數(shù)據(jù)分析和數(shù)據(jù)挖掘都是基于搜集來的數(shù)據(jù),應(yīng)用數(shù)學(xué)、統(tǒng)計(jì)和計(jì)算機(jī)等技術(shù)抽取出數(shù)據(jù)中的有用信息,進(jìn)而為決策提供依據(jù)和指導(dǎo)方向。數(shù)據(jù)分析有廣義與狹義之分。廣義的數(shù)據(jù)分析包括了狹義數(shù)據(jù)分析和數(shù)據(jù)挖掘。30五月202426數(shù)據(jù)分析與數(shù)據(jù)挖掘30五月202427數(shù)據(jù)分析與數(shù)據(jù)挖掘30五月202428數(shù)據(jù)挖掘的主要任務(wù)數(shù)據(jù)挖掘是通過分析每個(gè)數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù)。30五月202429數(shù)據(jù)挖掘:知識(shí)挖掘的核心DataCleaningDataIntegrationDataWarehouseKnowledgeTask-relevantDataSelectionDataMiningPatternEvaluation數(shù)據(jù)挖掘的主要功能分類數(shù)據(jù)挖掘的主要功能分類數(shù)據(jù)挖掘的主要任務(wù)數(shù)據(jù)挖掘的主要任務(wù)有關(guān)聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等。(1)關(guān)聯(lián)規(guī)則挖掘由RakeshApwal等人首先提出。兩個(gè)或兩個(gè)以上變量的取值之間存在的規(guī)律稱為關(guān)聯(lián)。(2)預(yù)測(cè)建模是指根據(jù)已知的數(shù)據(jù)構(gòu)建出一個(gè)數(shù)據(jù)模型,然后應(yīng)用這個(gè)模型對(duì)未知數(shù)據(jù)的所屬分類進(jìn)行預(yù)測(cè),主要包括分類和回歸兩類問題。30五月202431數(shù)據(jù)挖掘的主要任務(wù)(3)聚類是把數(shù)據(jù)按照相似性歸納成若干類別,使得同一類中的數(shù)據(jù)彼此相似,不同類中的數(shù)據(jù)盡量相異。(4)離群點(diǎn)指全局或局部范圍內(nèi)偏離一般水平的觀測(cè)對(duì)象。離群點(diǎn)等異常值會(huì)對(duì)數(shù)據(jù)分析與挖掘產(chǎn)生不良影響。30五月202432數(shù)據(jù)挖掘的數(shù)據(jù)源作為一門通用的技術(shù),只要數(shù)據(jù)對(duì)目標(biāo)應(yīng)用是有用的,數(shù)據(jù)挖掘就可以用于任何類型的數(shù)據(jù)。對(duì)于挖掘的應(yīng)用,數(shù)據(jù)的基本形式主要有數(shù)據(jù)庫數(shù)據(jù)、數(shù)據(jù)倉庫、事務(wù)數(shù)據(jù)庫和其它數(shù)據(jù)源。(1)數(shù)據(jù)庫系統(tǒng)是由一組內(nèi)部相關(guān)的數(shù)據(jù)和用于管理這些數(shù)據(jù)的程序組成,通過軟件程序?qū)?shù)據(jù)進(jìn)行高效的存儲(chǔ)和管理,并發(fā)、共享或分布式訪問,并保證數(shù)據(jù)的完整性和安全性。30五月202433數(shù)據(jù)挖掘的數(shù)據(jù)源(2)數(shù)據(jù)倉庫是依照分析需求、分析維度和分析指標(biāo)進(jìn)行設(shè)計(jì)的,它是數(shù)據(jù)庫的一種概念上的升級(jí)。(3)事務(wù)數(shù)據(jù)庫的每個(gè)記錄代表一個(gè)事務(wù),例如一個(gè)航班的訂票、顧客的一個(gè)交易等。(4)其它類型數(shù)據(jù)時(shí)間相關(guān)的數(shù)據(jù)和序列數(shù)據(jù),數(shù)據(jù)流,空間數(shù)據(jù),Web數(shù)據(jù)(HTML等)等30五月202434數(shù)據(jù)庫系統(tǒng)與數(shù)據(jù)倉庫數(shù)據(jù)庫管理系統(tǒng)(DatabaseManagementSystem,DBMS)是一種操縱和管理數(shù)據(jù)庫的大型軟件,主要關(guān)注數(shù)據(jù)庫的創(chuàng)建、維護(hù)和使用。數(shù)據(jù)倉庫(Datawarehouse)是面向主題的、集成的與時(shí)間相關(guān)且不可修改的數(shù)據(jù)集合。數(shù)據(jù)庫主要用于事務(wù)處理,數(shù)據(jù)倉庫主要用于數(shù)據(jù)分析,用途上的差異決定了兩種架構(gòu)的特點(diǎn)不同。30五月202435關(guān)系型數(shù)據(jù)庫、事務(wù)型數(shù)據(jù)庫、面向?qū)ο蟮臄?shù)據(jù)庫數(shù)據(jù)倉庫/多維數(shù)據(jù)庫空間數(shù)據(jù)(如地圖信息)工程數(shù)據(jù)(如建筑、集成電路信息)文本和多媒體數(shù)據(jù)(如文本、圖像、音頻、視頻數(shù)據(jù))時(shí)間相關(guān)的數(shù)據(jù)(如歷史數(shù)據(jù)或股票交換數(shù)據(jù))萬維網(wǎng)(如半結(jié)構(gòu)化的HTML、結(jié)構(gòu)化的XML以及其他網(wǎng)絡(luò)信息)36常見的數(shù)據(jù)挖掘?qū)ο髷?shù)據(jù)挖掘使用的技術(shù)作為一個(gè)應(yīng)用驅(qū)動(dòng)的領(lǐng)域,數(shù)據(jù)挖掘吸納了諸如統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫和數(shù)據(jù)倉庫、數(shù)據(jù)可視化、算法、高性能計(jì)算和許多應(yīng)用領(lǐng)域的先進(jìn)技術(shù)。30五月202437數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)30五月202438從數(shù)據(jù)分析的角度來看,數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)有很多相似之處,但不同之處也十分明顯,例如:數(shù)據(jù)挖掘并沒有機(jī)器學(xué)習(xí)探索人的學(xué)習(xí)機(jī)制這一科學(xué)發(fā)現(xiàn)任務(wù),數(shù)據(jù)挖掘中的數(shù)據(jù)分析是針對(duì)海量數(shù)據(jù)的,等。從某種意義上說,機(jī)器學(xué)習(xí)的科學(xué)成分更重一些,二數(shù)據(jù)挖掘的技術(shù)成分更中一些。數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)學(xué)習(xí)能力是智能行為的一個(gè)非常重要的特征,不具備學(xué)習(xí)能力的系統(tǒng)很難稱之為一個(gè)真正的智能系統(tǒng),而機(jī)器學(xué)習(xí)則希望系統(tǒng)能夠利用經(jīng)驗(yàn)來改善自身的性能。經(jīng)驗(yàn)通常以數(shù)據(jù)的形式存在,因此機(jī)器學(xué)習(xí)不僅涉及對(duì)人的認(rèn)知學(xué)習(xí)過程的探索,還涉及對(duì)數(shù)據(jù)的分析處理。由于幾乎所有的科學(xué)都要面對(duì)數(shù)據(jù)分析任務(wù),因此機(jī)器學(xué)習(xí)已經(jīng)影響到計(jì)算機(jī)科學(xué)的眾多領(lǐng)域,甚至計(jì)算機(jī)科學(xué)之外的很多學(xué)科。機(jī)器學(xué)習(xí)是數(shù)據(jù)挖掘中的一個(gè)重要工具,然而數(shù)據(jù)挖掘不僅要研究拓展、應(yīng)用一些機(jī)器學(xué)習(xí)的方法,還要通過許多非機(jī)器學(xué)習(xí)技術(shù)解決數(shù)據(jù)倉儲(chǔ)、大規(guī)模數(shù)據(jù)、數(shù)據(jù)噪聲等實(shí)踐問題。機(jī)器學(xué)習(xí)在數(shù)據(jù)挖掘上的方法通常只是“從數(shù)據(jù)學(xué)習(xí)”然而機(jī)器學(xué)習(xí)不僅僅用在數(shù)據(jù)挖掘上,一些機(jī)器學(xué)習(xí)的子領(lǐng)域甚至與數(shù)據(jù)挖掘關(guān)系不大,如增強(qiáng)學(xué)習(xí)與自動(dòng)控制等。數(shù)據(jù)挖掘從目的而言的,機(jī)器學(xué)習(xí)是從方法而言的,兩個(gè)領(lǐng)域有較大交集,但不能等同。數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)典型的數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)過程:一個(gè)典型的推薦類應(yīng)用,需要找到“符合條件”的潛在人員。首先需要挖掘客戶特征,然后選擇一個(gè)合適的模型來進(jìn)行預(yù)測(cè),最后從用戶數(shù)據(jù)中得出結(jié)果。Datamining(knowledgediscoveryfromdata)數(shù)據(jù)挖掘存在的主要問題1.數(shù)據(jù)類型多樣化

數(shù)據(jù)挖掘通常會(huì)涉及各種不同的數(shù)據(jù)類型,即使相同類型的數(shù)據(jù)也可能具有不同的數(shù)據(jù)結(jié)構(gòu)。因此,對(duì)這些不同數(shù)據(jù)類型和不同結(jié)構(gòu)的數(shù)據(jù)進(jìn)行一致化是一項(xiàng)極具挑戰(zhàn)性的工作。2.噪聲數(shù)據(jù)

在數(shù)據(jù)獲取、存儲(chǔ)與加工過程中,經(jīng)常會(huì)出現(xiàn)數(shù)據(jù)中包含噪聲、數(shù)據(jù)缺失甚至數(shù)據(jù)錯(cuò)誤的情況。數(shù)據(jù)缺失會(huì)影響數(shù)據(jù)挖掘的性能,而噪聲和錯(cuò)誤可能會(huì)導(dǎo)致錯(cuò)誤的結(jié)果。同時(shí),數(shù)據(jù)來源復(fù)雜,時(shí)效性也得不到保證。數(shù)據(jù)挖掘存在的主要問題3.高維度數(shù)據(jù)

數(shù)據(jù)挖掘常常會(huì)涉及高維度數(shù)據(jù)。傳統(tǒng)算法在數(shù)據(jù)量小、數(shù)據(jù)維度低的情況下有較好的表現(xiàn),但是隨著數(shù)據(jù)量和數(shù)據(jù)維度激增的情況,必須要采用其他策略解決。4.數(shù)據(jù)挖掘的可視化

數(shù)據(jù)挖掘通常會(huì)得到隱藏在數(shù)據(jù)中的規(guī)律或模式,但這些規(guī)律和模式不容易理解和解釋。因此,往往要對(duì)分析挖掘的規(guī)律進(jìn)行可視化。1商用工具商用工具主要由商用的開發(fā)商提供,通過市場(chǎng)銷售,提供相關(guān)的服務(wù)。與開源軟件相比,商用軟件更強(qiáng)大、軟件性能更加成熟穩(wěn)定。主要的商用數(shù)據(jù)挖掘工具有SASEnterpriseMiner、SPSSClementine和IBMIntelligentMiner等。2開源工具開源軟件的最大優(yōu)勢(shì)在于免費(fèi),而且讓任何有能力的人參與并完善軟件。相對(duì)于商用工具,開源軟件工具更容易學(xué)習(xí)和掌握。常用的開源工具有R語言、Python、Weka和RapidMiner等。30五月202443數(shù)據(jù)挖掘常用工具SASEnterpriseMinerSPSSClementineIntelligentMinerQUEST1商用工具數(shù)據(jù)挖掘常用工具SASEnterpriseMinerSASEnterpriseMinerEnterpriseMiner是一種通用的數(shù)據(jù)挖掘工具,按照“抽樣-探索-修改-建模-評(píng)價(jià)”的方法進(jìn)行數(shù)據(jù)挖掘,它把統(tǒng)計(jì)分析系統(tǒng)和圖形用戶界面(GUI)集成起來,為用戶提供了用于建模的圖形化流程處理環(huán)境。1商用工具數(shù)據(jù)挖掘常用工具SPSSClementineClementine是SPSS公司開發(fā)的數(shù)據(jù)挖掘工具,支持整個(gè)數(shù)據(jù)挖掘過程,即從數(shù)據(jù)獲取、轉(zhuǎn)化、建模、評(píng)估到最終部署的全部過程,還支持?jǐn)?shù)據(jù)挖掘的行業(yè)標(biāo)準(zhǔn)CRISP-DM。1商用工具數(shù)據(jù)挖掘常用工具RWekaMahoutRapidMinerPythonSparkMLlib2開源工具數(shù)據(jù)挖掘常用工具RR是用于統(tǒng)計(jì)分析和圖形化的計(jì)算機(jī)語言及分析工具,提供了豐富的統(tǒng)計(jì)分析和數(shù)據(jù)挖掘功能,其核心模塊是用C、C++和Fortran編寫的。2開源工具數(shù)據(jù)挖掘常用工具WEKAWEKA是一個(gè)基于JAVA環(huán)境下免費(fèi)開源的數(shù)據(jù)挖掘工作平臺(tái),集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。2開源工具數(shù)據(jù)挖掘常用工具M(jìn)ahoutMahout是ApacheSoftwareFoundation(ASF)旗下的一個(gè)開源項(xiàng)目,在機(jī)器學(xué)習(xí)領(lǐng)域提供了一些可擴(kuò)展的經(jīng)典算法的實(shí)現(xiàn)和數(shù)據(jù)挖掘的程序庫。它可以實(shí)現(xiàn)很多功能,包括聚類、分類、推薦過濾、頻繁子項(xiàng)挖掘等。2開源工具數(shù)據(jù)挖掘常用工具PythonPython是一種功能強(qiáng)大的、開源的、解釋性、面向?qū)ο笥?jì)算機(jī)編程語言,內(nèi)建有各種高級(jí)數(shù)據(jù)結(jié)構(gòu),支持模塊和包,支持多種平臺(tái)并可擴(kuò)展。Python語言簡(jiǎn)潔、易學(xué)習(xí)、易閱讀,并在數(shù)據(jù)統(tǒng)計(jì)、機(jī)器學(xué)習(xí)方面得到廣泛應(yīng)用,是人工智能研究領(lǐng)域中一個(gè)非常重要的工具。2開源工具數(shù)據(jù)挖掘常用工具Python語言Python是一款用于數(shù)據(jù)統(tǒng)計(jì)、分析、可視化等任務(wù),以及機(jī)器學(xué)習(xí)、人工智能等領(lǐng)域的高效開發(fā)語言。利用Python進(jìn)行數(shù)據(jù)挖掘的優(yōu)勢(shì)1.爬取數(shù)據(jù)需要Python2.數(shù)據(jù)分析需要Python3.Python語言簡(jiǎn)單高效30五月202453利用Python進(jìn)行數(shù)據(jù)挖掘的優(yōu)勢(shì)30五月202454Python數(shù)據(jù)挖掘常用類庫Python的第三方模塊很豐富,而且語法非常簡(jiǎn)練,自由度很高。30五月202455Python數(shù)據(jù)挖掘常用類庫Scikit-learnScikit-learn簡(jiǎn)稱sklearn,是一組簡(jiǎn)單有效的工具集。sklearn依賴于Python的NumPy,SciPy和matplotlib庫,它封裝了大量經(jīng)典以及最新的機(jī)器學(xué)習(xí)模型。作為一款用于機(jī)器學(xué)習(xí)和實(shí)踐的Python第三方開源數(shù)據(jù)庫,具備了出色的接口設(shè)計(jì)和高效的學(xué)習(xí)能力。內(nèi)容應(yīng)用算法回歸(regression)價(jià)格預(yù)測(cè)、趨勢(shì)預(yù)測(cè)等線性回歸,SVR等降維(DimensionReduction)可視化PCA,NMF等分類(Classification)異常檢測(cè)、圖像識(shí)別等KNN、SVM等聚類(Clustering)圖像分割、群體劃分等K-means,譜聚類等Python數(shù)據(jù)挖掘常用類庫Scikit-learn中的數(shù)據(jù)集在機(jī)器學(xué)習(xí)過程中,需要使用各種各樣的數(shù)據(jù)集,Scikit-learn內(nèi)置有一些小型標(biāo)準(zhǔn)數(shù)據(jù)集,不需要從某個(gè)外部網(wǎng)站下載任何文件,一些常用的數(shù)據(jù)集見表數(shù)據(jù)集名稱調(diào)用方式數(shù)據(jù)描述鳶尾花數(shù)據(jù)集load_iris()用于多分類任務(wù)的數(shù)據(jù)集波士頓房?jī)r(jià)數(shù)據(jù)集load_boston()用于回歸任務(wù)的經(jīng)典數(shù)據(jù)集乳腺癌數(shù)據(jù)集load_breast_cancer()用于二分類任務(wù)的數(shù)據(jù)集體能訓(xùn)練數(shù)據(jù)集load_linnerud()用于多變量回歸的數(shù)據(jù)集酒的數(shù)據(jù)集load_wine用于分類Python數(shù)據(jù)挖掘常用類庫Scikit-learn的主要功能分類回歸聚類數(shù)據(jù)降維模型選擇和數(shù)據(jù)預(yù)處理數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的區(qū)別與聯(lián)系數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的概念都是在20世紀(jì)90年代前后為支持企業(yè)決策問題提出,但又是兩個(gè)相對(duì)獨(dú)立的知識(shí)體系構(gòu)成,因此既有區(qū)別又有聯(lián)系。1.概念的內(nèi)涵不同

數(shù)據(jù)倉庫是一個(gè)綜合的歷史數(shù)據(jù)集合,其核心是數(shù)據(jù),而數(shù)據(jù)挖掘則是對(duì)大量數(shù)據(jù)進(jìn)行深入分析的一個(gè)過程,其核心是數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)。因此,數(shù)據(jù)倉庫是數(shù)據(jù)挖掘的一個(gè)對(duì)象,但數(shù)據(jù)挖掘的對(duì)象又不止數(shù)據(jù)倉庫。反過來,數(shù)據(jù)倉庫的分析工具也不僅僅限于數(shù)據(jù)挖掘工具,還有OLAP多維分析工具以及其他統(tǒng)計(jì)分析工具。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的區(qū)別與聯(lián)系2.解決的問題不同

數(shù)據(jù)倉庫概念是為了解決數(shù)據(jù)集成、數(shù)據(jù)組織和存儲(chǔ)管理問題而提出,因?yàn)閿?shù)據(jù)倉庫的數(shù)據(jù)其實(shí)是傳統(tǒng)數(shù)據(jù)庫總已經(jīng)存在的冗余數(shù)據(jù),只是為了支持決策而將其從數(shù)據(jù)庫中分離出來,經(jīng)抽取、轉(zhuǎn)換和集成后加載到數(shù)據(jù)倉庫中。而數(shù)據(jù)挖掘是為了對(duì)數(shù)據(jù)進(jìn)行深入分析而提出,主要解決如何從大量數(shù)據(jù)中發(fā)現(xiàn)隱含的知識(shí)。3.使用的技術(shù)不同

數(shù)據(jù)倉庫的數(shù)據(jù)組織和存儲(chǔ)管理主要使用數(shù)據(jù)庫及其相關(guān)技術(shù),而數(shù)據(jù)挖掘針對(duì)發(fā)現(xiàn)數(shù)據(jù)中隱含的知識(shí)主要使用機(jī)器學(xué)習(xí)和模式識(shí)別等人工智能技術(shù)。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的區(qū)別與聯(lián)系數(shù)據(jù)倉庫和數(shù)據(jù)挖掘都是為支持企業(yè)的管理決策這一中心目標(biāo)而提出,因此,二者面向支持決策互為補(bǔ)充,具體體現(xiàn)在以下幾個(gè)方面。1.數(shù)據(jù)倉庫為數(shù)據(jù)挖掘提供了更廣泛的數(shù)據(jù)源。2.數(shù)據(jù)倉庫為數(shù)據(jù)挖掘提供了新的數(shù)據(jù)支撐平臺(tái)。數(shù)據(jù)倉庫被設(shè)計(jì)為只讀方式,其集成需要專門的ETL工具,因此,它對(duì)數(shù)據(jù)查詢有強(qiáng)大的支持能力,使決策者挖掘出更深入更有價(jià)值的知識(shí),而且,數(shù)據(jù)倉庫存儲(chǔ)了不同粒度的綜合集成數(shù)據(jù),可以更有效支持多層次和多種知識(shí)的挖掘。3.數(shù)據(jù)挖掘?yàn)閿?shù)據(jù)倉庫提供了更好的決策支持工具。建立數(shù)據(jù)倉庫的目的是為了決策支持,而數(shù)據(jù)挖掘正好能對(duì)數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行深入分析,發(fā)現(xiàn)隱藏在數(shù)據(jù)中的事先未知的潛在有用的模式,以提供決策支持。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的區(qū)別與聯(lián)系數(shù)據(jù)倉庫和數(shù)據(jù)挖掘都是為支持企業(yè)的管理決策這一中心目標(biāo)而提出,因此,二者面向支持決策互為補(bǔ)充,具體體現(xiàn)在以下幾個(gè)方面。4.數(shù)據(jù)挖掘?yàn)閿?shù)據(jù)倉庫提出了更高的要求。當(dāng)把數(shù)據(jù)倉庫作為數(shù)據(jù)挖掘?qū)ο髸r(shí),為了提供更好更豐富的數(shù)據(jù),數(shù)據(jù)倉庫的設(shè)計(jì)和數(shù)據(jù)組織方法不僅要能滿足OLAP要求,還需考慮數(shù)據(jù)挖掘方面的特別要求。5.數(shù)據(jù)挖掘?yàn)閿?shù)據(jù)倉庫提供了廣泛的技術(shù)支撐。數(shù)據(jù)挖掘的可視化技術(shù)和統(tǒng)計(jì)分析等技術(shù)都為數(shù)據(jù)倉庫提供了強(qiáng)有力的決策支持。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的結(jié)合,為企業(yè)提供了更好的決策支持,同時(shí)促進(jìn)了數(shù)據(jù)倉庫和數(shù)據(jù)挖掘理論的發(fā)展。數(shù)據(jù)科學(xué)計(jì)算平臺(tái)——Anaconda30五月202463Anaconda是一個(gè)集成的Python數(shù)據(jù)科學(xué)環(huán)境,簡(jiǎn)單的說,Anaconda除了有Python外,還安裝了180多個(gè)用于數(shù)據(jù)分析的第三方庫,而且可以使用conda命令安裝第三方庫和創(chuàng)建多個(gè)環(huán)境。相對(duì)于只安裝Python而言,避免了安裝第三方庫的麻煩。網(wǎng)站:

/help/anaconda/數(shù)據(jù)科學(xué)計(jì)算平臺(tái)——AnacondaJupyterNotebook(Julia+Python+R=Jupyter)基于Web技術(shù)的交互式計(jì)算文檔格式,支持Markdown和Latex語法,支持代碼運(yùn)行、文本輸入、數(shù)學(xué)公式編輯、內(nèi)嵌式畫圖和其他如圖片文件的插入,是一個(gè)對(duì)代碼友好的交互式筆記本。30五月202464數(shù)據(jù)科學(xué)計(jì)算平臺(tái)——Anaconda確認(rèn)勾選將Python添加到系統(tǒng)環(huán)境變量

數(shù)據(jù)科學(xué)計(jì)算平臺(tái)——AnacondaAnacondaNavigator數(shù)據(jù)科學(xué)計(jì)算平臺(tái)——Anaconda

conda:一個(gè)工具,用于包管理和環(huán)境管理,其中:

包管理與pip類似,管理python第三方;

環(huán)境管理能夠允許用戶使用不同版本的Python,并能靈活切換數(shù)據(jù)科學(xué)計(jì)算平臺(tái)——AnacondaWin+R:運(yùn)行CMD命令;conda–V:顯示python版本,說明環(huán)境變量設(shè)置成功;condaupgrade-

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論