




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第1章 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述
第一章數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述1.1 數(shù)據(jù)庫與數(shù)據(jù)倉庫 1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘 1.3 商務(wù)智能
1.1 數(shù)據(jù)庫與數(shù)據(jù)倉庫1.1.1數(shù)據(jù)的層次性
39攝氏度體溫1.1 數(shù)據(jù)庫與數(shù)據(jù)倉庫1.1.1數(shù)據(jù)的層次性
石家莊2021年7月1日氣溫39攝氏度石家莊(1971年-2021年)7月平均氣溫39攝氏度1.1 數(shù)據(jù)庫與數(shù)據(jù)倉庫1.1.1數(shù)據(jù)的層次性
知識信息數(shù)據(jù)數(shù)據(jù)是信息的載體,信息是數(shù)據(jù)的內(nèi)涵客觀事物的數(shù)量、屬性、位置及其相互關(guān)系進(jìn)行抽象表示反應(yīng)了客觀世界的規(guī)律性,與決策相關(guān)1.1 數(shù)據(jù)庫與數(shù)據(jù)倉庫1.1.1數(shù)據(jù)的層次性
清明時(shí)節(jié)雨紛紛立夏耕田小滿灌水芒種看果夏至看禾小暑谷熟大暑忙收1.1 數(shù)據(jù)庫與數(shù)據(jù)倉庫1.1.1數(shù)據(jù)的層次性
石家莊哪種病的死亡率最高?1.1 數(shù)據(jù)庫與數(shù)據(jù)倉庫1.1.1數(shù)據(jù)的層次性
1.1 數(shù)據(jù)庫與數(shù)據(jù)倉庫1.1.2數(shù)據(jù)倉庫出現(xiàn)的原因
數(shù)據(jù)庫存在的問題數(shù)據(jù)量增長迅速,處理復(fù)雜問題的性能下降明顯存在信息孤島現(xiàn)象,異構(gòu)環(huán)境的數(shù)據(jù)轉(zhuǎn)換和共享困難數(shù)據(jù)主要面向事務(wù)處理,缺少對決策和數(shù)據(jù)分析的支撐1.1 數(shù)據(jù)庫與數(shù)據(jù)倉庫1.1.2數(shù)據(jù)倉庫出現(xiàn)的原因
傳統(tǒng)數(shù)據(jù)庫在當(dāng)前數(shù)據(jù)量增長迅速、經(jīng)營管理中決策支持、數(shù)據(jù)分析要求越來越高的背景下,越來越力不從心,無法擔(dān)當(dāng)作為大規(guī)模數(shù)據(jù)綜合分析平臺的重任,管理決策任務(wù)需要有一種新的理論、技術(shù)和工具來提供支持,這就是數(shù)據(jù)倉庫。1.1 數(shù)據(jù)庫與數(shù)據(jù)倉庫1.1.3數(shù)據(jù)倉庫的概念
數(shù)據(jù)倉庫是面向主題的、集成的、隨時(shí)間變化的、非易失的數(shù)據(jù)集合,用于支持管理層的決策過程。是一種為信息分析提供了良好的基礎(chǔ)并支持管理決策活動的分析環(huán)境,是面向主題的、集成的、穩(wěn)定的、不可更新的、隨時(shí)間變化的、分層次的多維的集成數(shù)據(jù)集合1.1 數(shù)據(jù)庫與數(shù)據(jù)倉庫1.1.3數(shù)據(jù)倉庫的概念
面向主題:數(shù)據(jù)倉庫以支持管理層的決策為目的,圍繞著某些具體的分析主題而組織數(shù)據(jù)組合起來,共同形成對該對象的較為完整、一致、準(zhǔn)確的描述,這一被描述的對象就是“主題”確定了主題之后,就應(yīng)對業(yè)務(wù)數(shù)據(jù)庫的內(nèi)容加以組織歸類。1.1 數(shù)據(jù)庫與數(shù)據(jù)倉庫1.1.3數(shù)據(jù)倉庫的概念
數(shù)據(jù)集成性:數(shù)據(jù)倉庫中數(shù)據(jù)的集成性,是指在構(gòu)建數(shù)據(jù)倉庫的過程中,多個(gè)外部數(shù)據(jù)源內(nèi)格式不同、定義各異的數(shù)據(jù),按既定的策略經(jīng)過抽取、清洗、轉(zhuǎn)換等一系列處理,最終構(gòu)成一個(gè)有機(jī)的整體。1.1 數(shù)據(jù)庫與數(shù)據(jù)倉庫1.1.3數(shù)據(jù)倉庫的概念
數(shù)據(jù)集成性:數(shù)據(jù)倉庫從業(yè)務(wù)數(shù)據(jù)庫中獲取數(shù)據(jù)后,并不直接將其導(dǎo)入,而是進(jìn)行一系列的預(yù)處理工作,即對數(shù)據(jù)進(jìn)行篩選、清洗和轉(zhuǎn)換、綜合等工作(ETL),以解決數(shù)據(jù)中存在的問題。1.1 數(shù)據(jù)庫與數(shù)據(jù)倉庫1.1.3數(shù)據(jù)倉庫的概念
數(shù)據(jù)非易失性:數(shù)據(jù)按照業(yè)務(wù)要求在操作型數(shù)據(jù)庫系統(tǒng)產(chǎn)生、更新、刪除和查詢。但是數(shù)據(jù)倉庫則體現(xiàn)出一種不同數(shù)據(jù)的特性。數(shù)據(jù)被裝載(load)到數(shù)據(jù)倉庫后,被打上一個(gè)時(shí)間戳。數(shù)據(jù)倉庫中的這個(gè)數(shù)據(jù)代表了在某一時(shí)刻業(yè)務(wù)數(shù)據(jù)庫中對應(yīng)數(shù)據(jù)項(xiàng)的描述,可以稱之為數(shù)據(jù)快照。雖然隨著時(shí)間的流逝,在實(shí)際業(yè)務(wù)中這個(gè)數(shù)據(jù)字段可能早已發(fā)生變化,但是在數(shù)據(jù)倉庫中,該數(shù)據(jù)仍代表在這個(gè)時(shí)間戳?xí)r刻,該數(shù)據(jù)項(xiàng)的值,不會隨著后續(xù)裝載進(jìn)來的新數(shù)據(jù)而發(fā)生變化。1.1 數(shù)據(jù)庫與數(shù)據(jù)倉庫1.1.3數(shù)據(jù)倉庫的概念
數(shù)據(jù)隨時(shí)間變化:數(shù)據(jù)的時(shí)變性,是指數(shù)據(jù)倉庫的內(nèi)容隨時(shí)間的變化而不斷得到增補(bǔ)、更新。正如上面談到非易失性時(shí)說的,數(shù)據(jù)倉庫對導(dǎo)入其中的數(shù)據(jù)給定一個(gè)時(shí)間戳,使之成為一個(gè)描述特定時(shí)刻特征的數(shù)據(jù)快照。數(shù)據(jù)時(shí)變性的實(shí)質(zhì),就是指數(shù)據(jù)倉庫中的數(shù)據(jù)能利用快照數(shù)據(jù),形成歷史數(shù)據(jù)的軌跡,描述業(yè)務(wù)隨時(shí)間變化的情況1.1 數(shù)據(jù)庫與數(shù)據(jù)倉庫1.1.3數(shù)據(jù)倉庫的概念
事務(wù)處理環(huán)境不適于決策支持應(yīng)用:要提高分析和決策的效率和有效性,就必須把分析型數(shù)據(jù)從事務(wù)處理環(huán)境中提取出來,按照決策支持處理的需要進(jìn)行重新組織,建立單獨(dú)的分析處理環(huán)境。也就是說,分析型處理及其數(shù)據(jù)必須與操作型處理及其數(shù)據(jù)相分離。數(shù)據(jù)倉庫正是為了構(gòu)建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲和組織技術(shù)。1.1 數(shù)據(jù)庫與數(shù)據(jù)倉庫1.1.4數(shù)據(jù)倉庫與數(shù)據(jù)庫的差異
1.1 數(shù)據(jù)庫與數(shù)據(jù)倉庫1.1.5數(shù)據(jù)倉庫的商業(yè)應(yīng)用
新一代的商業(yè)模式則側(cè)重于客戶的需求,以客戶為中心,以需求定制產(chǎn)品。有了數(shù)據(jù)倉庫后,企業(yè)可以通過大量的、各方各面的數(shù)據(jù)分析客戶是誰,他喜歡什么樣的產(chǎn)品和服務(wù),應(yīng)該如何提供更好的產(chǎn)品和服務(wù)給他,并以此創(chuàng)造更多利潤。零售業(yè)、電信、銀行等,在中國郵政如何應(yīng)用。1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.1數(shù)據(jù)挖掘概念
數(shù)據(jù)挖掘早期在人工智能(ArtificialIntelligence,AI)中被稱為知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD),指的是從大量數(shù)據(jù)中尋找未知的、有價(jià)值的模式或規(guī)律等知識的過程。1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.1數(shù)據(jù)挖掘概念
知識發(fā)現(xiàn)過程數(shù)據(jù)清洗(DataCleaning):清除噪聲數(shù)據(jù)、不一致的數(shù)據(jù)和與挖掘主題明顯無關(guān)的數(shù)據(jù);數(shù)據(jù)集成(DataIntegration):將來自多數(shù)據(jù)源中的相關(guān)數(shù)據(jù)整合到一起,形成一致的、完整的數(shù)據(jù)描述;數(shù)據(jù)轉(zhuǎn)換(DataTransform):通過匯總或聚集將數(shù)據(jù)轉(zhuǎn)換為易于進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)存儲形式;數(shù)據(jù)挖掘(DataMining):知識發(fā)現(xiàn)的一個(gè)基本步驟,利用智能方法挖掘模式、規(guī)則、網(wǎng)絡(luò)等知識;模式評估(PatternEvaluation):根據(jù)一定評估標(biāo)準(zhǔn)或度量(Measure)從挖掘結(jié)果中篩選出有意義的知識;知識表示(KnowledgeRepresentation):利用可視化和知識表示技術(shù),向用戶展示所挖掘出的相關(guān)知識。
1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.1數(shù)據(jù)挖掘概念
數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.2數(shù)據(jù)挖掘商業(yè)流程
數(shù)據(jù)商務(wù)環(huán)境下的數(shù)據(jù)挖掘過程主要劃分為以下過程:商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、模型評估、模型發(fā)布。1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.2數(shù)據(jù)挖掘商業(yè)流程
商業(yè)理解確定商業(yè)目標(biāo)分析項(xiàng)目背景、具體商業(yè)目標(biāo)如何定義項(xiàng)目成功進(jìn)行形勢評估描述項(xiàng)目擁有的資源、需求的資源和限制、項(xiàng)目風(fēng)險(xiǎn)可能的偶發(fā)因素、成本與收益確定數(shù)據(jù)挖掘目標(biāo)該目標(biāo)應(yīng)具有可評估性和可實(shí)現(xiàn)性定義數(shù)據(jù)挖掘成功的標(biāo)準(zhǔn)
制定項(xiàng)目計(jì)劃,描述和評估需使用的工具、方法1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.2數(shù)據(jù)挖掘商業(yè)流程
數(shù)據(jù)理解收集原始數(shù)據(jù),撰寫數(shù)據(jù)收集報(bào)告,說明數(shù)據(jù)來源完成數(shù)據(jù)描述報(bào)告完成數(shù)據(jù)的探索性分析報(bào)告,說明業(yè)務(wù)數(shù)據(jù)的基本情況撰寫數(shù)據(jù)質(zhì)量報(bào)告,說明數(shù)據(jù)基本質(zhì)量,如空缺值情況、字段完整率。1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.2數(shù)據(jù)挖掘商業(yè)流程
數(shù)據(jù)準(zhǔn)備根據(jù)業(yè)務(wù)理解和挖掘目標(biāo),在已得到的數(shù)據(jù)集中確定挖掘時(shí)要包含(或去除)的數(shù)據(jù)根據(jù)數(shù)據(jù)探索性分析報(bào)告和質(zhì)量報(bào)告,設(shè)計(jì)數(shù)據(jù)清洗方案,撰寫數(shù)據(jù)清洗報(bào)告根據(jù)現(xiàn)有數(shù)據(jù)字段設(shè)計(jì)數(shù)據(jù)重構(gòu)方案,生成新的字段;整合相關(guān)數(shù)據(jù)格式化數(shù)據(jù),使之適合于后續(xù)分析1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.2數(shù)據(jù)挖掘商業(yè)流程
建立模型從商業(yè)理解和可用的數(shù)據(jù)出發(fā)選擇挖掘算法使用快速挖掘工具建立模型調(diào)整模型,分析模型結(jié)果,通過和預(yù)期結(jié)果比較分析、修訂模型參數(shù)得到模型結(jié)果,整理挖掘結(jié)論1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.2數(shù)據(jù)挖掘商業(yè)流程
模型評估結(jié)果評估,結(jié)合商業(yè)理解評估挖掘結(jié)果,描述商業(yè)結(jié)論與管理、營銷人員溝通,確定下一步的工作,做出決策是否結(jié)束模型調(diào)整。1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.2數(shù)據(jù)挖掘商業(yè)流程
結(jié)果發(fā)布設(shè)計(jì)模型維護(hù)計(jì)劃及方案撰寫最終的數(shù)據(jù)挖掘報(bào)告項(xiàng)目總結(jié)1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.3數(shù)據(jù)挖掘典型應(yīng)用
客戶細(xì)分客戶獲得客戶保持交叉銷售個(gè)性服務(wù)資源優(yōu)化異常事件確定1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.4基于電子商務(wù)數(shù)據(jù)挖掘技術(shù)
Web挖掘技術(shù):內(nèi)容挖掘、結(jié)構(gòu)挖掘、使用模式挖掘等能夠預(yù)測客戶的消費(fèi)趨勢,市場的走向,指導(dǎo)企業(yè)建設(shè)個(gè)性化智能網(wǎng)站提供個(gè)性化服務(wù)1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.5典型的數(shù)據(jù)挖掘方法
關(guān)聯(lián)分析:關(guān)聯(lián)規(guī)則表示如X?Y形式,含義是數(shù)據(jù)庫的某記錄中如果出現(xiàn)了X情況,則也會出現(xiàn)Y的情況。這個(gè)寫法與數(shù)據(jù)庫中的函數(shù)依賴一致,但表述的則是數(shù)據(jù)庫中記錄的實(shí)際購買行為。一個(gè)數(shù)據(jù)挖掘系統(tǒng)可以從一個(gè)商場的銷售(交易事務(wù)處理)記錄數(shù)據(jù)中,挖掘出如下所示的關(guān)聯(lián)規(guī)則:該商場有2%的顧客同時(shí)購買了土豆和蘋果,但購買土豆的人中有60%購買了蘋果
土豆?蘋果【support=2%,confidence=60%】1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.5典型的數(shù)據(jù)挖掘方法
分類:根據(jù)已有的實(shí)例建立一個(gè)模型,使之能夠識別對象所屬類別,該模型可以用于將未定類別的對象劃分到已知類別的工作該典型的分類應(yīng)用在商業(yè)中的客戶識別、老客戶維系、新客戶獲取等方面在河北省內(nèi),年齡在25歲到35歲的男士,且月收入在6000-10000之間,最有可能購買2013款的大眾CC1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.5典型的數(shù)據(jù)挖掘方法
聚類:根據(jù)最大化簇內(nèi)的相似性、最小化簇間的相似性的原則將數(shù)據(jù)對象聚類或分組,所形成的每個(gè)簇可以看作一個(gè)數(shù)據(jù)對象類該聚類分析與分類預(yù)測方法明顯不同之處在于,后者所學(xué)習(xí)獲取分類預(yù)測模型所使用的數(shù)據(jù)是已知類別歸屬,屬于有教師監(jiān)督學(xué)習(xí)方法;而聚類分析(無論是在學(xué)習(xí)還是在歸類預(yù)測時(shí))所分析處理的數(shù)據(jù)均是無(事先確定)類別歸屬,類別歸屬標(biāo)志在聚類分析處理的數(shù)據(jù)集中是不存在的1.2 數(shù)據(jù)分析與數(shù)據(jù)挖掘1.2.5典型的數(shù)據(jù)挖掘方法
時(shí)間序列模式:時(shí)間序列模式側(cè)重于挖掘出數(shù)據(jù)的前后時(shí)間順序關(guān)系,分析是否存在一定趨勢,以預(yù)測未來的訪問模式顧客購買商品A,接著購買商品B,而后購買商品C,即“序列A-B-C出現(xiàn)的頻率較高”1.3 商務(wù)智能商務(wù)智能是多項(xiàng)技術(shù)交叉在一起的復(fù)合應(yīng)用,即將數(shù)據(jù)、信息成功地轉(zhuǎn)化為決策知識,提供一種決策的輔助手段。商務(wù)智能還是一套完整的解決方案。它是將數(shù)據(jù)倉庫、聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘等結(jié)合起來應(yīng)用到商業(yè)活動中,從不同數(shù)據(jù)源收集數(shù)據(jù),經(jīng)過抽取、轉(zhuǎn)換和加載的過程,送入到數(shù)據(jù)倉庫。然后使用合適的查詢與分析工具、數(shù)據(jù)挖掘工具和聯(lián)機(jī)分析處理工具對信息進(jìn)行再處理,將信息轉(zhuǎn)變成為輔助決策的知識,最后將知識呈現(xiàn)于用戶面前,以實(shí)現(xiàn)技術(shù)服務(wù)與決策的目的。1.3 商務(wù)智能數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系數(shù)據(jù)挖掘的數(shù)據(jù)主要來源于數(shù)據(jù)倉庫數(shù)據(jù)倉庫不是數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 高效溝通協(xié)作機(jī)制建立方案
- 鄉(xiāng)村環(huán)境綜合整治技術(shù)作業(yè)指導(dǎo)書
- 電力行業(yè)供電安全告知書
- 房屋買賣按揭合同
- 商業(yè)場所租賃使用協(xié)議及設(shè)備設(shè)施管理細(xì)則協(xié)議
- 智能辦公系統(tǒng)集成方案簽署協(xié)議
- 高考語文復(fù)習(xí)-文言文重點(diǎn)字詞解析練習(xí)
- 高考英語整句翻譯漢譯英專題訓(xùn)練500題(含答案)
- 新品手機(jī)使用說明手冊
- 企業(yè)研發(fā)創(chuàng)新基金合作協(xié)議
- 廣東義務(wù)教育標(biāo)準(zhǔn)化學(xué)校
- 煤質(zhì)化驗(yàn)員測試題(附參考答案)
- 全電發(fā)票樣式
- (完整版)供應(yīng)商審核表
- 饅頭工藝流程圖
- (二次供水單位)生活飲用水衛(wèi)生許可證延續(xù)申請表
- 鈉電池正極材料PPT
- 體能訓(xùn)練概論(NSCA)
- 青島版三年級數(shù)學(xué)下冊《美麗的街景》教學(xué)課件7
- 液壓傳動全套ppt課件(完整版)
- 內(nèi)部控制五要素圖解
評論
0/150
提交評論