數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程設計

上傳人：羅*** IP屬地：貴州上傳時間：2021-10-13 格式：DOCX 頁數(shù)：45 大?。?.49MB 積分：15 舉報 版權申訴

已閱讀5頁，還剩40頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

1、通信與信息工程學院數(shù)據(jù)倉庫與數(shù)據(jù)挖掘分析課程設計班級：XXXX姓名：XXX學號：XXXXXX指導教師：XXXXX設計時間：XXXXX成績：評語：通信與信息工程學院二一X年工作完成統(tǒng)計表:組員完成任務說明自評教師評定XX1、聚類分析和關聯(lián)分析建模2、相關圖表分析3、撰寫相關內(nèi)容報告2XX1、決策分析和聚類分析挖掘建模2、相關圖表分析3、撰寫相關內(nèi)容報告4XXX1、順序分析與聚類分析模型和目標郵遞方案2、相關圖表分析處理3、撰寫相關內(nèi)容報告4XX1、聚類分析和決策分析模型2、撰寫相關內(nèi)容報告3、相關圖表分析處理教師簽名：目錄1緒論11.1項目背景11.2提出問題12數(shù)據(jù)

2、倉庫與數(shù)據(jù)集市的概念介紹12.1數(shù)據(jù)倉庫介紹12.2數(shù)據(jù)集市介紹23數(shù)據(jù)倉庫33.1數(shù)據(jù)倉庫的設計33.1.1數(shù)據(jù)倉庫的概念模型設計43.1.2數(shù)據(jù)倉庫的邏輯模型設計53.2 數(shù)據(jù)倉庫的建立53.2.1數(shù)據(jù)倉庫數(shù)據(jù)集成53.2.2建立維表84.OLAP操作105.數(shù)據(jù)預處理125.1描述性數(shù)據(jù)匯總125.2數(shù)據(jù)清理與變換136.數(shù)據(jù)挖掘操作136.1關聯(lián)規(guī)則挖掘136.2 分類和預測176.3決策樹的建立186.4聚類分析227.總結(jié)258.任務分配261、緒論 1.1項目背景在現(xiàn)在大數(shù)據(jù)時代，各行各業(yè)需要對商品及相關關節(jié)的數(shù)據(jù)進行收集處理，尤其零售行業(yè)，于企業(yè)對產(chǎn)品的市場需求進行科學合理

3、的分析，從而預測出將來的市場，制定出高效的決策，給企業(yè)帶來經(jīng)濟收益。1.2 提出問題對于超市的商品的購買時期和購買數(shù)量的如何決定，才可以使銷售量最大，不積壓商品，不缺貨，對不同時期季節(jié)和不同人群制定不同方案，使企業(yè)收益最大，通過數(shù)據(jù)挖掘?qū)?shù)據(jù)進行決策樹分析，關聯(lián)分析，順序分析與決策分析等可以制定出最佳方案。2、數(shù)據(jù)庫倉庫與數(shù)據(jù)集的概念介紹2.1數(shù)據(jù)倉庫數(shù)據(jù)倉庫介紹: 數(shù)據(jù)倉庫是為企業(yè)所有級別的決策制定過程提供支持的所有類型數(shù)據(jù)的戰(zhàn)略集合。它是單個數(shù)據(jù)存儲，出于分析性報告和決策支持的目的而創(chuàng)建。為企業(yè)提供需要業(yè)務智能來指導業(yè)務流程改進和監(jiān)視時間、成本、質(zhì)量和控制。數(shù)據(jù)倉庫是決策系統(tǒng)支持（ds

4、s）和聯(lián)機分析應用數(shù)據(jù)源的結(jié)構化數(shù)據(jù)環(huán)境。數(shù)據(jù)倉庫研究和解決從數(shù)據(jù)庫中獲取信息的問題。數(shù)據(jù)倉庫的特征在于面向主題、集成性、穩(wěn)定性和時變性。數(shù)據(jù)集介紹: 數(shù)據(jù)集是指一種由數(shù)據(jù)所組成的集合。Data set（或dataset）是一個數(shù)據(jù)的集合，通常以表格形式出現(xiàn)。每一列代表一個特定變量。每一行都對應于某一成員的數(shù)據(jù)集的問題。它列出的價值觀為每一個變量，如身高和體重的一個物體或價值的隨機數(shù)。每個數(shù)值被稱為數(shù)據(jù)資料。對應于行數(shù)，該數(shù)據(jù)集的數(shù)據(jù)可能包括一個或多個成員。3、數(shù)據(jù)倉庫3.1 數(shù)據(jù)倉庫的設計 3.1.1數(shù)據(jù)倉庫的概念模型設計概念模型的設計是整個概念模型開發(fā)過程的三階段。設計階段依據(jù)概念模型分

5、析以及分析過程中收集的任何數(shù)據(jù)，完成星型模型和雪花型模型的設計。如果僅依賴ERD，那只能對商品、銷售、客戶主題設計成如圖所示的概念模型。這種模型適合于傳統(tǒng)的數(shù)據(jù)庫設計，但不適合于數(shù)據(jù)倉庫的設計。 3.1.2數(shù)據(jù)倉庫的邏輯模型設計邏輯建模是數(shù)據(jù)倉庫實施中的重要一環(huán)，因為它能直接反映出各個業(yè)務的需求，同時對系統(tǒng)的物理實施有著重要的指導作用，它的作用在于可以通過實體和關系勾勒出企業(yè)的數(shù)據(jù)藍圖，數(shù)據(jù)倉庫的邏輯模型設計任務主要有：分析主題域，確定要裝載到數(shù)據(jù)倉庫的主題、確認粒度層次劃分、確認數(shù)據(jù)分割策略、關系模式的定義和記錄系統(tǒng)定義、確認數(shù)據(jù)抽取模型等。邏輯模型最終設計成果包括每個主題的邏輯定義，并將

6、相關內(nèi)容記錄在數(shù)據(jù)倉庫的元數(shù)據(jù)中、粒度劃分、數(shù)據(jù)分割策略、表劃分和數(shù)據(jù)來源等。3.2 數(shù)據(jù)倉庫的建立 3.2.1數(shù)據(jù)倉庫數(shù)據(jù)集一般說來,一個數(shù)據(jù)集市是按照某一特定部門的決策支持需求而組織起來的、針對一組主題的應用系統(tǒng)。例如,財務部擁有自己的數(shù)據(jù)集市,用來進行財務方面的報表和分析,市場推廣部、銷售部等也擁有各自專用的數(shù)據(jù)集市,用來為本部門的決策支持提供輔助手段。數(shù)據(jù)集市大都采用多維數(shù)據(jù)庫技術,這種技術對數(shù)據(jù)的分析而言也許是最優(yōu)的,但肯定不適合于大量數(shù)據(jù)的存儲,因為多維數(shù)據(jù)庫的數(shù)據(jù)冗余度很高。為了提高速度,對數(shù)據(jù)集市中的數(shù)據(jù)一般都建立大量的索引。換言之,數(shù)據(jù)集市中往往靠對數(shù)據(jù)的預處理來換取運行時的

7、高速度,當業(yè)務部門提出新的問題時,如果不在原來設計的范圍內(nèi),則需要數(shù)據(jù)庫管理員對數(shù)據(jù)庫作許多調(diào)整和優(yōu)化處理。3.2.2建立維表維是分析問題的角度，度量是要分析的問題。多維視圖：用包含度量和維的表的數(shù)據(jù)結(jié)構可以創(chuàng)建一個多維視圖，用試題和維創(chuàng)建的多維模型稱為星型模型，星型模型生成的主要表格被稱為事實表。事實表的屬性值幾乎都有連續(xù)值。事實表是規(guī)范化的。與維表不同不是隨時間的推移變化，而是不斷變大。維表：星型模型也具有非常小的表，用來裝載描述信息。維表是逆規(guī)范化的。如果把維表置于第二范式中，這樣的表稱為雪花模型。維表包括主鍵，通常對應事實表的外部鍵。如果維表的主鍵不在實事表中，這個主鍵字便被稱作退化的

8、維。維表的分類：(1)結(jié)構維：表示在層內(nèi)組成中的信息量度。如客戶地理位置維、時間維、產(chǎn)品維等。結(jié)構維包含一組相關的成員，組成結(jié)構維的屬性之間有一對多的關系。加法度量：可以相加的屬性值(2)信息維：計算字段如利潤額、平均值等（每個商品的利潤）。(3) 分區(qū)維：以同一結(jié)構生成兩個或多個維。如：按時間分區(qū)，預測額度、實際額度等。(4)分類維：通過對一個維的屬性值分組而創(chuàng)建。如果工資收入500-2000；200-4000；5000-7000；等創(chuàng)建維表：有3種方法：星型模型、雪花模型和星暴模型。星暴模型含有兩張以上的事實表。基本有些充當維事實表。星型模型：所有信息維都放在同一個維表中。維表信息包含一個

9、唯一的標識符（ID）和通過這個維表建立的所有維所需的屬性。星型模型由小的維表與大的事實表組成，多稱為“小表和大表”。事實表一般是標準表。雪花模型：把信息分為3種標準格式。產(chǎn)品表、類別表、子類別表。把這些信息放到一起需要一定數(shù)據(jù)的連接。雪花模型比星型模型效率低，占空間少。所有的事實表都有一個與之相關的時間維表。4. OLAP操作聯(lián)機分析處理（OLAP）系統(tǒng)是數(shù)據(jù)倉庫系統(tǒng)最主要的應用，專門設計用于支持復雜的分析操作，側(cè)重對決策人員和高層管理人員的決策支持，可以根據(jù)分析人員的要求快速、靈活地進行大數(shù)據(jù)量的復雜查詢處理，并且以一種直觀而易懂的形式將查詢結(jié)果提供給決策人員，以便他們準確掌握企業(yè)（公司）的

10、經(jīng)營狀況，了解對象的需求，制定正確的方案。OLAP展現(xiàn)在用戶面前的是一幅幅多維視圖。維（Dimension）：是人們觀察數(shù)據(jù)的特定角度，是考慮問題時的一類屬性，屬性集合構成一個維（時間維、地理維等）。維的層次（Level）：人們觀察數(shù)據(jù)的某個特定角度（即某個維）還可以存在細節(jié)程度不同的各個描述方面（時間維：日期、月份、季度、年）。維的成員（Member）：維的一個取值，是數(shù)據(jù)項在某維中位置的描述。（“某年某月某日”是在時間維上位置的描述）。度量（Measure）：多維數(shù)組的取值。OLAP的基本多維分析操作有鉆取（Drill-up和Drill-down）、切片（Slice）和切塊（Dice）、以

11、及旋轉(zhuǎn)（Pivot）等。鉆?。菏歉淖兙S的層次，變換分析的粒度。它包括向下鉆取（Drill-down）和向上鉆?。―rill-up）/上卷(Roll-up)。Drill-up是在某一維上將低層次的細節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù)，或者減少維數(shù)；而Drill-down則相反，它從匯總數(shù)據(jù)深入到細節(jié)數(shù)據(jù)進行觀察或增加新維。切片和切塊：是在一部分維上選定值后，關心度量數(shù)據(jù)在剩余維上的分布。如果剩余的維只有兩個，則是切片；如果有三個或以上，則是切塊。旋轉(zhuǎn)：是變換維的方向，即在表格中重新安排維的放置（例如行列互換）5. 數(shù)據(jù)預處理 5.1描述性數(shù)據(jù)匯總對于許多數(shù)據(jù)預處理任務，希望知道關于數(shù)據(jù)的中心趨勢和離中

12、趨勢特征。中心趨勢度量包括均值（mean）、中位數(shù)（median）、眾數(shù)（mode）和中列數(shù)（midrange），而數(shù)據(jù)離中趨勢度量包括四分位數(shù)（quartiles）、四分位數(shù)極差（interquartile range, IQR）和方差（variance）。這些描述性統(tǒng)計量有助于理解數(shù)據(jù)的分布。5.2數(shù)據(jù)清理與變換數(shù)據(jù)清理例程通過填寫缺失的值、光滑噪聲數(shù)據(jù)、識別或刪除離群點并解決不一致性來“清理”數(shù)據(jù)。主要是達到如下目標：格式標準化，異常數(shù)據(jù)清除，錯誤糾正，重復數(shù)據(jù)的清除。通過平滑聚集，數(shù)據(jù)概化，規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。6.數(shù)據(jù)挖掘操作個人的兩個作業(yè)：6.1關聯(lián)規(guī)則

13、挖掘 1) 需求分析關聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘和知識發(fā)現(xiàn)中的一個重要問題,自提出以來得到了廣泛的研究.目前關聯(lián)規(guī)則挖掘算法可以分為廣度優(yōu)先算法和深度優(yōu)先算法兩大類,每類都有經(jīng)典高效的算法提出.但是,這些算法大都是從其自身的角度來描述的,缺乏系統(tǒng)的分類和比較.文章從關聯(lián)規(guī)則挖掘的形式化定義出發(fā),給出頻集挖掘的解空間,對兩大類算法中的幾種經(jīng)典算法進行了概述,并分析了它們的優(yōu)缺點.2）概要設計關聯(lián)規(guī)則挖掘過程主要包含兩個階段：第一階段必須先從資料集合中找出所有的高頻項目組(Frequent Itemsets)，第二階段再由這些高頻項目組中產(chǎn)生關聯(lián)規(guī)則(Association Rules)。關聯(lián)規(guī)則挖

14、掘的第一階段必須從chaoshi集合中，找出所有高頻項目組。高頻的意思是指某一項目組出現(xiàn)的頻率相對于所有記錄而言，必須達到某一水平。一項目組出現(xiàn)的頻率稱為支持度，以一個包含A與B兩個項目的2-itemset為例，我們可以經(jīng)由公式求得包含A,B項目組的支持度，若支持度大于等于所設定的最小支持度(Minimum Support)門檻值時，則A,B稱為高頻項目組。一個滿足最小支持度的k-itemset，則稱為高頻k-項目組(Frequent k-itemset)，一般表示為Large k或Frequent k。算法并從Large k的項目組中再產(chǎn)生Large k+1，直到無法再找到更長的高頻項目組為

15、止。3）詳細設計在準備用于關聯(lián)規(guī)則模型的數(shù)據(jù)時，應理解特定算法的要求，其中包括所需要的數(shù)據(jù)量以及使用數(shù)據(jù)的方式。關聯(lián)規(guī)則模型的要求如下：單個key列每個模型都必須包含一個數(shù)值或文本列，用于唯一標識每個記錄。不允許復合鍵。單個可預測列一個關聯(lián)模型只能有一個可預測列。通常它是嵌套表的鍵列，例如列出已購買的產(chǎn)品的字段。這些值必須是離散或離散化值。輸入列輸入列必須為離散列。關聯(lián)模型的輸入數(shù)據(jù)通常包含在兩個表中。例如，一個表可能包含客戶信息，而另一個表可能包含客戶購物情況。您可以使用嵌套表將該數(shù)據(jù)輸入到模型中。有關嵌套表的詳細信息，請參閱嵌套表（Analysis Services 數(shù)據(jù)挖掘）。支

16、持”（有時候?qū)⑵浞Q為“頻率”）表示包含目標項目或項目組合的事例的數(shù)目。只有至少具有指定支持量的項目才可包含在模型中?！俺Ｓ庙椉敝笣M足以下條件的項目集合：該項目集合所具有的支持超過由 MINIMUM_SUPPORT 參數(shù)定義的閾值。例如，如果項集為 A,B,C而且每一個MINIMUM_SUPPORT 值為 10，則每個單個項目 A、B 和 C 必須均可在要包括在模型中的至少 10 個事例中找到，而且項目 A,B,C 的組合也必須可在至少 10 個事例中找到。注意通過指定項集的最大長度（這里長度指項目數(shù)目），還可控制挖掘模型中項集的數(shù)目。默認情況下，對任何特定項目或項集的支持均表示包含該項目

17、或項集的事例的計數(shù)。不過，還可以將 MINIMUM_SUPPORT 表示為占數(shù)據(jù)集的總事例的百分比，方法是鍵入數(shù)字作為小于 1 的小數(shù)值。例如，如果指定 MINIMUM_SUPPORT 值為 0.03，就意味著至少有 3% 的數(shù)據(jù)集總事例必須包含該項目或項集以包含在模型中。應當試用模型，以確定是使用計數(shù)還是百分比更有意義。恰恰相反，規(guī)則的閾值不用計數(shù)或百分比表示，而用概率（有時稱為“置信度”）表示。例如，如果項集 A,B,C 和項集 A,B,D 均出現(xiàn)在 50 個事例中，而項集 A,B 出現(xiàn)在另外 50 個事例中，則很明顯，A,B 不是 C 的強預測因子。因此，為了將某個特定結(jié)果對所有已知結(jié)

18、果加權，Analysis Services 通過以下方法來計算單個規(guī)則（例如 If A,B Then C）的概率：用對項集 A,B,C的支持除以對所有相關項集的支持。可以通過設置 MINIMUM_PROBABILITY 的值來限制模型生成的規(guī)則的數(shù)目。Analysis Services 為創(chuàng)建的每個規(guī)則輸出一個指示其“重要性”（也稱為“提升”）的分數(shù)。項集和規(guī)則的提升重要性的計算方法不同。項集重要性的計算方法為項集概率除以項集中各個項的合成概率。例如，如果項集包含 A,B，Analysis Services 首先計算包含此 A 和 B 組合的所有事例的數(shù)目，并用此事例數(shù)除以事例總數(shù)，然后將得

19、到的概率規(guī)范化。規(guī)則重要性的計算方法為：在已知規(guī)則左側(cè)的情況下，求規(guī)則右側(cè)的對數(shù)可能性值。例如，如果規(guī)則為 If A Then B，則 Analysis Services 計算具有 A 和 B 的事例與具有 B 但不具有 A 的事例之比，然后使用對數(shù)刻度將該比率規(guī)范化。功能選擇 Microsoft 關聯(lián)規(guī)則算法不執(zhí)行任何一種自動功能選擇，而是提供參數(shù)來控制其自身使用的數(shù)據(jù)。上述情況可能包括對每個項集大小的限制，或?qū)㈨椉砑拥侥Ｐ椭兴璧淖畲蠛妥钚≈С值脑O置。若要篩選出太常見因而不受關注的項目和事件，請減小 MAXIMUM_SUPPORT 的值以將常見項集從模型中刪除。若要篩選出罕見的項

20、目和項集，請增大 MINIMUM_SUPPORT 的值。若要篩選出規(guī)則，請增大 MINIMUM_PROBABILITY 的值。主要步驟：（1）定義多維數(shù)據(jù)集在該任務中，將使用多維數(shù)據(jù)集向?qū)矶x一個初始 Analysis Services 多維數(shù)據(jù)集。（2）定義維度,向維度中添加屬性，在該任務中，將使用維度向?qū)矶x維度。定義維度層次結(jié)構，（3）修改度量值,和增加新的度量值在此任務中，為多維數(shù)據(jù)創(chuàng)建新的命名計算定義操作，鉆取使用管理角色（7）部署 Analysis Services 項目結(jié)果分析關聯(lián)規(guī)則挖掘的第二階段是要產(chǎn)生關聯(lián)規(guī)則(Association Rules)。從高頻產(chǎn)生關聯(lián)規(guī)則

21、，是利用前一步驟的高頻k-項目組來產(chǎn)生規(guī)則，在最小信賴度的條件門檻下，若一規(guī)則所求得的信賴度滿足最小信賴度，稱此規(guī)則為關聯(lián)規(guī)則。例如：經(jīng)由高頻k-項目組A,B所產(chǎn)生的規(guī)則AB，其信賴度可經(jīng)由公式求得，若賴度大于等于最小信賴度，則稱AB為關聯(lián)規(guī)則。就chaoshi而言，使用關聯(lián)規(guī)則挖掘技術，對交易資料庫中的紀錄進行資料挖掘，首先必須要設定最小支持度與最小信賴度兩個門檻值，在此假設最小支持度min_support=5% 且最小信賴度min_confidence=70%。因此符合此該超市需求的關聯(lián)規(guī)則將必須同時滿足以上兩個條件。若經(jīng)過挖掘過程所找到的關聯(lián)規(guī)則購買數(shù)量，購買商品序號，滿足下列條件，將可

22、接受購買數(shù)量，購買商品序號的關聯(lián)規(guī)則。從上面的介紹還可以看出，關聯(lián)規(guī)則挖掘通常比較適用與記錄中的指標取離散值的情況。如果原始數(shù)據(jù)庫中的指標值是取連續(xù)的數(shù)據(jù)，則在關聯(lián)規(guī)則挖掘之前應該進行適當?shù)臄?shù)據(jù)離散化（實際上就是將某個區(qū)間的值對應于某個值），數(shù)據(jù)的離散化是數(shù)據(jù)挖掘前的重要環(huán)節(jié)，離散化的過程是否合理將直接影響關聯(lián)規(guī)則的挖掘結(jié)果。5）提交結(jié)論和執(zhí)行結(jié)果6.2 分類和預測 6.2聚類分析設計內(nèi)容：根據(jù)超市現(xiàn)有數(shù)據(jù)，用決策樹、依賴性等分析方法分析出哪些條件對顧客會員卡的辦理起著決定性的影響，哪些產(chǎn)品的銷量最好，哪些產(chǎn)品應該擺放在一起提高銷售量，哪些產(chǎn)品應該適當促銷提高收入。同時還做了會員的丟失率和會

23、員的貢獻度，平均交易間隔時間和次數(shù)等問題的分析，設計思路: 將數(shù)據(jù)導入sqlserver2008中后，可以利用analysis servers對數(shù)據(jù)進行操作，進行多維數(shù)據(jù)集的創(chuàng)建及維度表等的相關操作，同時運用MDX及sql語言來發(fā)掘數(shù)據(jù)的關聯(lián)，得到相關問題的答案。工作流程：1.將chaoshi.xlx表格中的數(shù)據(jù)導入sqlserver 2008企業(yè)管理器中的chaoshi數(shù)據(jù)庫中；2. 將chaoshi數(shù)據(jù)源在analysis里面更新；3.創(chuàng)建chaoshi多維數(shù)據(jù)集； 4.我們采用星型結(jié)構創(chuàng)建維度，因此要創(chuàng)建事實表和維度表；5. 創(chuàng)建多維數(shù)據(jù)集成功后進行存儲設計處理；6. 處理完成之后，在

24、“處理進度”和“處理挖掘結(jié)構 - 順序分析和聚類分析”對話框中，單擊“關閉”。7. 在，“順序分析和聚類分析”模型已經(jīng)生成，可以使用數(shù)據(jù)挖掘設計器的“挖掘模型查看器”選項卡中的 Microsoft 順序分析和聚類分析查看器瀏覽該模型了。Microsoft 順序分析和聚類分析查看器包括五個選項卡：“分類關系圖”、“分類剖面圖”、“分類特征”、“分類辨別”和“狀態(tài)轉(zhuǎn)換”。 8. “分類關系圖”選項卡 “分類關系圖”選項卡以圖形方式顯示在數(shù)據(jù)庫中發(fā)現(xiàn)的算法的分類。關系圖中的布局表示分類之間的關系，其中相似的分類分在一起。默認情況下，節(jié)點顏色的明暗度表示分類中所有事例的密度，節(jié)點越暗，包含的事例越多。

25、可以更改節(jié)點明暗度代表的含義，使其表示屬性和狀態(tài)。例如，在“明暗度變量”列表中選擇“模型”，并在“狀態(tài)”列表中選擇“購買商品序號”。9. “分類剖面圖”選項卡 “分類剖面圖”選項卡顯示每個分類中存在的序列。分類列在“狀態(tài)”列右邊的單個列中。在查看器中，Model.samples 行表示序列數(shù)據(jù)，Model 行說明了分類中各項的總體分布。Model.samples 行的每個單元中顏色序列的每個線條表示分類中隨機選中的用戶的行為。單個序列直方圖中的每個顏色代表一個模型。10. 分類特征”選項卡 “分類特征”選項卡匯總了分類中各狀態(tài)間的轉(zhuǎn)換，其中的各欄說明了所選分類屬性值的重要性。例如，在分類 4

26、中，其中一個最重要的特征是客戶傾向于先在4月進行購物。11. 分類辨別”選項卡使用“分類辨別”選項卡，可以比較兩個分類，確定模型及其傾向的分類。該選項卡包括四個列：“變量”、“值”、“分類 1”和“分類 2”。如果分類傾向于特定模型，則在“變量”列中相應模型行的“分類 1”或“分類 2”列中將出現(xiàn)一個藍條。藍條越長，模型越傾向于該分類。例如，在查看器中使用“分類辨別”選項卡，可以通過在“分類 1”中選擇分類 2 以及在“分類 2”中選擇分類 5，來比較分類 2 和分類 5。12. 狀態(tài)轉(zhuǎn)換”選項卡在“狀態(tài)轉(zhuǎn)換”選項卡上，可以選擇分類并瀏覽其狀態(tài)轉(zhuǎn)換。每個節(jié)點都表示模型的一個狀態(tài)。線條表示狀

27、態(tài)間的轉(zhuǎn)換，每個節(jié)點都基于轉(zhuǎn)換的可能性。背景色表示分類中節(jié)點的頻率。例如，從“分類”中選中“分類 3”，選中商品ID節(jié)點，然后將“所有鏈接”滑塊降低幾格。 6.3 聚類分析設計內(nèi)容：根據(jù)超市現(xiàn)有數(shù)據(jù)，用決策樹、聚類分析等分析方法分析出哪些條件對顧客購買商品的影響，哪些產(chǎn)品的銷量最好，哪些產(chǎn)品應該擺放在一起提高銷售量，哪些產(chǎn)品應該適當促銷提高收入。平均交易間隔時間和次數(shù)等問題的分析，設計思路: 將數(shù)據(jù)導入sqlserver2008中后，可以利用數(shù)據(jù)挖掘教材對數(shù)據(jù)進行操作，進行數(shù)據(jù)挖掘，數(shù)據(jù)模型設計等的相關操作，同時運用它對數(shù)據(jù)的決策樹設計，聚類分析等分析數(shù)據(jù)間的關系。工作流程：1.將超市exe

28、cel表格中的數(shù)據(jù)導入sqlserver 2008企業(yè)管理器中的sqlserver 2008數(shù)據(jù)庫中；2.將超市數(shù)據(jù)源在analysis里面更新；3.創(chuàng)建超市數(shù)據(jù)的挖掘模型。 4.首先是對兩個表銷售流水表和品牌表進行模型設計。 5.創(chuàng)建多維數(shù)據(jù)集成功后進行存儲設計處理； 6.瀏覽創(chuàng)建好的數(shù)據(jù)挖掘模型的下鉆； 7.創(chuàng)建決策樹、聚類分析的數(shù)據(jù)挖掘模型，分析超市如何運用OLAP和依賴性分析來了解顧客購買習慣和商品之間的關聯(lián)，正確的擺放商品位置以及如何運用促銷手段對商品進行銷售。1.銷售流水表（聚類分析）分類關系圖從圖中可以看出只有分類5和分類8只有最強的關聯(lián)性，無論兩個的關系如何變化，只要有5商品

29、則必然有8商品，所有鏈接的關系越大，則他們的關系越復雜。各個商品的關系也越來越明確。分類剖面圖從分類剖面圖可以看出各個商品在總的商品中所占的比例，為我們分析數(shù)據(jù)提供一定的方便。分類特征該表展示了所有商品的屬性在所有類型中所占的比例，從而分析各個屬性的影響因素。分類對比6.4決策樹決策樹關系圖依賴關系網(wǎng)絡表示了商品id和購買數(shù)量的絕對的關系，及無論怎樣這兩個都從在一定的關系。2.品牌表（聚類分析）分類關系圖分類剖面圖從圖中可以看出只有分類和分類3只有最強的關聯(lián)性，無論兩個的關系如何變化，只要有2商品則必然有3商品，所有鏈接的關系越大，則他們的關系越復雜。各個商品的關系也越來越明確。分類特征從分

30、類剖面圖可以看出各個品牌在總的商品中所占的比例，為我們分析數(shù)據(jù)提供一定的分類特征方便分類對比（2）（2）決策樹決策樹關系圖6.5 順序分析和聚類分析挖掘1.需求分析分類和預測是兩種數(shù)據(jù)分析形式，可以用于提取描述重要數(shù)據(jù)類的模型或預測未來的數(shù)據(jù)趨勢。然而，分類是預測分類標號（或離散值），而預測建立連續(xù)值函數(shù)模型。2.概要設計相關性分析：數(shù)據(jù)中許多屬性可能與分類和預測任務不相關。此外，其它屬性可能是冗余的。因此，可以進行相關分析，刪除學習過程中不相關或冗余屬性。理想地，用在相關分析上的時間，加上從“壓縮的”結(jié)果子集上學習的時間，應當少于由原來的數(shù)據(jù)集合上學習所花的時間。因此，這種分析可以幫助

31、提高分類的有效性和可規(guī)模性。預測的準確率：這涉及模型正確地預測新的或先前未見過的數(shù)據(jù)的類標號的能力。速度：這涉及產(chǎn)生和使用模型的計算花費。強壯性：這涉及給定噪音數(shù)據(jù)或具有遺漏值的數(shù)據(jù)，模型正確預測的能力。可規(guī)模性：這涉及給定大量數(shù)據(jù)，有效地構造模型的能力?？山忉屝裕哼@涉及學習模型提供的理解和洞察的層次。3.詳細設計數(shù)據(jù)分類是一個兩步過程。第一步，建立一個模型，描述預定的數(shù)據(jù)類或概念集。通過分析由屬性描述的數(shù)據(jù)庫元組來構造模型。第二步使用模型進行分類。首先評估模型（分類法）的預測準確率，主要步驟：1. 在 Business Intelligence Development Studio 的解決方

32、案資源管理器中，右鍵單擊“挖掘結(jié)構”，再選擇“新建挖掘結(jié)構”。系統(tǒng)將打開數(shù)據(jù)挖掘向?qū)А?. 在“歡迎使用數(shù)據(jù)挖掘向?qū)А表撋?，單擊“下一步”?. 在“選擇定義方法”頁中，選擇“從現(xiàn)有關系數(shù)據(jù)庫或數(shù)據(jù)倉庫”，再單擊“下一步”。 4.在“選擇數(shù)據(jù)挖掘技術”頁的“您要使用何種數(shù)據(jù)挖掘技術?”下，選擇“Mi crosoft 順序分析和聚類分析”，再單擊“下一步”。 “選擇數(shù)據(jù)源視圖”頁隨即顯示。默認情況下，“可用數(shù)據(jù)源視圖”下的 chaoshi為選中狀態(tài)。5在“指定表類型”頁上，選中 “商品分類表” 旁的“事例”復選框，選中“品牌表”表旁的“嵌套”復選框。單擊“下一步”。6.在“指定定型數(shù)據(jù)”頁上，通

33、過按如下所示復選框如下圖7.在“指定列的內(nèi)容和數(shù)據(jù)類型”頁上，驗證已經(jīng)按如下所示為每個列設置了單擊下一步8.在“完成向?qū)А表摰摹巴诰蚪Y(jié)構名稱”中，9.在“挖掘模型名稱”中，單擊“完成”。此時將打開數(shù)據(jù)挖掘設計器，顯示剛創(chuàng)建的商品信息表挖掘結(jié)構。處理挖掘模型：在 Business Intelligence Development Studio 的“挖掘模型”菜單上，選擇“處理挖掘結(jié)構和所有模型”。此時將打開“處理挖掘結(jié)構 - 順序分析和聚類分析”對話框。單擊“運行”。系統(tǒng)將打開“處理進度”對話框，以顯示有關模型處理的信息。模型處理可能需要一些時間，具體取決于您的計算機。1. 處理完成之后，在

34、“處理進度”和“處理挖掘結(jié)構 - 順序分析和聚類分析”對話框中，單擊“關閉”。瀏覽順序分析和聚類分析模型現(xiàn)在，“順序分析和聚類分析”模型已經(jīng)生成，可以使用數(shù)據(jù)挖掘設計器的“挖掘模型查看器”選項卡中的 Microsoft 順序分析和聚類分析查看器瀏覽該模型了。Microsoft 順序分析和聚類分析查看器包括五個選項卡：“分類關系圖”、“分類剖面圖”、“分類特征”、“分類辨別”和“狀態(tài)轉(zhuǎn)換”。“分類關系圖”選項卡 “分類關系圖”選項卡以圖形方式顯示在數(shù)據(jù)庫中發(fā)現(xiàn)的算法的分類。關系圖中的布局表示分類之間的關系，其中相似的分類分在一起。默認情況下，節(jié)點顏色的明暗度表示分類中所有事例的密度，節(jié)點越暗，包

35、含的事例越多?？梢愿墓?jié)點明暗度代表的含義，使其表示屬性和狀態(tài)。”。分類關系圖顯示分類，明暗變量選購買數(shù)量，狀態(tài)選平均值，顯示如圖?！胺诸惼拭鎴D”選項卡 “分類剖面圖”選項卡顯示每個分類中存在的序列。分類列在“狀態(tài)”列右邊的單個列中。行的每個單元中顏色序列的每個線條表示分類中隨機選中的用戶的行為。單個序列直方圖中的每個顏色代表一個產(chǎn)品模型。“分類特征”選項卡 “分類特征”選項卡匯總了分類中各狀態(tài)間的轉(zhuǎn)換，其中的各欄說明了所選分類屬性值的重要性?！胺诸悓Ρ取边x項卡使用“分類辨別”選項卡，可以比較兩個分類，確定模型及其傾向的分類。該選項卡包括四個列：“變量”、“值”、“分類 1”和“分類 2”。

36、如果分類傾向于特定模型，則在“變量”列中相應模型行的“分類 1”或“分類 2”列中將出現(xiàn)一個藍條。藍條越長，模型越傾向于該分類。“狀態(tài)轉(zhuǎn)換”選項卡在“狀態(tài)轉(zhuǎn)換”選項卡上，可以選擇分類并瀏覽其狀態(tài)轉(zhuǎn)換。每個節(jié)點都表示模型的一個狀態(tài)。線條表示狀態(tài)間的轉(zhuǎn)換，每個節(jié)點都基于轉(zhuǎn)換的可能性。背景色表示分類中節(jié)點的頻率。4.總結(jié)：分類和預測據(jù)庫內(nèi)容豐富，蘊藏大量信息，可以用來作出智能的商務決策。分類和預測是兩種數(shù)據(jù)分析形式，可以用于提取描述重要數(shù)據(jù)類的模型或預測未來的數(shù)據(jù)趨勢。然而，分類是預測分類標號（或離散值），而預測建立連續(xù)值函數(shù)模型。數(shù)據(jù)分類是一個兩步過程。第一步，建立一個模型，描述預定的數(shù)據(jù)類或概

37、念集。通過分析由屬性描述的數(shù)據(jù)庫元組來構造模型。或?qū)ο?。為建立模型而被分析的?shù)據(jù)元組形成訓練數(shù)據(jù)集。訓練數(shù)據(jù)集中的單個元組稱作訓練樣本，并隨機地由樣本群選取。第二步使用模型進行分類。首先評估模型（分類法）的預測準確率評估分類準確率的多種方法。從而對于超市的商品的購買時期和購買數(shù)量的如何決定，才可以使銷售量最大，不積壓商品，不缺貨，對不同時期季節(jié)和不同人群制定不同方案，使企業(yè)收益最大，通過數(shù)據(jù)挖掘?qū)?shù)據(jù)進行決策樹分析，關聯(lián)分析，順序分析與決策分析等可以制定出最佳方案。6.6決策樹的建立二、目標郵遞分析1.需求分析以視圖方式建立數(shù)據(jù)模型可簡化聯(lián)機業(yè)務分析，提高查詢性能。通過創(chuàng)建數(shù)據(jù)源視圖，Ana

38、lysis Manager 可將存儲在關系數(shù)據(jù)庫中的數(shù)據(jù)轉(zhuǎn)換為具有實際含義并且易于查詢的業(yè)務信息。2. 概要設計(1) 利用給定的數(shù)據(jù)庫，新建一個數(shù)據(jù)挖掘項目；(2) 依次建立數(shù)據(jù)源，數(shù)據(jù)源視圖，維度，多維度數(shù)據(jù)集，挖掘機構；(3) 選擇不同的算法對挖掘的結(jié)果進行分析，預測.(4) 根據(jù)以上分析，提出可以執(zhí)行的決策3.詳細設計(1) 在analysis manager 的解決資源方案管理器中右擊“挖掘結(jié)構”，在列表中選擇“新建挖掘結(jié)構”；在使用數(shù)據(jù)挖掘頁面，單擊“下一步”；在“選擇定義方法”頁面，“使用何種方法定義挖掘結(jié)構？”框中選擇“從現(xiàn)有關系數(shù)據(jù)庫或數(shù)據(jù)倉庫”，單擊“下一步”；(2) 在“

39、創(chuàng)建數(shù)據(jù)挖掘結(jié)構”頁面，“你要使用何種數(shù)據(jù)挖掘技術”的下拉列表中選中“Microsoft決策樹”，單擊“下一步”；(3) 在“選擇數(shù)據(jù)源視圖”頁面確?！翱捎脭?shù)據(jù)源視圖”框中選中“超市數(shù)據(jù)”，單擊“下一步”；(4) 在“指定表類型”頁面，“輸入表”框：“事例”選擇“銷售流水表1019”，單擊“下一步”；在“指定數(shù)據(jù)類型”頁面，“挖掘模型結(jié)構”框中，“鍵”選擇“流水號”，“輸入”選擇“購買商品序號、商品ID”，“可預測”選擇“購買數(shù)量、總額，單擊下一步：(5) 在“指定列的內(nèi)容和數(shù)據(jù)類型”頁面，單擊“檢測”，單擊“下一步”；(6) 在“創(chuàng)建測試集”頁面，單擊“下一步”；(7) 在“完成向?qū)А表撁妫?/p>

40、設置“挖掘結(jié)構名稱、挖掘模型名稱”，“挖掘結(jié)構名稱”后選擇“允許鉆取”，單擊“完成”；挖掘結(jié)構（17）挖掘模型：（19）購買數(shù)量決策樹：(20) 購買數(shù)量的依賴關系圖:總結(jié)：決策樹分析法是常用的風險分析決策方法。該方法是一種用樹形圖來描述各方案在未來收益的計算。比較以及選擇的方法，其決策是以期望值為標準的。人們對未來可能會遇到好幾種不同的情況。每種情況均有出現(xiàn)的可能，人們目前無法確知，但是可以根據(jù)以前的資料來推斷各種自然狀態(tài)出現(xiàn)的概率。在這樣的條件下，人們計算的各種方案在未來的經(jīng)濟效果只能是考慮到各種自然狀態(tài)出現(xiàn)的概率的期望值，與未來的實際收益不會完全相等。6.7決策樹實驗分析：1. 實驗目

41、標使用SSAS進行決策樹模型挖掘?qū)嶒灐?. 實驗要求（1）按“實驗內(nèi)容”完成操作，并記錄實驗步驟；（2）回答“問題討論”中的思考題，并寫出本次實驗的心得體會；（3）完成實驗報告。3.實驗內(nèi)容利用tomcat的表中銷售流水表分析顧客購買商品的特征分布4.實驗步驟 (1)進入項目的新增挖掘結(jié)構，使用數(shù)據(jù)挖掘向?qū)斫ⅲM入“數(shù)據(jù)挖掘向?qū)А焙簏c擊“下一步”按鈕；（2）從現(xiàn)在的關系型數(shù)據(jù)庫或數(shù)據(jù)倉庫中讀取數(shù)據(jù)，即為默認值，故直接在這個頁面點擊“下一步”按鈕；（3）到選擇挖掘技術部分選擇“Microsoft決策樹”后，點擊“下一步”按鈕；（4）選取“tomcat”數(shù)據(jù)庫后，點擊“下一步”按鈕；（5）選取

42、“銷售流水表”表后，點擊“下一步”按鈕；（6）選擇所需輸入的變量與預測變量，以及索引鍵以商品ID為索引鍵，銷售總額為預測變量，并按下建議鍵以了解預測變量與其他變量之間的相關性，可找出較具影響力的輸入變量，之后點擊“完成”按鈕，這時回到原來的頁面，點擊“下一步”按鈕（7）此時程序會提出一些變量的相關系數(shù)，用戶可自行選擇輸入與否；（8）顯示正確的數(shù)據(jù)屬性，此時修正了一個變量的數(shù)據(jù)屬性，完成后點擊“下一步”按鈕；（9）更改挖掘結(jié)婚夠的名稱，點擊“完成”按鈕；（10）選擇上方的挖掘模型查看器，程序問是否建立部署項目，選擇“是”；（11）接下來點擊“運行”按鈕；（12）執(zhí)行完以后點擊“關閉”；（13）建

43、模完成。生成數(shù)據(jù)挖掘結(jié)構接口包含挖掘結(jié)構，挖掘模型，挖掘模型查看器，挖掘準確性圖表以及挖掘模型預測；其中在挖掘模型結(jié)構中，主要是呈現(xiàn)數(shù)據(jù)間的關聯(lián)性以及分析的變量；（14）根據(jù)上面設置的參數(shù)，在挖掘模型查看器則呈現(xiàn)此樹形結(jié)構；（16）對數(shù)據(jù)的分布進一步加以了了解，從“依賴關系網(wǎng)絡”可以了解因變量與自變量間的關聯(lián)性強弱程度。6.8聚類分析實驗分析：1. 實驗目標使用聚類分析模型挖掘?qū)嶒灐?. 實驗要求（1）按“實驗內(nèi)容”完成操作，并記錄實驗步驟；（2）回答“問題討論”中的思考題，并寫出本次實驗的心得體會；（3）完成實驗報告。3.實驗內(nèi)容利用tomcat的表中銷售流水表分析顧客購買商品的特征分布4.

44、實驗步驟 (1)進入項目的新增挖掘結(jié)構，使用數(shù)據(jù)挖掘向?qū)斫?，進入“數(shù)據(jù)挖掘向?qū)А焙簏c擊“下一步”按鈕；（2）從現(xiàn)在的關系型數(shù)據(jù)庫或數(shù)據(jù)倉庫中讀取數(shù)據(jù)，即為默認值，故直接在這個頁面點擊“下一步”按鈕；（3）到選擇挖掘技術部分選擇“Microsoft聚類分析”后，點擊“下一步”按鈕；（4）選取“tomcat”數(shù)據(jù)庫后，點擊“下一步”按鈕；（5）選取“銷售流水表”表后，點擊“下一步”按鈕；（6）選擇所需輸入的變量與預測變量，以及索引鍵以商品ID為索引鍵，銷售總額為預測變量，并按下建議鍵以了解預測變量與其他變量之間的相關性，可找出較具影響力的輸入變量，之后點擊“完成”按鈕，這時回到原來的頁面，點擊

45、“下一步”按鈕（7）此時程序會提出一些變量的相關系數(shù)，用戶可自行選擇輸入與否；（8）顯示正確的數(shù)據(jù)屬性，此時修正了一個變量的數(shù)據(jù)屬性，完成后點擊“下一步”按鈕；（9）更改挖掘結(jié)婚夠的名稱，點擊“完成”按鈕；（10）選擇上方的挖掘模型查看器，程序問是否建立部署項目，選擇“是”；（11）接下來點擊“運行”按鈕；（12）執(zhí)行完以后點擊“關閉”；（13）建模完成。生成數(shù)據(jù)挖掘結(jié)構接口包含挖掘結(jié)構，挖掘模型，挖掘模型查看器，挖掘準確性圖表以及挖掘模型預測；其中在挖掘模型結(jié)構中，主要是呈現(xiàn)數(shù)據(jù)間的關聯(lián)性以實驗心得：在本次實驗中，從新建工作流一直到獲得最終結(jié)果，整個流程讓我對數(shù)據(jù)挖掘中數(shù)據(jù)分析處理的基本

46、方法有了深入的了解，特別是決策樹模型應用的理解，同時，也學會了如何使用決策樹通過建模和直觀化顯示發(fā)現(xiàn)數(shù)據(jù)庫中的關系（即鏈接）以及利用這些鏈接與數(shù)據(jù)中的案例組相對應關系可以通過建模可詳細研究這些組并描繪其特征，增強了運用決策樹模型和聚類分析模型的能力。通過這次學習讓我意識到，對于數(shù)據(jù)我們不僅要能利用統(tǒng)計來分析它的規(guī)律，也要能會通過數(shù)據(jù)挖掘軟件來挖掘數(shù)據(jù)當中的潛在信息，并且利用數(shù)據(jù)挖掘所得到的有利信息更好的服務于數(shù)據(jù)使用者。7.大總結(jié) ：堅持好一段時間，終于把完成了任務，通過這幾次實驗報告的實踐操作，我收獲很大，不但學習相關數(shù)據(jù)挖掘的知識，關于Microsoft Visual Studio200

47、8了解更多，操作也比原來熟練多了。雖然過程中有點折磨過，但當你克服了，耐心去一步一步操作，那些煩躁的心情就會慢慢消失，還得要有耐心，認真的態(tài)度去操作，才能有結(jié)果。關聯(lián)分析是一個很有用的數(shù)據(jù)挖掘模型，能夠幫助企業(yè)做很多很有用的產(chǎn)品組合推薦、優(yōu)惠促銷組合，同時也能指導貨架擺放是否合理，還能夠找到更多的潛在客戶，的確真正的把數(shù)據(jù)挖掘落到實處。關聯(lián)分析具體能用來做什么呢？可以一句話來概括：最大限度地從你口袋里面掏出更多的錢買我的產(chǎn)品。 1.通過關聯(lián)規(guī)則，推出相應的促銷禮包或優(yōu)惠組合套裝，快速幫助提高銷售額。如自行車針對不同人群，來制定有效的銷售方案。2.零售超市或商場，可以通過產(chǎn)品關聯(lián)程度大小，指導產(chǎn)

48、品合理擺放，方便顧客最購買更多其所需要的產(chǎn)品。最常見的就是超市里面購買肉和購買蔬菜水果等貨架會擺放得很近，目前就是很多人會同時購買肉與蔬菜，產(chǎn)品的合理擺放也是提高銷售的一個關鍵。 3.進行相關產(chǎn)品推薦或者挑選相應的關聯(lián)產(chǎn)品進行精準營銷。最常見的是你在亞馬遜或京東購買產(chǎn)品的時候，旁邊會出現(xiàn)購買該商品的人，有百分之多少還會購買如下的產(chǎn)品，快速幫助顧客找到其共同愛好的產(chǎn)品。物以類聚，人以群分。例如，窮人一般和窮人在一起，富人也喜歡和富人在一起。還有數(shù)據(jù)挖掘的人喜歡和數(shù)據(jù)挖掘的人打交道，都離不開這些鳥道理。 4.尋找更多潛在的目標客戶。例如：100人里面，購買A的有60人，購買B的有40人，同時購買A和B的有30人，說明A里面有一半的顧客會購買B，反推而言。如果推出類似B的產(chǎn)品，除了向產(chǎn)品B的用戶推薦（因為新產(chǎn)品與B的功能效果比較類似）之外，還可以向A的客戶進行推薦，這樣就能最大限度地尋找更多的目標客戶。

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程設計

文檔簡介

溫馨提示

最新文檔

評論

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程設計

文檔簡介

溫馨提示

最新文檔

評論

相關文檔