版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、通信與信息工程學(xué)院數(shù)據(jù)倉庫與數(shù)據(jù)挖掘分析課程設(shè)計班 級:XXXX姓 名:XXX學(xué) 號:XXXXXX指導(dǎo)教師:XXXXX設(shè)計時間:XXXXX成 績:評 語: 通信與信息工程學(xué)院 二一X年工作完成統(tǒng)計表:組員完成任務(wù)說明自評教師評定XX1、聚類分析和關(guān)聯(lián)分析建模2、相關(guān)圖表分析3、撰寫相關(guān)內(nèi)容報告2XX1、決策分析和聚類分析挖掘建模2、相關(guān)圖表分析3、撰寫相關(guān)內(nèi)容報告4XXX1、 順序分析與聚類分析模型和目標(biāo)郵遞方案2、 相關(guān)圖表分析處理3、 撰寫相關(guān)內(nèi)容報告4XX1、 聚類分析和決策分析模型2、 撰寫相關(guān)內(nèi)容報告3、 相關(guān)圖表分析處理 教師簽名:目錄1緒論11.1項目背景11.2提出問題12數(shù)據(jù)
2、倉庫與數(shù)據(jù)集市的概念介紹12.1數(shù)據(jù)倉庫介紹12.2數(shù)據(jù)集市介紹23數(shù)據(jù)倉庫33.1數(shù)據(jù)倉庫的設(shè)計33.1.1數(shù)據(jù)倉庫的概念模型設(shè)計43.1.2數(shù)據(jù)倉庫的邏輯模型設(shè)計53.2 數(shù)據(jù)倉庫的建立53.2.1數(shù)據(jù)倉庫數(shù)據(jù)集成53.2.2建立維表84.OLAP操作105.數(shù)據(jù)預(yù)處理125.1描述性數(shù)據(jù)匯總125.2數(shù)據(jù)清理與變換136.數(shù)據(jù)挖掘操作136.1關(guān)聯(lián)規(guī)則挖掘136.2 分類和預(yù)測176.3決策樹的建立186.4聚類分析227.總結(jié)258.任務(wù)分配261、 緒論 1.1項目背景 在現(xiàn)在大數(shù)據(jù)時代,各行各業(yè)需要對商品及相關(guān)關(guān)節(jié)的數(shù)據(jù)進(jìn)行收集處理,尤其零售行業(yè),于企業(yè)對產(chǎn)品的市場需求進(jìn)行科學(xué)合理
3、的分析,從而預(yù)測出將來的市場,制定出高效的決策,給企業(yè)帶來經(jīng)濟(jì)收益。1.2 提出問題對于超市的商品的購買時期和購買數(shù)量的如何決定,才可以使銷售量最大,不積壓商品,不缺貨,對不同時期季節(jié)和不同人群制定不同方案,使企業(yè)收益最大,通過數(shù)據(jù)挖掘?qū)?shù)據(jù)進(jìn)行決策樹分析,關(guān)聯(lián)分析,順序分析與決策分析等可以制定出最佳方案。2、數(shù)據(jù)庫倉庫與數(shù)據(jù)集的概念介紹2.1數(shù)據(jù)倉庫數(shù)據(jù)倉庫介紹: 數(shù)據(jù)倉庫是為企業(yè)所有級別的決策制定過程提供支持的所有類型數(shù)據(jù)的戰(zhàn)略集合。它是單個數(shù)據(jù)存儲,出于分析性報告和決策支持的目的而創(chuàng)建。 為企業(yè)提供需要業(yè)務(wù)智能來指導(dǎo)業(yè)務(wù)流程改進(jìn)和監(jiān)視時間、成本、質(zhì)量和控制。 數(shù)據(jù)倉庫是決策系統(tǒng)支持(ds
4、s)和聯(lián)機(jī)分析應(yīng)用數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。數(shù)據(jù)倉庫研究和解決從數(shù)據(jù)庫中獲取信息的問題。數(shù)據(jù)倉庫的特征在于面向主題、集成性、穩(wěn)定性和時變性。數(shù)據(jù)集介紹: 數(shù)據(jù)集是指一種由數(shù)據(jù)所組成的集合。Data set(或dataset)是一個數(shù)據(jù)的集合,通常以表格形式出現(xiàn)。每一列代表一個特定變量。每一行都對應(yīng)于某一成員的數(shù)據(jù)集的問題。它列出的價值觀為每一個變量,如身高和體重的一個物體或價值的隨機(jī)數(shù)。每個數(shù)值被稱為數(shù)據(jù)資料。對應(yīng)于行數(shù),該數(shù)據(jù)集的數(shù)據(jù)可能包括一個或多個成員。3、 數(shù)據(jù)倉庫3.1 數(shù)據(jù)倉庫的設(shè)計 3.1.1數(shù)據(jù)倉庫的概念模型設(shè)計概念模型的設(shè)計是整個概念模型開發(fā)過程的三階段。設(shè)計階段依據(jù)概念模型分
5、析以及分析過程中收集的任何數(shù)據(jù),完成星型模型和雪花型模型的設(shè)計。如果僅依賴ERD,那只能對商品、銷售、客戶主題設(shè)計成如圖所示的概念模型。這種模型適合于傳統(tǒng)的數(shù)據(jù)庫設(shè)計,但不適合于數(shù)據(jù)倉庫的設(shè)計。 3.1.2數(shù)據(jù)倉庫的邏輯模型設(shè)計 邏輯建模是數(shù)據(jù)倉庫實施中的重要一環(huán),因為它能直接反映出各個業(yè)務(wù)的需求,同時對系統(tǒng)的物理實施有著重要的指導(dǎo)作用,它的作用在于可以通過實體和關(guān)系勾勒出企業(yè)的數(shù)據(jù)藍(lán)圖,數(shù)據(jù)倉庫的邏輯模型設(shè)計任務(wù)主要有:分析主題域,確定要裝載到數(shù)據(jù)倉庫的主題、確認(rèn)粒度層次劃分、確認(rèn)數(shù)據(jù)分割策略、關(guān)系模式的定義和記錄系統(tǒng)定義、確認(rèn)數(shù)據(jù)抽取模型等。邏輯模型最終設(shè)計成果包括每個主題的邏輯定義,并將
6、相關(guān)內(nèi)容記錄在數(shù)據(jù)倉庫的元數(shù)據(jù)中、粒度劃分、數(shù)據(jù)分割策略、表劃分和數(shù)據(jù)來源等。3.2 數(shù)據(jù)倉庫的建立 3.2.1數(shù)據(jù)倉庫數(shù)據(jù)集一般說來,一個數(shù)據(jù)集市是按照某一特定部門的決策支持需求而組織起來的、針對一組主題的應(yīng)用系統(tǒng)。例如,財務(wù)部擁有自己的數(shù)據(jù)集市,用來進(jìn)行財務(wù)方面的報表和分析,市場推廣部、銷售部等也擁有各自專用的數(shù)據(jù)集市,用來為本部門的決策支持提供輔助手段。數(shù)據(jù)集市大都采用多維數(shù)據(jù)庫技術(shù),這種技術(shù)對數(shù)據(jù)的分析而言也許是最優(yōu)的,但肯定不適合于大量數(shù)據(jù)的存儲,因為多維數(shù)據(jù)庫的數(shù)據(jù)冗余度很高。為了提高速度,對數(shù)據(jù)集市中的數(shù)據(jù)一般都建立大量的索引。換言之,數(shù)據(jù)集市中往往靠對數(shù)據(jù)的預(yù)處理來換取運(yùn)行時的
7、高速度,當(dāng)業(yè)務(wù)部門提出新的問題時,如果不在原來設(shè)計的范圍內(nèi),則需要數(shù)據(jù)庫管理員對數(shù)據(jù)庫作許多調(diào)整和優(yōu)化處理。3.2.2建立維表維是分析問題的角度,度量是要分析的問題。多維視圖:用包含度量和維的表的數(shù)據(jù)結(jié)構(gòu)可以創(chuàng)建一個多維視圖,用試題和維創(chuàng)建的多維模型稱為星型模型,星型模型生成的主要表格被稱為事實表。事實表的屬性值幾乎都有連續(xù)值。事實表是規(guī)范化的。與維表不同不是隨時間的推移變化,而是不斷變大。維表:星型模型也具有非常小的表,用來裝載描述信息。維表是逆規(guī)范化的。如果把維表置于第二范式中,這樣的表稱為雪花模型。維表包括主鍵,通常對應(yīng)事實表的外部鍵。如果維表的主鍵不在實事表中,這個主鍵字便被稱作退化的
8、維。維表的分類:(1)結(jié)構(gòu)維:表示在層內(nèi)組成中的信息量度。如客戶地理位置維、時間維、產(chǎn)品維等。結(jié)構(gòu)維包含一組相關(guān)的成員,組成結(jié)構(gòu)維的屬性之間有一對多的關(guān)系。加法度量:可以相加的屬性值(2)信息維:計算字段如利潤額、平均值等(每個商品的利潤)。(3) 分區(qū)維:以同一結(jié)構(gòu)生成兩個或多個維。如:按時間分區(qū),預(yù)測額度、實際額度等。(4)分類維:通過對一個維的屬性值分組而創(chuàng)建。如果工資收入500-2000;200-4000;5000-7000;等創(chuàng)建維表:有3種方法:星型模型、雪花模型和星暴模型。星暴模型含有兩張以上的事實表。基本有些充當(dāng)維事實表。星型模型:所有信息維都放在同一個維表中。維表信息包含一個
9、唯一的標(biāo)識符(ID)和通過這個維表建立的所有維所需的屬性。星型模型由小的維表與大的事實表組成,多稱為“小表和大表”。事實表一般是標(biāo)準(zhǔn)表。雪花模型:把信息分為3種標(biāo)準(zhǔn)格式。產(chǎn)品表、類別表、子類別表。把這些信息放到一起需要一定數(shù)據(jù)的連接。雪花模型比星型模型效率低,占空間少。所有的事實表都有一個與之相關(guān)的時間維表。4. OLAP操作聯(lián)機(jī)分析處理(OLAP)系統(tǒng)是數(shù)據(jù)倉庫系統(tǒng)最主要的應(yīng)用,專門設(shè)計用于支持復(fù)雜的分析操作,側(cè)重對決策人員和高層管理人員的決策支持,可以根據(jù)分析人員的要求快速、靈活地進(jìn)行大數(shù)據(jù)量的復(fù)雜查詢處理,并且以一種直觀而易懂的形式將查詢結(jié)果提供給決策人員,以便他們準(zhǔn)確掌握企業(yè)(公司)的
10、經(jīng)營狀況,了解對象的需求,制定正確的方案。OLAP展現(xiàn)在用戶面前的是一幅幅多維視圖。維(Dimension):是人們觀察數(shù)據(jù)的特定角度,是考慮問題時的一類屬性,屬性集合構(gòu)成一個維(時間維、地理維等)。維的層次(Level):人們觀察數(shù)據(jù)的某個特定角度(即某個維)還可以存在細(xì)節(jié)程度不同的各個描述方面(時間維:日期、月份、季度、年)。維的成員(Member):維的一個取值,是數(shù)據(jù)項在某維中位置的描述。(“某年某月某日”是在時間維上位置的描述)。度量(Measure):多維數(shù)組的取值。OLAP的基本多維分析操作有鉆?。―rill-up和Drill-down)、切片(Slice)和切塊(Dice)、以
11、及旋轉(zhuǎn)(Pivot)等。鉆?。菏歉淖兙S的層次,變換分析的粒度。它包括向下鉆?。―rill-down)和向上鉆?。―rill-up)/上卷(Roll-up)。Drill-up是在某一維上將低層次的細(xì)節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù),或者減少維數(shù);而Drill-down則相反,它從匯總數(shù)據(jù)深入到細(xì)節(jié)數(shù)據(jù)進(jìn)行觀察或增加新維。切片和切塊:是在一部分維上選定值后,關(guān)心度量數(shù)據(jù)在剩余維上的分布。如果剩余的維只有兩個,則是切片;如果有三個或以上,則是切塊。旋轉(zhuǎn):是變換維的方向,即在表格中重新安排維的放置(例如行列互換)5. 數(shù)據(jù)預(yù)處理 5.1描述性數(shù)據(jù)匯總對于許多數(shù)據(jù)預(yù)處理任務(wù),希望知道關(guān)于數(shù)據(jù)的中心趨勢和離中
12、趨勢特征。中心趨勢度量包括均值(mean)、中位數(shù)(median)、眾數(shù)(mode)和中列數(shù)(midrange),而數(shù)據(jù)離中趨勢度量包括四分位數(shù)(quartiles)、四分位數(shù)極差(interquartile range, IQR)和方差(variance)。這些描述性統(tǒng)計量有助于理解數(shù)據(jù)的分布。5.2數(shù)據(jù)清理與變換數(shù)據(jù)清理例程通過填寫缺失的值、光滑噪聲數(shù)據(jù)、識別或刪除離群點并解決不一致性來“清理”數(shù)據(jù)。主要是達(dá)到如下目標(biāo):格式標(biāo)準(zhǔn)化,異常數(shù)據(jù)清除,錯誤糾正,重復(fù)數(shù)據(jù)的清除。 通過平滑聚集,數(shù)據(jù)概化,規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。6.數(shù)據(jù)挖掘操作 個人的兩個作業(yè):6.1關(guān)聯(lián)規(guī)則
13、挖掘 1) 需求分析 關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘和知識發(fā)現(xiàn)中的一個重要問題,自提出以來得到了廣泛的研究.目前關(guān)聯(lián)規(guī)則挖掘算法可以分為廣度優(yōu)先算法和深度優(yōu)先算法兩大類,每類都有經(jīng)典高效的算法提出.但是,這些算法大都是從其自身的角度來描述的,缺乏系統(tǒng)的分類和比較.文章從關(guān)聯(lián)規(guī)則挖掘的形式化定義出發(fā),給出頻集挖掘的解空間,對兩大類算法中的幾種經(jīng)典算法進(jìn)行了概述,并分析了它們的優(yōu)缺點.2) 概要設(shè)計關(guān)聯(lián)規(guī)則挖掘過程主要包含兩個階段:第一階段必須先從資料集合中找出所有的高頻項目組(Frequent Itemsets),第二階段再由這些高頻項目組中產(chǎn)生關(guān)聯(lián)規(guī)則(Association Rules)。關(guān)聯(lián)規(guī)則挖
14、掘的第一階段必須從chaoshi集合中,找出所有高頻項目組。高頻的意思是指某一項目組出現(xiàn)的頻率相對于所有記錄而言,必須達(dá)到某一水平。一項目組出現(xiàn)的頻率稱為支持度,以一個包含A與B兩個項目的2-itemset為例,我們可以經(jīng)由公式求得包含A,B項目組的支持度,若支持度大于等于所設(shè)定的最小支持度(Minimum Support)門檻值時,則A,B稱為高頻項目組。一個滿足最小支持度的k-itemset,則稱為高頻k-項目組(Frequent k-itemset),一般表示為Large k或Frequent k。算法并從Large k的項目組中再產(chǎn)生Large k+1,直到無法再找到更長的高頻項目組為
15、止。3) 詳細(xì)設(shè)計在準(zhǔn)備用于關(guān)聯(lián)規(guī)則模型的數(shù)據(jù)時,應(yīng)理解特定算法的要求,其中包括所需要的數(shù)據(jù)量以及使用數(shù)據(jù)的方式。關(guān)聯(lián)規(guī)則模型的要求如下: 單個key列每個模型都必須包含一個數(shù)值或文本列,用于唯一標(biāo)識每個記錄。不允許復(fù)合鍵。 單個可預(yù)測列一個關(guān)聯(lián)模型只能有一個可預(yù)測列。通常它是嵌套表的鍵列,例如列出已購買的產(chǎn)品的字段。這些值必須是離散或離散化值。 輸入列輸入列必須為離散列。關(guān)聯(lián)模型的輸入數(shù)據(jù)通常包含在兩個表中。例如,一個表可能包含客戶信息,而另一個表可能包含客戶購物情況。您可以使用嵌套表將該數(shù)據(jù)輸入到模型中。有關(guān)嵌套表的詳細(xì)信息,請參閱嵌套表(Analysis Services 數(shù)據(jù)挖掘)。支
16、持”(有時候?qū)⑵浞Q為“頻率”)表示包含目標(biāo)項目或項目組合的事例的數(shù)目。只有至少具有指定支持量的項目才可包含在模型中?!俺S庙椉敝笣M足以下條件的項目集合:該項目集合所具有的支持超過由 MINIMUM_SUPPORT 參數(shù)定義的閾值。例如,如果項集為 A,B,C而且每一個MINIMUM_SUPPORT 值為 10,則每個單個項目 A、B 和 C 必須均可在要包括在模型中的至少 10 個事例中找到,而且項目 A,B,C 的組合也必須可在至少 10 個事例中找到。注意 通過指定項集的最大長度(這里長度指項目數(shù)目),還可控制挖掘模型中項集的數(shù)目。 默認(rèn)情況下,對任何特定項目或項集的支持均表示包含該項目
17、或項集的事例的計數(shù)。不過,還可以將 MINIMUM_SUPPORT 表示為占數(shù)據(jù)集的總事例的百分比,方法是鍵入數(shù)字作為小于 1 的小數(shù)值。例如,如果指定 MINIMUM_SUPPORT 值為 0.03,就意味著至少有 3% 的數(shù)據(jù)集總事例必須包含該項目或項集以包含在模型中。應(yīng)當(dāng)試用模型,以確定是使用計數(shù)還是百分比更有意義。 恰恰相反,規(guī)則的閾值不用計數(shù)或百分比表示,而用概率(有時稱為“置信度”)表示。例如,如果項集 A,B,C 和項集 A,B,D 均出現(xiàn)在 50 個事例中,而項集 A,B 出現(xiàn)在另外 50 個事例中,則很明顯,A,B 不是 C 的強(qiáng)預(yù)測因子。因此,為了將某個特定結(jié)果對所有已知結(jié)
18、果加權(quán),Analysis Services 通過以下方法來計算單個規(guī)則(例如 If A,B Then C)的概率:用對項集 A,B,C的支持除以對所有相關(guān)項集的支持。 可以通過設(shè)置 MINIMUM_PROBABILITY 的值來限制模型生成的規(guī)則的數(shù)目。Analysis Services 為創(chuàng)建的每個規(guī)則輸出一個指示其“重要性”(也稱為“提升”)的分?jǐn)?shù)。項集和規(guī)則的提升重要性的計算方法不同。項集重要性的計算方法為項集概率除以項集中各個項的合成概率。例如,如果項集包含 A,B,Analysis Services 首先計算包含此 A 和 B 組合的所有事例的數(shù)目,并用此事例數(shù)除以事例總數(shù),然后將得
19、到的概率規(guī)范化。 規(guī)則重要性的計算方法為:在已知規(guī)則左側(cè)的情況下,求規(guī)則右側(cè)的對數(shù)可能性值。例如,如果規(guī)則為 If A Then B,則 Analysis Services 計算具有 A 和 B 的事例與具有 B 但不具有 A 的事例之比,然后使用對數(shù)刻度將該比率規(guī)范化。功能選擇 Microsoft 關(guān)聯(lián)規(guī)則算法不執(zhí)行任何一種自動功能選擇,而是提供參數(shù)來控制其自身使用的數(shù)據(jù)。上述情況可能包括對每個項集大小的限制,或?qū)㈨椉砑拥侥P椭兴璧淖畲蠛妥钚≈С值脑O(shè)置。 若要篩選出太常見因而不受關(guān)注的項目和事件,請減小 MAXIMUM_SUPPORT 的值以將常見項集從模型中刪除。 若要篩選出罕見的項
20、目和項集,請增大 MINIMUM_SUPPORT 的值。 若要篩選出規(guī)則,請增大 MINIMUM_PROBABILITY 的值。 主要步驟:(1)定義多維數(shù)據(jù)集在該任務(wù)中,將使用多維數(shù)據(jù)集向?qū)矶x一個初始 Analysis Services 多維數(shù)據(jù)集。(2)定義維度,向維度中添加屬性,在該任務(wù)中,將使用維度向?qū)矶x維度。定義維度層次結(jié)構(gòu),(3)修改度量值,和增加新的度量值在此任務(wù)中,為多維數(shù)據(jù)創(chuàng)建新的命名計算定義操作,鉆取使用管理角色(7)部署 Analysis Services 項目結(jié)果分析關(guān)聯(lián)規(guī)則挖掘的第二階段是要產(chǎn)生關(guān)聯(lián)規(guī)則(Association Rules)。從高頻產(chǎn)生關(guān)聯(lián)規(guī)則
21、,是利用前一步驟的高頻k-項目組來產(chǎn)生規(guī)則,在最小信賴度的條件門檻下,若一規(guī)則所求得的信賴度滿足最小信賴度,稱此規(guī)則為關(guān)聯(lián)規(guī)則。例如:經(jīng)由高頻k-項目組A,B所產(chǎn)生的規(guī)則AB,其信賴度可經(jīng)由公式求得,若賴度大于等于最小信賴度,則稱AB為關(guān)聯(lián)規(guī)則。就chaoshi而言,使用關(guān)聯(lián)規(guī)則挖掘技術(shù),對交易資料庫中的紀(jì)錄進(jìn)行資料挖掘,首先必須要設(shè)定最小支持度與最小信賴度兩個門檻值,在此假設(shè)最小支持度min_support=5% 且最小信賴度min_confidence=70%。因此符合此該超市需求的關(guān)聯(lián)規(guī)則將必須同時滿足以上兩個條件。若經(jīng)過挖掘過程所找到的關(guān)聯(lián)規(guī)則購買數(shù)量,購買商品序號,滿足下列條件,將可
22、接受購買數(shù)量,購買商品序號的關(guān)聯(lián)規(guī)則。從上面的介紹還可以看出,關(guān)聯(lián)規(guī)則挖掘通常比較適用與記錄中的指標(biāo)取離散值的情況。如果原始數(shù)據(jù)庫中的指標(biāo)值是取連續(xù)的數(shù)據(jù),則在關(guān)聯(lián)規(guī)則挖掘之前應(yīng)該進(jìn)行適當(dāng)?shù)臄?shù)據(jù)離散化(實際上就是將某個區(qū)間的值對應(yīng)于某個值),數(shù)據(jù)的離散化是數(shù)據(jù)挖掘前的重要環(huán)節(jié),離散化的過程是否合理將直接影響關(guān)聯(lián)規(guī)則的挖掘結(jié)果。5) 提交結(jié)論和執(zhí)行結(jié)果6.2 分類和預(yù)測 6.2聚類分析設(shè)計內(nèi)容:根據(jù)超市現(xiàn)有數(shù)據(jù),用決策樹、依賴性等分析方法分析出哪些條件對顧客會員卡的辦理起著決定性的影響,哪些產(chǎn)品的銷量最好,哪些產(chǎn)品應(yīng)該擺放在一起提高銷售量,哪些產(chǎn)品應(yīng)該適當(dāng)促銷提高收入。同時還做了會員的丟失率和會
23、員的貢獻(xiàn)度,平均交易間隔時間和次數(shù)等問題的分析, 設(shè)計思路: 將數(shù)據(jù)導(dǎo)入sqlserver2008中后,可以利用analysis servers對數(shù)據(jù)進(jìn)行操作,進(jìn)行多維數(shù)據(jù)集的創(chuàng)建及維度表等的相關(guān)操作,同時運(yùn)用MDX及sql語言來發(fā)掘數(shù)據(jù)的關(guān)聯(lián),得到相關(guān)問題的答案。工作流程:1.將chaoshi.xlx表格中的數(shù)據(jù)導(dǎo)入sqlserver 2008企業(yè)管理器中的chaoshi數(shù)據(jù)庫中;2. 將chaoshi數(shù)據(jù)源在analysis里面更新;3.創(chuàng)建chaoshi多維數(shù)據(jù)集; 4.我們采用星型結(jié)構(gòu)創(chuàng)建維度,因此要創(chuàng)建事實表和維度表;5. 創(chuàng)建多維數(shù)據(jù)集成功后進(jìn)行存儲設(shè)計處理;6. 處理完成之后,在
24、“處理進(jìn)度”和“處理挖掘結(jié)構(gòu) - 順序分析和聚類分析”對話框中,單擊“關(guān)閉”。7. 在,“順序分析和聚類分析”模型已經(jīng)生成,可以使用數(shù)據(jù)挖掘設(shè)計器的“挖掘模型查看器”選項卡中的 Microsoft 順序分析和聚類分析查看器瀏覽該模型了。Microsoft 順序分析和聚類分析查看器包括五個選項卡:“分類關(guān)系圖”、“分類剖面圖”、“分類特征”、“分類辨別”和“狀態(tài)轉(zhuǎn)換”。 8. “分類關(guān)系圖”選項卡 “分類關(guān)系圖”選項卡以圖形方式顯示在數(shù)據(jù)庫中發(fā)現(xiàn)的算法的分類。關(guān)系圖中的布局表示分類之間的關(guān)系,其中相似的分類分在一起。默認(rèn)情況下,節(jié)點顏色的明暗度表示分類中所有事例的密度,節(jié)點越暗,包含的事例越多。
25、可以更改節(jié)點明暗度代表的含義,使其表示屬性和狀態(tài)。例如,在“明暗度變量”列表中選擇“模型”,并在“狀態(tài)”列表中選擇“購買商品序號”。9. “分類剖面圖”選項卡 “分類剖面圖”選項卡顯示每個分類中存在的序列。分類列在“狀態(tài)”列右邊的單個列中。在查看器中,Model.samples 行表示序列數(shù)據(jù),Model 行說明了分類中各項的總體分布。Model.samples 行的每個單元中顏色序列的每個線條表示分類中隨機(jī)選中的用戶的行為。單個序列直方圖中的每個顏色代表一個模型。10. 分類特征”選項卡 “分類特征”選項卡匯總了分類中各狀態(tài)間的轉(zhuǎn)換,其中的各欄說明了所選分類屬性值的重要性。例如,在分類 4
26、中,其中一個最重要的特征是客戶傾向于先在4月進(jìn)行購物。11. 分類辨別”選項卡 使用“分類辨別”選項卡,可以比較兩個分類,確定模型及其傾向的分類。該選項卡包括四個列:“變量”、“值”、“分類 1”和“分類 2”。如果分類傾向于特定模型,則在“變量”列中相應(yīng)模型行的“分類 1”或“分類 2”列中將出現(xiàn)一個藍(lán)條。藍(lán)條越長,模型越傾向于該分類。例如,在查看器中使用“分類辨別”選項卡,可以通過在“分類 1”中選擇分類 2 以及在“分類 2”中選擇分類 5,來比較分類 2 和分類 5。12. 狀態(tài)轉(zhuǎn)換”選項卡 在“狀態(tài)轉(zhuǎn)換”選項卡上,可以選擇分類并瀏覽其狀態(tài)轉(zhuǎn)換。每個節(jié)點都表示模型的一個狀態(tài)。線條表示狀
27、態(tài)間的轉(zhuǎn)換,每個節(jié)點都基于轉(zhuǎn)換的可能性。背景色表示分類中節(jié)點的頻率。例如,從“分類”中選中“分類 3”,選中 商品ID節(jié)點,然后將“所有鏈接”滑塊降低幾格。 6.3 聚類分析設(shè)計內(nèi)容:根據(jù)超市現(xiàn)有數(shù)據(jù),用決策樹、聚類分析等分析方法分析出哪些條件對顧客購買商品的影響,哪些產(chǎn)品的銷量最好,哪些產(chǎn)品應(yīng)該擺放在一起提高銷售量,哪些產(chǎn)品應(yīng)該適當(dāng)促銷提高收入。平均交易間隔時間和次數(shù)等問題的分析,設(shè)計思路: 將數(shù)據(jù)導(dǎo)入sqlserver2008中后,可以利用數(shù)據(jù)挖掘教材對數(shù)據(jù)進(jìn)行操作,進(jìn)行數(shù)據(jù)挖掘,數(shù)據(jù)模型設(shè)計等的相關(guān)操作,同時運(yùn)用它對數(shù)據(jù)的決策樹設(shè)計,聚類分析等分析數(shù)據(jù)間的關(guān)系。工作流程:1.將超市exe
28、cel表格中的數(shù)據(jù)導(dǎo)入sqlserver 2008企業(yè)管理器中的sqlserver 2008數(shù)據(jù)庫中;2.將超市數(shù)據(jù)源在analysis里面更新;3.創(chuàng)建超市數(shù)據(jù)的挖掘模型。 4.首先是對兩個表銷售流水表和品牌表進(jìn)行模型設(shè)計。 5.創(chuàng)建多維數(shù)據(jù)集成功后進(jìn)行存儲設(shè)計處理; 6.瀏覽創(chuàng)建好的數(shù)據(jù)挖掘模型的下鉆; 7.創(chuàng)建決策樹、聚類分析的數(shù)據(jù)挖掘模型,分析超市如何運(yùn)用OLAP和依賴性分析來了解顧客購買習(xí)慣和商品之間的關(guān)聯(lián),正確的擺放商品位置以及如何運(yùn)用促銷手段對商品進(jìn)行銷售。1.銷售流水表(聚類分析)分類關(guān)系圖 從圖中可以看出只有分類5和分類8只有最強(qiáng)的關(guān)聯(lián)性,無論兩個的關(guān)系如何變化,只要有5商品
29、則必然有8商品,所有鏈接的關(guān)系越大,則他們的關(guān)系越復(fù)雜。各個商品的關(guān)系也越來越明確。分類剖面圖從分類剖面圖可以看出各個商品在總的商品中所占的比例,為我們分析數(shù)據(jù)提供一定的方便。分類特征該表展示了所有商品的屬性在所有類型中所占的比例,從而分析各個屬性的影響因素。分類對比6.4決策樹決策樹關(guān)系圖依賴關(guān)系網(wǎng)絡(luò)表示了商品id和購買數(shù)量的絕對的關(guān)系,及無論怎樣這兩個都從在一定的 關(guān)系。2.品牌表(聚類分析)分類關(guān)系圖分類剖面圖從圖中可以看出只有分類和分類3只有最強(qiáng)的關(guān)聯(lián)性,無論兩個的關(guān)系如何變化,只要有2商品則必然有3商品,所有鏈接的關(guān)系越大,則他們的關(guān)系越復(fù)雜。各個商品的關(guān)系也越來越明確。分類特征從分
30、類剖面圖可以看出各個品牌在總的商品中所占的比例,為我們分析數(shù)據(jù)提供一定的分類特征方便分類對比(2)(2)決策樹決策樹關(guān)系圖6.5 順序分析和聚類分析挖掘1.需求分析 分類和預(yù)測 是兩種數(shù)據(jù)分析形式,可以用于提取描述重要數(shù)據(jù)類的模型或預(yù)測未來的數(shù)據(jù)趨勢。然而,分類是預(yù)測分類標(biāo)號(或離散值),而預(yù)測建立連續(xù)值函數(shù)模型。2.概要設(shè)計 相關(guān)性分析:數(shù)據(jù)中許多屬性可能與分類和預(yù)測任務(wù)不相關(guān)。此外,其它屬性可能是冗余的。因此,可以進(jìn)行相關(guān)分析,刪除學(xué)習(xí)過程中不相關(guān)或冗余屬性。理想地,用在相關(guān)分析上的時間,加上從“壓縮的”結(jié)果子集上學(xué)習(xí)的時間,應(yīng)當(dāng)少于由原來的數(shù)據(jù)集合上學(xué)習(xí)所花的時間。因此,這種分析可以幫助
31、提高分類的有效性和可規(guī)模性。預(yù)測的準(zhǔn)確率:這涉及模型正確地預(yù)測新的或先前未見過的數(shù)據(jù)的類標(biāo)號的能力。速度:這涉及產(chǎn)生和使用模型的計算花費(fèi)。強(qiáng)壯性:這涉及給定噪音數(shù)據(jù)或具有遺漏值的數(shù)據(jù),模型正確預(yù)測的能力。可規(guī)模性:這涉及給定大量數(shù)據(jù),有效地構(gòu)造模型的能力??山忉屝裕哼@涉及學(xué)習(xí)模型提供的理解和洞察的層次。3.詳細(xì)設(shè)計數(shù)據(jù)分類是一個兩步過程。第一步,建立一個模型,描述預(yù)定的數(shù)據(jù)類或概念集。通過分析由屬性描述的數(shù)據(jù)庫元組來構(gòu)造模型。第二步使用模型進(jìn)行分類。首先評估模型(分類法)的預(yù)測準(zhǔn)確率,主要步驟:1. 在 Business Intelligence Development Studio 的解決方
32、案資源管理器中,右鍵單擊“挖掘結(jié)構(gòu)”,再選擇“新建挖掘結(jié)構(gòu)”。系統(tǒng)將打開數(shù)據(jù)挖掘向?qū)А?. 在“歡迎使用數(shù)據(jù)挖掘向?qū)А表撋希瑔螕簟跋乱徊健薄?. 在“選擇定義方法”頁中,選擇“從現(xiàn)有關(guān)系數(shù)據(jù)庫或數(shù)據(jù)倉庫”,再單擊“下一步”。 4.在“選擇數(shù)據(jù)挖掘技術(shù)”頁的“您要使用何種數(shù)據(jù)挖掘技術(shù)?”下,選擇“Mi crosoft 順序分析和聚類分析”,再單擊“下一步”。 “選擇數(shù)據(jù)源視圖”頁隨即顯示。默認(rèn)情況下,“可用數(shù)據(jù)源視圖”下的 chaoshi為選中狀態(tài)。5在“指定表類型”頁上,選中 “商品分類表” 旁的“事例”復(fù)選框,選中“品牌表”表旁的“嵌套”復(fù)選框。單擊“下一步”。6.在“指定定型數(shù)據(jù)”頁上,通
33、過按如下所示復(fù)選框如下圖7.在“指定列的內(nèi)容和數(shù)據(jù)類型”頁上,驗證已經(jīng)按如下所示為每個列設(shè)置了單擊下一步8.在“完成向?qū)А表摰摹巴诰蚪Y(jié)構(gòu)名稱”中,9.在“挖掘模型名稱”中,單擊“完成”。 此時將打開數(shù)據(jù)挖掘設(shè)計器,顯示剛創(chuàng)建的商品信息表 挖掘結(jié)構(gòu)。處理挖掘模型:在 Business Intelligence Development Studio 的“挖掘模型”菜單上,選擇“處理挖掘結(jié)構(gòu)和所有模型”。此時將打開“處理挖掘結(jié)構(gòu) - 順序分析和聚類分析”對話框。單擊“運(yùn)行”。系統(tǒng)將打開“處理進(jìn)度”對話框,以顯示有關(guān)模型處理的信息。模型處理可能需要一些時間,具體取決于您的計算機(jī)。1. 處理完成之后,在
34、“處理進(jìn)度”和“處理挖掘結(jié)構(gòu) - 順序分析和聚類分析”對話框中,單擊“關(guān)閉”。瀏覽順序分析和聚類分析模型現(xiàn)在,“順序分析和聚類分析”模型已經(jīng)生成,可以使用數(shù)據(jù)挖掘設(shè)計器的“挖掘模型查看器”選項卡中的 Microsoft 順序分析和聚類分析查看器瀏覽該模型了。Microsoft 順序分析和聚類分析查看器包括五個選項卡:“分類關(guān)系圖”、“分類剖面圖”、“分類特征”、“分類辨別”和“狀態(tài)轉(zhuǎn)換”?!胺诸愱P(guān)系圖”選項卡 “分類關(guān)系圖”選項卡以圖形方式顯示在數(shù)據(jù)庫中發(fā)現(xiàn)的算法的分類。關(guān)系圖中的布局表示分類之間的關(guān)系,其中相似的分類分在一起。默認(rèn)情況下,節(jié)點顏色的明暗度表示分類中所有事例的密度,節(jié)點越暗,包
35、含的事例越多??梢愿墓?jié)點明暗度代表的含義,使其表示屬性和狀態(tài)。”。分類關(guān)系圖顯示分類,明暗變量選購買數(shù)量,狀態(tài)選平均值,顯示如圖?!胺诸惼拭鎴D”選項卡 “分類剖面圖”選項卡顯示每個分類中存在的序列。分類列在“狀態(tài)”列右邊的單個列中。行的每個單元中顏色序列的每個線條表示分類中隨機(jī)選中的用戶的行為。單個序列直方圖中的每個顏色代表一個產(chǎn)品模型?!胺诸愄卣鳌边x項卡 “分類特征”選項卡匯總了分類中各狀態(tài)間的轉(zhuǎn)換,其中的各欄說明了所選分類屬性值的重要性?!胺诸悓Ρ取边x項卡 使用“分類辨別”選項卡,可以比較兩個分類,確定模型及其傾向的分類。該選項卡包括四個列:“變量”、“值”、“分類 1”和“分類 2”。
36、如果分類傾向于特定模型,則在“變量”列中相應(yīng)模型行的“分類 1”或“分類 2”列中將出現(xiàn)一個藍(lán)條。藍(lán)條越長,模型越傾向于該分類。“狀態(tài)轉(zhuǎn)換”選項卡 在“狀態(tài)轉(zhuǎn)換”選項卡上,可以選擇分類并瀏覽其狀態(tài)轉(zhuǎn)換。每個節(jié)點都表示模型的一個狀態(tài)。線條表示狀態(tài)間的轉(zhuǎn)換,每個節(jié)點都基于轉(zhuǎn)換的可能性。背景色表示分類中節(jié)點的頻率。4.總結(jié):分類和預(yù)測據(jù)庫內(nèi)容豐富,蘊(yùn)藏大量信息,可以用來作出智能的商務(wù)決策。分類和預(yù)測是兩種數(shù)據(jù)分析形式,可以用于提取描述重要數(shù)據(jù)類的模型或預(yù)測未來的數(shù)據(jù)趨勢。然而,分類是預(yù)測分類標(biāo)號(或離散值),而預(yù)測建立連續(xù)值函數(shù)模型。數(shù)據(jù)分類是一個兩步過程。第一步,建立一個模型,描述預(yù)定的數(shù)據(jù)類或概
37、念集。通過分析由屬性描述的數(shù)據(jù)庫元組來構(gòu)造模型?;?qū)ο蟆榻⒛P投环治龅臄?shù)據(jù)元組形成訓(xùn)練數(shù)據(jù)集。訓(xùn)練數(shù)據(jù)集中的單個元組稱作訓(xùn)練樣本,并隨機(jī)地由樣本群選取。第二步使用模型進(jìn)行分類。首先評估模型(分類法)的預(yù)測準(zhǔn)確率評估分類準(zhǔn)確率的多種方法。從而對于超市的商品的購買時期和購買數(shù)量的如何決定,才可以使銷售量最大,不積壓商品,不缺貨,對不同時期季節(jié)和不同人群制定不同方案,使企業(yè)收益最大,通過數(shù)據(jù)挖掘?qū)?shù)據(jù)進(jìn)行決策樹分析,關(guān)聯(lián)分析,順序分析與決策分析等可以制定出最佳方案。6.6決策樹的建立 二、目標(biāo)郵遞分析1.需求分析以視圖方式建立數(shù)據(jù)模型可簡化聯(lián)機(jī)業(yè)務(wù)分析,提高查詢性能。通過創(chuàng)建數(shù)據(jù)源視圖,Ana
38、lysis Manager 可將存儲在關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)轉(zhuǎn)換為具有實際含義并且易于查詢的業(yè)務(wù)信息。2. 概要設(shè)計(1) 利用給定的數(shù)據(jù)庫,新建一個數(shù)據(jù)挖掘項目;(2) 依次建立數(shù)據(jù)源,數(shù)據(jù)源視圖,維度,多維度數(shù)據(jù)集,挖掘機(jī)構(gòu);(3) 選擇不同的算法對挖掘的結(jié)果進(jìn)行分析,預(yù)測.(4) 根據(jù)以上分析,提出可以執(zhí)行的決策3.詳細(xì)設(shè)計(1) 在analysis manager 的解決資源方案管理器中右擊“挖掘結(jié)構(gòu)”,在列表中選擇“新建挖掘結(jié)構(gòu)”;在使用數(shù)據(jù)挖掘頁面,單擊“下一步”;在“選擇定義方法”頁面,“使用何種方法定義挖掘結(jié)構(gòu)?”框中選擇“從現(xiàn)有關(guān)系數(shù)據(jù)庫或數(shù)據(jù)倉庫”,單擊“下一步”;(2) 在“
39、創(chuàng)建數(shù)據(jù)挖掘結(jié)構(gòu)”頁面,“你要使用何種數(shù)據(jù)挖掘技術(shù)”的下拉列表中選中“Microsoft決策樹”,單擊“下一步”;(3) 在“選擇數(shù)據(jù)源視圖”頁面確?!翱捎脭?shù)據(jù)源視圖”框中選中“超市數(shù)據(jù)”,單擊“下一步”;(4) 在“指定表類型”頁面,“輸入表”框:“事例”選擇“銷售流水表1019”,單擊“下一步”;在“指定數(shù)據(jù)類型”頁面,“挖掘模型結(jié)構(gòu)”框中,“鍵”選擇“流水號”,“輸入”選擇“購買商品序號、商品ID”,“可預(yù)測”選擇“購買數(shù)量、總額,單擊下一步:(5) 在“指定列的內(nèi)容和數(shù)據(jù)類型”頁面,單擊“檢測”,單擊“下一步”;(6) 在“創(chuàng)建測試集”頁面,單擊“下一步”;(7) 在“完成向?qū)А表撁妫?/p>
40、設(shè)置“挖掘結(jié)構(gòu)名稱、挖掘模型名稱”,“挖掘結(jié)構(gòu)名稱”后選擇“允許鉆取”,單擊“完成”;挖掘結(jié)構(gòu)(17)挖掘模型:(19) 購買數(shù)量決策樹:(20) 購買數(shù)量的依賴關(guān)系圖:總結(jié):決策樹分析法是常用的風(fēng)險分析決策方法。該方法是一種用樹形圖來描述各方案在未來收益的計算。比較以及選擇的方法,其決策是以期望值為標(biāo)準(zhǔn)的。人們對未來可能會遇到好幾種不同的情況。每種情況均有出現(xiàn)的可能,人們目前無法確知,但是可以根據(jù)以前的資料來推斷各種自然狀態(tài)出現(xiàn)的概率。在這樣的條件下,人們計算的各種方案在未來的經(jīng)濟(jì)效果只能是考慮到各種自然狀態(tài)出現(xiàn)的概率的期望值,與未來的實際收益不會完全相等。6.7決策樹實驗分析:1. 實驗?zāi)?/p>
41、標(biāo)使用SSAS進(jìn)行決策樹模型挖掘?qū)嶒灐?. 實驗要求(1)按“實驗內(nèi)容”完成操作,并記錄實驗步驟;(2)回答“問題討論”中的思考題,并寫出本次實驗的心得體會;(3)完成實驗報告。3.實驗內(nèi)容利用tomcat的表中銷售流水表分析顧客購買商品的特征分布4.實驗步驟 (1)進(jìn)入項目的新增挖掘結(jié)構(gòu),使用數(shù)據(jù)挖掘向?qū)斫?,進(jìn)入“數(shù)據(jù)挖掘向?qū)А焙簏c擊“下一步”按鈕;(2)從現(xiàn)在的關(guān)系型數(shù)據(jù)庫或數(shù)據(jù)倉庫中讀取數(shù)據(jù),即為默認(rèn)值,故直接在這個頁面點擊“下一步”按鈕;(3)到選擇挖掘技術(shù)部分選擇“Microsoft決策樹”后,點擊“下一步”按鈕;(4)選取“tomcat”數(shù)據(jù)庫后,點擊“下一步”按鈕;(5)選取
42、“銷售流水表”表后,點擊“下一步”按鈕;(6)選擇所需輸入的變量與預(yù)測變量,以及索引鍵以商品ID為索引鍵,銷售總額為預(yù)測變量,并按下建議鍵以了解預(yù)測變量與其他變量之間的相關(guān)性,可找出較具影響力的輸入變量,之后點擊“完成”按鈕,這時回到原來的頁面,點擊“下一步”按鈕(7)此時程序會提出一些變量的相關(guān)系數(shù),用戶可自行選擇輸入與否;(8)顯示正確的數(shù)據(jù)屬性,此時修正了一個變量的數(shù)據(jù)屬性,完成后點擊“下一步”按鈕;(9)更改挖掘結(jié)婚夠的名稱,點擊“完成”按鈕;(10)選擇上方的挖掘模型查看器,程序問是否建立部署項目,選擇“是”;(11)接下來點擊“運(yùn)行”按鈕;(12)執(zhí)行完以后點擊“關(guān)閉”;(13)建
43、模完成。生成數(shù)據(jù)挖掘結(jié)構(gòu)接口包含挖掘結(jié)構(gòu),挖掘模型,挖掘模型查看器,挖掘準(zhǔn)確性圖表以及挖掘模型預(yù)測;其中在挖掘模型結(jié)構(gòu)中,主要是呈現(xiàn)數(shù)據(jù)間的關(guān)聯(lián)性以及分析的變量;(14)根據(jù)上面設(shè)置的參數(shù),在挖掘模型查看器則呈現(xiàn)此樹形結(jié)構(gòu);(16)對數(shù)據(jù)的分布進(jìn)一步加以了了解,從“依賴關(guān)系網(wǎng)絡(luò)”可以了解因變量與自變量間的關(guān)聯(lián)性強(qiáng)弱程度。6.8聚類分析實驗分析:1. 實驗?zāi)繕?biāo)使用聚類分析模型挖掘?qū)嶒灐?. 實驗要求(1)按“實驗內(nèi)容”完成操作,并記錄實驗步驟;(2)回答“問題討論”中的思考題,并寫出本次實驗的心得體會;(3)完成實驗報告。3.實驗內(nèi)容利用tomcat的表中銷售流水表分析顧客購買商品的特征分布4.
44、實驗步驟 (1)進(jìn)入項目的新增挖掘結(jié)構(gòu),使用數(shù)據(jù)挖掘向?qū)斫?,進(jìn)入“數(shù)據(jù)挖掘向?qū)А焙簏c擊“下一步”按鈕;(2)從現(xiàn)在的關(guān)系型數(shù)據(jù)庫或數(shù)據(jù)倉庫中讀取數(shù)據(jù),即為默認(rèn)值,故直接在這個頁面點擊“下一步”按鈕;(3)到選擇挖掘技術(shù)部分選擇“Microsoft聚類分析”后,點擊“下一步”按鈕;(4)選取“tomcat”數(shù)據(jù)庫后,點擊“下一步”按鈕;(5)選取“銷售流水表”表后,點擊“下一步”按鈕;(6)選擇所需輸入的變量與預(yù)測變量,以及索引鍵以商品ID為索引鍵,銷售總額為預(yù)測變量,并按下建議鍵以了解預(yù)測變量與其他變量之間的相關(guān)性,可找出較具影響力的輸入變量,之后點擊“完成”按鈕,這時回到原來的頁面,點擊
45、“下一步”按鈕(7)此時程序會提出一些變量的相關(guān)系數(shù),用戶可自行選擇輸入與否;(8)顯示正確的數(shù)據(jù)屬性,此時修正了一個變量的數(shù)據(jù)屬性,完成后點擊“下一步”按鈕;(9) 更改挖掘結(jié)婚夠的名稱,點擊“完成”按鈕;(10)選擇上方的挖掘模型查看器,程序問是否建立部署項目,選擇“是”;(11)接下來點擊“運(yùn)行”按鈕;(12)執(zhí)行完以后點擊“關(guān)閉”;(13)建模完成。生成數(shù)據(jù)挖掘結(jié)構(gòu)接口包含挖掘結(jié)構(gòu),挖掘模型,挖掘模型查看器,挖掘準(zhǔn)確性圖表以及挖掘模型預(yù)測;其中在挖掘模型結(jié)構(gòu)中,主要是呈現(xiàn)數(shù)據(jù)間的關(guān)聯(lián)性以實驗心得: 在本次實驗中,從新建工作流一直到獲得最終結(jié)果,整個流程讓我對數(shù)據(jù)挖掘中數(shù)據(jù)分析處理的基本
46、方法有了深入的了解,特別是決策樹模型應(yīng)用的理解,同時,也學(xué)會了如何使用決策樹通過建模和直觀化顯示發(fā)現(xiàn)數(shù)據(jù)庫中的關(guān)系(即鏈接)以及利用這些鏈接與數(shù)據(jù)中的案例組相對應(yīng)關(guān)系可以通過建模可詳細(xì)研究這些組并描繪其特征,增強(qiáng)了運(yùn)用決策樹模型和聚類分析模型的能力。 通過這次學(xué)習(xí)讓我意識到,對于數(shù)據(jù)我們不僅要能利用統(tǒng)計來分析它的規(guī)律,也要能會通過數(shù)據(jù)挖掘軟件來挖掘數(shù)據(jù)當(dāng)中的潛在信息,并且利用數(shù)據(jù)挖掘所得到的有利信息更好的服務(wù)于數(shù)據(jù)使用者。7.大總結(jié) :堅持好一段時間,終于把完成了任務(wù),通過這幾次實驗報告的實踐操作,我收獲很大,不但學(xué)習(xí)相關(guān)數(shù)據(jù)挖掘的知識,關(guān)于Microsoft Visual Studio200
47、8了解更多,操作也比原來熟練多了。雖然過程中有點折磨過,但當(dāng)你克服了,耐心去一步一步操作,那些煩躁的心情就會慢慢消失,還得要有耐心,認(rèn)真的態(tài)度去操作,才能有結(jié)果。關(guān)聯(lián)分析是一個很有用的數(shù)據(jù)挖掘模型,能夠幫助企業(yè)做很多很有用的產(chǎn)品組合推薦、優(yōu)惠促銷組合,同時也能指導(dǎo)貨架擺放是否合理,還能夠找到更多的潛在客戶,的確真正的把數(shù)據(jù)挖掘落到實處。關(guān)聯(lián)分析具體能用來做什么呢?可以一句話來概括:最大限度地從你口袋里面掏出更多的錢買我的產(chǎn)品。 1.通過關(guān)聯(lián)規(guī)則,推出相應(yīng)的促銷禮包或優(yōu)惠組合套裝,快速幫助提高銷售額。如自行車針對不同人群,來制定有效的銷售方案。2.零售超市或商場,可以通過產(chǎn)品關(guān)聯(lián)程度大小,指導(dǎo)產(chǎn)
48、品合理擺放,方便顧客最購買更多其所需要的產(chǎn)品。最常見的就是超市里面購買肉和購買蔬菜水果等貨架會擺放得很近,目前就是很多人會同時購買肉與蔬菜,產(chǎn)品的合理擺放也是提高銷售的一個關(guān)鍵。 3.進(jìn)行相關(guān)產(chǎn)品推薦或者挑選相應(yīng)的關(guān)聯(lián)產(chǎn)品進(jìn)行精準(zhǔn)營銷。最常見的是你在亞馬遜或京東購買產(chǎn)品的時候,旁邊會出現(xiàn)購買該商品的人,有百分之多少還會購買如下的產(chǎn)品,快速幫助顧客找到其共同愛好的產(chǎn)品。物以類聚,人以群分。例如,窮人一般和窮人在一起,富人也喜歡和富人在一起。還有數(shù)據(jù)挖掘的人喜歡和數(shù)據(jù)挖掘的人打交道,都離不開這些鳥道理。 4.尋找更多潛在的目標(biāo)客戶。例如:100人里面,購買A的有60人,購買B的有40人,同時購買A和B的有30人,說明A里面有一半的顧客會購買B,反推而言。如果推出類似B的產(chǎn)品,除了向產(chǎn)品B的用戶推薦(因為新產(chǎn)品與B的功能效果比較類似)之外,還可以向A的客戶進(jìn)行推薦,這樣就能最大限度地尋找更多的目標(biāo)客戶。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《刑事鑒定人出庭問題研究》
- 二年級(下)第15講整數(shù)分拆綜合
- 《基于深度學(xué)習(xí)的心律失常診斷算法的設(shè)計與實現(xiàn)》
- 《中青年群體重疾險購買意愿影響因素研究》
- 《慢性心衰患者延續(xù)護(hù)理需求問卷的研制》
- 《CME理念下腹腔鏡不同入路治療右半結(jié)腸癌的療效比較》
- 2024年度廣告投放與品牌推廣合同
- 2024年舟山客運(yùn)資格證仿真試題
- 2024年廈門客運(yùn)駕駛員從業(yè)資格考試
- 2024年西安客運(yùn)從業(yè)資格證實際操作考試技巧和方法
- 培訓(xùn)的方式和方法課件
- 三年級下冊口算天天100題(A4打印版)
- 三基選擇題(東南大學(xué)出版社)
- 2021年大唐集團(tuán)招聘筆試試題及答案
- DBJ53/T-39-2020 云南省民用建筑節(jié)能設(shè)計標(biāo)準(zhǔn)
- 2022版義務(wù)教育數(shù)學(xué)課程標(biāo)準(zhǔn)解讀課件PPT模板
- 實驗五 PCR擴(kuò)增課件
- 馬拉松運(yùn)動醫(yī)療支援培訓(xùn)課件
- 中醫(yī)藥宣傳手冊
- 不良資產(chǎn)處置盡職指引
- 人教部編版七年級歷史上冊第19課 北魏政治和北方民族大交融課件(23張PPT)
評論
0/150
提交評論