金融數(shù)據(jù)挖掘_第1頁
金融數(shù)據(jù)挖掘_第2頁
金融數(shù)據(jù)挖掘_第3頁
金融數(shù)據(jù)挖掘_第4頁
金融數(shù)據(jù)挖掘_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、金融數(shù)據(jù)挖掘論文院系: 理學院 專業(yè)班級: 信息與計算科學132班學號: 201311010213姓名: 施秋梅 日期: 2016年6月24日摘要 本文主要講述金融數(shù)據(jù)挖掘中的聚類分析,主要介紹聚類分析的幾種聚類的方法系統(tǒng)層次聚類法,k-均值算法,BIRCH算法和基于密度的聚類算法。然后通過幾個實例來深度了解這幾種算法,最后是聚類分析在生活中的應用。12目 錄摘要11. 前言32. 相關(guān)算法分析32.1系統(tǒng)層次聚類法32.2 k-均值算法42.3 BIRCH算法62.4 基于密度的聚類算法73. 實例分析83.1 R語言的一個實例84. 應用105. 總結(jié)111、前言聚類分析也稱無教師學習或無

2、指導學習,與分類學習相比,聚類的樣本一般事先不做標記,需要由聚類學習算法自動確定。聚類分析是在沒有訓練目標的情況下將樣本劃分為若干簇的方法。聚類分析是數(shù)據(jù)挖掘中重要的分析方法,由于數(shù)據(jù)和問題的復雜性,數(shù)據(jù)挖掘?qū)垲惙椒ㄓ幸恍┨厥獾男枰?,這些需要表現(xiàn)為:大規(guī)模數(shù)據(jù)中塊特征的認識需要,能夠處理不同屬性數(shù)據(jù)的聚組,適應不同形狀的聚類方法,具備抗強噪聲的能力和較好的解釋性,不受輸入數(shù)據(jù)的順序的影響,高維聚類以及能夠和具體的約束兼容等,以上需要造就了豐富的聚類分析方法,也使得聚類分析廣泛的應用于客戶分析、文本歸類、結(jié)構(gòu)分組和行為跟蹤等問題中,成為數(shù)據(jù)挖掘中發(fā)展很快而且靈活變化豐富的一個分支。聚類分析是一

3、種探索數(shù)據(jù)分組的統(tǒng)計方法,其目的是建立一種歸類的方法,將一批樣本或變量,按照它們在特征上的水程度進行分類,使得組內(nèi)樣品的相似度達到最大,而組間的差距達到最大。即簇內(nèi)部的人藝兩個樣本之間具有較高的相似度,而屬于不同簇的兩個樣本之間具有較高的相異度。相異度通常用樣本間的距離刻畫。在實際應用中,經(jīng)常將一個簇中的數(shù)據(jù)樣本作為同質(zhì)的整體看待,有簡化問題和過濾冗余信息的作用。聚類分析的目標就是在相似的基礎(chǔ)上收集數(shù)據(jù)來分類。聚類源于很多領(lǐng)域,包括數(shù)學,計算機科學,統(tǒng)計學,生物學和經(jīng)濟學。在不同的應用領(lǐng)域,很多聚類技術(shù)都得到了發(fā)展,這些技術(shù)方法被用作描述數(shù)據(jù),衡量不同數(shù)據(jù)源間的相似性,以及把數(shù)據(jù)源分類到不同的

4、簇中。2、相關(guān)算法分析2.1系統(tǒng)層次聚類法距離分層的典型方法是層次聚類算法。層次聚類法也稱為系統(tǒng)層次聚類法,其想法是首先將所有的樣品都單獨作為一類,然后計算任意兩個類之間的距離,將其中距離最近的兩個類合并為一類,同時聚類的數(shù)量減一。不斷重復這個過程,直到最后只剩下最大的類別。層次聚類算法的步驟可以概括如下:(1)根據(jù)適當?shù)木嚯x定義準則,計算現(xiàn)有的N個類別兩兩之間的距離,找到其中最近的兩個類(不妨記為P和Q);(2)將P,Q合并,作為一個新類PQ,加上剩下的N-2個類,此時共有N-1個類;(3)重復步驟(1)(2),直到聚類數(shù)縮減為1停止。系統(tǒng)聚類的算法復雜度是O(n2),上述聚類的結(jié)果可以用一

5、個樹狀圖展示,如圖2.1所示,其中樹的最低端表示所有的樣品單獨成類,最頂端表示所有的樣品歸為一類,而在此之間,聚類數(shù)從N-1變動到2。在任何一個給定的高度上,都可以判斷哪些樣品被分在樹的同一枝,而聚類數(shù)的確定,需要通過實際情況進行判斷。圖2.12.2 k-均值算法k-均值算法是另一種應用范圍非常廣的聚類方法,它是一種典型的劃分聚類的方法。其思想是在給定聚類數(shù)K時,通過最小化組內(nèi)誤差平方和來得到每一個樣本點的分類。k-均值算法的過程大致如下:(1)從N個樣本點在中任意選擇(一般是隨機分配)K個作為初始聚類中心;(2)對于剩下的其他樣本點,根據(jù)他們與樣本中心的距離,分別將他們分派給與其最相似的中心

6、所在的類別;(3)計算每個新類的聚類中心;(4)不斷重復(2),(3),直到所有的樣本點的分類不再改變或類中心不再改變。具體如下:輸入:k, datan;(1) 選擇k個初始中心點,例如c0=data0,ck-1=datak-1;(2) 對于data0.datan,分別與c0ck-1比較,假定與ci差值最少,就標記為i;(3) 對于所有標記為i點,重新計算ci= 所有標記為i的dataj之和/標記為i的個數(shù);(4) 重復(2)(3),直到所有ci值的變化小于給定閾值。K-均值算法的第二個人問題是容易受到初始點選擇的影響,在分類數(shù)據(jù)上分辨力不強,不適用于非凸問題,受異常數(shù)據(jù)影響,受到不同類別的密

7、度方差大小的影響。解決的方法是采用二分K-均值過程。其主要思想是:假設(shè)要將樣本數(shù)據(jù)分為K個簇,先用基本K-均值算法將所有的數(shù)據(jù)分為兩個簇,從所得結(jié)果中選擇一個較大的簇,繼續(xù)使用K-均值算法進行分裂操作,直到得到K個簇,算法終止。二分K-均值算法步驟如下:輸入:訓練數(shù)據(jù)集D,二分次數(shù)m,目標簇數(shù)k。輸出:簇集N=N1,N2,Nk。(1)初始化簇集S,它只含一個包含所有樣本的簇N,將簇數(shù)K初始化為1;(2)從S中取出一個最大的簇Ni;(3)使用K-均值聚類算法對簇Ni進行m次二分聚類操作;(4)分別計算這m對子簇的總SSE的大小,將具有最小總SSE的一對子簇添加到S中,執(zhí)行K+操作;(5)如果K=

8、K,算法結(jié)束。否則重復(2)到(5)步驟。算法使用誤差平方和SSE最為聚類的評價函數(shù),對于二分K-均值聚類算法是各個步驟都是只有2個簇中心,因此相對于基本K-均值算法而言,更不易受到簇中心初始化問題的影響。二分K-均值算法中各步找出SSE之和最小的一對子簇N1和N2:J=xiN1xi-m1*2+xiN2xi-m2*2 在二分K-均值算法中,使用誤差平方和和度量聚類的質(zhì)量的好壞,具體的操作是對各個樣本點的誤差采取歐幾里德距離進行計算,然后計算誤差平方和。二分K-均值算法沒有初始化的問題,每一步操作實際上就是從m對子簇中找到誤差平方和最小的一對子簇,然后再進行基本的K-均值操作。2.3 BIRCH

9、算法Zhang 等人提出了Birch(Blanced Iterative Reducing and Clustering)1 算法來對大規(guī) 模數(shù)據(jù)集進行聚類。Birch 算法是一種非常有效的、傳統(tǒng)的層次聚類算法,該算法能夠用一 遍掃描有效地進行聚類,并能夠有效地處理離群點。Birch 算法是基于距離的層次聚類,綜 合了層次凝聚和迭代的重定位方法,首先用自底向上的層次算法,然后用迭代的重定位來改 進結(jié)果。2層次凝聚是采用自底向上策略,首先將每個對象作為一個原子簇,然后合并這些 原子簇形成更大的簇,減少簇的數(shù)目,直到所有的對象都在一個簇中,或某個終結(jié)條件被滿足。Birch 算法的主要思想是:通過掃

10、描數(shù)據(jù)庫,建立一個初始存放于內(nèi)存中的聚類特征樹, 然后對聚類特征樹的葉結(jié)點進行聚類。它的核心是聚類特征(CF)和聚類特征樹(CF Tree)。CF 是指三元組CF=(N,LS,SS),用來概括子簇信息,而不是存儲所有的數(shù)據(jù)點。 其中:N:簇中d 維點的數(shù)目; LS:N 個點的線性和;SS:N 個點的平方和。比如給定一個由二維點組成的集合(3,4),(2,6),(4,5),那么CF 結(jié)構(gòu)概括了簇的基本信息,并且是高度壓縮的,它存儲了小于實際數(shù)據(jù)點的聚類信息。同時CF 的三元結(jié)構(gòu)設(shè)置使得計算簇的半徑、簇的直徑、簇與簇之間的距離等非常容易。Birch 算法主要分為以下兩個階段:(1) 掃描數(shù)據(jù)庫,動

11、態(tài)的建立一棵存放在內(nèi)存的CF 樹。若內(nèi)存不夠,則增大閾值,在 原樹基礎(chǔ)上構(gòu)造一棵較小的樹。(2) 對葉節(jié)點進一步利用一個全局性的聚類算法,改進聚類質(zhì)量。 由于 CF 樹的葉節(jié)點代表的聚類可能不是自然的聚類結(jié)果,原因是給定的閾值限制了簇 的大小,并且數(shù)據(jù)的輸入順序也會影響到聚類結(jié)果。因此,需要對葉節(jié)點進一步利用一個全 局性的聚類算法,改進聚類質(zhì)量。2.4 基于密度的聚類算法DBSCAN(Density-based Spatial Clustering of Applications with Noise)是一種基于高密度聯(lián)通區(qū)域的聚類算法,它將類簇定義為高密度相連點的最大集合。它本身對噪聲不敏感

12、,并且能發(fā)現(xiàn)任意形狀的類簇。DBSCAN中的的幾個定義:領(lǐng)域:給定對象半徑為內(nèi)的區(qū)域稱為該對象的領(lǐng)域核心對象:如果給定對象領(lǐng)域內(nèi)的樣本點數(shù)大于等于MinPts,則稱該對象為核心對象。直接密度可達:對于樣本集合D,如果樣本點q在p的領(lǐng)域內(nèi),并且p為核心對象,那么對象q從對象p直接密度可達。密度可達:對于樣本集合D,給定一串樣本點p1,p2.pn,p= p1,q= pn,假如對象pi從pi-1直接密度可達,那么對象q從對象p密度可達。密度相連:對于樣本集合D中的任意一點O,如果存在對象p到對象o密度可達,并且對象q到對象o密度可達,那么對象q到對象p密度相連??梢园l(fā)現(xiàn),密度可達是直接密度可達的傳遞

13、閉包,并且這種關(guān)系是非對稱的。密度相連是對稱關(guān)系。DBSCAN目的是找到密度相連對象的最大集合。Eg: 假設(shè)半徑=3,MinPts=3,點p的E領(lǐng)域中有點m,p,p1,p2,o, 點m的E領(lǐng)域中有點m,q,p,m1,m2,點q的E領(lǐng)域中有點q,m,點o的E領(lǐng)域中有點o,p,s,點s的E領(lǐng)域中有點o,s,s1.那么核心對象有p,m,o,s(q不是核心對象,因為它對應的E領(lǐng)域中點數(shù)量等于2,小于MinPts=3);點m從點p直接密度可達,因為m在p的E領(lǐng)域內(nèi),并且p為核心對象;點q從點p密度可達,因為點q從點m直接密度可達,并且點m從點p直接密度可達;點q到點s密度相連,因為點q從點p密度可達,并

14、且s從點p密度可達。算法DBSCAN步驟:輸入:E 半徑 MinPts 給定點在E領(lǐng)域內(nèi)成為核心對象的最小領(lǐng)域點數(shù) D 集合輸出:目標類簇集合方法:repeat(1)判斷輸入點是否為核心對象(2) 找出核心對象的E領(lǐng)域中的所有直接密度可達點 util 所有輸入點都判斷完畢 repeat 針對所有核心對象的E領(lǐng)域所有直接密度可達點找到最大密度相連對象集合, 中間涉及到一些密度可達對象的合并。 Util 所有核心對象的E領(lǐng)域都遍歷完畢3、實例分析一個用R語言的聚類分析,數(shù)據(jù)集用的是iris 第一步:對數(shù)據(jù)集進行初步統(tǒng)計分析 #檢查數(shù)據(jù)的維度 > dim(iris) 1 150 5 >

15、names(iris) #顯示數(shù)據(jù)集中的列名1 “Sepal.Length” “Sepal.Width” “Petal.Length” “Petal.Width” “Species” > str(iris) #顯示數(shù)據(jù)集的內(nèi)部結(jié)構(gòu) data.frame: 150 obs. of 5 variables: $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 $ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 $ Petal.Length: num 1.4 1.4 1.

16、3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 $ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 $ Species : Factor w/ 3 levels “setosa”,”versicolor”,.: 1 1 1 1 1 1 1 1 1 1 > attributes(iris) #顯示數(shù)據(jù)集的屬性 $names #就是數(shù)據(jù)集的列名 1 “Sepal.Length” “Sepal.Width” “Petal.Length” “Petal.Width” “Species” $s #個人理

17、解就是每行數(shù)據(jù)的標號 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95

18、 96 97 98 99 100 101 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 141 142 143 144 145 146 147 148 149 150 $class #表示類別 1 “data.frame” > iris1:5, #查看數(shù)據(jù)集的前五項數(shù)據(jù)情況Sepal.Length Se

19、pal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3.0 1.4 0.2 setosa 3 4.7 3.2 1.3 0.2 setosa 4 4.6 3.1 1.5 0.2 setosa 5 5.0 3.6 1.4 0.2 setosa > iris1:10, "Sepal.Length"#查看數(shù)據(jù)集中屬性Sepal.Length前10行數(shù)據(jù) 1 5.1 4.9 4.7 4.6 5.0 5.4 4.6 5.0 4.4 4.9> iris$Sepal.Length1:

20、10 # 同上1 5.1 4.9 4.7 4.6 5.0 5.4 4.6 5.0 4.4 4.9 > summary(iris) #顯示數(shù)據(jù)集中每個變量的分布情況Sepal.Length Sepal.Width Petal.Length Petal.Width Species Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100 setosa :50 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300 versicolor:50 Median :5.800 Median :3.000 M

21、edian :4.350 Median :1.300 virginica :50 Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199 3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800 Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500 3> table(iris$Species) setosa versicolor virginica 50 50 50 #顯示iris數(shù)據(jù)集列Species中各個值出現(xiàn)頻次> pie(table(iri

22、s$Species) #根據(jù)列Species畫出餅圖> var(iris$Sepal.Length) #算出列Sepal.Length的所有值的方差1 0.6856935 > cov(iris$Sepal.Length, iris$Petal.Length) # 算出列iris$Sepal.Length和iris$Petal.Length的協(xié)方差1 1.2743154、應用聚類分析師數(shù)據(jù)挖掘中一種常用的技術(shù),在實踐中可以多角度應用于市場分析,為市場營銷戰(zhàn)略和策略的制定提供科學合理的參考。主要介紹其在市場分析中的應用,并且我們從客戶細分、實驗市場選擇、抽樣方案設(shè)計、銷售篇區(qū)確定、市場

23、機會研究五個方面探討聚類分析在市場分析中的具體應用。 (1)在客戶細分中的應用: 消費同一種類的商品或服務時,不同的客戶有不同的消費特點,通過研究這些特點,企業(yè)可以制定出不同的營銷組合,從而獲取最大的消費者剩余,這就是客戶細分的主要目的。常用的客戶分類方法主要有三類:經(jīng)驗描述法,由決策者根據(jù)經(jīng)驗對客戶進行類別劃分;傳統(tǒng)統(tǒng)計法,根據(jù)客戶屬性特征的簡單統(tǒng)計來劃分客戶類別;非傳統(tǒng)統(tǒng)計方法,即基于人工智能技術(shù)的非數(shù)值方法。聚類分析法兼有后兩類方法的特點,能夠有效完成客戶細分的過程。 (2)在實驗市場選擇中的應用: 實驗調(diào)查法最常用的領(lǐng)域有:市場飽和度測試。市場飽和度反映市場的潛在購買力,是市場營銷戰(zhàn)略

24、和策略決策的重要參考指標。企業(yè)通常通過將消費者購買產(chǎn)品或服務的各種決定因素(如價格等)降到最低限度的方法來測試市場飽和度?;蛘咴诔霈F(xiàn)滯銷時,企業(yè)投放類似的新產(chǎn)品或服務到特定的市場,以測試市場是否真正達到飽和,是否具有潛在的購買力。前述兩種措施由于利益和風險的原因,不可能在企業(yè)覆蓋的所有市場中實施,只能選擇合適的實驗市場和對照市場加以測試,得到近似的市場飽和度;產(chǎn)品的價格實驗。這種實驗往往將新定價的產(chǎn)品投放市場,對顧客的態(tài)度和反應進行測試,了解顧客對這種價格的是否接受或接受程度;新產(chǎn)品上市實驗。(3)在銷售片區(qū)確定中的應用 銷售片區(qū)的確定和片區(qū)經(jīng)理的任命在企業(yè)的市場營銷中發(fā)揮著重要的作用。只有合理地將企業(yè)所擁有的子市場歸成幾個大的片區(qū),才能有效地制定符合片區(qū)特點的市場營銷戰(zhàn)略和策略,并任命合適的片區(qū)經(jīng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論