金融時間序列聚類研究方法比較探究_第1頁
金融時間序列聚類研究方法比較探究_第2頁
金融時間序列聚類研究方法比較探究_第3頁
金融時間序列聚類研究方法比較探究_第4頁
金融時間序列聚類研究方法比較探究_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、金融時間序列聚類研究方法比較探究【摘要】本文研究目的是通過使用金融時間序列 聚類方法驗證收益率序列相似的公司是否屬于同一個行業(yè)。 由于金融時間序列數(shù)據(jù)不服從正態(tài)分布,不能用線性相關系 數(shù)來進行相似性度量,因此文中選用幾種非線性相關系數(shù)來 對金融序列相似度進行度量,然后運用pam、agnes、di ana 三種聚類方法分別對金融時間序列進行聚類。研究發(fā)現(xiàn):最 終聚類結果和初始的行業(yè)分類比較吻合,表明同一個行業(yè)中 的股票收益率相似度很大?!娟P鍵詞】非線性相關系數(shù)相異度度量聚類方法驗 證統(tǒng)計量引言時間序列聚類在很多領域有重要的作用,如金融和經(jīng) 濟,工程學和生命科學等等。時間序列聚類有多種方法,聚 類

2、時通常要構建兩個時間序列之間的相異度度量。如 piccolo (1990) 14和 maharaj (1996) 12提出的基于擴 展的自相關系數(shù)的距離,galeano (2000) 7提出基于自相 關的距離,tong和dabas (1990) 15提出基于殘差擬合的 距離,bohte(1980) 3提出基于交叉相關系數(shù)距離,caiado (2006) 5提出基于周期圖的距離,maharaj和d' urso (2010) 13提出基于譜的相異度度量,berndt和clifford(1996) 2提出動態(tài)時間扭曲距離,de gregorio (2008) 6提出馬爾科夫算子距離,等等。時

3、間序列聚類分析在金融領域顯得尤為重要,因為金融 從業(yè)人員對金融資產(chǎn)之間的相似性很感興趣,通過研究資產(chǎn) 之間的相似度,對資產(chǎn)進行聚類,來進行投資和風險管理。 因此,金融研究者提出了很多統(tǒng)計方法來分析資產(chǎn)價格序列 的相似結構。例如,mantegna和bonanno (2001) 4使用 pearson相關系數(shù)來度量兩個股票收益率序列之間的相似 度??紤]到金融時間序列的波動性,caiado和crato (2006) 5提出了 一種描述兩個股票收益率數(shù)據(jù)之間動態(tài)特征的的 類mahalanobis距離度量方式,并且提出了一種聚類程序來 對djia指數(shù)進行聚類。本文中,通過 hoeffding, d, k

4、endall' s t 和 spearman * sp s三種相關系數(shù)分別來定義金融時間序列的相似度,然后 運用pam、agnes. di ana三種聚類方法對相異度度量矩陣進 行聚類,從而對不同的相似度度量方法和聚類方法進行比 較。這對實際中進行金融時間序列分析有借鑒作用。文章結構分為四個部分,第一部分介紹幾種了相關系數(shù) 和相異度度量方法;第二部分介紹了幾種聚類方法和聚類評 價標準;第三部分運用股票收益率數(shù)據(jù)進行了實證分析;第 四部分做出總結并提出相關建議。一、相關系數(shù)和相異度度量在對金融時間序列數(shù)據(jù)進行聚類之前,首先要獲得適合 于聚類算法的數(shù)據(jù)結構。kaufman和rousseeu

5、w (1990) 10 提出,聚類算法的數(shù)據(jù)結構通常有兩種:第一種數(shù)據(jù)結構是 對象一屬性的nxp矩陣,其中矩陣的行代表對象,矩陣的 列代表屬性;第二種數(shù)據(jù)結構是相異度矩陣,矩陣的行和列 的性質(zhì)一樣,代表的都是兩個對象之間的相異度。本文運用 的是相異度矩陣數(shù)據(jù)結構,因此首先介紹一些相關系數(shù)和相 異度的概念。(一)相關系數(shù)相關系數(shù)是最常用的相似度的度量方式,常用的相關系 數(shù)包括:pearson 相關系數(shù) p p, hoeffding' d, kendall, s t 和 spearman' s p s。其中 pearson 相關系數(shù) p p 是一 種線性相關系數(shù),其他三種均為非線性

6、相關系數(shù)。由于金融 時間序列不服從正態(tài)分布,而呈現(xiàn)的是一種厚尾分布,不適 合用線性相關系數(shù)進行兩個金融時間序列的相關性度量。因 此,本文主要考慮后三種非線性相關系數(shù)。1. 相關系數(shù)p ppearson相關系數(shù)描述的是一種線性相關關系,相關系 數(shù)的值在-1, 1之間,數(shù)值越接近于1或-1,說明兩個變 量相關程度越大,數(shù)值越接近于0,說明兩個變量之間相關 程度越小。如果pp (x, y) =0,則說明x和y是相互獨立 的,反之則不成立。2. kendall? s t當且僅當事件x2>x1且y2>y1或事件x20才會出現(xiàn)。 因為事件x2>x1且y2>y1和事件x2 1.pam

7、 (圍繞中 心點)方法。pam方法是一種基于劃分的聚類方法,它不僅 可以對對象-屬性矩陣進行聚類,也可以對相異度矩陣進行 聚類,本文用于對相異度矩陣進行聚類。這種方法是由 kaufman和rousseeuw提的,又被稱為k-medoid方法。pam的聚類算法如下:(1)首先選擇k個對象,這k個對象應當為它們各自 所定義的類的中心,使得每個類中其他對象到它的平均距離 最短,這k個對象被稱為代表性對象。從這可知,最初的k 個代表對象不是隨機選擇的,這也是這種方法和k-means方 法的主要不同點。(2)把剩余的對象歸到離它最近的代表對象的一類。kaufman和rousseeuw認為這種方法在對有離

8、群值的對 象進行聚類時,比k-means方法更好,而且k-means方法不 能對相異度矩陣進行聚類,它只能對對象-屬性矩陣進行聚 類。但是k-medoid方法一般適用于對具有球形形狀的類進 行聚類,而不適用于對長條形的類進行聚類。2. anges (層次凝聚)方法。由 kaufman 和 rousseeuw 提出的另外一種方法是agnes方法,這是一種凝聚的層次聚 類算法,即一開始分別把每個對象分為一類,聚類每進行一 步,就把上次聚類結果中的兩個類又聚為一個類,直到最后 把所有的對象歸為一個類。這種聚類方法既適用于對象-屬 性的矩陣,也適用于相異度矩陣。anges方法的算法為:(1) 首先把兩

9、個最近的類歸為一個類。(2) 在后來的每一個步驟中,最近的兩個類又被聚成 一類,此處兩個類之間的相異度度量基于類間對象的相異度 度量。kaufman和rousseeuw提出了四種定義類間距離的方法: average linkage, single linkage, complete linkage 禾口 ward' s method,本文運用 average linkage 和 ward, s method這兩種方法,分別記為agnesa和agneswo3. diana (分裂層次聚類)方法。diana方法是一種分離 的層次聚類法,聚類程序和anges方法相反。首先,把所有 的對象歸為

10、一個類,然后把距離最遠的兩個類分開,直至所 有的對象都分別分為一類。聚類程序如下:(1) 首先,找到和其他對象的平均相異度最大的一個 對象。(2) 然后,把一個對象從一個類移動到另一個類,這 兒移動的根據(jù)是移動對象和剩余的類的距離和分出去的類 的聚類。若前者大于后者,則移動。(3)最后,把類規(guī)模最大的一個類進行分割。di ana方法適用于處理球形的類的聚類,既可以對對象- 屬性矩陣進行聚類,也可以對相異度矩陣進行聚類。(二)聚類評價標準在得到聚類結果以后,需要對得到的結果進行評價,可 以根據(jù)評價標準選擇聚類數(shù),然后在給定聚類數(shù)的情況下, 選擇最好的聚類方法。現(xiàn)有有很多種統(tǒng)計量可以對不同的聚 類

11、結果進行評價,如asw, ch, ph, g2, g3, crando根據(jù)在 不同的聚類數(shù)目下的統(tǒng)計量的性質(zhì),有兩種方法來定義最好 的聚類方法。第一種方法:如果隨著聚類數(shù)目的增加,統(tǒng)計 量未呈現(xiàn)出一種增加或減少的趨勢,那么統(tǒng)計量的值最大或 最小的方法是最佳的聚類方法。第二種方法:如果隨著聚類 數(shù)目的增加,統(tǒng)計量呈現(xiàn)出一種遞增或遞減的趨勢,則統(tǒng)計 量在相應的聚類數(shù)目有一個顯著的局部變化的方法為最佳 的聚類方法,其中出現(xiàn)顯著局部變化的這個點被稱為一個關 節(jié)點。下面只介紹一種常用的驗證統(tǒng)計量asw (average silhouette width)。從圖3. 1中可以看出,當對由hoeffding

12、' s d變換而 來的相異度矩陣進行聚類時,在asw的驗證標準下,agnesa 方法的asw值開始成遞增的趨勢,增加的速度比較緩慢,在 k=7處達到了最大值,此后呈遞減趨勢,因此可知agnesa方 法的最佳聚類數(shù)為k=7o di ana方法始終呈現(xiàn)出一種遞增的 趨勢,因此最佳聚類數(shù)目在asw值最大處取得,即k二8。由 于agnesw方法是一種針對歐幾里德距離矩陣進行聚類的方 法,因此,在此處的聚類結果并不可靠,只作為一種參考。pam方法的asw值在k二7時達到最大值,而且此時出現(xiàn)了一 個明顯的峰值,因此,pam方法的最佳聚類數(shù)目也為7o綜 上,對hoeffding進行聚類的結果可知,最

13、終的聚類數(shù)目為 k=7,在四種聚類方法中,最佳的聚類方法為pam方法,因 為此方法的asw值在心7時有一個明顯的峰值,而其他方法 都沒有出現(xiàn)明顯的峰值點。從圖3. 2中可以看出,agnesa方法和di ana方法對 kendall的聚類結果在asw的驗證標準下,當聚類數(shù)目k從 3到4時,asw值有一個明顯的下降,從4到6時,兩種聚類方法的asw值都呈增加趨勢,到k二6時,agnesa的asw值 還繼續(xù)增加,但是增加的幅度不大,而di ana方法呈現(xiàn)明顯的下降,在k=6的地方出現(xiàn)一個明顯的轉折點。而agnesw 方法和pam的asw值一直呈現(xiàn)一種遞增的趨勢,在23到k二6 時asw值增加的速度很

14、快,而k二6之后增加的幅度減少,在k=6時出現(xiàn)一個轉折點。綜上,可以的出對kendall的聚類結果中最佳聚類數(shù)目為k二6,最佳聚類方法為di ana方法。 從圖3. 3中可以看出,聚類數(shù)目從3到7時,agnesw和pam方法的asw值呈現(xiàn)出一種上升的趨勢,在k=7之后, agnesw方法的asw值處于一種水平狀態(tài),而pam方法的asw值則呈現(xiàn)下降的趨勢,在k=7處出現(xiàn)一個明顯的峰值。而 agnesw和di ana方法的asw值從k=3到4時,有一個微小的 下降,此后agnesa的asw值呈現(xiàn)明顯的上升趨勢,在k=7 處asw值達到最大,而di ana方法的asw值在k=8處達到最 大。綜上,對

15、的聚類結果中最佳聚類數(shù)目為k=7,最佳的聚 類方法為pam和agnesa方法。綜合以上對三種相關系數(shù)的聚類結果,可得最佳的聚類數(shù)目k=7, pam方法在三 種相關系數(shù)聚類結果中表現(xiàn)優(yōu)于另外幾種聚類方法,在對 hoeffding 'd相關系數(shù)進行聚類時,pam方方法的結果最好, 下表給出當用pam方法對hoeffding' d進行聚類的結果。從上表中可以看出,聚類結果的第一類為房地產(chǎn)行業(yè), 第二類和第三類屬于金融行業(yè),第四類屬于醫(yī)藥行業(yè),第五 類屬于運輸行業(yè),第六類為能源行業(yè),第七類為電力行業(yè)。 其中第五類中的錯分率比較高,但是所有運輸行業(yè)的公司均 在此類中,因此可以把它看為運輸

16、行業(yè)。聚類結果中,雖然 有些行業(yè)的分類情況和初始分類不一致,但是很多公司的分 類是一致的。說明同一個行業(yè)的公司之間收益率相關程度很 高。圖3. 4通過多元尺度圖使得通過hoeffding' s d度量 的公司之間的相似度在二維空間可視化??梢钥闯?,在二維 空間中,除了電信行業(yè)和運輸行業(yè)外,其他各個行業(yè)得到很 好的區(qū)分。四、結論以上通過對股票收益率進行聚類,在asw的評價標準下, 把44家公司聚為7個類。從聚類結果可知,屬于同一個行 業(yè)的公司幾乎被聚在同一個類中,只有個別公司聚類結果和 所屬行業(yè)不一致。因此得出結論:屬于同一個行業(yè)的公司股 票收益率相似程度比較大,而屬于不同行業(yè)的公司股票

17、收益 率相似程度比較小。從描述相似度的三種相關系數(shù)來看, hoeffding d和spearman相關系數(shù)的結果要優(yōu)于kendall相 關系數(shù)的結果,因為針對兩者的聚類結果比較明顯,而針對 kendall相關系數(shù)的聚類結果不清晰。最后,通過比較三種 不同的聚類方法,可知pam方法對收益率序列的聚類結果要 優(yōu)于agnes和di ana兩種聚類方法。文中對金融時間序列的相關性度量采用的是一些比較 簡單的相關系數(shù),而且這些相關系數(shù)描述的是整個金融時間 序列的相關情況,然而在實際情況中,我們更加關心的是出 現(xiàn)虧損時候的序列之間的相關情況,因此可以通過研究金融 時間序列的尾部相關情況來進行更進一步的分析

18、。參考文獻1 ana teresa yanesmusetti.2012 , clustering methods for financial time series seminar for statistics 1一74.2 berndt ,dj and clifford , j.1996 , finding patterns in time series : a dynamic programming approachj.in advances in knowledge discovery and data mining, 229 一248.3 bohte , zd.cedar , d. a

19、ndkosmelu , k. 1980 , clusteringoftimeseriesj. compstat 80: 587 - 593.4 bonanno, g, lillo, f and mantegna, r.2001, high-frequency cross- correlation in a set of stocksj quantit finance, 1: 96 - 1045 caiado , j. crato , n and pe ? a, d. 2006 , aperiodogram-basedmetricfor time seriesclassificationj. c

20、omput .statist .data ana1. ,50 :2668 - 2684.6 de gregorio, a and iacus, sm. 2008, clusteringofdiscretelyobserveddiffusionprocesses j comput .statist .dotoana 1. , 54: 598 - 606 7 galeano , p and pe ? a, d. 2000 , multivariate analysis in vector time seriesj. resenhas, 4: 383一404.8 hoeffding. w. 1948 , a non-parametric test of independence.the annals of mathematical statistics, 19 (4): 546-5579 hollander. m. andd. wolfe. 1999 , nonparametric statistical methods john wiley&sons.10 kaufman. l. andp. rousseeuw. 1990, fin ding groups in data: an introduction to cluster a

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論