




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、金融時(shí)間序列聚類研究方法比較探究【摘要】本文研究目的是通過使用金融時(shí)間序列 聚類方法驗(yàn)證收益率序列相似的公司是否屬于同一個(gè)行業(yè)。 由于金融時(shí)間序列數(shù)據(jù)不服從正態(tài)分布,不能用線性相關(guān)系 數(shù)來進(jìn)行相似性度量,因此文中選用幾種非線性相關(guān)系數(shù)來 對(duì)金融序列相似度進(jìn)行度量,然后運(yùn)用pam、agnes、di ana 三種聚類方法分別對(duì)金融時(shí)間序列進(jìn)行聚類。研究發(fā)現(xiàn):最 終聚類結(jié)果和初始的行業(yè)分類比較吻合,表明同一個(gè)行業(yè)中 的股票收益率相似度很大。【關(guān)鍵詞】非線性相關(guān)系數(shù)相異度度量聚類方法驗(yàn) 證統(tǒng)計(jì)量引言時(shí)間序列聚類在很多領(lǐng)域有重要的作用,如金融和經(jīng) 濟(jì),工程學(xué)和生命科學(xué)等等。時(shí)間序列聚類有多種方法,聚 類
2、時(shí)通常要構(gòu)建兩個(gè)時(shí)間序列之間的相異度度量。如 piccolo (1990) 14和 maharaj (1996) 12提出的基于擴(kuò) 展的自相關(guān)系數(shù)的距離,galeano (2000) 7提出基于自相 關(guān)的距離,tong和dabas (1990) 15提出基于殘差擬合的 距離,bohte(1980) 3提出基于交叉相關(guān)系數(shù)距離,caiado (2006) 5提出基于周期圖的距離,maharaj和d' urso (2010) 13提出基于譜的相異度度量,berndt和clifford(1996) 2提出動(dòng)態(tài)時(shí)間扭曲距離,de gregorio (2008) 6提出馬爾科夫算子距離,等等。時(shí)
3、間序列聚類分析在金融領(lǐng)域顯得尤為重要,因?yàn)榻鹑?從業(yè)人員對(duì)金融資產(chǎn)之間的相似性很感興趣,通過研究資產(chǎn) 之間的相似度,對(duì)資產(chǎn)進(jìn)行聚類,來進(jìn)行投資和風(fēng)險(xiǎn)管理。 因此,金融研究者提出了很多統(tǒng)計(jì)方法來分析資產(chǎn)價(jià)格序列 的相似結(jié)構(gòu)。例如,mantegna和bonanno (2001) 4使用 pearson相關(guān)系數(shù)來度量兩個(gè)股票收益率序列之間的相似 度。考慮到金融時(shí)間序列的波動(dòng)性,caiado和crato (2006) 5提出了 一種描述兩個(gè)股票收益率數(shù)據(jù)之間動(dòng)態(tài)特征的的 類mahalanobis距離度量方式,并且提出了一種聚類程序來 對(duì)djia指數(shù)進(jìn)行聚類。本文中,通過 hoeffding, d, k
4、endall' s t 和 spearman * sp s三種相關(guān)系數(shù)分別來定義金融時(shí)間序列的相似度,然后 運(yùn)用pam、agnes. di ana三種聚類方法對(duì)相異度度量矩陣進(jìn) 行聚類,從而對(duì)不同的相似度度量方法和聚類方法進(jìn)行比 較。這對(duì)實(shí)際中進(jìn)行金融時(shí)間序列分析有借鑒作用。文章結(jié)構(gòu)分為四個(gè)部分,第一部分介紹幾種了相關(guān)系數(shù) 和相異度度量方法;第二部分介紹了幾種聚類方法和聚類評(píng) 價(jià)標(biāo)準(zhǔn);第三部分運(yùn)用股票收益率數(shù)據(jù)進(jìn)行了實(shí)證分析;第 四部分做出總結(jié)并提出相關(guān)建議。一、相關(guān)系數(shù)和相異度度量在對(duì)金融時(shí)間序列數(shù)據(jù)進(jìn)行聚類之前,首先要獲得適合 于聚類算法的數(shù)據(jù)結(jié)構(gòu)。kaufman和rousseeu
5、w (1990) 10 提出,聚類算法的數(shù)據(jù)結(jié)構(gòu)通常有兩種:第一種數(shù)據(jù)結(jié)構(gòu)是 對(duì)象一屬性的nxp矩陣,其中矩陣的行代表對(duì)象,矩陣的 列代表屬性;第二種數(shù)據(jù)結(jié)構(gòu)是相異度矩陣,矩陣的行和列 的性質(zhì)一樣,代表的都是兩個(gè)對(duì)象之間的相異度。本文運(yùn)用 的是相異度矩陣數(shù)據(jù)結(jié)構(gòu),因此首先介紹一些相關(guān)系數(shù)和相 異度的概念。(一)相關(guān)系數(shù)相關(guān)系數(shù)是最常用的相似度的度量方式,常用的相關(guān)系 數(shù)包括:pearson 相關(guān)系數(shù) p p, hoeffding' d, kendall, s t 和 spearman' s p s。其中 pearson 相關(guān)系數(shù) p p 是一 種線性相關(guān)系數(shù),其他三種均為非線性
6、相關(guān)系數(shù)。由于金融 時(shí)間序列不服從正態(tài)分布,而呈現(xiàn)的是一種厚尾分布,不適 合用線性相關(guān)系數(shù)進(jìn)行兩個(gè)金融時(shí)間序列的相關(guān)性度量。因 此,本文主要考慮后三種非線性相關(guān)系數(shù)。1. 相關(guān)系數(shù)p ppearson相關(guān)系數(shù)描述的是一種線性相關(guān)關(guān)系,相關(guān)系 數(shù)的值在-1, 1之間,數(shù)值越接近于1或-1,說明兩個(gè)變 量相關(guān)程度越大,數(shù)值越接近于0,說明兩個(gè)變量之間相關(guān) 程度越小。如果pp (x, y) =0,則說明x和y是相互獨(dú)立 的,反之則不成立。2. kendall? s t當(dāng)且僅當(dāng)事件x2>x1且y2>y1或事件x20才會(huì)出現(xiàn)。 因?yàn)槭录2>x1且y2>y1和事件x2 1.pam
7、 (圍繞中 心點(diǎn))方法。pam方法是一種基于劃分的聚類方法,它不僅 可以對(duì)對(duì)象-屬性矩陣進(jìn)行聚類,也可以對(duì)相異度矩陣進(jìn)行 聚類,本文用于對(duì)相異度矩陣進(jìn)行聚類。這種方法是由 kaufman和rousseeuw提的,又被稱為k-medoid方法。pam的聚類算法如下:(1)首先選擇k個(gè)對(duì)象,這k個(gè)對(duì)象應(yīng)當(dāng)為它們各自 所定義的類的中心,使得每個(gè)類中其他對(duì)象到它的平均距離 最短,這k個(gè)對(duì)象被稱為代表性對(duì)象。從這可知,最初的k 個(gè)代表對(duì)象不是隨機(jī)選擇的,這也是這種方法和k-means方 法的主要不同點(diǎn)。(2)把剩余的對(duì)象歸到離它最近的代表對(duì)象的一類。kaufman和rousseeuw認(rèn)為這種方法在對(duì)有離
8、群值的對(duì) 象進(jìn)行聚類時(shí),比k-means方法更好,而且k-means方法不 能對(duì)相異度矩陣進(jìn)行聚類,它只能對(duì)對(duì)象-屬性矩陣進(jìn)行聚 類。但是k-medoid方法一般適用于對(duì)具有球形形狀的類進(jìn) 行聚類,而不適用于對(duì)長條形的類進(jìn)行聚類。2. anges (層次凝聚)方法。由 kaufman 和 rousseeuw 提出的另外一種方法是agnes方法,這是一種凝聚的層次聚 類算法,即一開始分別把每個(gè)對(duì)象分為一類,聚類每進(jìn)行一 步,就把上次聚類結(jié)果中的兩個(gè)類又聚為一個(gè)類,直到最后 把所有的對(duì)象歸為一個(gè)類。這種聚類方法既適用于對(duì)象-屬 性的矩陣,也適用于相異度矩陣。anges方法的算法為:(1) 首先把兩
9、個(gè)最近的類歸為一個(gè)類。(2) 在后來的每一個(gè)步驟中,最近的兩個(gè)類又被聚成 一類,此處兩個(gè)類之間的相異度度量基于類間對(duì)象的相異度 度量。kaufman和rousseeuw提出了四種定義類間距離的方法: average linkage, single linkage, complete linkage 禾口 ward' s method,本文運(yùn)用 average linkage 和 ward, s method這兩種方法,分別記為agnesa和agneswo3. diana (分裂層次聚類)方法。diana方法是一種分離 的層次聚類法,聚類程序和anges方法相反。首先,把所有 的對(duì)象歸為
10、一個(gè)類,然后把距離最遠(yuǎn)的兩個(gè)類分開,直至所 有的對(duì)象都分別分為一類。聚類程序如下:(1) 首先,找到和其他對(duì)象的平均相異度最大的一個(gè) 對(duì)象。(2) 然后,把一個(gè)對(duì)象從一個(gè)類移動(dòng)到另一個(gè)類,這 兒移動(dòng)的根據(jù)是移動(dòng)對(duì)象和剩余的類的距離和分出去的類 的聚類。若前者大于后者,則移動(dòng)。(3)最后,把類規(guī)模最大的一個(gè)類進(jìn)行分割。di ana方法適用于處理球形的類的聚類,既可以對(duì)對(duì)象- 屬性矩陣進(jìn)行聚類,也可以對(duì)相異度矩陣進(jìn)行聚類。(二)聚類評(píng)價(jià)標(biāo)準(zhǔn)在得到聚類結(jié)果以后,需要對(duì)得到的結(jié)果進(jìn)行評(píng)價(jià),可 以根據(jù)評(píng)價(jià)標(biāo)準(zhǔn)選擇聚類數(shù),然后在給定聚類數(shù)的情況下, 選擇最好的聚類方法?,F(xiàn)有有很多種統(tǒng)計(jì)量可以對(duì)不同的聚 類
11、結(jié)果進(jìn)行評(píng)價(jià),如asw, ch, ph, g2, g3, crando根據(jù)在 不同的聚類數(shù)目下的統(tǒng)計(jì)量的性質(zhì),有兩種方法來定義最好 的聚類方法。第一種方法:如果隨著聚類數(shù)目的增加,統(tǒng)計(jì) 量未呈現(xiàn)出一種增加或減少的趨勢(shì),那么統(tǒng)計(jì)量的值最大或 最小的方法是最佳的聚類方法。第二種方法:如果隨著聚類 數(shù)目的增加,統(tǒng)計(jì)量呈現(xiàn)出一種遞增或遞減的趨勢(shì),則統(tǒng)計(jì) 量在相應(yīng)的聚類數(shù)目有一個(gè)顯著的局部變化的方法為最佳 的聚類方法,其中出現(xiàn)顯著局部變化的這個(gè)點(diǎn)被稱為一個(gè)關(guān) 節(jié)點(diǎn)。下面只介紹一種常用的驗(yàn)證統(tǒng)計(jì)量asw (average silhouette width)。從圖3. 1中可以看出,當(dāng)對(duì)由hoeffding
12、' s d變換而 來的相異度矩陣進(jìn)行聚類時(shí),在asw的驗(yàn)證標(biāo)準(zhǔn)下,agnesa 方法的asw值開始成遞增的趨勢(shì),增加的速度比較緩慢,在 k=7處達(dá)到了最大值,此后呈遞減趨勢(shì),因此可知agnesa方 法的最佳聚類數(shù)為k=7o di ana方法始終呈現(xiàn)出一種遞增的 趨勢(shì),因此最佳聚類數(shù)目在asw值最大處取得,即k二8。由 于agnesw方法是一種針對(duì)歐幾里德距離矩陣進(jìn)行聚類的方 法,因此,在此處的聚類結(jié)果并不可靠,只作為一種參考。pam方法的asw值在k二7時(shí)達(dá)到最大值,而且此時(shí)出現(xiàn)了一 個(gè)明顯的峰值,因此,pam方法的最佳聚類數(shù)目也為7o綜 上,對(duì)hoeffding進(jìn)行聚類的結(jié)果可知,最
13、終的聚類數(shù)目為 k=7,在四種聚類方法中,最佳的聚類方法為pam方法,因 為此方法的asw值在心7時(shí)有一個(gè)明顯的峰值,而其他方法 都沒有出現(xiàn)明顯的峰值點(diǎn)。從圖3. 2中可以看出,agnesa方法和di ana方法對(duì) kendall的聚類結(jié)果在asw的驗(yàn)證標(biāo)準(zhǔn)下,當(dāng)聚類數(shù)目k從 3到4時(shí),asw值有一個(gè)明顯的下降,從4到6時(shí),兩種聚類方法的asw值都呈增加趨勢(shì),到k二6時(shí),agnesa的asw值 還繼續(xù)增加,但是增加的幅度不大,而di ana方法呈現(xiàn)明顯的下降,在k=6的地方出現(xiàn)一個(gè)明顯的轉(zhuǎn)折點(diǎn)。而agnesw 方法和pam的asw值一直呈現(xiàn)一種遞增的趨勢(shì),在23到k二6 時(shí)asw值增加的速度很
14、快,而k二6之后增加的幅度減少,在k=6時(shí)出現(xiàn)一個(gè)轉(zhuǎn)折點(diǎn)。綜上,可以的出對(duì)kendall的聚類結(jié)果中最佳聚類數(shù)目為k二6,最佳聚類方法為di ana方法。 從圖3. 3中可以看出,聚類數(shù)目從3到7時(shí),agnesw和pam方法的asw值呈現(xiàn)出一種上升的趨勢(shì),在k=7之后, agnesw方法的asw值處于一種水平狀態(tài),而pam方法的asw值則呈現(xiàn)下降的趨勢(shì),在k=7處出現(xiàn)一個(gè)明顯的峰值。而 agnesw和di ana方法的asw值從k=3到4時(shí),有一個(gè)微小的 下降,此后agnesa的asw值呈現(xiàn)明顯的上升趨勢(shì),在k=7 處asw值達(dá)到最大,而di ana方法的asw值在k=8處達(dá)到最 大。綜上,對(duì)
15、的聚類結(jié)果中最佳聚類數(shù)目為k=7,最佳的聚 類方法為pam和agnesa方法。綜合以上對(duì)三種相關(guān)系數(shù)的聚類結(jié)果,可得最佳的聚類數(shù)目k=7, pam方法在三 種相關(guān)系數(shù)聚類結(jié)果中表現(xiàn)優(yōu)于另外幾種聚類方法,在對(duì) hoeffding 'd相關(guān)系數(shù)進(jìn)行聚類時(shí),pam方方法的結(jié)果最好, 下表給出當(dāng)用pam方法對(duì)hoeffding' d進(jìn)行聚類的結(jié)果。從上表中可以看出,聚類結(jié)果的第一類為房地產(chǎn)行業(yè), 第二類和第三類屬于金融行業(yè),第四類屬于醫(yī)藥行業(yè),第五 類屬于運(yùn)輸行業(yè),第六類為能源行業(yè),第七類為電力行業(yè)。 其中第五類中的錯(cuò)分率比較高,但是所有運(yùn)輸行業(yè)的公司均 在此類中,因此可以把它看為運(yùn)輸
16、行業(yè)。聚類結(jié)果中,雖然 有些行業(yè)的分類情況和初始分類不一致,但是很多公司的分 類是一致的。說明同一個(gè)行業(yè)的公司之間收益率相關(guān)程度很 高。圖3. 4通過多元尺度圖使得通過hoeffding' s d度量 的公司之間的相似度在二維空間可視化。可以看出,在二維 空間中,除了電信行業(yè)和運(yùn)輸行業(yè)外,其他各個(gè)行業(yè)得到很 好的區(qū)分。四、結(jié)論以上通過對(duì)股票收益率進(jìn)行聚類,在asw的評(píng)價(jià)標(biāo)準(zhǔn)下, 把44家公司聚為7個(gè)類。從聚類結(jié)果可知,屬于同一個(gè)行 業(yè)的公司幾乎被聚在同一個(gè)類中,只有個(gè)別公司聚類結(jié)果和 所屬行業(yè)不一致。因此得出結(jié)論:屬于同一個(gè)行業(yè)的公司股 票收益率相似程度比較大,而屬于不同行業(yè)的公司股票
17、收益 率相似程度比較小。從描述相似度的三種相關(guān)系數(shù)來看, hoeffding d和spearman相關(guān)系數(shù)的結(jié)果要優(yōu)于kendall相 關(guān)系數(shù)的結(jié)果,因?yàn)獒槍?duì)兩者的聚類結(jié)果比較明顯,而針對(duì) kendall相關(guān)系數(shù)的聚類結(jié)果不清晰。最后,通過比較三種 不同的聚類方法,可知pam方法對(duì)收益率序列的聚類結(jié)果要 優(yōu)于agnes和di ana兩種聚類方法。文中對(duì)金融時(shí)間序列的相關(guān)性度量采用的是一些比較 簡單的相關(guān)系數(shù),而且這些相關(guān)系數(shù)描述的是整個(gè)金融時(shí)間 序列的相關(guān)情況,然而在實(shí)際情況中,我們更加關(guān)心的是出 現(xiàn)虧損時(shí)候的序列之間的相關(guān)情況,因此可以通過研究金融 時(shí)間序列的尾部相關(guān)情況來進(jìn)行更進(jìn)一步的分析
18、。參考文獻(xiàn)1 ana teresa yanesmusetti.2012 , clustering methods for financial time series seminar for statistics 1一74.2 berndt ,dj and clifford , j.1996 , finding patterns in time series : a dynamic programming approachj.in advances in knowledge discovery and data mining, 229 一248.3 bohte , zd.cedar , d. a
19、ndkosmelu , k. 1980 , clusteringoftimeseriesj. compstat 80: 587 - 593.4 bonanno, g, lillo, f and mantegna, r.2001, high-frequency cross- correlation in a set of stocksj quantit finance, 1: 96 - 1045 caiado , j. crato , n and pe ? a, d. 2006 , aperiodogram-basedmetricfor time seriesclassificationj. c
20、omput .statist .data ana1. ,50 :2668 - 2684.6 de gregorio, a and iacus, sm. 2008, clusteringofdiscretelyobserveddiffusionprocesses j comput .statist .dotoana 1. , 54: 598 - 606 7 galeano , p and pe ? a, d. 2000 , multivariate analysis in vector time seriesj. resenhas, 4: 383一404.8 hoeffding. w. 1948 , a non-parametric test of independence.the annals of mathematical statistics, 19 (4): 546-5579 hollander. m. andd. wolfe. 1999 , nonparametric statistical methods john wiley&sons.10 kaufman. l. andp. rousseeuw. 1990, fin ding groups in data: an introduction to cluster a
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 初中語文文言文虛詞用法匯-總
- 海洋環(huán)境監(jiān)測(cè)與評(píng)估-全面剖析
- 眼膏市場(chǎng)潛力分析-全面剖析
- 核能安全監(jiān)測(cè)技術(shù)-第1篇-全面剖析
- Perl在金融領(lǐng)域的應(yīng)用-全面剖析
- 干細(xì)胞治療行業(yè)競爭格局探討-全面剖析
- 網(wǎng)絡(luò)安全與數(shù)據(jù)保護(hù)在網(wǎng)絡(luò)經(jīng)濟(jì)中的重要性-全面剖析
- 舞臺(tái)藝術(shù)與科技融合-全面剖析
- 煤制氣高效轉(zhuǎn)化技術(shù)-全面剖析
- 港口物流智能化升級(jí)-全面剖析
- 七年級(jí)數(shù)學(xué)新北師大版(2024)下冊(cè)第一章《整式的乘除》單元檢測(cè)習(xí)題(含簡單答案)
- 《冠心病》課件(完整版)
- -三自由度機(jī)械手設(shè)計(jì)
- 循環(huán)系統(tǒng)總論
- 第二章空氣動(dòng)力學(xué)
- 會(huì)計(jì)師事務(wù)所11內(nèi)部分配和考核晉升制度
- 淺談如何搞好班組安全管理工作
- 幼兒園大班數(shù)學(xué)口算練習(xí)題可打印
- 第七章_材料顯微斷口分析
- 創(chuàng)傷護(hù)四項(xiàng)技術(shù)
- dse7320軟件操作手冊(cè)
評(píng)論
0/150
提交評(píng)論