大數(shù)據(jù)時(shí)代可視化技術(shù)的再創(chuàng)新大數(shù)據(jù)的豆形可視化及其在資本市場中的應(yīng)用_第1頁
大數(shù)據(jù)時(shí)代可視化技術(shù)的再創(chuàng)新大數(shù)據(jù)的豆形可視化及其在資本市場中的應(yīng)用_第2頁
大數(shù)據(jù)時(shí)代可視化技術(shù)的再創(chuàng)新大數(shù)據(jù)的豆形可視化及其在資本市場中的應(yīng)用_第3頁
大數(shù)據(jù)時(shí)代可視化技術(shù)的再創(chuàng)新大數(shù)據(jù)的豆形可視化及其在資本市場中的應(yīng)用_第4頁
大數(shù)據(jù)時(shí)代可視化技術(shù)的再創(chuàng)新大數(shù)據(jù)的豆形可視化及其在資本市場中的應(yīng)用_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)時(shí)代可視化技術(shù)的再創(chuàng)新大數(shù)據(jù)的豆形可視化及其在資本市場中的應(yīng)用

1金融大數(shù)據(jù)與豆形圖2012年12月,英國的威克托埃爾斯恩伯姆(威克托埃爾塞恩博姆)的大數(shù)據(jù)時(shí)代在中國出版。在這本書中,大數(shù)據(jù)的信息浪潮改變了我們的生活、工作和思維,大數(shù)據(jù)開啟了一個(gè)重要的時(shí)代。而哈佛大學(xué)社會(huì)學(xué)教授加里·金說:“這是一場革命,龐大的數(shù)據(jù)資源使得各個(gè)領(lǐng)域開始了量化進(jìn)程,無論學(xué)術(shù)界、商界還是政府,所有領(lǐng)域都將開始這種進(jìn)程”。金融市場更是催生了大數(shù)據(jù),隨著計(jì)算機(jī)存儲(chǔ)和傳輸能力的提升,股票、外匯、衍生品等金融市場記錄了以小時(shí)、分鐘,甚至是以秒為采集頻率的高頻或超高頻數(shù)據(jù),即金融大數(shù)據(jù)(FinancialBigData)。金融大數(shù)據(jù)提供了交易價(jià)格、收益率、交易量、交易方向以及交易時(shí)間間隔等多維度、具有高度持續(xù)性的交易信息,是金融市場的實(shí)時(shí)再現(xiàn),這對(duì)理解和研究金融市場微觀結(jié)構(gòu)、行為金融、資本資產(chǎn)投資等具有重要的商業(yè)價(jià)值,同時(shí)引發(fā)基于金融大數(shù)據(jù)的產(chǎn)業(yè)創(chuàng)新。金融大數(shù)據(jù)的相關(guān)研究在本世紀(jì)初期開始風(fēng)靡全球,在定量研究方面,世界各國學(xué)者在此領(lǐng)域取得卓越的成績,對(duì)于金融市場的發(fā)展做出了杰出的貢獻(xiàn)。觀之金融大數(shù)據(jù)的定性分析,金融大數(shù)據(jù)在研究統(tǒng)計(jì)特征,尤其是更高頻資產(chǎn)收益率的波動(dòng)率方面作用很大,鑒于其大量的觀測值,對(duì)于金融大數(shù)據(jù)的可視化方面的研究存在著不小的瓶頸。金融數(shù)據(jù)的可視化在表現(xiàn)金融序列屬性特征時(shí)比統(tǒng)計(jì)模型更為形象、直觀。從原始數(shù)據(jù)中難以挖掘的規(guī)律、純理論運(yùn)算中難以得到的結(jié)論,我們可以從可視化圖形中窺知一二。尤其是“大數(shù)據(jù)”時(shí)代的到來,金融大數(shù)據(jù)的可視化研究還未取得有效進(jìn)展,豆形圖的出現(xiàn)為金融大數(shù)據(jù)的可視化開辟了道路。豆形圖(Beanplot)可以可視化比較組別間的單變量數(shù)據(jù),并且可以展示密度曲線、重復(fù)觀測和多峰形態(tài)分布等數(shù)據(jù)特征,這是箱形圖所不能比擬的。尤其值得一提的是,豆形圖在金融大數(shù)據(jù)的可視化領(lǐng)域展示了突出的優(yōu)勢,不僅克服了箱形圖的不足,還能夠充分展現(xiàn)海量數(shù)據(jù)的信息,極大提高大數(shù)據(jù)可視化的有效性和精確性。為此,本文在簡單介紹數(shù)據(jù)可視化發(fā)展歷史的基礎(chǔ)上,引入豆形圖及其屬性特點(diǎn),展示了模擬的“豆形”例子,并將其應(yīng)用于實(shí)際金融大數(shù)據(jù),構(gòu)造可視化的豆形時(shí)間序列,分析金融大數(shù)據(jù)的日內(nèi)模式和動(dòng)態(tài)特征,為后繼的金融大數(shù)據(jù)建模提供數(shù)據(jù)的屬性特征。2金融時(shí)間序列的可視化最初,我們使用條形圖可視化條形時(shí)間序列。條形圖會(huì)正確顯示原始趨勢以及每個(gè)時(shí)間間隔內(nèi)最小值和最大值。然而,此類圖形中,在單一的時(shí)間間隔內(nèi),采用單一的點(diǎn)來繪制每個(gè)觀測,致使條形圖盡在存在極少點(diǎn)的情況下才能彰顯其用途。因此,這也使其很難應(yīng)用在大數(shù)據(jù)框架中。直方圖在時(shí)間和空間維度上匯總數(shù)據(jù)時(shí)用處很大,因?yàn)槠浣Y(jié)構(gòu)簡單、靈活,能夠合理、精確地描述數(shù)據(jù)基本特征的能力。然而,在多組數(shù)據(jù)比較方面,直方圖的疊加會(huì)使空間變得混亂。箱形圖(Turky,1977)常用于比較組與組間分布的差異,能夠揭示某一總體的幾種屬性:中心,范圍,不對(duì)稱性、離群點(diǎn)以及數(shù)據(jù)主要結(jié)構(gòu)的變化。然而,隨著觀測個(gè)數(shù)增加,離群點(diǎn)的個(gè)數(shù)會(huì)增加,箱形圖的可視能力漸弱。并且,還將忽略關(guān)于分布密度的信息,而這些密度信息在可視化金融大數(shù)據(jù)上卻是極其重要的。小提琴圖(Benjamini,1988)結(jié)合了密度曲線的可視化以及箱形圖的優(yōu)點(diǎn),更好地顯示了分布形狀。雖然在小提琴圖中可見其基本分布,但隨數(shù)據(jù)量的增大,很多樣本點(diǎn)(除了最低點(diǎn)和最高點(diǎn))卻是不可視的,難以在金融大數(shù)據(jù)的可視化方面有所展露。本文提出用豆形圖來可視化金融大數(shù)據(jù)。事實(shí)上,所有個(gè)體觀測在每一個(gè)“豆”中都是可視的。豆形圖會(huì)繪出每個(gè)時(shí)間點(diǎn)的均值(由豆形線表示)以及整體均值,這非常便于比較金融時(shí)間序列不同時(shí)間點(diǎn)的屬性特征。另外,在豆形圖中,不僅大數(shù)據(jù)密度的分布是可見的,還會(huì)顯出數(shù)據(jù)存在的噪音、“波峰”、“波谷”和波動(dòng)情況。由于在日內(nèi)數(shù)據(jù)中,波動(dòng)會(huì)代表數(shù)據(jù)的主要特征,因此豆形圖對(duì)于研究金融大數(shù)據(jù)極其重要。國外的研究中,豆形圖已經(jīng)逐漸被應(yīng)用于金融大數(shù)據(jù)的可視化,近十年對(duì)于豆形時(shí)間序列的研究文獻(xiàn),已成為金融大數(shù)據(jù)可視化文獻(xiàn)中重要組成部分。我國金融市場的穩(wěn)步發(fā)展也為豆形時(shí)間序列的研究提供了數(shù)據(jù)條件。但與國外相比,我國學(xué)界在介紹以及應(yīng)用豆形圖對(duì)金融大數(shù)據(jù)進(jìn)行可視化研究方面尚處于空白階段。鑒于此,本文參考了國外學(xué)者的研究成果,試圖對(duì)豆形時(shí)間序列作系統(tǒng)的介紹,目的在于揭示豆形時(shí)間序列在金融大數(shù)據(jù)可視化中的優(yōu)勢,以及改進(jìn)我國在金融大數(shù)據(jù)可視化應(yīng)用領(lǐng)域的不足。3密度線的顯示豆形圖(Beanplot)是一個(gè)或多個(gè)豆形的圖示。如圖1右圖所示,每個(gè)“豆”由密度曲線組成,通過鏡像形成一個(gè)多邊形。同時(shí),利用一維散點(diǎn)線顯示所有的觀測值(豆形圖中的散點(diǎn)線利用短線表示數(shù)據(jù))。如果短線圖示在密度線外,繪圖的顏色就會(huì)發(fā)生變化,這樣即使密度曲線外的短線有很多,也能使密度曲線是可見的。為了便于比較,每個(gè)圖中都標(biāo)出組均值和總體均值(如圖2右圖)。對(duì)于含有子組的情況(如男生組與女生組),我們可以繪制非對(duì)稱形式的豆形圖(如圖4)。3.1密度曲線模擬的應(yīng)用豆形圖由密度曲線和散點(diǎn)線構(gòu)成。由于密度曲線形似豆莢,而散點(diǎn)線類似豆莢里的豆籽,所以豆形圖就因此得名。密度曲線是一個(gè)對(duì)稱的多邊形,由序列的密度曲線及其鏡像構(gòu)造而成。R軟件利用density程序包計(jì)算密度曲線。計(jì)算此類密度曲線,帶寬的選擇特別重要。通常利用Sheather-Jones方法選擇每組的帶寬,這樣會(huì)使豆形圖效果趨于最佳。為了便于組間比較,每組帶寬都是相同的。但這樣會(huì)使數(shù)據(jù)點(diǎn)較少的豆形寬度變得比較大,影響顯著性的判斷。為了克服這個(gè)缺點(diǎn),數(shù)據(jù)點(diǎn)個(gè)數(shù)小于10的“豆”需要進(jìn)行線性變化(如僅含3個(gè)數(shù)據(jù)點(diǎn)的豆形寬度,就使其帶寬為正常寬度的3/10)。密度曲線通常與一維散點(diǎn)線結(jié)合在一起進(jìn)行圖示。圖1左圖是R軟件生成的隨機(jī)模擬的正態(tài)分布密度曲線,右圖是其相應(yīng)的豆形圖。當(dāng)散點(diǎn)線位于多邊形的外部時(shí),圖形的顏色就必須要進(jìn)行改變。R軟件可以利用直線插補(bǔ)法近似處理密度曲線與散點(diǎn)線的交點(diǎn)。如果同組中的多個(gè)觀測值是相等的,它們的短線就會(huì)疊加在一起,線長就會(huì)增加,因此,重復(fù)觀測也能得以顯示。箱形圖大都采用中位數(shù)展現(xiàn)數(shù)據(jù)的集中趨勢,而豆形圖一般展示數(shù)據(jù)的組均值和總體均值。并且結(jié)合有效的密度曲線,均值便能提供更有效的信息。出于比較方便的目的,豆形圖大都是對(duì)稱的。但有時(shí)會(huì)出現(xiàn)組中包含兩個(gè)子組的情況,比如男性組與女性組。這種情況下,每個(gè)子組分居豆形的兩邊,共同組成一個(gè)完整的豆形,各自呈現(xiàn)其獨(dú)有的形狀,形成非對(duì)稱形式的豆形圖(參見圖4)。3.2實(shí)際數(shù)據(jù)的模擬展示我們利用R軟件模擬實(shí)現(xiàn)幾組不同類型的豆形圖,顯示其相對(duì)于箱形圖所特有的優(yōu)勢。圖2是利用雙峰正態(tài)分布、均勻分布和單峰正態(tài)分布模擬生成的數(shù)據(jù)繪制而成的箱形圖和豆形圖。左邊的箱形圖展示的第一組數(shù)據(jù)與第二組數(shù)據(jù)的圖形類似,并且其四分位值、最大最小值,以及平均水平都近乎相同。如果我們單純從該箱形圖中就做出判斷的話,我們會(huì)認(rèn)為這兩組數(shù)據(jù)之間的屬性、特征等是近乎相同的。但事實(shí)并非如此,圖2右端的豆形圖就充分展示了數(shù)據(jù)的實(shí)際分布特征。很顯然,第一組數(shù)據(jù)與第二組數(shù)據(jù)的分布是完全不同的:第一組數(shù)據(jù)呈現(xiàn)出的是雙峰分布,即分別有兩個(gè)觀測(-2,+2),在該兩點(diǎn)附近數(shù)據(jù)出現(xiàn)的頻率很高,而當(dāng)數(shù)據(jù)趨于0時(shí)或趨于-4、+4時(shí),數(shù)據(jù)出現(xiàn)的頻率近乎為0;而第二組數(shù)據(jù)呈現(xiàn)出的顯然是一個(gè)近似均勻分布,即從-4到+4之間所有數(shù)據(jù)出現(xiàn)的頻率近乎相等。顯而易見,第一組數(shù)據(jù)與第二組數(shù)據(jù)是兩組特征完全不同的數(shù)據(jù),而我們從箱形圖中卻得出兩者近乎完全相同的結(jié)論。就圖2第三組單峰的正態(tài)分布而言,箱形圖只能展示極個(gè)別的極端值,而豆形圖非常清晰地顯示了模擬數(shù)據(jù)所有的尾部觀測。綜上可見,豆形圖在對(duì)于數(shù)據(jù)分布及其特征的把握上,要高箱形圖一籌。圖3利用R的vioplot程序包中singer數(shù)據(jù)集圖示了不同類型歌手體重的箱形圖(實(shí)為小提琴圖,小提琴圖為箱形圖的一種)和豆形圖。小提琴圖盡管可以清晰地顯示不同組歌手具有不同的體重分布,但豆形圖還可以解釋更多的附加信息。例如:所有觀測在豆形圖中都是可見的,每個(gè)組的平均體重以及所有歌手的總平均體重都清楚地列示在豆形圖中。事實(shí)上,每個(gè)組的觀測個(gè)數(shù)在運(yùn)行結(jié)果上也是可見的。圖4在一個(gè)豆形圖上分組顯示singer數(shù)據(jù)集中男歌手和女歌手的體重豆形圖,用一種非對(duì)稱形式比較解釋了數(shù)據(jù)特征,直觀、精確地展示了同類歌手中性別間的體重差異,彰顯豆形圖的優(yōu)越性。3.3用豆形時(shí)間序列進(jìn)行時(shí)間序列分析豆形時(shí)間序列(BeanTimeSeries)是豆形圖的另一優(yōu)勢所在。所謂豆形時(shí)間序列,就是指按照時(shí)間順序排列而成的豆形圖序列,圖5顯示了模擬而成的豆形時(shí)間序列。在圖中,每一個(gè)時(shí)態(tài)區(qū)間都包含了與該區(qū)間相關(guān)的大量數(shù)據(jù)。對(duì)于時(shí)間間隔的選擇,通常我們研究三種情況,即以日、周、月作為時(shí)間間隔。最終要選擇哪種情況作為時(shí)間間隔需要根據(jù)所研究數(shù)據(jù)的特征進(jìn)行判定。在豆形圖中,我們所要展示的變量特征有均值、極差(最大值減最小值)以及以Kernel估計(jì)量計(jì)算出來的密度曲線等,其密度曲線的估計(jì)量為其中,K是標(biāo)準(zhǔn)正態(tài)分布。h是區(qū)間寬度的平滑參數(shù)。我們把h作為基本因素來考慮。事實(shí)上,h越大,該豆形圖越不規(guī)則。因此,我們要慎重地選擇帶寬,特別是我們通過Sheather-Jones方法來獲得該參數(shù)時(shí)更應(yīng)該謹(jǐn)慎。豆形時(shí)間序列展現(xiàn)出了數(shù)據(jù)中心(用粗短線表示)、波動(dòng)大小(用極差表示)以及形狀(用密度曲線表示),并借以揭示序列的復(fù)雜結(jié)構(gòu)關(guān)系。特別地,在每個(gè)豆形圖中,凸起部分就代表了數(shù)據(jù)最密集的數(shù)據(jù)點(diǎn),并且凸起部分隨著時(shí)間的變化而變化。更一般地,豆形圖隨著時(shí)間的變化就揭示出時(shí)間點(diǎn)之間的動(dòng)態(tài)變化。當(dāng)我們發(fā)現(xiàn)豆形圖較之前呈現(xiàn)擴(kuò)張趨勢時(shí),即極差擴(kuò)大,通??梢岳斫鉃槌霈F(xiàn)了結(jié)構(gòu)性的變化(見圖5)。另外,通過所有的小豆形圖的變化,我們可以計(jì)算出該時(shí)間序列的變化趨勢,并可選擇一個(gè)合適的時(shí)間間隔,以使該趨勢可視化。豆形時(shí)間序列建立之后,我們可以對(duì)其進(jìn)行參數(shù)估計(jì)以及預(yù)測。尤其是當(dāng)觀測個(gè)數(shù)特別多(如金融大數(shù)據(jù)),對(duì)復(fù)雜的市場行為所存在的長期趨勢、規(guī)律等進(jìn)行分析方面,豆形圖的優(yōu)勢就會(huì)充分顯現(xiàn)出來。在我們所研究對(duì)象的觀測個(gè)數(shù)極其多的情況下,直接進(jìn)行定量時(shí)間序列預(yù)測的話,不能將數(shù)據(jù)屬性特征精確的展示出來,一些異常值、離群點(diǎn)等也不能得到體現(xiàn)。而在實(shí)際工作中,要對(duì)金融大數(shù)據(jù)等進(jìn)行時(shí)間序列分析,往往所涉及的數(shù)據(jù)包會(huì)包含極大量的數(shù)據(jù),以便于總結(jié)出現(xiàn)象的真實(shí)特征、屬性,并最終得出結(jié)論。因?yàn)?在這種情況下,定量時(shí)間序列分析就存在部分觀測信息被丟失的風(fēng)險(xiǎn)。這也從一定程度上說明了用豆形圖來對(duì)金融大數(shù)據(jù)進(jìn)行分析以及預(yù)測的必要性。進(jìn)一步講,我們之所以使用豆形圖來對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行分析,是鑒于兩點(diǎn)原因。首先,豆形圖可以既保持時(shí)間序列的結(jié)構(gòu),同時(shí)又顯示數(shù)據(jù)的重要特征;其次,我們可以通過豆形圖,從大量的時(shí)間序列數(shù)據(jù)中提取出某些長期的結(jié)構(gòu)特征。同樣,對(duì)于其他一些復(fù)雜的研究對(duì)象,我們依然可以觀察到該現(xiàn)象的主要結(jié)構(gòu)特征。正是由于豆形圖在可視化方面的獨(dú)特優(yōu)勢,在數(shù)據(jù)與信息如此發(fā)達(dá)的大數(shù)據(jù)時(shí)代,豆形圖正慢慢以獨(dú)立的形態(tài)登上統(tǒng)計(jì)舞臺(tái)。不僅僅是豆形圖的發(fā)展與信息化的發(fā)展息息相關(guān),更是信息化的發(fā)展,特別是在金融領(lǐng)域大數(shù)據(jù)分析方面,更需要豆形圖的發(fā)展作為強(qiáng)大支持,開辟出可視化的一條新研究路徑,以期得到更為精確的結(jié)論。4金融大數(shù)據(jù)的概念及研究方向隨著計(jì)算機(jī)存儲(chǔ)技術(shù)的飛速發(fā)展,記錄海量數(shù)據(jù)日趨便捷,且處理大規(guī)模數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)也越來越成熟,因而大數(shù)據(jù)問題日益受到學(xué)界廣泛關(guān)注。特別在金融領(lǐng)域,鑒于中國證券市場歷史短暫且發(fā)展迅速,大時(shí)間跨度的觀測數(shù)據(jù)往往在可比性上不能令人信服。如果采用金融大數(shù)據(jù),就可以在較的時(shí)間區(qū)間內(nèi)產(chǎn)生滿足分析所需要的數(shù)據(jù)量,同時(shí)可以對(duì)市場微結(jié)構(gòu)模型做出恰當(dāng)?shù)尿?yàn)證。金融大數(shù)據(jù)通常是指以小時(shí)、分鐘、秒甚至更高頻單位為頻率所采集的按時(shí)間先后順序排列的金融類數(shù)據(jù),有時(shí)也稱為超高頻金融數(shù)據(jù)。在金融市場中,信息是連續(xù)地影響證券市場價(jià)格的運(yùn)動(dòng)過程的。數(shù)據(jù)的離散采集必然會(huì)造成信息不同程度的缺失。無疑,采集頻率越高,信息丟失越少;反之,信息丟失越多。所以,大數(shù)據(jù)包含更多的信息,金融大數(shù)據(jù)的研究將帶來更精確的分析結(jié)果。當(dāng)前金融大數(shù)據(jù)的研究領(lǐng)域主要集中在市場微觀結(jié)構(gòu)和高頻金融時(shí)間序列的模型化方法等方面,由于金融大數(shù)據(jù)屬于海量存儲(chǔ)數(shù)據(jù)系列,在數(shù)據(jù)的可視化方面一直存在著發(fā)展瓶頸。然而,豆形圖的出現(xiàn)可以很好地推動(dòng)金融大數(shù)據(jù)的可視化發(fā)展。利用豆形圖可以分析金融大數(shù)據(jù)的日內(nèi)模式,研究相應(yīng)時(shí)段的市場微觀結(jié)構(gòu),同時(shí)也可以構(gòu)造日內(nèi)豆形時(shí)間序列,進(jìn)而利用豆形圖構(gòu)建金融大數(shù)據(jù)的時(shí)間序列分析模型,從可視化角度分析金融大數(shù)據(jù)的時(shí)間特征。4.1ss市場價(jià)格和收益分布特征圖6展示了上證綜合指數(shù)在2009年12月31日的日內(nèi)股指價(jià)格、交易量和收益率豆形圖,從中可以清晰地顯示上證綜合指數(shù)的日內(nèi)行為特征。首先,股指價(jià)格屬于多峰態(tài)分布,分布類型介于均勻分布和正態(tài)分布之間,且是左偏的,說明在當(dāng)天股指價(jià)格大部分時(shí)間處于高位運(yùn)行狀態(tài),但下滑幅度也多呈現(xiàn)不對(duì)稱狀態(tài)。其次,交易量和收益率近似服從正態(tài)分布,呈現(xiàn)完美的對(duì)稱分布

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論