基于趨勢的時間序列相似性度量方法

上傳人：1*** IP屬地：廣東上傳時間：2023-11-24 格式：DOCX 頁數(shù)：9 大小：43.61KB 積分：9.6 舉報 版權(quán)申訴

已閱讀5頁，還剩4頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于趨勢的時間序列相似性度量方法

0基于時間序列趨勢的相似性度量時間序列是時間序列之后的幾名實物的序列，反映了時間序列中實體屬性的函數(shù)。時間序列匹配在位置定位(locationbasedservice,LBS)系統(tǒng)、環(huán)境監(jiān)測、物聯(lián)網(wǎng)等領(lǐng)域中有廣泛的應(yīng)用。由于時間序列(確定時間序列和不確定時間序列)的長度很大,并且不確定時間序列在每個觀察點的觀察值具有不確定性,導(dǎo)致了維度災(zāi)難和龐大的可能世界,使得時間序列相似性度量和聚類挖掘的時間代價過高。本文提出了基于時間序列變化趨勢的相似性度量方法和聚類方法,其中基于趨勢的相似性度量方法首先對時間序列進(jìn)行區(qū)間劃分和區(qū)間內(nèi)的趨勢判斷,生成短的趨勢符號序列,然后計算各趨勢符號的一階連接性指數(shù),最后通過計算兩序列中各趨勢符號一階連接性指數(shù)的塔尼莫特系數(shù)完成相似性度量?；谮厔莸木垲惙椒ㄍㄟ^定義趨勢高度,迭代判斷趨勢符號序列的趨勢變化,并構(gòu)建趨勢樹完成聚類。1相關(guān)工作1.1基于時間序列聚類分析的精度改進(jìn)時間序列相似性問題最早是由Agrawal等人提出的,將該問題定義為:在大規(guī)模的時間序列數(shù)據(jù)庫里,通過一定的相似性匹配方式,查詢出和已知序列相匹配的時間序列集合,相似是基于距離函數(shù)來衡量的。Agrawal率先使用等長時間序列的歐氏距離度量時間序列間的相似度,歐氏(Euclid)距離是最基本的,而明考夫斯基(Mikowski)距離則是對歐氏距離的推廣。Berndt等人在文獻(xiàn)中引入了在語音識別中被廣泛使用的DTW(dynamictimewarping)距離作為時間序列的相似性度量距離。文獻(xiàn)[3,4]闡述了這種基于非線性規(guī)整技術(shù)的算法可以獲得很高的識別和匹配精度,尤其對時間序列在時間軸上的形狀扭曲有非常優(yōu)秀的辨識能力。但是DTW的計算復(fù)雜度較高,并且DTW不滿足距離的三角不等式。Keogh在文獻(xiàn)中分析了DTW距離的特性,針對時間序列索引和查詢提出了基于時間序列邊界的DLB_Keogh距離。這是目前最好的時間序列度量距離,但是DLB_Keogh距離不是一種對稱的時間序列距離度量,所以并不適合直接應(yīng)用于時間序列的聚類。編輯距離(editdistance)是計算兩字符串符號序列距離的一種度量,它的定義是將一字符串轉(zhuǎn)換為另一字符串所需的最小編輯(插入、刪除、改變)步數(shù)。該方法充分利用了字符串匹配等成熟計算方法,但是需要將時間序列轉(zhuǎn)換成相應(yīng)的字符串,精度不高。文獻(xiàn)[6,7]使用了ARMA模型表示時間序列數(shù)據(jù),并通過定義基于兩個模型的距離公式進(jìn)行相似性度量。Wang等人將HMM模型應(yīng)用到時間序列數(shù)據(jù)聚類研究中,并在公共數(shù)據(jù)集上進(jìn)行了測試,獲得了良好的效果。其他相似性度量方式,如Swale模型、SpADe距離等在時間序列相似性度量領(lǐng)域也得到了廣泛的應(yīng)用。1.2時間序列差異度公式MacQue在1967年提出的K-means算法,是一種被廣泛應(yīng)用于科學(xué)研究和工業(yè)應(yīng)用中的經(jīng)典聚類算法。K-means算法的核心思想是把一個數(shù)據(jù)對象劃分為k個聚類,使每個聚類中的數(shù)據(jù)點到該聚類中心的平方和最小。Huang等人在文獻(xiàn)[11,12]中為克服K-means算法僅適合于數(shù)值屬性數(shù)據(jù)聚類的局限性,提出了一種適合于分類屬性數(shù)據(jù)聚類的K-modes算法,并證明了經(jīng)過有限次迭代,K-modes算法收斂于局部最小值。文獻(xiàn)為了刻畫時間序列趨勢的內(nèi)在規(guī)律特征,在K-means算法的基礎(chǔ)上提出了基于劃分的K_SC算法,并給出了新的時間序列差異度公式,保證任意兩個時間序列的相似性只與它們的趨勢走向有關(guān),而與它們的峰值數(shù)值以及在何時達(dá)到峰值無關(guān)。時間序列聚類是一種完全根據(jù)數(shù)據(jù)自身所提供的信息進(jìn)行分類的一種方法,根據(jù)相似性度量方式不同,時間序列的聚類主要分為基于距離的時間序列聚類、基于特征的時間序列聚類和基于模型的時間序列聚類三種。1990年,Kosmelj等人提出了relocation聚類算法,該算法采用歐氏距離進(jìn)行距離度量,可以對多變量等長時序數(shù)據(jù)進(jìn)行聚類分析。Golay等人將模糊C-均值方法應(yīng)用到磁共振數(shù)據(jù)(單變量等長數(shù)據(jù))中,對人腦行為進(jìn)行分析,采用歐氏距離作為距離度量方法。文獻(xiàn)對模糊C-均值聚類方法進(jìn)行了改進(jìn),該方法使用STS距離度量,被應(yīng)用于DNA序列檢測。Fu等人在文獻(xiàn)中沿時間軸使用一個連續(xù)的滑動窗口,通過自組織映射方法提取序列中關(guān)鍵的時間點。最終,用多個關(guān)鍵點來代替整個時間序列,使用改進(jìn)的SOM聚類算法進(jìn)行聚類。Owsley等人提出了序列集群細(xì)化算法(SCRA),通過模式匹配發(fā)現(xiàn)大批量數(shù)據(jù)信號的代表性數(shù)據(jù),最終形成一個高分辨率的有代表性的部分?jǐn)?shù)據(jù)集合。文獻(xiàn)通過尋找時間序列的關(guān)鍵點,利用改進(jìn)的FCM算法完成時間序列的動態(tài)聚類。2各時間序列的描述確定時間序列表示為每個時間點上有一個確定采樣值的有序序列;不確定時間序列的不確定性表示為每個時間點的樣本觀測值的集合,每一個時間點的取值用一個隨機(jī)變量來表示,不確定時間序列是具有時間特性的隨機(jī)變量的有序序列。定義1時間序列。長度為n的時間序列由一條包含n個元素的序列組成,時間序列記為TS={(t1,X1,P1),(t2,X2,P2),…,(tn,Xn,Pn)}。其中,ti代表第i個時間點,每條元組中的屬性用變量Xt和Pt表示,Xt代表第t時刻觀察值的集合,記為Xt={xt,1,xt,2,…,xt,s};Pt代表第t時刻觀察值取值概率的集合,記為Pt={pt,1,pt,2,…,pt,s},s為集合Xt的基數(shù)即樣本觀察值的個數(shù)。當(dāng)s=1時,TS表示確定時間序列,且Pt={1.0}。確定時間序列數(shù)據(jù)集如表1所示。當(dāng)s≠1時,TS表示不確定時間序列。不確定時間序列的數(shù)據(jù)集如表2所示。3基于序列趨勢的相似性測量3.1tdd結(jié)果與區(qū)間趨勢定義2序列區(qū)間。給定長度為n的時間序列T和分割的區(qū)間長度L(L≥3),將時間序列T分割為k=n/L個等長且連續(xù)的區(qū)間,稱為k個序列區(qū)間,分別記為i1,i2,…,ik。如果n≠k×L,則舍棄k×L+1到n的序列部分。區(qū)間ij(1≤j≤k)的區(qū)間范圍為[(j-1)×L,j×L],區(qū)間ij(1≤j≤k)的下邊界記為low(ij),上邊界記為high(ij),則L=high(ij)-low(ij),并且對于區(qū)間ij(1≤j<k),high(ij)=low(ij+1)。定義3區(qū)間趨勢。給定長度為n的時間序列T和分割后的k個序列區(qū)間i1,i2,…,ik,時間序列在區(qū)間ij(1≤j≤k)內(nèi)的變化趨勢為區(qū)間趨勢,記為tdj,tdj∈{tdup,tddw,tdst,tdpk,tdth}。其中:tdup為時間序列在分割區(qū)間內(nèi)呈現(xiàn)上升趨勢;tddw為時間序列在分割區(qū)間內(nèi)呈現(xiàn)下降趨勢;tdst為時間序列在分割區(qū)間內(nèi)呈現(xiàn)平緩趨勢;tdpk為時間序列在分割區(qū)間內(nèi)取得峰值;tdth為時間序列在分割區(qū)間內(nèi)取得谷值。五種區(qū)間趨勢tdup,tddw,tdst,tdpk,tdth如表3所示,并且區(qū)間趨勢與趨勢符號一一對應(yīng),與此對應(yīng)的趨勢符號為tsup,tsdw,tsst,tspk,tsth。對長度為n的時間序列T進(jìn)行序列區(qū)間分割和各區(qū)間趨勢判斷,具體步驟如下:a)計算序列T的期望序列Texp。如果T為確定時間序列,則Texp=T;如果T為不確定時間序列,則Texp={(t1,X1P1),(t2,X2P2),…,(tn,XnPn)},其中XiPi=xi,1×pi,1+xi,2×pi,2+…+xi,s×pi,s(1≤i≤n)。b)根據(jù)分割的區(qū)間長度L,將期望序列Texp分割為k個序列區(qū)間,分別記為i1,i2,…,ik。記錄Texp在區(qū)間ij(1≤j≤k)內(nèi)的區(qū)間開始點、區(qū)間中間點和區(qū)間結(jié)束點的取值V1、V2、V3,以及在該區(qū)間內(nèi)的最大取值Vmax和最小取值Vmin。根據(jù)表4(α為趨勢系數(shù))所示的判斷條件判斷區(qū)間ij內(nèi)的時間序列趨勢,即序列區(qū)間ij的區(qū)間趨勢。定義4趨勢符號序列。給定長度為n的時間序列T,在分割為k個序列區(qū)間并判斷每個序列區(qū)間內(nèi)的區(qū)間趨勢后,每個序列區(qū)間與一個區(qū)間趨勢對應(yīng),同樣每個序列區(qū)間與一個趨勢符號對應(yīng),將趨勢符號從左向右依次連接后形成的序列稱為時間序列T的趨勢符號序列,記為SL(T)={(i1,ts1),(i2,ts2),…,(ik,tsk)},其中tsj∈{tsup,tsdw,tsst,tspk,tsth}(1≤j≤k)。3.2時間序列的相似度通過引入在化學(xué)分子結(jié)構(gòu)研究和基因序列相似性研究中普遍使用的一階連接性指數(shù),以及塔尼莫特系數(shù)完成時間序列的相似性度量。定義5趨勢位置信息。給定長度為k的趨勢符號序列SL(T),比較趨勢符號ts(ts∈{tsup,tsdw,tsst,tspk,tsth})和SL(T)中的每一個趨勢符號tsj(1≤j≤k且tsj∈{tsup,tsdw,tsst,tspk,tsth}),如果ts=tsj,則ts在位置j的信息為j/k;通過遍歷SL(T)得到趨勢符號ts在SL(T)的全部信息,并將其按照從左向右的順序組織為序列,稱該序列為ts在T中的趨勢位置信息,記為LT(ts)=(LT,1(ts),LT,2(ts),…,LT,l(ts))。其中l(wèi)是在SL(T)中滿足ts=tsj的tsj個數(shù)。給定趨勢符號ts在趨勢符號序列SL(T)中的趨勢位置信息LT(ts),則ts在T中的一階連接性指數(shù)為IdT(ts)=(LT,1(ts)×LT,2(ts))-0.5+(LT,2(ts)×LT,3(ts))-0.5+…+(LT,l-1(ts)×LT,l(ts))-0.5,其中ts∈{tsup,tsdw,tsst,tspk,tsth}。例1給定SL(T1)={(i1,tspk),(i2,tsst),(i3,tsup),(i4,tsdw),(i5,tsh),(i6,tsst),(i7,tsup),(i8,tsdw),(i9,tsh),(i10,tspk),(i11,tsst),(i12,tsup),(i13,tsdw),(i14,tsth),(i15,tsst)}。tsdw在T1中的趨勢位置信息LT1(tsdw)=(4/15,8/15,13/15),tsdw在時間序列T1中的一階連接性指數(shù)IdT1(tsdw)=(4/15×8/15)-0.5+(8/15×13/15)-0.5=4.12。時間序列T1中五種趨勢符號的一階連接性指數(shù)對應(yīng)為IdT1(tsup),IdT1(tsdw),IdT1(tsst),IdT1(tspk),IdT1(tsth);時間序列T2中五種趨勢符號的一階連接性指數(shù)對應(yīng)為IdT2(tsup),IdT2(tsdw),IdT2(tsst),IdT2(tspk),IdT2(tsth),則時間序列T1和T2的相似度通過塔尼莫特系數(shù)ST1,T2(ST1,T2∈[0,1])來衡量。如果ST1,T2>ε,則時間序列T1和T2相似,否則兩序列不相似。其中ε為相似性閾值,ST1,T2如式(1)所示。3.3基于趨勢的時間復(fù)雜度分析基于趨勢的時間序列相似性匹配算法輸入:時間序列Q,時間序列集合D={T1,T2,…,Tm},其中m是序列集合的尺寸,Ti={(t1,X1,P1),(t2,X2,P2),…,(tn,Xn,Pn)}(1≤i≤m);序列區(qū)間分割子程序Div_Sl;區(qū)間趨勢判斷和趨勢符號序列生成子程序Td_Sl;趨勢位置信息及一階連接性指數(shù)計算子程序CN_ID;塔尼莫特系數(shù)計算子程序CA_MT;相似性閾值ε。輸出:匹配的時間序列集合S?；谮厔莸臅r間序列相似性匹配算法的時間復(fù)雜度分析如下(首先討論不確定時間序列的情況):a)步驟1的時間復(fù)雜度為O(1)。b)步驟2~4計算時間序列Q中五種趨勢符號的一階連接性指數(shù)。首先步驟2計算Q的期望序列,該步驟需要遍歷時間序列的每個觀察值,該步驟的時間復(fù)雜度為O(ns),s為時間序列觀察點的觀察值個數(shù);然后步驟3對期望序列進(jìn)行序列區(qū)間劃分和區(qū)間趨勢判斷,并生成趨勢符號序列,該步驟需要遍歷期望序列的每個觀察點,該步驟的時間復(fù)雜度為O(n);步驟4計算趨勢符號序列中五種趨勢符號的一階連接性指數(shù),該步驟的時間復(fù)雜度為O(5k),其中k為趨勢符號序列的長度。由于k<n,步驟2~4的時間復(fù)雜度為O(ns)。c)同理,步驟6~8的時間復(fù)雜度為O(ns)。d)步驟9計算兩時間序列五種趨勢符號的塔尼莫特系數(shù),該步驟的時間復(fù)雜度為O(1);步驟5~11需要遍歷數(shù)據(jù)庫中的m條時間序列,并進(jìn)行相似性度量,則步驟5~11的時間復(fù)雜度為O(mns)。綜上所述,對不確定時間序列進(jìn)行基于趨勢的相似性匹配,時間復(fù)雜度為O(mns);同理可得對確定時間序列進(jìn)行基于趨勢的相似性度量,時間復(fù)雜度為O(mn)。4基于序列趨勢的集群4.1生成趨勢符號序列定義6趨勢高度。給定趨勢符號ts(ts∈{tsup,tsdw,tsst,tspk,tsth}),ts對應(yīng)唯一的數(shù)值,稱ts對應(yīng)的唯一數(shù)值為趨勢高度,記為th。ts與th(th∈[0,1])的對應(yīng)關(guān)系記為(ts,th),則五種趨勢符號和其趨勢高度的對應(yīng)關(guān)系表示為{(tsup,0.25),(tsdw,0.75),(tsst,0.5),(tspk,0),(tsth,1.0)},該對應(yīng)關(guān)系保證趨勢類型越相近,趨勢之間趨勢高度差越小。根據(jù)定義6,每個趨勢符號與唯一的數(shù)值對應(yīng),則趨勢符號序列SL1(T)可轉(zhuǎn)換為每個時間點有一個確定觀察值的時間序列,記為TL1(T),其中SL1(T)=SL(T)。將TL1(T)中每三個觀察點劃分為一個區(qū)間,并根據(jù)觀察值進(jìn)行趨勢判斷,生成新的趨勢符號序列SL2(T)。對SL1(T)進(jìn)行i次上述過程的迭代處理后,生成的趨勢符號序列記為SLi+1(T),其中i≤log3k,并且SLi+1(T)對應(yīng)的確定時間序列記為TLi+1(T),進(jìn)行m=log3k次迭代后,生成的趨勢符號序列SLm+1(T)=ts,其中ts∈{tsup,tsdw,tsst,tspk,tsth}。由TLi(T)(1≤i≤m)確定SLi+1(T)的步驟如下:a)SLi+1(T)的第j(1≤j≤k/3i)個趨勢符號由TLi(T)中的觀察點3j-2到觀察點3j的觀察值確定,三個觀察值分別記為th1,th2,th3。b)根據(jù)表5所示的判定條件判定SLi+1(T)的第j個趨勢符號。定義7趨勢樹。給定趨勢符號序列SL(T),如果滿足以下條件則根據(jù)SL(T)構(gòu)建的樹為趨勢樹tree(T),其中SL(T)長度為k,tree(T)的高度為h,k=3h-1。a)tree(T)的第1層的k個葉子節(jié)點對應(yīng)SL(T)的k個趨勢符號。b)tree(T)的第i(1<i<h)層的中間節(jié)點對應(yīng)SLi(T)(SLi(T)的長度為k/3i-1)中的k/3i-1個趨勢符號。c)tree(T)的第h層只有一個節(jié)點,即根節(jié)點,并且根節(jié)點為趨勢符號ts=SLh(T)。例2設(shè)SL(T2)={(i1,tspk),(i2,tsst),(i3,tsup),(i4,tsdw),(i5,tsth),(i6,tsst),(i7,tsup),(i8,tsdw),(i9,tsth),(i10,tspk),(i11,tsst),(i12,tsup),(i13,tsdw),(i14,tsth),(i15,tsst),(i16,tsup),(i17,tsdw),(i18,tsth),(i19,tsst),(i20,tspk),(i21,tsdw),(i22,tsup),(i23,tsst),(i24,tsth),(i25,tsst),(i26,tsdw),(i27,tspk)},構(gòu)建趨勢樹如圖1所示,其中k=27,h=4,根節(jié)點為tsup。定義8聚類類別。給定tree(T),根據(jù)tree(T)根節(jié)點表示的不同趨勢類型,共五種聚類類別,分別記為Cup,Cdw,Cst,Cpk,Cth。聚類類別Ci∈{Cup,Cdw,Cst,Cpk,Cth}與SLh(T)表示的趨勢類型對應(yīng),即Cup,Cdw,Cst,Cpk,Cth分別對應(yīng)tsup,tsdw,tsst,tspk,tsth。Ci為聚集到該類的時間序列集合,該集合內(nèi)的時間序列趨勢樹根節(jié)點表示的趨勢類型相同,不同聚類類別內(nèi)的時間序列其趨勢樹根節(jié)點表示的趨勢類型不同,其中Ci∈{Cup,Cdw,Cst,Cpk,Cth}(1≤i≤5)。4.2基于趨勢的時間序列聚類算法基于趨勢的時間序列聚類算法輸入:時間序列集合D={T1,T2,…,Tm},其中m是序列集合的尺寸,Ti={(t1,X1,P1),(t2,X2,P2),…,(tn,Xn,Pn)}(1≤i≤m);序列區(qū)間分割子程序Div_Sl;區(qū)間趨勢判斷和趨勢符號序列生成子程序Td_Sl;趨勢樹生成子程序tree_Td。輸出:聚類類別集合{Cup,Cdw,Cst,Cpk,Cth}?；谮厔莸臅r間序列聚類算法的時間復(fù)雜度分析如下(首先討論不確定時間序列的情況):a)步驟2計算時間序列的期望序列,需要遍歷時間序列的所有觀察值,步驟2的時間復(fù)雜度為O(ns),s為時間序列觀察點的觀察值個數(shù)。b)步驟3對期望序列進(jìn)行序列區(qū)間劃分和區(qū)間趨勢判斷,并生成趨勢符號序列,該步驟需要遍歷期望序列的每個觀察點,步驟3的時間復(fù)雜度為O(n)。c)步驟4對趨勢符號序列進(jìn)行迭代趨勢判斷,并生成趨勢樹,步驟4的時間復(fù)雜度為O(3+32+…+3h-1)=O(0.5×3h),其中h為趨勢樹的高度。d)步驟5~8根據(jù)趨勢樹根節(jié)點表示的趨勢類型進(jìn)行聚類。該步驟的時間復(fù)雜度為O(1)。e)步驟1需要遍歷數(shù)據(jù)庫中的m條時間序列并進(jìn)行步驟2~8的計算。由于k<0.5×3h<n,其中k為趨勢符號序列SL(T)的長度,n為時間序列T的長度,則步驟2~8的時間復(fù)雜度為O(ns),該算法的時間復(fù)雜度為O(nms);同理對確定的時間序列集合D={T1,T2,…,Tm}進(jìn)行基于趨勢聚類的時間復(fù)雜度為O(nm),其中m為D的尺寸。5實驗5.1實驗環(huán)境本次實驗的環(huán)境為:Windows732位操作系統(tǒng);英特爾酷睿i3-370處理器;NVIDIAGeforceGT330M顯卡。5.2不確定時間序列1)不確定時間序列數(shù)據(jù)實驗數(shù)據(jù)是來自鋼廠軋鋼過程中一卷鋼板的凸度值變化情況。在實際鋼廠軋鋼過程中,將每一卷鋼板作為一個周期,每一卷的檢測數(shù)據(jù)是按時間順序變化的,每一時隙的變化是不確定的,形成一個不確定的時間序列。假定檢測過來的原始數(shù)據(jù)與數(shù)據(jù)庫中時間范圍是相同周期的,每一卷檢測值是一個時間序列,每一條元組都是一個2-tuple〈ti,vi〉,循環(huán)讀取這組檢測數(shù)據(jù)中的每一個二元組,與數(shù)據(jù)庫中對應(yīng)時刻的值進(jìn)行比較,更新數(shù)據(jù)庫中的值,統(tǒng)計出每一時刻所出現(xiàn)的觀察值的頻率。本文主要通過統(tǒng)計每一組值來找到這樣的經(jīng)驗值。具體做法是:將原始檢測數(shù)據(jù)通過統(tǒng)計計算,得到每個時刻的樣本可能出現(xiàn)值和可能值的概率,實際每個周期大概是150個時間點,這樣形成了一條不確定的時間序列數(shù)據(jù)。最后得到1000條不確定時間序列,每條時間序列的時間點都是150。2)確定時間序列數(shù)據(jù)通過統(tǒng)計鋼板凹凸值變化得到不確定時間序列后,將該序列的期望序列作為實驗中的確定時間序列數(shù)據(jù),則最后得到1000條確定時間序列,每條時間序列的時間點都是150。5.3測定一階連接性指數(shù)法對2000條時間序列(1000條確定時間序列和1000條不確定時間序列)分別計算五種趨勢符號的一階連接性指數(shù),然后對每一條時間序列分別計算與其余序列趨勢符號的塔尼莫特系數(shù)。實驗結(jié)果表明在2000條時間序列集合中,沒有兩序列的塔尼莫特系數(shù)等于1,即2000條時間序列中,沒有兩條時間序列的趨勢符號的一階連接性指數(shù)完全相等,所以可以使用五種趨勢符號的一階連接性指數(shù)唯一地表示一條時間序列。5.4查詢結(jié)果的相關(guān)性分析本文通過查全率和查準(zhǔn)率兩種參數(shù)來進(jìn)行相似性度量的結(jié)果分析。查全率(召回率)是衡量從不確定性時間序列數(shù)據(jù)庫中查詢出與給定的查詢序列相似成功度的一項指標(biāo),即查詢出的相關(guān)序列與數(shù)據(jù)庫中全部不確定時間序列的百分比。查準(zhǔn)率(精度)是衡量查詢出的相似性序列的準(zhǔn)確度的一項指標(biāo),即查詢出的相關(guān)序列中真正滿足相似的序列與全部查詢出的相關(guān)序列的百分比。5.4.1對于相似性匹配結(jié)果任意給定一個查詢序列Q,對1000條確定的期望時間序列分別基于歐氏距離(ED)、DTW、序列趨勢(TD)三種度量方式進(jìn)行相似性匹配。相似性匹配結(jié)果如表6所示。使用基于序列趨勢的度量方式,查全率最高,但是查準(zhǔn)率與基于歐氏距離的相似性度量方式接近,并低于基于DTW的相似性度量方式。三種度量方式的匹配效率如圖2所示,基于序列趨勢的度量方式匹配效率介于其余兩者之間,并且基于DTW的度量方式匹配效率最低。以上數(shù)據(jù)表明,對于確定時間序列,基于趨勢的相似性度量方式是有效的。5.4.

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > 學(xué)術(shù)論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于趨勢的時間序列相似性度量方法

文檔簡介

溫馨提示

最新文檔

評論

基于趨勢的時間序列相似性度量方法

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔