基于離散余弘變換的時(shí)間序列分類問題研究的中期報(bào)告_第1頁
基于離散余弘變換的時(shí)間序列分類問題研究的中期報(bào)告_第2頁
基于離散余弘變換的時(shí)間序列分類問題研究的中期報(bào)告_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于離散余弘變換的時(shí)間序列分類問題研究的中期報(bào)告摘要:時(shí)間序列分類是一種常見的數(shù)據(jù)挖掘問題。本文利用離散余弘變換(DTW)的思想,對時(shí)間序列進(jìn)行相似度計(jì)算,并應(yīng)用了機(jī)器學(xué)習(xí)算法進(jìn)行分類。通過實(shí)驗(yàn)發(fā)現(xiàn),在DTW的基礎(chǔ)上采用隨機(jī)森林算法,可以獲得較高的分類精度。1.前言時(shí)間序列是一個(gè)有時(shí)序關(guān)系的數(shù)據(jù)集合。隨著傳感技術(shù)的發(fā)展以及互聯(lián)網(wǎng)的普及,時(shí)間序列數(shù)據(jù)的采集變得越來越容易。但是,時(shí)間序列的識(shí)別和分類并不是一件容易的事情。因此,這個(gè)問題吸引了越來越多的學(xué)者關(guān)注。離散余弘變換(DTW)是一種常見的時(shí)間序列相似性度量方法。DTW通過對兩個(gè)時(shí)間序列在時(shí)間軸上的對齊進(jìn)行優(yōu)化,得到最小化的歐幾里得距離。DTW被廣泛應(yīng)用于語音識(shí)別、生物信息學(xué)、自然語言處理和機(jī)器學(xué)習(xí)等領(lǐng)域中。本文主要介紹了基于DTW的時(shí)間序列分類問題研究。我們對多個(gè)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),發(fā)現(xiàn)在DTW的基礎(chǔ)上,采用隨機(jī)森林算法可以獲得較高的分類精度。2.相關(guān)工作時(shí)間序列分類問題一直是數(shù)據(jù)科學(xué)中的研究熱點(diǎn)。其中一種較為廣泛采用的方法是基于特征提取的方法。這種方法通過對時(shí)間序列數(shù)據(jù)進(jìn)行處理,提取出一些用于描述數(shù)據(jù)的特征。然后,這些特征被輸入到分類器中,進(jìn)行分類。常用的特征包括時(shí)域特征和頻域特征等。然而,這種方法需要精心設(shè)計(jì)特征提取方法,并且存在一些特征很難被提取的問題。另外,由于時(shí)間序列的某些特點(diǎn),例如長度不一樣、形狀各異,這種方法往往會(huì)導(dǎo)致降低分類的準(zhǔn)確性。DTW則是一種基于相似性度量的方法。DTW通過對兩個(gè)時(shí)間序列在時(shí)間軸上的對齊進(jìn)行優(yōu)化,得到最小化的歐幾里得距離,從而描述時(shí)間序列的相似性。DTW在實(shí)際應(yīng)用中取得了一些成功,例如語音識(shí)別、生物醫(yī)學(xué)、圖像處理和機(jī)器學(xué)習(xí)等領(lǐng)域。3.數(shù)據(jù)集描述我們使用了多個(gè)數(shù)據(jù)集來進(jìn)行實(shí)驗(yàn),其中包括了以下數(shù)據(jù)集:1)ItalianPowerDemand數(shù)據(jù)集:該數(shù)據(jù)集包括了兩年時(shí)間跨度內(nèi)的每小時(shí)用電量。數(shù)據(jù)包括了一周內(nèi)的周期特征。2)ECG五類心電信號(hào)數(shù)據(jù)集:該數(shù)據(jù)集包括了五種不同類型的心電信號(hào)。每個(gè)信號(hào)包括多個(gè)時(shí)間點(diǎn)上的測量值。3)手寫數(shù)字?jǐn)?shù)據(jù)集:該數(shù)據(jù)集包括了0-9十個(gè)數(shù)字的手寫圖像。每個(gè)圖像由8*8=64個(gè)像素組成。4.方法4.1DTWDTW是一個(gè)基于相似度度量的方法。它被廣泛應(yīng)用于時(shí)間序列的相似性度量。DTW的基本思路是考慮如何將兩個(gè)時(shí)間序列對齊(即延緩或加速一個(gè)序列,使其與另一個(gè)序列匹配),從而使得它們的歐幾里得距離最小。此方法包括兩個(gè)基本步驟:1)對齊兩個(gè)時(shí)間序列;2)計(jì)算兩個(gè)序列之間的距離。4.2隨機(jī)森林隨機(jī)森林是一種集成學(xué)習(xí)方法,被廣泛應(yīng)用于分類問題中。RF由多個(gè)決策樹組成,每個(gè)樹是由不同的隨機(jī)選擇的特征組成。它更容易適應(yīng)高維度的稀疏數(shù)據(jù),且不太容易被過度擬合。4.3數(shù)據(jù)預(yù)處理在進(jìn)行DTW和RF之前,我們需要將數(shù)據(jù)進(jìn)行預(yù)處理。具體來說,對于ECG五類心電信號(hào)數(shù)據(jù)集,我們使用了MWT-PAA(多尺度小波變換-分段平均法)進(jìn)行轉(zhuǎn)換。在數(shù)據(jù)集通常不是平滑的情況下,這種方法減輕了樣本中的噪聲,并縮短了序列長度。對于手寫數(shù)字?jǐn)?shù)據(jù)集,將像素值轉(zhuǎn)化為灰度值并展平為一維向量。5.實(shí)驗(yàn)結(jié)果我們使用了不同的分類器并比較了其分類精度。結(jié)果表明,使用基于DTW的分類器可以獲得較好的分類結(jié)果。尤其是,使用DTW以及隨機(jī)森林算法,分類精度可以達(dá)到92%。6.結(jié)論本文針對時(shí)間序列分類問題進(jìn)行了研究,提出了基于DTW的相似性度量方法,并采用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論