版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、系統(tǒng)工程導論系統(tǒng)工程導論第2頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt第五章第五章 主成分分析方法主成分分析方法5.1 引言引言5.2 主成分分析基本原理主成分分析基本原理5.3 主成分的計算方法及有關(guān)性質(zhì)主成分的計算方法及有關(guān)性質(zhì)5.4 主成分的計算方法證明主成分的計算方法證明第3頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt例:一批龜殼化石的長、寬、高數(shù)據(jù),請將全部烏龜分為三類123456789101112939496101102103104106107112113114747880848581838382898886373535393837393938404040樣本樣本 長長 寬寬 高高123( )(
2、 )( )tx txtxt5.1 引言第4頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt若存在一個線性關(guān)系若存在一個線性關(guān)系301122( )(3)(3) ( )(3)( )x tbbx tbx t201133( )(2)(2) ( )(2)( )x tbbx tbx t102233( )(1)(1)( )(1)( )x tbbx tbx t或者或者或者或者或者或者觀察:長、寬、高之間近似存在線性關(guān)系觀察:長、寬、高之間近似存在線性關(guān)系只需要根據(jù)只需要根據(jù)兩個兩個變量分類!變量分類!5.1 引言第5頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt20113011( )(2)(2) ( )( )(3)(3) ( )x
3、 tccx tx tccx t10332033( )(1)(1)( )( )(2)(2)( )x tccx tx tccx t10223022( )(1)(1)( )( )(3)(3)( )x tccx tx tccx t或者或者或者或者或者或者若存在兩個線性關(guān)系若存在兩個線性關(guān)系只需要根據(jù)只需要根據(jù)一個一個變量分類變量分類5.1 引言第6頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt據(jù)長據(jù)長分類分類123456789101112939496101102103104106107112113114747880848581838382898886373535393837393938404040樣本樣本 長長
4、 寬寬 高高123( )( )( )tx txtxt據(jù)高據(jù)高分類分類44據(jù)寬據(jù)寬分類分類55根據(jù)什么變量分類較好?根據(jù)什么變量分類較好?455.1 引言第7頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt10112233( )(1)(1) ( )(1)( )(1)( )y tllx tlx tlx t任取任取只要有關(guān)向量線性無關(guān),就成立只要有關(guān)向量線性無關(guān),就成立101120113011( )(1)(1)( )( )(2)(2)( )( )(3)(3)( )x tppy tx tppy tx tppy t10332033( )(1)(1)( )( )(2)(2)( )x tccx tx tccx t若存在
5、兩個線性關(guān)系,例如若存在兩個線性關(guān)系,例如5.1 引言第8頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt一般性建模問題一般性建模問題Tnxxxx21y?f使得和如果變量間近似線性相關(guān),則存在低維向量如果變量間近似線性相關(guān),則存在低維向量所以,一旦知道所以,一旦知道nmzzzzTm,21mnRBBzx ,于是).()(zgBzfxfyz的樣本數(shù)據(jù),可考慮低維問題的樣本數(shù)據(jù),可考慮低維問題Tmzzzz21y?g5.1 引言第9頁系統(tǒng)工程導論系統(tǒng)工程導論精選pptv主成分分析試圖從樣本點定量變量的數(shù)據(jù)表中,找出最為關(guān)鍵的少數(shù)綜合變量,能與原有系統(tǒng)數(shù)據(jù)保持很高的一致性。v實際采用降維方法(如20維降為2維),只
6、選擇起最主要作用的自變量和因變量來建模。v在數(shù)學上,可以看成將坐標做平移和旋轉(zhuǎn)變換,使得新坐標的原點與樣本數(shù)據(jù)群的重心重合,第一軸(稱為第一主軸u1)與數(shù)據(jù)變異最大的方向?qū)坏诙S與數(shù)據(jù)變異次大的方向?qū)来祟愅?。?jīng)有效舍棄后,主軸u1 u2 up能十分有效地表示原數(shù)據(jù)的變異情況。5.2 主成分分析基本原理第10頁系統(tǒng)工程導論系統(tǒng)工程導論精選pptu1u2x1x2Og22121211cossinsincoscxxucxxu主成分分析幾何意義:平移旋轉(zhuǎn),使得樣本點在第一主軸的方差最大5.2 主成分分析基本原理第11頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt12111)(121)(ttyye變量的樣本
7、均值變量的樣本均值變量的樣本方差變量的樣本方差12121112)()(1121)(tyetyy基本準則:分類變量的分散程度越大越有利基本準則:分類變量的分散程度越大越有利變量的分散程度可用其樣本方差表示變量的分散程度可用其樣本方差表示5.2 主成分分析基本原理第12頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt確定分類變量的基本方式確定分類變量的基本方式10112233( )(1)(1) ( )(1)( )(1)( )y tllx tlx tlx t10112233()(1)(1) ()(1) ()(1) ()e ylle xle xle x121211)()(maxtyety11111222333(
8、)()(1)( )()(1)( )()(1)( )()y te ylx te xlx te xlx te x5.2 主成分分析基本原理第13頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt輔助措施:對組合變量施加規(guī)范化約束輔助措施:對組合變量施加規(guī)范化約束措施措施1:對原始變量的尺度規(guī)范化:對原始變量的尺度規(guī)范化11111213322232223( )()( )()(1)()( )()( )()(1)(1)()()x te xy te ylxx te xx te xllxx措施措施2:對組合參數(shù)的尺度規(guī)范化:對組合參數(shù)的尺度規(guī)范化222123(1)(1)(1)1lll5.2 主成分分析基本原理第14頁系統(tǒng)
9、工程導論系統(tǒng)工程導論精選ppt最終的優(yōu)化模型最終的優(yōu)化模型1221122331222123max(1) ( )(1)( )(1)( ). .(1)(1)(1)1tlx tlx tlx tst lll其中其中2( )( )( )( )iiiix te xx tx該問題的最優(yōu)解該問題的最優(yōu)解1112233 ( )(1) ( )(1)( )(1)( )y tlx tlx tlx t就是這組樣本數(shù)據(jù)的第一主成分就是這組樣本數(shù)據(jù)的第一主成分5.2 主成分分析基本原理第15頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt101120113011( )(1)(1)( )( )(2)(2)( )( )(3)(3)( )x
10、 tppy tx tppy tx tppy t在當前情況下用第一主成分分類最有利!在當前情況下用第一主成分分類最有利!10332033( )(1)(1)( )( )(2)(2)( )x tccx tx tccx t因為由線性關(guān)系因為由線性關(guān)系仍可得到仍可得到1112233 ( )(1) ( )(1)( )(1)( )y tlx tlx tlx t5.2 主成分分析基本原理第16頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt1011223320112233( )(1)(1) ( )(1)( )(1)( )( )(2)(2) ( )(2)( )(2)( )y tllx tlx tlx ty tllx tlx
11、 tlx t任取任取只要有關(guān)行向量線性無關(guān),就成立只要有關(guān)行向量線性無關(guān),就成立101122201122301122( )(1)(1)( )(1)( )( )(2)(2)( )(2)( )( )(3)(3)( )(3)( )x tppy tpy tx tppy tpy tx tppy tpy t若僅存在一個線性關(guān)系,例如若僅存在一個線性關(guān)系,例如102233( )(1)(1)( )(1)( )x tbbx tbx t5.2 主成分分析基本原理第17頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt類似于前面的討論,可求解類似于前面的討論,可求解12221211112233211223322212322212
12、3max( )( ). .( )(1) ( )(1)( )(1)( )( )(2) ( )(2)( )(2)( )(1)(1)(1)1(2)(2)(2)1ty ty tst y tlx tlx tlx ty tlx tlx tlx tllllll措施措施3:112233(1) (2)(1) (2)(1) (2)0llllll保證兩個組合向量線性無關(guān)!保證兩個組合向量線性無關(guān)!5.2 主成分分析基本原理第18頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt122212111122332112233222123222123112233max( )( ). .( )(1)( )(1)( )(1)( )( )(2
13、)( )(2)( )(2)( )(1)(1)(1)1(2)(2)(2)1(1) (2)(1) (2)(1) (2)0ty ty tst y tlx tlx tlx ty tlx tlx tlx tllllllllllll最終模型最終模型最優(yōu)解就是第一和第二主成分最優(yōu)解就是第一和第二主成分5.2 主成分分析基本原理第19頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt給定一組樣本數(shù)據(jù):給定一組樣本數(shù)據(jù):一般情況一般情況首先求出其規(guī)格化的數(shù)據(jù):首先求出其規(guī)格化的數(shù)據(jù):( ),1,2,1,2,ix ttN in2( )( )( )( )iiiix te xx tx 20( )1iie xx5.2 主成分分析基本
14、原理第20頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt確定確定m個主成分的優(yōu)化模型為個主成分的優(yōu)化模型為2111211max( ). .( )( ) ( ),1,2,( )1,1,2,( ) ( )0,Nmktknkiiiniiniiiy tst y tl k x tkmnl kkml k ljkj 5.2 主成分分析基本原理第21頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt)()()()(21tytytytym符號約定:符號約定:)()()()(21klklklkln)()()()(21txtxtxtxn)() 2() 1 (NxxxX)() 2() 1 (NyyyY)() 2() 1 (mlllL5.2
15、主成分分析基本原理第22頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt211max( ). .( )( ) ( )mNkktTkTmy tst y tlk x tL LI2111211max( ).( )( ) ( )( )1( ) ( )0Nmktknkiiiniiniiiy tst y tl k x tl kl k l j5.2 主成分分析基本原理第23頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt11max( ) ( )( ) ( ). .mNTTktTmlk x t xk l kst L LI1( )( )NTTtx t xkXX 因為因為1max( )( ). .mTTkTmlk XX l kst L
16、LI 5.2 主成分分析基本原理第24頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt結(jié)論:結(jié)論: ( )( ) ( ),1,2,Tky tqk x tkm021n用用TXX 表示表示的順序遞減的特征的順序遞減的特征(1), (2), ( )qqq n根,根,是它們是它們對應的規(guī)范化的特征向量,對應的規(guī)范化的特征向量,則所求主成分為則所求主成分為5.3 主成分的計算方法及有關(guān)性質(zhì)第25頁系統(tǒng)工程導論系統(tǒng)工程導論精選pptkxekqyeniiik1, 0)()()(主成分的樣本均值主成分的樣本均值kTkTTNtTTkkqkqkqXXkqkqtxtxkqyN)()()()()()()()() (112主成分的
17、樣本方差主成分的樣本方差kNykk,1/) (25.3 主成分的計算方法及有關(guān)性質(zhì)第26頁系統(tǒng)工程導論系統(tǒng)工程導論精選pptnNxNtxtxtxkqkqtxtxkqkqtxyNniiNtTNtnkTTnkNtTTnkk1)(1)()()()()()()()()()()(1121111112主成分的樣本方差之和主成分的樣本方差之和nynkk12)(nTIQQnTIQQ5.3 主成分的計算方法及有關(guān)性質(zhì)第27頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt樣本相關(guān)矩陣樣本相關(guān)矩陣TXXNR11因為因為)(11)(11kqNkqXXNkT所以所以kkNR11)(kRykk),()(25.3 主成分的計算方法及有
18、關(guān)性質(zhì)第28頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt 分類變量的個數(shù)選擇準則分類變量的個數(shù)選擇準則設(shè)定方差閾值設(shè)定方差閾值85. 0., 10ge選擇最小的選擇最小的m,滿足,滿足取前取前m個主成分為分類變量個主成分為分類變量mkkyn12)(15.3 主成分的計算方法及有關(guān)性質(zhì)第29頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt 烏龜數(shù)例的計算結(jié)果烏龜數(shù)例的計算結(jié)果11. 0)(22. 0)(67. 2)(322212yyy89. 0)(3112y取第一個主成分為分類變量取第一個主成分為分類變量1123 ( )0.5900 ( )0.5731( )0.5687( )y tx tx tx t5.3 主成分的
19、計算方法及有關(guān)性質(zhì)第30頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt -2.4310 -2.4410 -2.0023 0.2349 0.1351 -0.6467 0.3475 0.5134 0.1407 2.1487 2.0953 1.9055123456789101112939496101102103104106107112113114747880848581838382898886373535393837393938404040樣本樣本 長長 寬寬 高高123( )( )( )tx tx tx t主成分主成分)(1ty分類結(jié)果分類結(jié)果1-34-910-125.3 主成分的計算方法及有關(guān)性質(zhì)第31頁
20、系統(tǒng)工程導論系統(tǒng)工程導論精選ppt1max( )( ). .mTTkTmlk XX l kst L LI考慮下述優(yōu)化問題考慮下述優(yōu)化問題為符號簡便,用為符號簡便,用TXXTXX 代替代替5.4 主成分的計算方法證明第32頁系統(tǒng)工程導論系統(tǒng)工程導論精選pptnTIQQ存在矩陣存在矩陣nnRQ滿足滿足TTQQXXn21021n基本出發(fā)點:實對稱矩陣的正交對角分解基本出發(fā)點:實對稱矩陣的正交對角分解5.4 主成分的計算方法證明第33頁系統(tǒng)工程導論系統(tǒng)工程導論精選pptQQXXQQXXTTT記記)()2()1 (nqqqQnkkqkqXXkT, 2, 1)()(q(k)是是 XXT 的第的第 k 大的
21、大的特征向量對應的特征根特征向量對應的特征根5.4 主成分的計算方法證明第34頁系統(tǒng)工程導論系統(tǒng)工程導論精選pptjkjlklmkklklt sklXXklTTmkTT0)()(, 2 , 11)()(. .)()(max1jkjlklmkklklt sklQQklTTmkTT0)()(, 2, 11)()(. .)()(max15.4 主成分的計算方法證明第35頁系統(tǒng)工程導論系統(tǒng)工程導論精選pptjkjlklmkklkltsklQQklTTmkTT0)()(, 2, 11)()(. .)()(max1令令mkklQkpT, 2, 1)()(nTnTIQQIQQ注意注意所以所以mkkQpkl,
22、 2, 1)()(5.4 主成分的計算方法證明第36頁系統(tǒng)工程導論系統(tǒng)工程導論精選pptjkjlklmkklkltsklQQklTTmkTT0)()(, 2, 11)()(. .)()(max1jkjpkpmkkpkpt skpkpTTmkT0)()(, 2, 11)()(. .)()(max15.4 主成分的計算方法證明第37頁系統(tǒng)工程導論系統(tǒng)工程導論精選pptmkkpkpkpkpn, 2, 1)()()()(2121)()()(kpkpkpiniiT記記5.4 主成分的計算方法證明jkjpkpmkkpt skpniiiniimkinii0)()(, 2, 11)(. .)(max11212
23、1第38頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt引理引理1mkpnikpnimkimki 11212)(, 2, 11)(0若若)(,),2(),1 (mppp滿足約束,滿足約束,則成立則成立5.4 主成分的計算方法證明第39頁系統(tǒng)工程導論系統(tǒng)工程導論精選pptmkkpnii, 2, 11)(12證明證明因為因為所以所以mkpnimki 112)(另外,顯然成立另外,顯然成立nikpmki, 2, 1)(0125.4 主成分的計算方法證明第40頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt因為因為jkjpkpmkkpkpTT0)()(, 2, 11)()(mTIPP)() 2() 1 (mpppP記記5.4
24、 主成分的計算方法證明TTTTTTTTTTPPIPPPPPPPPIPPIPPIPPIPPI)()(TIPP的對角線元素大于或等于的對角線元素大于或等于0nikpmki, 2, 10)(112證明結(jié)束證明結(jié)束第41頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt引理引理2nmniniii1, 2, 110若若n,21滿足約束,滿足約束,則成立則成立miiinii115.4 主成分的計算方法證明第42頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt證明證明如果如果m = n,如果如果m n,但是,但是niiniii11顯然成立顯然成立miiinii11下面將推出矛盾,從而證明引理成立。下面將推出矛盾,從而證明引理成立。5
25、.4 主成分的計算方法證明第43頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt)1 (11imiiinmiimiiiniinm11,nmiimmiimmiimimiiinmiinmiimm1111111)1 ()1 (證明結(jié)束證明結(jié)束5.4 主成分的計算方法證明第44頁系統(tǒng)工程導論系統(tǒng)工程導論精選pptjkjpkpmkkpt skpniiiniimkinii0)()(, 2, 11)(. .)(max112121inmniniii1, 2, 110根據(jù)引理根據(jù)引理1根據(jù)引理根據(jù)引理2miimkiniikp1121)(5.4 主成分的計算方法證明第45頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt令令1miijkj
26、pkpmkkpt skpniiiniimkinii0)()(, 2, 11)(. .)(max112121kikikpi01)(mimikpmki01)(125.4 主成分的計算方法證明第46頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt1miijkjpkpmkkpt skpniiiniimkinii0)()(, 2, 11)(. .)(max112121miimkiniikp1121)(5.4 主成分的計算方法證明第47頁系統(tǒng)工程導論系統(tǒng)工程導論精選pptkikikpi01)(因此因此是最優(yōu)解!是最優(yōu)解!回憶回憶mkkpQkl, 2, 1)( )()()2() 1 (nqqqQ最終最終mkkqkl,
27、2, 1)()(是原問題是原問題的的最優(yōu)解!最優(yōu)解!5.4 主成分的計算方法證明第48頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt結(jié)論結(jié)論jkjlklmkklklt sklXXklTTmkTT0)()(, 2, 11)()(. .)()(max1mkkqkl, 2, 1)()(是優(yōu)化問題是優(yōu)化問題的一個最優(yōu)解的一個最優(yōu)解5.4 主成分的計算方法證明第49頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt例:一批龜殼例:一批龜殼 化石的長化石的長 寬高數(shù)據(jù)寬高數(shù)據(jù)123456789101112939496101102103104106107112113114747880848581838382898886373535
28、393837393938404040樣本樣本 長長 寬寬 高高123( )( )( )tx tx tx t5.5 主成分在數(shù)據(jù)壓縮中的作用第50頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt如前所述,若存在一個線性關(guān)系如前所述,若存在一個線性關(guān)系 總之,可以用兩個變量的樣本數(shù)總之,可以用兩個變量的樣本數(shù)據(jù)近似恢復三個變量的樣本數(shù)據(jù)。據(jù)近似恢復三個變量的樣本數(shù)據(jù)。301122( )(3)(3) ( )(3)( )x tbbx tbx t201133( )(2)(2) ( )(2)( )x tbbx tbx t102233( )(1)(1)( )(1)( )x tbbx tbx t或者或者或者或者或者或者5
29、.5 主成分在數(shù)據(jù)壓縮中的作用第51頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt31122( )(3)( )(3)( )x tbx tbx t21133( )(2)( )(2)( )x tbx tbx t12233( )(1)( )(1)( )x tbx tbx t或者或者或者或者或者或者若采用規(guī)格化的數(shù)據(jù),前面三式可化為若采用規(guī)格化的數(shù)據(jù),前面三式可化為 可以用兩個變量的規(guī)格化數(shù)據(jù)可以用兩個變量的規(guī)格化數(shù)據(jù)近似恢復三個變量的規(guī)格化數(shù)據(jù)。近似恢復三個變量的規(guī)格化數(shù)據(jù)。5.5 主成分在數(shù)據(jù)壓縮中的作用第52頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt更好的做法是極小化逼近誤差更好的做法是極小化逼近誤差12321
30、211( )(1)( )(2)( )iiitix tly tly t 確定存儲什么數(shù)據(jù),其中采用規(guī)格化的樣確定存儲什么數(shù)據(jù),其中采用規(guī)格化的樣本數(shù)據(jù)是為了平衡不同變量的逼近誤差。本數(shù)據(jù)是為了平衡不同變量的逼近誤差。 有了規(guī)格化的樣本數(shù)據(jù),只要再記住原變有了規(guī)格化的樣本數(shù)據(jù),只要再記住原變量的樣本均值和方差,即可恢復原數(shù)據(jù)。量的樣本均值和方差,即可恢復原數(shù)據(jù)。5.5 主成分在數(shù)據(jù)壓縮中的作用第53頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt20113011( )(2)(2) ( )( )(3)(3) ( )x tccx tx tccx t10332033( )(1)(1)( )( )(2)(2)( )x
31、 tccx tx tccx t10223022( )(1)(1)( )( )(3)(3)( )x tccx tx tccx t或者或者或者或者或者或者同樣,若存在兩個線性關(guān)系同樣,若存在兩個線性關(guān)系 總之,可以用一個變量的樣本數(shù)據(jù)總之,可以用一個變量的樣本數(shù)據(jù)近似恢復三個變量的樣本數(shù)據(jù)。近似恢復三個變量的樣本數(shù)據(jù)。5.5 主成分在數(shù)據(jù)壓縮中的作用第54頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt同樣,可以求解優(yōu)化問題同樣,可以求解優(yōu)化問題來確定存儲什么數(shù)據(jù)!來確定存儲什么數(shù)據(jù)!1232111( )(1)( )iitix tly t5.5 主成分在數(shù)據(jù)壓縮中的作用第55頁系統(tǒng)工程導論系統(tǒng)工程導論精選pp
32、t給定一組樣本數(shù)據(jù):給定一組樣本數(shù)據(jù):一般情況:一般情況:首先求出其規(guī)格化的數(shù)據(jù):首先求出其規(guī)格化的數(shù)據(jù):2( )( )( )( )iiiix te xx tx( ),1,2,1,2,ix ttN in5.5 主成分在數(shù)據(jù)壓縮中的作用第56頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt2111min( )( )( )Nnmiiktikx tl k y t然后求解優(yōu)化問題然后求解優(yōu)化問題可將其寫成可將其寫成 1min( )( )( )( )NTtx tLy tx tLy t 由于由于 L 和和 y(t) 均為變量,為使解均為變量,為使解比較確定,應對它們加一定的限制。比較確定,應對它們加一定的限制。5.5
33、 主成分在數(shù)據(jù)壓縮中的作用第57頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt對于數(shù)據(jù)壓縮問題對于數(shù)據(jù)壓縮問題 1min( )( )( )( )NTtx tLy tx tLy t1( )( )( )mkkx tl k y t11( )( )( )mkkx tl k y t若列向量若列向量線性相關(guān)線性相關(guān)5.5 主成分在數(shù)據(jù)壓縮中的作用第58頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt對于數(shù)據(jù)壓縮問題對于數(shù)據(jù)壓縮問題 1min( )( )( )( )NTtx tLy tx tLy t第二、假定第二、假定 L 滿足下式也不影響優(yōu)化效果滿足下式也不影響優(yōu)化效果TmL LI5.5 主成分在數(shù)據(jù)壓縮中的作用第一、假定第一
34、、假定 L 列滿秩不影響優(yōu)化效果列滿秩不影響優(yōu)化效果有如下兩個性質(zhì):有如下兩個性質(zhì):第59頁系統(tǒng)工程導論系統(tǒng)工程導論精選pptLPG因為當因為當 L 列滿秩時,存在可逆矩陣列滿秩時,存在可逆矩陣 GTmP PI使得使得 1min( )( )( )( )NTtx tLy tx tLy t 1min( )( )( )( )NTtx tPGy tx tPGy t和滿足和滿足的的 P,于是于是5.5 主成分在數(shù)據(jù)壓縮中的作用數(shù)據(jù)壓縮問題成為數(shù)據(jù)壓縮問題成為 1min( )( )( )( ).NTtTmx tLy tx tLy tst L LI第60頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt 下面說明,這組樣
35、本數(shù)據(jù)的前下面說明,這組樣本數(shù)據(jù)的前 m 個主成分個主成分就是該問題的一個最優(yōu)解。就是該問題的一個最優(yōu)解。5.5 主成分在數(shù)據(jù)壓縮中的作用為簡化符號,考慮下述優(yōu)化問題為簡化符號,考慮下述優(yōu)化問題 1min( )( )( )( ).NTtTmx tLy tx tLy tst L LI先求各先求各 y(t) 的最優(yōu)解的最優(yōu)解 1( )( )( )( )( )( )( )NTtTx tLy tx tLy ty tL x tLy t( )( )( )TTL x tL Ly ty t第61頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt將將 y(t) 的最優(yōu)解代入目標函數(shù),可得的最優(yōu)解代入目標函數(shù),可得NtTnTN
36、tTTTNtTtxLLItxtxLLtxtxLLtxtyLtxtyLtx1211)()()()()()()()()()()(nTmnILLnmRL若注意:5.5 主成分在數(shù)據(jù)壓縮中的作用第62頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt因為因為mTILLTTTTTTTLLILLLLLLLLILLILLI)(NtNtTTTNtTnTtxLLtxtxtxtxLLItx1112)()()()()()(5.5 主成分在數(shù)據(jù)壓縮中的作用第63頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt原問題等價于原問題等價于mTNtNtTTTILLt stxLLtxtxtx. .)()()()(min11mTNtTTILLt stxL
37、Ltx. .)()(max15.5 主成分在數(shù)據(jù)壓縮中的作用)()()() 2 ()() 1 ()(txmltxltxltxLTTTT)() 2 () 1 (mlllL由于由于所以所以mkTTTTkltxtxkltxLLtx1)()()()()()(第64頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt111111( )( )( ) ( )( ) ( )( )( )( ) ( )( )( )NNmTTTTttkmNmTTTTktkxt LL x tlk x t x t l klkx t x tl klk XX l k5.5 主成分在數(shù)據(jù)壓縮中的作用最終可知,求數(shù)據(jù)壓縮問題等價于求解最終可知,求數(shù)據(jù)壓縮問題
38、等價于求解nTmkTTILLt sklXXkl. .)()(max1并且,最優(yōu)的壓縮變量并且,最優(yōu)的壓縮變量是是 ( )( ) ( ),1,2,Tky tq k x t km它就是前它就是前 m 個主成分。個主成分。第65頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt數(shù)據(jù)壓縮問題的相對逼近誤差數(shù)據(jù)壓縮問題的相對逼近誤差2111111( ) ( )( )( )( ) ( )111()( ) ( )( ) ( )NNNTTTTmtttkNNTTkttx t x tx t LL x ty t y tynx t x tx t x t 5.5 主成分在數(shù)據(jù)壓縮中的作用22211121()()()()mnnkkkk
39、k mk mnkknyyynny 第66頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt 對于烏龜數(shù)例,若用第一個主成分壓縮對于烏龜數(shù)例,若用第一個主成分壓縮原數(shù)據(jù),只需存儲原數(shù)據(jù),只需存儲:1123 ( )0.5900 ( )0.5731( )0.5687( )1,2,12y tx tx tx tt0.5900(1)0.57310.5687q共共15個數(shù)據(jù),僅占原數(shù)據(jù)的個數(shù)據(jù),僅占原數(shù)據(jù)的15/36=42%5.5 主成分在數(shù)據(jù)壓縮中的作用第67頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt10.5900( )0.5731( )0.5687x ty t 121121( )( )( )( )11%( ) ( )TtT
40、tx tx tx tx tx t x t89. 0)(3112y因為因為令令相對逼近誤差為相對逼近誤差為5.5 主成分在數(shù)據(jù)壓縮中的作用第68頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt注意注意 能夠利用主成分有效壓縮數(shù)據(jù),是能夠利用主成分有效壓縮數(shù)據(jù),是因為數(shù)據(jù)本身具有可壓縮性,這就是樣因為數(shù)據(jù)本身具有可壓縮性,這就是樣本相關(guān)矩陣的特征根相差很大,其本質(zhì)本相關(guān)矩陣的特征根相差很大,其本質(zhì)是變量間近似線性相關(guān)。是變量間近似線性相關(guān)。5.5 主成分在數(shù)據(jù)壓縮中的作用第69頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt 對某組對某組10維規(guī)格化向量的數(shù)據(jù)壓縮問題,用第一維規(guī)格化向量的數(shù)據(jù)壓縮問題,用第一至第四個主成
41、分進行壓縮和用第一至第五個主成分進至第四個主成分進行壓縮和用第一至第五個主成分進行壓縮的誤差相同;用第一、第三個主成分進行壓縮行壓縮的誤差相同;用第一、第三個主成分進行壓縮和用第二、第四個主成分進行壓縮的誤差相同;用第和用第二、第四個主成分進行壓縮的誤差相同;用第一個主成分進行壓縮相對誤差是一個主成分進行壓縮相對誤差是0.6。請求出每個主成。請求出每個主成分的樣本方差。分的樣本方差。例題例題10610531425, 0ii3412,1022316 . 010/2315.5 主成分在數(shù)據(jù)壓縮中的作用第70頁系統(tǒng)工程導論系統(tǒng)工程導論精選pptv基于基于PCA的海量數(shù)據(jù)壓縮實例的海量數(shù)據(jù)壓縮實例5.
42、5 主成分在數(shù)據(jù)壓縮中的作用交通數(shù)據(jù)預處理交通數(shù)據(jù)預處理壓縮與恢復性能評價指標壓縮與恢復性能評價指標主要研究結(jié)果主要研究結(jié)果其他結(jié)果分析其他結(jié)果分析軟件展示軟件展示第71頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt交通數(shù)據(jù)預處理交通數(shù)據(jù)預處理交通流中的交通流中的“尖峰尖峰” 這些非線性的尖峰嚴重影響了這些非線性的尖峰嚴重影響了PCAPCA對數(shù)據(jù)的壓縮恢復效果。對數(shù)據(jù)的壓縮恢復效果。利用均值濾波器提取利用均值濾波器提取“尖峰尖峰”尖峰時刻的交通流量在壓縮前單獨存儲。尖峰時刻的交通流量在壓縮前單獨存儲。用均值濾波器平滑后的流量值代替尖峰值。用均值濾波器平滑后的流量值代替尖峰值。1( )()(21)KmkM
43、F ix imK0501001502002503000100200300400500600700800900timevolume0501001502002503000100200300400500600700800900timevolume the original datathe smoothed data by mean filter0501001502002503000100200300400500600700800900timevolume the original datathe original data without main peaks5.5 主成分在數(shù)據(jù)壓縮中的作用第72頁
44、系統(tǒng)工程導論系統(tǒng)工程導論精選ppt壓縮與恢復性能評價指標壓縮與恢復性能評價指標CR=原始數(shù)據(jù)所占用的字節(jié)數(shù)壓縮存儲數(shù)據(jù)所占用的字節(jié)數(shù)jifjifjijijifffjiAPRE),(jifjijijijijijiTjijiffffffffjiR)()(),(jif5.5 主成分在數(shù)據(jù)壓縮中的作用第73頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt主要研究結(jié)果主要研究結(jié)果主成分分析主成分分析第一主成分貢獻率達第一主成分貢獻率達80.97%80.97%。前前2525個主成分貢獻率和達個主成分貢獻率和達92.88%92.88%。12345678910110.080.090.10.110.120.130.140.
45、150.16Compression RatioAPREFig. 壓縮比和誤差隨主成分個數(shù)增加的變化趨勢壓縮比和誤差隨主成分個數(shù)增加的變化趨勢結(jié)果CR(CR(壓縮比壓縮比) )為為6.26.2。 平均平均APREAPRE為為1313。平均相關(guān)系數(shù)為平均相關(guān)系數(shù)為0.95240.9524。壓縮和恢復壓縮和恢復壓縮壓縮解壓解壓PS5.5 主成分在數(shù)據(jù)壓縮中的作用第74頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt主要實驗結(jié)果主要實驗結(jié)果0501001502002503000200400600800timevolume0501001502002503000200400600800timevolume050100
46、150200250300050010001500timevolume050100150200250300050010001500timevolume0501001502002503000200400600800timevolume0501001502002503000200400600800timevolume對于具有不同特征的交通流均可以較好的恢復。對于具有不同特征的交通流均可以較好的恢復。不同的早、晚高峰時間不同的早、晚高峰時間同一時段不同的流量值同一時段不同的流量值特殊的特殊的“尖峰尖峰”Fig 原始數(shù)據(jù)與恢復數(shù)據(jù)5.5 主成分在數(shù)據(jù)壓縮中的作用第75頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt
47、其他結(jié)果分析其他結(jié)果分析-300-200-100010020030040000.511.522.533.5x 10405010015020025030005001000timevolume05010015020025030005001000timevolume恢復誤差分布恢復誤差分布l具有正態(tài)分布的特征具有正態(tài)分布的特征l絕大多數(shù)恢復數(shù)據(jù)點與原始數(shù)據(jù)點絕大多數(shù)恢復數(shù)據(jù)點與原始數(shù)據(jù)點基本相同?;鞠嗤?。對異常數(shù)據(jù)具有魯棒性對異常數(shù)據(jù)具有魯棒性l“尖峰尖峰”點點l交通流異常(如在白天出現(xiàn)堵車現(xiàn)交通流異常(如在白天出現(xiàn)堵車現(xiàn)象時的交通流)象時的交通流)5.5 主成分在數(shù)據(jù)壓縮中的作用第76頁系統(tǒng)工程
48、導論系統(tǒng)工程導論精選ppt8910111213141516179216921613824276489216921692161382446081382437637952510683803843415381705844.080%4.112%3.798%3.864%4.123%4.167%3.700%3.892%3.689%4.225%9.703%8.915%8.328%9.235%9.029%8.191%6.995%11.17%14.36%9.178%0.9580.9650.9810.9770.9800.9840.9870.9680.9490.978路口編號路口編號1234567總數(shù)據(jù)點個數(shù)總數(shù)據(jù)
49、點個數(shù)92161843213824921623040276489216提前存儲的尖峰點個數(shù)提前存儲的尖峰點個數(shù)3867625833939241111353提前存儲數(shù)據(jù)點占總數(shù)據(jù)點百分比提前存儲數(shù)據(jù)點占總數(shù)據(jù)點百分比4.188%4.134%4.217%4.264%4.010%4.018%3.830%APREAPRE(誤差)(誤差)12.14%10.75%9.259%9.100%10.44%9.871%9.592%R R(相關(guān)度)(相關(guān)度)0.9520.9640.9770.9780.9640.9680.969Table 各路口壓縮和恢復性能參數(shù)各路口壓縮和恢復性能參數(shù)5.5 主成分在數(shù)據(jù)壓縮中的作用第77頁系統(tǒng)工程導論系統(tǒng)工程導論精選pptv軟件展示軟件展示5.5 主成分在數(shù)據(jù)壓縮中的作用第78頁系統(tǒng)工程導論系統(tǒng)工程導論精選ppt 97 101 106 112 114 107 112 1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 市場調(diào)查在社交媒體營銷中的應用考核試卷
- 國際文化交流與外語溝通考核試卷
- 新媒體內(nèi)容創(chuàng)作與運營推廣服務(wù)解決方案
- 語言學習初級階段技巧指南
- 仁果類果樹種植園生態(tài)農(nóng)業(yè)實踐考核試卷
- 獸醫(yī)生殖系統(tǒng)疾病與繁殖技術(shù)考核試卷
- 家禽飼養(yǎng)業(yè)文化建設(shè)與社會責任擔當考核試卷
- 智能化物流網(wǎng)絡(luò)升級改造方案研究
- 四年級數(shù)學(三位數(shù)乘兩位數(shù))計算題專項練習及答案
- 二年級數(shù)學計算題專項練習
- 2023年建筑信息模型技術(shù)員理論考試題庫500題
- 垂體瘤的圍手術(shù)期護理
- 四川省成都市天府新區(qū)2023-2024學年七年級上學期期末數(shù)學試題(含答案)
- 40篇短文搞定高中英語3500單詞
- 智慧物業(yè)綜合管理系統(tǒng)
- 三年級語文上冊期末《句子》專項訓練含答案
- 山東省聊城市文軒教育集團2023-2024學年九年級上學期期末化學模擬試卷
- 物業(yè)公司經(jīng)營規(guī)劃
- 2024年心腦血管藥物項目營銷策劃方案
- 攪拌站規(guī)劃設(shè)計方案
- 醫(yī)共體醫(yī)療質(zhì)量控制中心工作職責(終版改)
評論
0/150
提交評論