




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、.概率論與數(shù)理統(tǒng)計(jì)中 方差與協(xié)方差 在數(shù)據(jù)分析中的應(yīng)用作者:羅齊 關(guān)鍵字?jǐn)?shù)據(jù)分析概率論與數(shù)理統(tǒng)計(jì)方差協(xié)方差摘要在實(shí)驗(yàn)過程中,通常會得到大量的原始數(shù)據(jù)。本文簡要介紹了如何使用概率論與數(shù)理統(tǒng)計(jì)學(xué)中的方差以及協(xié)方差的概念,對數(shù)據(jù)進(jìn)行初步的分析,以從紛亂繁雜的原始數(shù)據(jù)中,得到相對重要的,低冗余的,可供進(jìn)一步使用的數(shù)據(jù)。正文在科學(xué)實(shí)驗(yàn)中,一般情況下,我們會得到大量的復(fù)雜的數(shù)據(jù)。這些數(shù)據(jù)中來自多個(gè)方面,既包含有用的信息,也有噪音和冗余。如何從大量的數(shù)據(jù)中取出對我們而言有用的信息,從復(fù)雜數(shù)據(jù)中分析出其中隱含的規(guī)律和結(jié)論,是極其重要的。在下文中,我們使用概率論和數(shù)理統(tǒng)計(jì)中方差和協(xié)方差的概念,分別對噪音和冗余進(jìn)
2、行簡要的分析和討論。噪音:噪音對數(shù)據(jù)的影響是巨大的,如果不能對噪音進(jìn)行區(qū)分,就不可能抽取數(shù)據(jù)中有用的信息。如何衡量一個(gè)數(shù)據(jù)是否是噪音呢?根據(jù)相關(guān)知識,我們不妨假設(shè),變化較大的信息被認(rèn)為是信號,變化較小的則是噪音。而一個(gè)信息可視作一個(gè)隨機(jī)變量,因此,一個(gè)信息的變化程度的大小,即可以轉(zhuǎn)化為對其對應(yīng)的隨機(jī)變量的穩(wěn)定性分析。由在本學(xué)期修讀的“概率論與數(shù)理統(tǒng)計(jì)”課中我學(xué)習(xí)到,“要進(jìn)一步的研究問題的實(shí)質(zhì)(分析信息的穩(wěn)定性),必須了解它(隨機(jī)變量)的取值與平均值的偏離程度?!蹦敲矗褂檬裁磥肀硎酒x程度比較合適呢?在這里,我們使用課件中使用的“儲蓄所吸收存款額”的例子(具體內(nèi)容不再列出):“若用隨機(jī)變量與其
3、數(shù)學(xué)期望的偏差的期望值來表示這偏離程度”“從計(jì)算的結(jié)果上看,由于諸偏差的正負(fù)抵消,這兩個(gè)儲蓄所的月吸收存款額與其數(shù)學(xué)期望的偏差的期望值均為“0”,這樣就掩蓋了實(shí)際偏差的的大小?!币虼?,“為了克服諸偏差的正負(fù)抵消,真正反映出實(shí)際偏差的大小程度,通常采用偏差平方的數(shù)學(xué)期望來描述隨機(jī)變量的取值與平均值的偏離程度?!?“從計(jì)算的結(jié)果上看,由于克服了諸偏差的正負(fù)抵消,這兩個(gè)儲蓄所的月吸收存款額與其數(shù)學(xué)期望的偏差平方的期望值就真正反映出實(shí)際偏差的大小程度:甲儲蓄所的月吸收存款額比乙儲蓄所的月吸收存款額來得“穩(wěn)定”?!薄巴ǔ7Q用偏差平方的數(shù)學(xué)期望來描述隨機(jī)變量的取值與平均值的偏離程度為“方差”?!钡竭@里可以
4、得出,衡量一個(gè)信號是否是噪音,可通過計(jì)算其對應(yīng)隨機(jī)變量的方差并與其余信號比較得到。顯然的,方差較大,是主信號或主要分量;而方差較小的分布則被認(rèn)為是噪音或次要分量。在數(shù)據(jù)分析中,噪音的衡量有多種方式,最常見的定義是信噪比 (signal-to-noise ratio, SNR),即方差比 :。比較大的信噪比表示數(shù)據(jù)的準(zhǔn)確度高,而信噪比低則說明數(shù)據(jù)中的噪音成分比較多。至此,濾除噪音的問題可以簡化為,找出一組代表數(shù)據(jù),使得其信噪比盡可能大。冗余有時(shí)在實(shí)驗(yàn)中引入了一些不必要的變量,可能會使兩種情況:1)該變量對結(jié)果沒有影響;2)該變量可以用其它變量表示,從而造成數(shù)據(jù)冗余。從統(tǒng)計(jì)學(xué)上說,如果兩個(gè)觀測變量
5、是相互獨(dú)立的,那么可以得到,它們之間的信息沒有冗余。但如果兩個(gè)觀測變量相關(guān),那么他們之間肯定存在冗余的信息。剔除高度冗余的信息,對數(shù)據(jù)的分析是至關(guān)重要的一步。而如何判斷信息是否存在冗余,以及如何衡量信息之間的冗余程度,使我們接下來要討論的問題。在概率論與數(shù)理統(tǒng)計(jì)課程中,我們引入了協(xié)方差的概念:“隨機(jī)變量的數(shù)學(xué)期望及方差都只刻畫了一個(gè)隨機(jī)變量的某一方面的特征,而協(xié)方差與相關(guān)系數(shù)是刻畫兩個(gè)隨機(jī)變量之間關(guān)系的數(shù)字特征。EX-E(X)Y-E(Y).稱為隨機(jī)變量X 與 Y 的協(xié)方差,記為:Cov(X,Y)?!憋@然,Cov(X,Y)=0,當(dāng)且僅當(dāng)X,Y相對獨(dú)立。從協(xié)方差的定義中可以打得到,協(xié)方差可以表示信
6、息間冗余度的。而在實(shí)驗(yàn)中,我們得到的數(shù)據(jù)往往數(shù)量巨大,查閱相關(guān)統(tǒng)計(jì)學(xué)書籍,可得到大量數(shù)據(jù)協(xié)方差的組織表示方法:協(xié)方差矩陣。對于一組具有m個(gè)觀測變量,n個(gè)采樣時(shí)間點(diǎn)的采樣數(shù)據(jù),將每個(gè)觀測變量的值寫為行向量,可以得到一個(gè)mn的矩陣X。定義協(xié)方差矩陣為:。對協(xié)方差矩陣進(jìn)行分析,容易發(fā)現(xiàn)協(xié)方差矩陣性質(zhì)如下:1是一個(gè)mm的平方對稱矩陣。2對角線上的元素是對應(yīng)的觀測變量的方差。3非對角線上的元素是對應(yīng)的觀測變量之間的協(xié)方差。協(xié)方差矩陣包含了所有觀測變量之間的相關(guān)性度量。更重要的是,這些相關(guān)性度量反映了數(shù)據(jù)的噪音和冗余的程度。在對角線上的元素越大,表明信號越強(qiáng),變量的重要性越高;元素越小則表明可能是存在的噪
7、音或是次要變量。在非對角線上的元素大小則對應(yīng)于相關(guān)觀測變量對之間冗余程度的大小。結(jié)論至此,大量信號的分析,通過使用概率論與數(shù)理統(tǒng)計(jì)中的隨機(jī)變量,方差,協(xié)方差以及矩陣,已經(jīng)轉(zhuǎn)化成為了對協(xié)方差矩陣的優(yōu)化與分析。附錄實(shí)際上,通過基變換對協(xié)方差矩陣進(jìn)行優(yōu)化,找到相關(guān)“主元”,得到新的基向量所對應(yīng)的“主元排序”,是PCA(Principal component analysis,主元分析)的主要內(nèi)容,可以方便的對數(shù)據(jù)進(jìn)行光順、簡化處理或是壓縮,已有較成熟的理論體系。本文的相關(guān)概念,絕大部分來自概率論與數(shù)理統(tǒng)計(jì)和數(shù)據(jù)分析課程。事實(shí)上,PCA中的許多相關(guān)概念(例如對信號要求為正態(tài)分布等),都與概率論與數(shù)理統(tǒng)計(jì)有密不可分的關(guān)系。這進(jìn)一步表明了概率論與數(shù)理統(tǒng)計(jì)是日后多種專業(yè)學(xué)科的不可或缺的一部分。在學(xué)習(xí)該門課程半學(xué)期之后,對課程中的知識點(diǎn)的應(yīng)用有一些初步的認(rèn)識想請老師批評指正,這是本文的撰寫目的之一。本文也希望通過使用方差和協(xié)方差的基本概念對PCA的一些基礎(chǔ)知識的淺顯分析,為體現(xiàn)概率論與數(shù)理統(tǒng)計(jì)這一門學(xué)科的重要性和廣泛性拋磚引玉。參考文獻(xiàn)1概率論與數(shù)理統(tǒng)計(jì)2 Lindsay I Smith. (2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 微生物培養(yǎng)基的配制試題及答案
- 項(xiàng)目溝通管理的信息流動(dòng)性試題及答案
- 高分攻略的證券從業(yè)資格證試題及答案
- 2025年會計(jì)決策模型試題及答案
- 逐步提高2025年證券從業(yè)資格證考試試題及答案
- 財(cái)務(wù)深度分析案例研究試題及答案
- 2025年國際金融理財(cái)師考試的多元化投資策略試題及答案
- 專家論證施工方案的流程
- 2025年審計(jì)核心技能試題及答案
- 2024年微生物實(shí)驗(yàn)室的統(tǒng)計(jì)應(yīng)用試題及答案
- 現(xiàn)代漢語語料庫詞頻表CorpusWordlist
- 寧德時(shí)代社招測評試題
- 長螺旋鉆孔壓灌樁施工組織方案
- 2024年江西南昌印鈔有限公司招聘筆試參考題庫含答案解析
- 《腦卒中的早期康復(fù)》課件
- 學(xué)校德育活動(dòng)安排表
- GB/T 43359-2023印染廢水膜法集成裝備
- ISO90012015版職能分配表
- 初中化學(xué)必背知識點(diǎn)總結(jié)(按單元順序)
- 泥石流災(zāi)害綜合治理工程可行性研究報(bào)告
- 個(gè)體工商戶公司章程(標(biāo)準(zhǔn)版)
評論
0/150
提交評論