




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Negativeimpactofnoiseontheprincipalcomponentanalysis
ofNMRdata
對(duì)核磁共振數(shù)據(jù)進(jìn)行主成分分析時(shí)噪音的負(fù)面影響
報(bào)告人:孫寶發(fā)Negativeimpactofnoiseonth1ChallengesofMetabonomics
SampleComplexityandDataHandlingEachsamplehas..,
awiderangeofcompoundclasses
awidevariationinmetaboliteconcentrationsalargenumberofpotentialcomponentsEachgroupofsampleshas…,
manysampleanalysesarerequiredforstatisticalrelevance acomplexrawdatasetthatneedstobeprocessed differencesbetweensamplegroupswhichneedtobehighlightedChallengesofMetabonomics
Sam2Thestrategyforlargescalemetabonomicsresearch
Thestrategyforlargescalem3核磁共振(NMR)主要技術(shù)能對(duì)樣品實(shí)現(xiàn)非破壞性,非選擇性的分析1H-NMR對(duì)含氫化合物均有響應(yīng),能完成代謝產(chǎn)物中大多數(shù)化合物的檢測(cè),滿足代謝組學(xué)中的對(duì)盡可能多的化合物進(jìn)行檢測(cè)的目標(biāo).不足:其對(duì)每個(gè)分子的化學(xué)和物理環(huán)境敏感,樣品制備的要求很高,且數(shù)據(jù)處理比較復(fù)雜.NMR的動(dòng)態(tài)范圍有限,很難同時(shí)測(cè)定生物體系中共存的濃度相差較大的代謝產(chǎn)物硬件投資較大核磁共振(NMR)主要技術(shù)4
一、主成分分析
主要原理基本思想幾何意義數(shù)學(xué)模型軟件應(yīng)用圖形解釋一、主成分分析5主成份分析的主要原理在多數(shù)實(shí)際問(wèn)題中,不同指標(biāo)之間是有一定相關(guān)性。由于指標(biāo)較多及指標(biāo)間有一定的相關(guān)性,勢(shì)必增加分析問(wèn)題的復(fù)雜性。主成分分析就是設(shè)法將原來(lái)指標(biāo)重新組合成一組新的互相無(wú)關(guān)的幾個(gè)綜合指標(biāo)來(lái)代替原來(lái)指標(biāo)。同時(shí)根據(jù)實(shí)際需要從中可取幾個(gè)較少的綜合指標(biāo)盡可能多地反映原來(lái)的指標(biāo)的信息。從數(shù)學(xué)角度來(lái)看,這是一種降維處理技術(shù)。很顯然,識(shí)辨系統(tǒng)在一個(gè)低維空間要比在一個(gè)高維空間容易得多。Negativeimpactofnoiseonthe-生物化學(xué)與分子生物學(xué)課件6主成分分析的基本思想將原來(lái)眾多具有一定相關(guān)性的指標(biāo)重新組合成一組新的相互無(wú)關(guān)的綜合指標(biāo)來(lái)代替原來(lái)指標(biāo)。以兩個(gè)指標(biāo)為例,信息總量以總方差表示:主成分分析的基本思想將原來(lái)眾多具有一定相關(guān)性的指標(biāo)重新組合成7其中y1、y2分別都是x1、x2的線性組合,并且信息盡可能地集中在y1上。在以后的分析中舍去y2,只用主成分y1來(lái)分析問(wèn)題,起到了降維的作用。主成分分析就是通過(guò)適當(dāng)?shù)淖兞刻鎿Q,使新變量成為原變量的線性組合,并尋求主成分來(lái)分析事物的一種方法。其中y1、y2分別都是x1、x2的線性組合,并且信息盡可能地8主成分分析的幾何意義為了方便,我們?cè)诙S空間中討論主成分的幾何意義。設(shè)有n個(gè)樣品,每個(gè)樣品有兩個(gè)觀測(cè)變量xl和x2,在由變量xl和x2所確定的二維平面中,如果n個(gè)樣本點(diǎn)形成一個(gè)橢圓形狀的點(diǎn)陣(這在變量的二維正態(tài)的假定下是可能的)但是,坐標(biāo)軸通常并不和橢圓的長(zhǎng)短軸平行。因此,需要尋找橢圓的長(zhǎng)短軸,并進(jìn)行變換,使得新變量和橢圓的長(zhǎng)短軸平行。那么這個(gè)橢圓有一個(gè)長(zhǎng)軸和一個(gè)短軸。在短軸方向上,數(shù)據(jù)變化很少;橢圓的長(zhǎng)短軸相差得越大,降維越有道理。在極端的情況,短軸如果退化成一點(diǎn),那只有在長(zhǎng)軸的方向才能夠解釋這些點(diǎn)的變化了;這樣,由二維到一維的降維就自然完成了。主成分分析的幾何意義為了方便,我們?cè)诙S空間中討論主成分的幾9?????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸??????????????????????????????10????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸???????????????????????????????11數(shù)學(xué)模型
定義:記x1,x2,…,xP為原變量指標(biāo),z1,z2,…,zm(m≤p)為新變量指標(biāo)(3.5.2)
各主成分的得分?jǐn)?shù)學(xué)模型
定義:記x1,x2,…,xP為原變量指標(biāo),z1,z12基本步驟(1)對(duì)原變量的樣本數(shù)據(jù)矩陣進(jìn)行標(biāo)準(zhǔn)化變換(2)求標(biāo)準(zhǔn)化數(shù)據(jù)矩陣的相關(guān)系數(shù)矩陣R(3)求R的特征根及相應(yīng)的特征向量和貢獻(xiàn)率等(4)確定主成分的個(gè)數(shù)(5)解釋主成分的實(shí)際意義和作用基本步驟13具體步驟(1)、將所獲得的P個(gè)指標(biāo)(每一指標(biāo)有n個(gè)樣品)的一批數(shù)據(jù)寫成一個(gè)(P×n)維數(shù)據(jù)矩陣具體步驟14(2)為了消除各個(gè)變量量綱之間的差異,對(duì)數(shù)據(jù)矩陣Y作標(biāo)準(zhǔn)化處理,即對(duì)每一個(gè)指標(biāo)分量作標(biāo)準(zhǔn)化變換,變換公式為:其中:樣本均值樣本標(biāo)準(zhǔn)差得標(biāo)準(zhǔn)化后的數(shù)據(jù)矩陣(2)為了消除各個(gè)變量量綱之間的差異,對(duì)數(shù)據(jù)矩陣Y作標(biāo)準(zhǔn)化處15(3)、計(jì)算樣本相關(guān)系數(shù)矩陣R其中:(4)、由下列特征方程式(I為單位矩陣)可求出R的特征值再根據(jù)求出的特征向量(3)、計(jì)算樣本相關(guān)系數(shù)矩陣R其中:(4)、由下列特征方程式16(5)、把標(biāo)準(zhǔn)化后數(shù)據(jù)矩陣X的行向量的線性組合稱為主成份,稱F1是第一主成份,F(xiàn)2是第二主成份,F(xiàn)i是第I主成份。注:求各主成份的關(guān)鍵是求特征根()及其相應(yīng)的特征向量()。又稱為主成分載荷(loading),它表示主成分和相應(yīng)的原先變量的相關(guān)系數(shù)。(5)、把標(biāo)準(zhǔn)化后數(shù)據(jù)矩陣X的行向量17(6)主成份分析的方差貢獻(xiàn)率要說(shuō)明主成份的方差貢獻(xiàn)率先要說(shuō)明特征值的意義是樣本點(diǎn)在其第i個(gè)主成份方向上的方差(分散程度),如果的值很小,說(shuō)明樣本間在坐標(biāo)的方向上分散程度很小,這個(gè)主成份在分析樣本數(shù)據(jù)時(shí)所起作用不大,可以忽略不計(jì)。那么小到什么程度才認(rèn)為無(wú)足輕重,可以忽略呢?為此引入方差貢獻(xiàn)率。稱比值為第k個(gè)主成分的方差貢獻(xiàn)率。(6)主成份分析的方差貢獻(xiàn)率要說(shuō)明主成份的方差貢獻(xiàn)率先要說(shuō)明18為前m個(gè)主成分的累計(jì)方差貢獻(xiàn)率。由于,所以p個(gè)主成分的方差貢獻(xiàn)率是依次遞減的,這樣對(duì)應(yīng)的第一主成分F1起的作用最大,其次是第二主成分F2…。通常要求作為主成份的特征值要大于1,各個(gè)主成分按累計(jì)方差貢獻(xiàn)率要達(dá)到85%。其實(shí),這只是一個(gè)大體的說(shuō)法;具體選幾個(gè),要看實(shí)際情況而定。為前m個(gè)主成分的累計(jì)方19軟件應(yīng)用
成績(jī)數(shù)據(jù)(student.sav)100個(gè)學(xué)生的數(shù)學(xué)、物理、化學(xué)、語(yǔ)文、歷史、英語(yǔ)的成績(jī)?nèi)缦卤恚ú糠郑?。軟件?yīng)用
成績(jī)數(shù)據(jù)(student.s20SPSS數(shù)據(jù)形式SPSS數(shù)據(jù)形式21主成分分析實(shí)例1-不旋轉(zhuǎn)使用默認(rèn)值進(jìn)行最簡(jiǎn)單的主成分分析(默認(rèn)為主成分分析法:Principalcomponents)菜單:Analyze-DataReduction-Factor(主成分分析法Principalcomponents,選取特征值>1,不旋轉(zhuǎn))這里的InitialEigenvalues就是這里的六個(gè)主軸長(zhǎng)度,即特征值。主成分分析實(shí)例1-不旋轉(zhuǎn)使用默認(rèn)值進(jìn)行最簡(jiǎn)單的主成分分析(默22怎么解釋這兩個(gè)主成分。主成分是原始六個(gè)變量的線性組合。這由下表給出。
這里每一列代表一個(gè)主成分作為原來(lái)變量線性組合的系數(shù)(比例)。比如第一主成分為數(shù)學(xué)、物理、化學(xué)、語(yǔ)文、歷史、英語(yǔ)這六個(gè)變量的線性組合,系數(shù)(比例)為-0.806,-0.674,-0.675,0.893,0.825,0.836。
怎么解釋這兩個(gè)主成分。主成分是原始六個(gè)變量的線性組合。這由下23如用x1,x2,x3,x4,x5,x6分別表示原先的六個(gè)變量,而用y1,y2,y3,y4,y5,y6表示新的主成分,那么,第一和第二主成分為這些系數(shù)稱為主成分載荷(loading),它表示主成分和相應(yīng)的原先變量的相關(guān)系數(shù)。可以把第一和第二主成分的載荷點(diǎn)出一個(gè)二維圖以直觀地顯示它們?nèi)绾谓忉屧瓉?lái)的變量的。這個(gè)圖叫做載荷圖。如用x1,x2,x3,x4,x5,x6分別表示原先的六個(gè)變量24PCA實(shí)例2
不同嫌疑人頭發(fā)中元素的含量(μg/g)
樣品 Cu Mn Cl Br I1 9.2 0.30 1730 12.0 3.62 12.4 0.39 930 50.0 2.33 7.2 0.32 2750 65.3 3.44 10.2 0.36 1500 3.4 5.35 10.1 0.50 1040 39.2 1.96 6.5 0.20 2490 90.0 4.67 5.6 0.29 2940 88.0 5.68 11.8 0.42 867 43.1 1.59 8.5 0.25 1620 5.2 6.2原始數(shù)據(jù)X(9×5)autoscaling計(jì)算相關(guān)矩陣計(jì)算特征值PCA實(shí)例2不同嫌疑人頭發(fā)中元素的含量(μg/g)原25模式識(shí)別與分類得分圖主成分圖形解釋PCA實(shí)例23個(gè)聚類
分屬三人t1對(duì)t2作圖經(jīng)過(guò)聚類分析后結(jié)果如圖所示模式識(shí)別與分類得分圖主成分圖形解釋PCA實(shí)例23個(gè)聚類
分屬26Negativeimpactofnoiseonthe-生物化學(xué)與分子生物學(xué)課件27模式識(shí)別與分類主成分圖形解釋PCA實(shí)例2載荷圖l1對(duì)l2作圖載荷大小是重要性的度量
位于原點(diǎn)的載荷不重要
可用于進(jìn)行生物標(biāo)記物的篩選模式識(shí)別與分類主成分圖形解釋PCA實(shí)例2載荷圖l1對(duì)l2作圖28
PCAisusedtosimplifytheexaminationofcomplexmetabolitemixturesobtainedfrombiologicalsamplesthatmaybecomposedofhundredsorthousandsofchemicalcomponents.AcommonconcernwithPCAofNMRdataisthepotentialoveremphasisofsmallchangesinhighconcentrationmetabolitesthatwouldover-shadowsignificantandlargechangesinlow-concentrationcomponentsthatmayleadtoaskewedorirrelevantclusteringoftheNMRdata.Wehaveidentifiedanadditionalconcern,verysmallandrandomfluctuationswithinthenoiseoftheNMRspectrumcanalsoresultinlargeandirrelevantvariationsinthePCAclustering.AlleviationofthisproblemisobtainedbysimplyexcludingthenoiseregionfromthePCAbyajudiciouschoiceofathresholdabovethespectralnoise.
29ThesuccessoftheapplicationofPCAintheanalysisofNMRmetabolomicdataisintrinsicallydependentontheconsistencyofsampleanddatahandling.數(shù)據(jù)輸出的最終目的是將代謝組數(shù)據(jù)轉(zhuǎn)化為標(biāo)準(zhǔn)化和統(tǒng)一的格式。分析儀器直接導(dǎo)出的元數(shù)據(jù),由于原始譜圖的信號(hào)量大、噪音復(fù)雜、格式各樣、尺度迥異、基線漂移和測(cè)試重現(xiàn)性等問(wèn)題,不能直接用于模式識(shí)別分析,此前須經(jīng)過(guò)原始數(shù)據(jù)的預(yù)處理,如采用多種方法進(jìn)行原始圖譜的分段積分、濾噪、峰匹配、標(biāo)準(zhǔn)化和歸一化等處理,最后提取出二維數(shù)據(jù)表形式,即行代表樣品或試驗(yàn)數(shù)目;列表示相應(yīng)的單個(gè)測(cè)定指標(biāo)(通常為信號(hào)強(qiáng)度等).AnyobservedvariationsintheNMRdatashouldberelatedtothestateofthecellandorganism,asopposedtosubtlechangesinchemicalshifts,line-widths,baselineorartifactsfromprocessing.Tominimizetheseaffectsandtosimplifydatahandling,NMRspectraldataareusuallydividedintobucketswithwidthsof0.01–0.04ppm.Thistendstosmoothouterrorsfromfluctuationsinchemicalshiftsandline-shapebetweenNMRspectracausedbysamplehandlingorpreparation.Anothersimilarconcernistheimpactofchangesinabundantmetabolitesrelativetochangesinthemajorityoflow-concentrationchemicals.Tominimizethisissue,atransformationoftheoriginaldataisperformedthatenhancestheintensityofweakpeaksrelativetostrongpeaksandgeneratesaconstantvarianceinthedata.Thesuccessoftheapplication30Inthisarticle,wedescribetheobservationofanotherpotentialsourceoferrorinPCAofNMRmetabolomicdatathatresultedinpoorclusteringof‘‘ideal’’NMRdatawithhighsimilarity.Extremelysmallvariationswithinthenoiseofhighsignal-to-noiseNMRspectrahadasignificantlyandsurprisinglynegativeimpactinthequalityoftheclusteringinPCAscoresplot.
TheNMRmetabolomicstestdatasetsconsistedofthreeindividualsamplescomposedofeither500mMor1mMofATP,(ii)glucose,and(iii)ATPandglucose.TheNMRdatawereFouriertransformed,phasedandbaselinecorrected.Negativeimpactofnoiseonthe-生物化學(xué)與分子生物學(xué)課件31Tooursurprise,weobservedarelativelylargescatteringalongPC2,equivalentinmagnitudetotheseparationinPC1,butevenmoretroublingwastheobservationthatoneoftheATPspectrum(#2)felloutsidethe95%confidencelevelinthePCAplot.
Tooursurprise,weobserveda32ThesuccessofPCAofNMRmetabolomicsdataisintrinsicallytiedtotheconsistencyinthehandling,preparation,collection,andprocessingoftheNMRdata.Problemsinphasing(相位調(diào)整),baselinecorrection(基線矯正),zerofilling(零填充)orinstrumentstability(設(shè)備穩(wěn)定性)wouldeasilyleadtotheobservedscatterandtheoutlierseenalongPC2.But,ifanyoftheseproblemswerepresentitwouldalsoresultinasimilarscatteralongPC1.Thisisclearlynotthecase.ItisalsoapparentthattheseprocessingoracquisitionproblemsarenotpresentbyvisuallyinspectingtheNMRspectra.Fig.2comparestheoutlierATPspectrum(#2)againsttheATPspectrum(#9),whichhasaminimalvariationalongPC2.ThesuccessofPCAofNMRmeta33ThereisnovisualdifferencebetweenthesetwospectrathatwouldeasilyjustifythelargedifferencealongPC2.Thereisnovisualdifference34(化學(xué)位移)
(化學(xué)位移)35Negativeimpactofnoiseonthe-生物化學(xué)與分子生物學(xué)課件36Negativeimpactofnoiseonthe-生物化學(xué)與分子生物學(xué)課件37PCAincludingtheglucoseNMRdatawithandwithoutanoisethresholdPCAincludingtheglucoseNMR38Conclusion
AfundamentalbenefitofP
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- Module 9 Unit 1 教學(xué)設(shè)計(jì) 2024-2025學(xué)年外研版八年級(jí)英語(yǔ)上冊(cè)
- 2025屆高考生物備考教學(xué)設(shè)計(jì):課時(shí)1 降低化學(xué)反應(yīng)活化能的酶
- 第二單元第10課《數(shù)據(jù)可視化》教學(xué)設(shè)計(jì) 2023-2024學(xué)年浙教版(2020)初中信息技術(shù)七年級(jí)上冊(cè)
- 2023-2024學(xué)年高中信息技術(shù)必修一滬科版(2019)第三單元項(xiàng)目八《 分析歷史氣溫?cái)?shù)據(jù)-設(shè)計(jì)批量數(shù)據(jù)算法》教學(xué)設(shè)計(jì)
- 第12課 音樂(lè)盒之三-高中信息技術(shù)Arduino開(kāi)源硬件系列課程教學(xué)設(shè)計(jì)
- 2024年12月黑龍江日?qǐng)?bào)報(bào)業(yè)集團(tuán)“黑龍江人才周”工作人員20人筆試歷年典型考題(歷年真題考點(diǎn))解題思路附帶答案詳解
- 2025年磁性材料:永磁材料項(xiàng)目建議書
- 第一單元 各具特色的國(guó)家(大單元教學(xué)設(shè)計(jì))高二政治同步備課系列(統(tǒng)編版選擇性必修1)
- A1型考試模擬題及答案
- 細(xì)胞生物學(xué)考試模擬題含參考答案
- 北師大版八年級(jí)生物下冊(cè)全冊(cè)課件(2024年春季版)
- 高一英語(yǔ)完形填空專項(xiàng)訓(xùn)練100(附答案)及解析
- 機(jī)房基礎(chǔ)設(shè)施運(yùn)行維護(hù)管理標(biāo)準(zhǔn)規(guī)范
- 收費(fèi)站稽查管理制度
- 老年心房顫動(dòng)診治中國(guó)專家共識(shí)(2024)解讀
- NB-T31056-2014風(fēng)力發(fā)電機(jī)組接地技術(shù)規(guī)范
- 部編版八年級(jí)上冊(cè)歷史期中復(fù)習(xí)重點(diǎn)總結(jié)
- DL5190.5-2019電力建設(shè)施工技術(shù)規(guī)范第5部分:管道及系統(tǒng)
- 農(nóng)信銀支付系統(tǒng)文檔
- 華為認(rèn)證HCIA-Security安全H12-711考試題庫(kù)及答案
- 建筑工地春節(jié)前安全教育
評(píng)論
0/150
提交評(píng)論