從質(zhì)譜數(shù)據(jù)鑒定多肽蛋白質(zhì)_第1頁
從質(zhì)譜數(shù)據(jù)鑒定多肽蛋白質(zhì)_第2頁
從質(zhì)譜數(shù)據(jù)鑒定多肽蛋白質(zhì)_第3頁
從質(zhì)譜數(shù)據(jù)鑒定多肽蛋白質(zhì)_第4頁
從質(zhì)譜數(shù)據(jù)鑒定多肽蛋白質(zhì)_第5頁
已閱讀5頁,還剩59頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

從質(zhì)譜數(shù)據(jù)鑒定多肽蛋白質(zhì)第一頁,共六十四頁,2022年,8月28日開場白在之前的講座中,我們已經(jīng)學到了關于蛋白質(zhì)組學中的重要工具—質(zhì)譜儀的知識。蛋白質(zhì)組學里,質(zhì)譜儀的作用是鑒定混合物中的蛋白質(zhì)。然而,沒有數(shù)據(jù)分析的輔助,它是做不到這一點的。第二頁,共六十四頁,2022年,8月28日講座大綱本講座中,將分別講述兩種鑒定蛋白質(zhì)的方法。其一是質(zhì)量紋鑒定法(PeptideMassFingerprinting),另外一種是二級質(zhì)譜的數(shù)據(jù)庫搜索鑒定法(MS/MSDatabaseSearching)。我們將簡略的介紹質(zhì)量紋鑒定法。而用更多的時間討論用于二級質(zhì)譜上的方法。第三頁,共六十四頁,2022年,8月28日多肽質(zhì)量紋鑒定多肽質(zhì)量紋(PeptideMassFingerprinting,PMF)是從一級質(zhì)譜(MS)中鑒定多肽的主要方法。多肽質(zhì)量紋一般都是在MALDI-TOF儀器的結(jié)果上進行。其原理就是利用了蛋白序列數(shù)據(jù)庫中的多肽質(zhì)量的信息。我們下面的討論,先假設一張質(zhì)譜圖對應一個蛋白。后面會討論處理多個蛋白的情況。第四頁,共六十四頁,2022年,8月28日一級質(zhì)譜圖蛋白質(zhì)經(jīng)過酶解后,送入質(zhì)譜儀,得到一級質(zhì)譜。目前來說,由MALDI-TOF質(zhì)譜儀產(chǎn)生的質(zhì)譜圖精度較高,而由ESI質(zhì)譜儀產(chǎn)生的質(zhì)譜圖精度相對較低。另一個問題是,ESI產(chǎn)生的質(zhì)譜圖中的離子通常帶有很多電荷,而MALDI質(zhì)譜圖中的離子一般只帶一個電荷,比較容易計算。所以從一級質(zhì)譜鑒定蛋白質(zhì)的算法(質(zhì)量紋)主要用在MALDI-TOF產(chǎn)生的質(zhì)譜圖上。第五頁,共六十四頁,2022年,8月28日SampleMSSpectrum第六頁,共六十四頁,2022年,8月28日蛋白序列數(shù)據(jù)庫在美國國家生物信息中心的網(wǎng)站上可以查詢到最新的蛋白序列數(shù)據(jù)庫。NCBI上的數(shù)據(jù)庫中,信息最豐富的是Genpept格式,包括有蛋白的序列,各種性質(zhì),甚至于參考文獻。但是對我們來說,我們只需要蛋白序列的信息就夠了。第七頁,共六十四頁,2022年,8月28日Genpept示例第八頁,共六十四頁,2022年,8月28日Genpept示例第九頁,共六十四頁,2022年,8月28日FASTA格式FASTA格式就是蛋白的氨基酸序列。第十頁,共六十四頁,2022年,8月28日虛擬酶解對應于送進質(zhì)譜儀的樣品,我們可以對數(shù)據(jù)庫里的序列作一次虛擬的酶解。第十一頁,共六十四頁,2022年,8月28日質(zhì)量排列虛擬酶解的結(jié)果,產(chǎn)生了一系列的多肽,我們可以計算每個多肽的質(zhì)量。最后一個R的質(zhì)量多加了18,這是因為我們寫在下面的是殘基的分子量。第十二頁,共六十四頁,2022年,8月28日質(zhì)量排列的把所有多肽的質(zhì)量排序。第十三頁,共六十四頁,2022年,8月28日質(zhì)量紋如此,質(zhì)譜圖上的質(zhì)量就可以與多肽上的質(zhì)量相匹配。第十四頁,共六十四頁,2022年,8月28日質(zhì)量紋這就是多肽質(zhì)量紋(PMF)的最基礎的思路。但是,真正的將之作為一個鑒定蛋白質(zhì)的方法,還有很多需要考慮的問題。在討論這些問題之前,我們先看一看目前常用的質(zhì)量紋算法。第十五頁,共六十四頁,2022年,8月28日常用的質(zhì)量紋算法現(xiàn)在試驗中可用的算法有:Mascot:Profound:Expasytools:PeptideSearch:第十六頁,共六十四頁,2022年,8月28日PMF中的問題第一個問題:質(zhì)量相近的多肽怎么處理?在現(xiàn)實的蛋白數(shù)據(jù)庫中,多肽的數(shù)量是很龐大的。這里面難保不會有質(zhì)量非常相近的多肽。這樣,就造成了質(zhì)譜圖上的一個峰可能匹配不止一個多肽,于是我們就難以知曉這張質(zhì)譜圖究竟代表哪個蛋白。第十七頁,共六十四頁,2022年,8月28日質(zhì)量相近的多肽多肽[M+H+]DGAPLESSSR1019.0490REGESTPSR1019.0520DFPIANGER1019.0940DPLASSSWR1019.0940YVPLKDQR1019.1800HLQLPAPSR1019.1830VLFLNGIDK1019.2200Peakm/z:1019.08第十八頁,共六十四頁,2022年,8月28日解決方案第一個解決的辦法是限制用來搜索的數(shù)據(jù)庫。比如,你如果做的試驗用的是小白鼠的組織,那么你可以只在鼠類的數(shù)據(jù)庫中搜索,這樣就可以減低出現(xiàn)這種情況的可能性。第二個解決的辦法是要求必須有多個多肽和數(shù)據(jù)庫相匹配,才做出最后的蛋白質(zhì)鑒定。第十九頁,共六十四頁,2022年,8月28日多匹配DFPIANGER 1019.09EPISVSSQQMLK 1347.56VLDALDSIK 974.13CarbonicanhydraseII

SHHWGYGKHBGPZHWHKDFPIANGERQSPVNIDTKAVVQDPALKPLALVYGEATSRRMVNNGHSFNVEYDDSQDKAVLKDGPLTGTYRLVQFHFHWGSSBBQGSEHTVDRKKYAAELHLVHWNTKYGDFGTAAQQPDGLAVVGVFLKVGDANPALQKVLDALDSIKTKGKSTDFPNFDPGSLLPNVLDYWTYPGSLTTPPLLESVTWIVLKEPISVSSQQMLKFRTLNFNAEGEPELLMLANWRPAQPLKNRQVRGFPK多匹配可以大大降低隨機匹配的概率,從而增加結(jié)果的可信度第二十頁,共六十四頁,2022年,8月28日長蛋白和短蛋白第二個問題:長蛋白可能會更容易的被匹配。因為長蛋白里的多肽數(shù)目較多,即以概率來算,匹配上的幾率也會比較大。質(zhì)量紋算法必須考慮這個問題,給短蛋白一定的補償。第二十一頁,共六十四頁,2022年,8月28日多個蛋白的情況第三個問題就是在一張質(zhì)譜圖中可能有多個蛋白存在。通常,MALDI-TOF是與雙向電泳連接使用。雙向電泳的一個電泳點上可能有2-3個蛋白,這樣就增加了鑒定的難度。由于無法預知一個電泳點上有多少蛋白質(zhì),PMF的效果可能會受到很大的影響。第二十二頁,共六十四頁,2022年,8月28日多肽質(zhì)量紋:小結(jié)質(zhì)量紋算法是用一級質(zhì)譜鑒定蛋白質(zhì)的經(jīng)典方法。質(zhì)量紋算法比較簡單,一般使用較簡單的統(tǒng)計模型,速度一般較快。質(zhì)量紋算法的效果受到很多方面的限制,首先是儀器精度的限制,其次是樣品中可能有多個蛋白的限制。這使得質(zhì)量紋算法不是理想的分析復雜混合物中蛋白成分的方法。返回第二十三頁,共六十四頁,2022年,8月28日利用二級質(zhì)譜圖我們剛才談到了,多肽質(zhì)量紋有其先天的不足。其中,最糟糕的是它不能處理多個蛋白的混合物。如果我們能夠處理混合物,就可以減少很多用于純化上的時間和精力。那么,怎么才能從混合物中鑒定蛋白呢?這就要用到二級質(zhì)譜。第二十四頁,共六十四頁,2022年,8月28日二級質(zhì)譜圖在一級質(zhì)譜圖中,選擇其中的一個峰,對其進行CID過程,就得到一張二級質(zhì)譜圖。這里的假設是一級質(zhì)譜中的一個峰就對應了一個多肽,實際情況可能并不是這樣。先看一張二級質(zhì)譜圖,然后我們來解釋CID過程。第二十五頁,共六十四頁,2022年,8月28日典型二級質(zhì)譜圖第二十六頁,共六十四頁,2022年,8月28日CIDCID,即Collision-inducedDissociation,是通過撞擊使得多肽的肽鍵斷裂的過程。在做二級質(zhì)譜的試驗時,質(zhì)譜儀選擇一級質(zhì)譜中的一個峰,也就是對應質(zhì)荷比的這些離子,讓這些離子高速撞擊質(zhì)譜儀中的惰性氣體,使其肽鍵斷裂,這就是CID。第二十七頁,共六十四頁,2022年,8月28日肽鍵及其斷裂第二十八頁,共六十四頁,2022年,8月28日一些常見的特殊情況除了普通的肽鍵斷裂以外,還經(jīng)常有一些特殊的情況。Neutralloss:某些酸性氨基酸可能會在CID中丟失一個水分子(H2O),而堿性氨基酸會在CID中丟失一個氨分子(NH3)。翻譯后修飾:有時,二級質(zhì)譜中需要考慮某些氨基酸可能被修飾(磷酸化、糖基化等),這些修飾可能改變殘基的分子量。第二十九頁,共六十四頁,2022年,8月28日肽鍵斷裂的說明CID中,肽鍵的斷裂方式有非常多的可能性。關于具體的斷裂方式,可以去查詢生物化學方面的書籍。這些問題超過了本課程的范圍。通常,我們只考慮b系列和y系列。原因是我們使用的電壓較低,其他系列的離子不易產(chǎn)生。但實際上,如果能夠清楚的知道我們究竟需要考慮什么樣的斷裂方式,對搜索算法的設計會有很大的幫助。第三十頁,共六十四頁,2022年,8月28日通過殘基鑒定多肽第三十一頁,共六十四頁,2022年,8月28日De-novoSequencing這種通過殘基來鑒定多肽的方法被稱為De-novoSequencing。當我們擁有近乎完美的二級質(zhì)譜圖時,我們可以采用這種De-novoSequencing的辦法。但是,實際情況中,我們并沒有完美的二級質(zhì)譜圖,而一點點的不完美,帶來的誤差是驚人的。第三十二頁,共六十四頁,2022年,8月28日氨基酸質(zhì)量表Molecularweightsusedforcalculations.Button

codeShort

codeNameAveragemass

ofresidueMonoisotopic

massofresidueTwentyNaturally-OccurringAminoAcidsAlaAAlanine71.078871.03711CysCCysteine103.1448103.00919AspDAsparticAcid115.0886115.02694GluEGlutamicAcid129.1155129.04259PheFPhenylalanine147.1766147.06841GlyGGlycine57.052057.02146HisHHistidine137.1412137.05891IleIIsoleucine113.1595113.08406LysKLysine128.1742128.09496LeuLLeucine113.1595113.08406MetMMethionine131.1986131.04049AsnNAsparagine114.1039114.04293ProPProline97.116797.05276GlnQGlutamine128.1308128.05858ArgRArginine156.1876156.10111SerSSerine87.078287.03203ThrTThreonine101.1051101.04768ValVValine99.132699.06841TrpWTryptophan186.2133186.07931TyrYTyrosine163.1760163.06333

第三十三頁,共六十四頁,2022年,8月28日組合數(shù)(估計值)峰間質(zhì)量距離(Da)最低組合數(shù)最高組合數(shù)平均值50-100010.089100-2000141.556200-300113624.871300-400371687386.23400-500586234815958.36500-6001409334038092016.7600-70024852148732601418510第三十四頁,共六十四頁,2022年,8月28日DatabaseSearching對于一張不完美的質(zhì)譜圖,有這么多的組合可以生成之。但是,幸運的是,我們還有這個蛋白序列數(shù)據(jù)庫。雖然組合有那么多,但是在這個數(shù)據(jù)庫的限制之下,組合數(shù)就大大的減少了。所以我們可以從數(shù)據(jù)庫里搜索最好的匹配質(zhì)譜圖的多肽,這樣就有了二級質(zhì)譜的數(shù)據(jù)庫搜索算法。第三十五頁,共六十四頁,2022年,8月28日數(shù)據(jù)庫搜索的基礎數(shù)據(jù)庫搜索的基礎很簡單,就是理論質(zhì)譜圖和試驗質(zhì)譜圖之間的一個比對。我們剛才討論了CID的過程,所以我們知道了殘基產(chǎn)生的規(guī)律,那么,利用這些規(guī)律,我們可以對每個多肽產(chǎn)生一張理論的質(zhì)譜圖,用來和試驗質(zhì)譜圖進行比對,對它們“相似”的程度做一個評分,分數(shù)最高的多肽,我們就認為它是試驗質(zhì)譜圖代表的多肽。第三十六頁,共六十四頁,2022年,8月28日理論質(zhì)譜圖和試驗質(zhì)譜圖第三十七頁,共六十四頁,2022年,8月28日數(shù)據(jù)庫搜索的流程在一個蛋白序列數(shù)據(jù)庫中,可以找出來的,落在質(zhì)譜儀質(zhì)量范圍以內(nèi)的多肽多達數(shù)百至數(shù)千萬,如果每個多肽都拿來和試驗質(zhì)譜圖做比對的話,需要花費的時間是難以接受的。提高搜索速度的關鍵就是減少搜索的對象數(shù)。第三十八頁,共六十四頁,2022年,8月28日數(shù)據(jù)庫搜索的流程所以,基本上,所有的數(shù)據(jù)庫搜索算法都包括兩個步驟。第一個步驟是篩選數(shù)據(jù)庫里的多肽,找出所有有可能與質(zhì)譜圖匹配的多肽。第二個步驟就是拿這些選出來的多肽去和質(zhì)譜圖進行比對,并輸出最高分值的多肽作為一個PSM(Peptide-SpectrumMatch)。第三十九頁,共六十四頁,2022年,8月28日常用的搜索算法常用的二級質(zhì)譜的數(shù)據(jù)庫搜索算法包括:

SequestMascot:Sonar,GutenTag,OLAV,ProbID,…………第四十頁,共六十四頁,2022年,8月28日Sequest我們用Sequest作為一個例子來講解數(shù)據(jù)庫搜索算法的一般流程。Sequest是由Eng,Yates等人在1994年提出的經(jīng)典算法。雖然目前已經(jīng)顯得有些過時,但是在很多實驗室中仍然是最為常用的算法。第四十一頁,共六十四頁,2022年,8月28日第一步:數(shù)據(jù)庫初篩首先的工作是要從數(shù)據(jù)庫中找出分子量和質(zhì)譜圖母離子分子量相當?shù)亩嚯?。算法首先把?shù)據(jù)庫里的多肽做一次虛擬的酶切。對酶切得到的每一個多肽,計算其分子量。找到所有分子量與質(zhì)譜圖母離子接近的多肽后,準備進行匹配。第四十二頁,共六十四頁,2022年,8月28日第四十三頁,共六十四頁,2022年,8月28日第二步:質(zhì)譜圖預處理對質(zhì)譜圖做一些預處理,可以提高算法的速度,有時還可以增加鑒定的正確率。Sequest的預處理包括:把質(zhì)譜圖的橫坐標進行取整。質(zhì)譜圖的縱坐標做歸一化。去除母離子正負10區(qū)域的離子。去除低豐度離子,只保留200個豐度最高的離子。第四十四頁,共六十四頁,2022年,8月28日第三步:PreliminaryScoring由于精細的比較理論質(zhì)譜圖和試驗質(zhì)譜圖很耗時間。Sequest使用了一種兩步打分的方法。第一步的分數(shù)給的較粗,計算起來也比較快,可以用來先去掉那些不太可能得到PSM的多肽。第二步的分數(shù)則比較精細,用來最后確認哪個多肽成為最后的PSM。第四十五頁,共六十四頁,2022年,8月28日第三步:PreliminaryScoringSequest中,第一步的分數(shù)叫做Sp,它的公式如下:這里的β是一個連續(xù)性的補償因子,ρ是immoniumions的補償因子。Sp排名前500位的多肽進入最后一步的互相關分析。第四十六頁,共六十四頁,2022年,8月28日第四步:互相關分析Sequest最主要的分數(shù)XCorr,就是從這一步得到的。首先要產(chǎn)生一張理論質(zhì)譜圖。Sequest的理論質(zhì)譜圖是在b系列和y系列的位置有豐度為50的峰,在b系列和y系列正負1的位置有豐度為25的峰。而在b-H2O,y-H2O,b-NH3,y-NH3的位置有豐度為10的峰。第四十七頁,共六十四頁,2022年,8月28日第四步:互相關分析相關分析是統(tǒng)計中分析兩個信號相似性的重要手段。一般的連續(xù)信號的互相關函數(shù)公式如下:在Sequest中,我們要處理的是離散的問題,所以,把積分號變成求和號。第四十八頁,共六十四頁,2022年,8月28日第四步:互相關分析但是,單單把試驗質(zhì)譜圖和理論質(zhì)譜圖做互相關是不夠的??紤]下面的這種情況:第四十九頁,共六十四頁,2022年,8月28日歸一化處理因此,在做相關分析之前,Sequest把試驗質(zhì)譜圖劃分為10個區(qū)間,把每個區(qū)間上的最高峰的豐度歸一化為50。這種歸一化處理雖然是必要的,但是客觀上,它造成了很多錯誤的PSM,因為很低的峰和很高的峰可以在相關分析中占據(jù)同等的地位。第五十頁,共六十四頁,2022年,8月28日第五十一頁,共六十四頁,2022年,8月28日Sequest:小結(jié)Sequest分四個步驟:1。數(shù)據(jù)庫初篩2。質(zhì)譜圖預處理3。PreliminaryScoring4?;ハ嚓P分析從Sequest中,我們可以學習到數(shù)據(jù)庫搜索算法的一般流程,其中的關鍵就是打分算法和計算速度。第五十二頁,共六十四頁,2022年,8月28日一些其它的技術去同位:一個離子的同位素會在質(zhì)譜圖上顯示出不同的峰,峰間的距離為1,去同位就是把這些峰合并為一個峰。第五十三頁,共六十四頁,2022年,8月28日去同位的效果第五十四頁,共六十四頁,2022年,8月28日后篩選在以前的蛋白質(zhì)組學的書籍中,大都沒有提及過后篩選,似乎打出了一個分數(shù),產(chǎn)生了一大堆的PSM,就萬事大吉了??墒牵谡鎸嵉脑囼炛?,一次試驗往往會產(chǎn)生成千上萬張質(zhì)譜圖,其中,大部分都屬于無法鑒定的。而所有的打分算法,目標都只是“最好”的匹配質(zhì)譜圖的多肽,并不關心這個最好究竟好到什么程度。第五十五頁,共六十四頁,2022年,8月28日質(zhì)量很差的質(zhì)譜圖第五十六頁,共六十四頁,2022年,8月28日再來一張第五十七頁,共六十四頁,2022年,8月28日再來一張第五十八頁,共六十四頁,2022年,8月28日后篩選在某些質(zhì)譜儀中,產(chǎn)生的質(zhì)譜圖能有十分之一可以鑒定,就已經(jīng)很不容易了。這樣的話,我們就看到光是得到PSM是不夠的,還要對這些PSM進行一次篩選,看看究竟哪些是”真”的PSM,哪些只是矬子里拔將軍。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論