![結(jié)構(gòu)生物信息學(xué)課件_第1頁](http://file4.renrendoc.com/view/402fe55db16fc529247779b744f37de9/402fe55db16fc529247779b744f37de91.gif)
![結(jié)構(gòu)生物信息學(xué)課件_第2頁](http://file4.renrendoc.com/view/402fe55db16fc529247779b744f37de9/402fe55db16fc529247779b744f37de92.gif)
![結(jié)構(gòu)生物信息學(xué)課件_第3頁](http://file4.renrendoc.com/view/402fe55db16fc529247779b744f37de9/402fe55db16fc529247779b744f37de93.gif)
![結(jié)構(gòu)生物信息學(xué)課件_第4頁](http://file4.renrendoc.com/view/402fe55db16fc529247779b744f37de9/402fe55db16fc529247779b744f37de94.gif)
![結(jié)構(gòu)生物信息學(xué)課件_第5頁](http://file4.renrendoc.com/view/402fe55db16fc529247779b744f37de9/402fe55db16fc529247779b744f37de95.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、生物信息學(xué)(Bioinformatics)數(shù)據(jù)驅(qū)動(dòng) (data driven)基礎(chǔ)現(xiàn)代生物學(xué)基本原理 (中心法則、分子進(jìn)化)高通量數(shù)據(jù)采集手段統(tǒng)計(jì)學(xué)信息科學(xué) (數(shù)據(jù)庫、機(jī)器學(xué)習(xí)、模式識(shí)別、知識(shí)發(fā)現(xiàn)、互聯(lián)網(wǎng))問題:生物信息學(xué)分析中涉及到了哪些數(shù)據(jù)?生物信息學(xué)的基本策略1、從相似性推斷同源性相似性(similarity) Similar:having characteristics in common -Merriam-Webster Dictionary同源性(homology): A similarity often attributable to common origin -Merriam
2、-Webster Dictionary同源進(jìn)化上有共同的起源哪些共同特征? (1)分子生物學(xué)的中心法則DNARNA蛋白質(zhì)轉(zhuǎn)錄翻譯遺傳信息:貯存在DNA的核苷酸序列中進(jìn)化中被復(fù)制以及發(fā)生變異的是 基因的核苷酸序列(以及相應(yīng)的蛋白質(zhì)序列)因此,按照分子生物學(xué)的基本原理,我們應(yīng)該根據(jù)核苷酸序列或者氨基酸序列上的共同特征來判斷序列的是否同源最簡(jiǎn)單: 序列一致性 (sequence identity)同源蛋白應(yīng)該具有相對(duì)保守的功能 (催化同類化學(xué)反應(yīng)、結(jié)合同類型的其他分子等)蛋白質(zhì)功能依賴于三維結(jié)構(gòu)按照上述原理,我們同樣應(yīng)該能夠根據(jù)三維結(jié)構(gòu)上的共同特征來判斷蛋白質(zhì)分子是否同源。最簡(jiǎn)單: 主鏈原子位置的均
3、方根偏差(RMSD)哪些共同特征? (2)生物信息學(xué)的基本策略(2)2、發(fā)現(xiàn)和利用不同特征間的關(guān)聯(lián)關(guān)系(Guilty by association)序列整體特征序列同源性結(jié)構(gòu)整體特征序列局部特征(如motif)結(jié)構(gòu)局部特征功能模式例如:關(guān)聯(lián)關(guān)系的發(fā)現(xiàn): 數(shù)據(jù)搜集、特征提取與數(shù)據(jù)建模、參數(shù)估計(jì)的過程。知識(shí)發(fā)現(xiàn)。關(guān)聯(lián)關(guān)系的利用:數(shù)據(jù)檢索、統(tǒng)計(jì)檢驗(yàn)、實(shí)驗(yàn)驗(yàn)證的過程。知識(shí)利用。例:根據(jù)序列預(yù)測(cè)蛋白質(zhì)在核內(nèi)的定位序列motif蛋白在細(xì)胞核內(nèi)定位(核定位信號(hào),NLS,nuclear localization signal)/predictNLS/分子生物學(xué)的模型: 轉(zhuǎn)運(yùn)蛋白識(shí)別NLS序列,復(fù)合物通過核孔被
4、主動(dòng)轉(zhuǎn)運(yùn)到核內(nèi)數(shù)據(jù)搜集實(shí)驗(yàn)數(shù)據(jù)分析實(shí)驗(yàn)觀察到的NLS有沒有共同點(diǎn)?這些共同點(diǎn)是否足以區(qū)分核蛋白和非核蛋白?能否根據(jù)序列間的進(jìn)化關(guān)系對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行擴(kuò)展?Collecting initial set of NLS from literature. e.g. /entrez/Search pubmed for “nuclear localization signal” Among the listed records “Nuclear localization signal-receptor affinity correlates with in vivo localization in S. ce
5、revis”“related articles”實(shí)驗(yàn)觀察到的NLS有沒有共同點(diǎn)?這些共同點(diǎn)是否足以區(qū)分核蛋白和非核蛋白Positively charged residues are abundant in NLSs. the monopartite motif is characterised by a cluster of basic residues preceded by a helix-breaking residue. Similarly, the bipartite motif consists of two clusters of basic residues separated
6、 by 9-12 residues NLS cores are hexapeptides with at least four basic residue and neither acidic nor bulky residues . However, this motif matches only few nuclear and many non-nuclear proteins. Sets of nuclear and non-nuclear proteins. SWISS-PROT release 38.0 with annotations of sub-cellular localis
7、ation (ignoring PUTATIVE, POTENTIAL, BY SIMILARITY). sorted all remaining proteins into two sets: (1) nuclear proteins (true positives, 3142 proteins) and (2) non-nuclear proteins (true negatives, 5910 proteins). /databases/swiss-prot/sprot/userman.html手冊(cè):數(shù)據(jù)源:Line codeContentOccurrence in an entryID
8、IdentificationOnce; starts the entryACAccession number(s)Once or moreDTDateThree timesDEDescriptionOnce or moreGNGene name(s)OptionalOSOrganism speciesOnceOGOrganelleOptionalOCOrganism classificationOnce or moreOXTaxonomy cross-referenceOnceRNReference numberOnce or moreRPReference positionOnce or m
9、oreRCReference comment(s)OptionalRXReference cross-reference(s)OptionalRGReference groupOnce or more (Optional if RA line)RAReference authorsOnce or more (Optional if RG line)RTReference titleOptionalRLReference locationOnce or moreCCComments or notesOptionalDRDatabase cross-referencesOptionalKWKeyw
10、ordsOptionalFTFeature table dataOptionalSQSequence headerOnce(blanks)Sequence dataOnce or more/Termination lineOnce; ends the entryCC -!- FUNCTION: This enzyme is necessary for target cell lysis in cell-CC mediated immune responses. It cleaves after Lys or Arg. May beCC involved in apoptosis.CC -!-
11、CATALYTIC ACTIVITY: Hydrolysis of proteins, including fibronectin,CC type IV collagen and nucleolin. Preferential cleavage: -Arg-|-CC Xaa-, -Lys-|-Xaa- -Phe-|-Xaa- in small molecule substrates.CC -!- SUBUNIT: Homodimer; disulfide-linked.CC -!- INTERACTION:CC Self; NbExp=1; IntAct=EBI-519800, EBI-519
12、800;CC -!- SUBCELLULAR LOCATION: Secreted; cytoplasmic granules.CC -!- SIMILARITY: Belongs to the peptidase S1 family. GranzymeCC subfamily.CC -!- SIMILARITY: Contains 1 peptidase S1 domain.All experimental NLSs covered only 10% of the known nuclear proteins.Prosite: 3% known nuclear proteins僅僅用實(shí)驗(yàn)確定
13、的NLS模式:Inferring NLSs based on sequence very limited. about 30 protein pairs with more than 80% sequence identity and different annotations At 50-65% sequence identity, many pairs aligned over a substantial length, and annotated in different localisations 序列整體同源性:不是好的標(biāo)準(zhǔn)Extending experimental NLSs th
14、rough homology. For each experimental NLS-protein, found homologues in SWISS-PROT with PredictProtein. For pairs with more than 80% identical residues, extended the initial set of experimental NLSs by adding the sequence corresponding to the experimental NLS in the homologues. Testing experimental N
15、LSs. monitoring the matches of any motif in the sets of nuclear and non-nuclear proteins. The rationale was to find all NLS that matched exclusively in nuclear proteins.Coverage: 43%根據(jù)進(jìn)化特征對(duì)結(jié)構(gòu)功能進(jìn)行預(yù)測(cè)保守性絕對(duì)保守相對(duì)保守(變異速率相對(duì)較慢,變異類型受到約束)非保守協(xié)變性或關(guān)聯(lián)性Conservation analysisPhylogenetic profilingEvolutionary tracing
16、生物信息學(xué)的基本策略(3)可以在不同層次分析進(jìn)化過程中的保守性與協(xié)變性給定位點(diǎn)上的氨基酸/核苷酸同源蛋白質(zhì)分子間的保守性給定序列模式或結(jié)構(gòu)模式在蛋白質(zhì)家族內(nèi)或家族間的保守性給定二級(jí)結(jié)構(gòu)單元(蛋白質(zhì)、RNA)在蛋白質(zhì)家族或超家族間的保守性給定蛋白質(zhì)分子在物種間的保守性。例子 http:/consurf.tau.ac.il/例子ConSurf鉀離子通道小結(jié)從相似性-同源性序列相似,或者結(jié)構(gòu)相似發(fā)現(xiàn)和利用不同特征間的關(guān)聯(lián)NLS模式與核定位利用同源序列對(duì)序列模式進(jìn)行擴(kuò)展Swissprot 數(shù)據(jù)庫(uniProt 知識(shí)庫)覆蓋率、正確率是兩個(gè)重要指標(biāo)利用進(jìn)化特征保守性協(xié)變性ConSurf 對(duì)蛋白質(zhì)序列各
17、個(gè)位點(diǎn)的保守性進(jìn)行分析,并投影到三維結(jié)構(gòu)上,可能與功能相關(guān)聯(lián)從序列比對(duì)看生物信息學(xué)中的一些基本原理生物信息學(xué)工具的四個(gè)側(cè)面生物學(xué)背景生物學(xué)問題是什么?數(shù)據(jù)是什么?有哪些相關(guān)的生物學(xué)背景知識(shí)?統(tǒng)計(jì)模型定義與參數(shù)學(xué)習(xí)模型中有哪些假設(shè)?能否以及如何利用數(shù)據(jù)通過統(tǒng)計(jì)學(xué)方法、回歸方法確定模型中的參數(shù)算法是否有有效的算法解決參數(shù)學(xué)習(xí)、模型應(yīng)用等問題?顯著性(置信度)檢驗(yàn)如何用統(tǒng)計(jì)學(xué)標(biāo)準(zhǔn)對(duì)答案的顯著性(置信度)進(jìn)行判別?序列比對(duì)生物信息學(xué)的核心工具(sequence alignment)生物學(xué)背景數(shù)據(jù):核苷酸或氨基酸序列問題:(1)序列X和Y是否同源?(2)同源序列X和Y位點(diǎn)間的對(duì)應(yīng)關(guān)系如何?(3)數(shù)據(jù)庫D
18、中有哪些與X同源的序列?(4)同源序列X1,X2,。,Xn位點(diǎn)間的對(duì)應(yīng)關(guān)系如何?序列比對(duì)生物信息學(xué)的核心工具(sequence alignment)統(tǒng)計(jì)模型與參數(shù)學(xué)習(xí)序列X,Y是否同源?相似性-同源性最簡(jiǎn)單的標(biāo)準(zhǔn):序列一致性問題:一致性高到何種程度才能認(rèn)為序列是同源的呢?是否會(huì)和序列長(zhǎng)度、序列的氨基酸組成等有關(guān)呢?“相似”的氨基酸如何處理?如何處理序列中的插入、缺失等變異?(如何建立位點(diǎn)間的對(duì)應(yīng)關(guān)系(序列比對(duì))集合A:數(shù)據(jù)庫中的所有蛋白質(zhì)分子集合HX:數(shù)據(jù)庫中所有與X同源的蛋白質(zhì)分子集合C:數(shù)據(jù)庫中所有具有特征C的蛋白質(zhì)分子AHXCHXC顯然,如果集合H和C的重疊程度越大,我們選擇的特征越好。
19、最理想的情況是 HX和C完全重合。從統(tǒng)計(jì)學(xué)角度來看在數(shù)據(jù)庫中尋找同源序列的問題P: 概率(probability)N:集合中序列的總數(shù)P(HX)P(HX,C)P(C)概率與條件概率條件概率問題:如果 ,那么C應(yīng)該是Hx的充分條件還是必要條件?如果呢?P(A)=1比較哪些特征?最理想的情況:P(Hx|C)和P(C|Hx)都等于1二者越接近1越好我們常常不能二者兼顧P(Hx|C)=1,代表所有具有特征C的序列都是X的同源序列(正確率是100%),但可能有同源序列不具備該特征(覆蓋率未知)。P( C|Hx)=1,代表數(shù)據(jù)庫中所有與X同源的序列都有特征C(覆蓋率是100%),但有特征C的序列不一定與X
20、同源(正確率未知)。條件概率能真正反應(yīng)相關(guān)關(guān)系嗎?HXCAHXCA大海撈針型C區(qū)別: P(Hx)的大小盡管兩種情況下,我們都可以有P(Hx|C)1, 但顯然特征C和Hx的相關(guān)程度是明顯不一樣的。貝葉斯定理P(HX)P(HX,C)P(C)P(A)=1P(Hx):數(shù)據(jù)庫中任意序列與X同源 的概率,先驗(yàn)概率P(Hx|C): 數(shù)據(jù)庫中已知其具有特征C 的序列與X同源的概率,后 驗(yàn)概率貝葉斯定理:代表了C對(duì)Hx支持的程度因?yàn)镻(Hx|C)表示C的充分性,所以有人又將 視為用C作為Hx成立的“證據(jù)”的強(qiáng)度“定量”的證據(jù)問題的上限是多少?什么情況下達(dá)到?例子數(shù)據(jù)庫A給定蛋白質(zhì)分子X,尋找A中與X同源的序列特
21、征C:與X的序列一致性(sequence identity)超過某一百分比QP(C) A中與X序列一致性(sequence identity)超過Q的序列的比例P(C|Hx) A中且與X同源的序列中,與X序列一致性超過Q的序列的比例P(C)Q11/ P(Hx) P(C|Hx)0100%覆蓋率100%正確率100%概率隨Q的變化P(C|Hx)=1P(Hx|C)=1我們選擇的標(biāo)準(zhǔn)與分子的同源性最“相關(guān)”用數(shù)學(xué)語言表示盡可能大實(shí)際選擇?相似性的來源哪些因素對(duì)特征C 的概率P(C)有貢獻(xiàn)?偶然相似 (coincidental)趨同進(jìn)化 (convergent evolution)同源性 (homolo
22、gy)P(HX)P(HX,C)P(C)P(A)=1P(HX,C)顯然,如果 相對(duì)于越小,P(Hx|C)會(huì)越大注意我們不能改變 或因此,我們對(duì)相似性的定義,應(yīng)該使得由非同源性因素導(dǎo)致這種相似性發(fā)生的概率最小。這決定了我們應(yīng)如何定義序列的相似性和結(jié)構(gòu)的相似性。 小結(jié)根據(jù)貝葉斯理論進(jìn)行推斷先驗(yàn)概率似然性“證據(jù)”后驗(yàn)概率先驗(yàn)概率:常常是未知的(“信念”)似然性:往往作為參數(shù)估計(jì)的依據(jù)“證據(jù)”或后驗(yàn)概率:作為判據(jù)注意:如果我們沒有對(duì)先驗(yàn)概率的客觀估計(jì),我們并不能“證據(jù)”本身給出假設(shè)成立的置信度。觀察數(shù)據(jù):序列X和Y問題:X和Y是否同源假設(shè)H:X和Y同源。下面我們回到序列兩兩比較問題無論H為真的先驗(yàn)概率是
23、多少,其后驗(yàn)概率總是正比于Log Odds Ratio score很自然,如果我們用 來定義X、Y的相似性,如果X、Y”足夠”相似,我們就可以認(rèn)為其同源。通常,如果我們有一組觀察數(shù)據(jù)D,同時(shí)我們有關(guān)于D可能是如何生成的假設(shè)H,我們把 P(D|H)稱為假設(shè)H的似然性 (likelyhood)。如果我們有不同的候選假設(shè),并且知道如何根據(jù)假設(shè)計(jì)算似然性,我們可以在給定觀察數(shù)據(jù)的情況下用最大似然法(ML) 找出最可能的假設(shè)。這是一個(gè)從數(shù)據(jù)中提取信息的過程。我們現(xiàn)在要從X、Y的序列數(shù)據(jù)中提取其是否同源的信息。計(jì)算似然性的模型同源序列假設(shè):非同源位點(diǎn)間獨(dú)立 同源位點(diǎn)不獨(dú)立 非同源位點(diǎn)間同分布X1X2XiX
24、n| | | |Y1Y2YiYn非同源序列 位點(diǎn)間獨(dú)立、同分布序列“相似性”的計(jì)分殘基相似性矩陣或者殘基替換矩陣:s(a,b)參數(shù)學(xué)習(xí):最大似然ph:選擇 同源位點(diǎn)的集合, 優(yōu)化參數(shù),使 最大。p0:選擇 非同源位點(diǎn)集合, 優(yōu)化參數(shù),使 最大。模型的先天缺陷: 所有同源位點(diǎn)同分布, ph只與氨基酸類型有關(guān),與同源位點(diǎn)屬于哪兩條序列、這兩條序列間進(jìn)化上的距離如何、位點(diǎn)所受到的進(jìn)化壓力如何都沒有關(guān)系。兩類主要的氨基酸殘基替換矩陣PAM矩陣(percent acceted mutation) 只用高同源性的序列來學(xué)習(xí)參數(shù),構(gòu)造PAM1矩陣 (序列的同源程度相當(dāng)于平均1%的位點(diǎn)發(fā)生了一次可接受的突變)
25、。 用馬爾科夫模型描述進(jìn)化過程,得到更低同源程度時(shí)的殘基替換矩陣 PAM250 = (PAM1)250 平均每個(gè)位點(diǎn)發(fā)生了2.5次突變。 BLOSUM矩陣把同源序列按同源程度進(jìn)行分類,數(shù)據(jù)庫中同一類的所有序列在參數(shù)學(xué)習(xí)中的權(quán)重相當(dāng)于一條序列.BLOSUMxx: 代表分到同一類的標(biāo)準(zhǔn)是序列一致性大于xx%序列比對(duì)生物信息學(xué)的核心工具(sequence alignment)算法位點(diǎn)間的對(duì)應(yīng)關(guān)系是未知的.進(jìn)化過程中存在插入缺失等變異相似性分值=比對(duì)的函數(shù)=同源位點(diǎn)殘基替換分值的和 + 空位罰分最優(yōu)比對(duì): 所有可能比對(duì)中相似性分值最高的比對(duì) 給定 (a) 兩條序列 (b) 殘基替換矩陣 (c) 空位罰
26、分函數(shù)可以用動(dòng)態(tài)規(guī)劃算法(dynamic programming) 獲得兩條序列的最優(yōu)比對(duì)。 全局比對(duì):比對(duì)范圍覆蓋兩條序列的全部。 X1X2.Xi -. Xj.Xm.- | | | |.| |.| |.| - -Y1Y2-.YkYk+1Yl.Yn X1X2.Xi - . Xj.Xm | |. . | Y1Y2-.YkYk+1.Yl.Yn局部比對(duì):比對(duì)范圍覆蓋兩條序列的局部HSSP (high scoring sequence pair)一個(gè)也不能少一個(gè)也不能多/software/seqaln/seqaln-query.html例:序列動(dòng)態(tài)規(guī)劃比對(duì)的程序/web服務(wù)器The USC Seque
27、nce Alignment Server 最優(yōu)比對(duì)正確的比對(duì)我們用于計(jì)算似然性的假設(shè)不完全成立我們的殘基替換矩陣和空位罰分函數(shù)有相當(dāng)多的經(jīng)驗(yàn)特性我們采用的是概率意義上正確的模型當(dāng)序列一致性較低(局部序列一致性較低時(shí)),最優(yōu)比對(duì)的正確率較低次優(yōu)比對(duì)所有滿足的比對(duì)方式Ahttp:/protein.cribi.unipd.it/align/Example:Align packageBALSA (The bayesian algorithm for local sequence alignment/balsa/balsa.html用貝葉斯方法選擇參數(shù)進(jìn)行比對(duì)多序列比對(duì)(multiple sequenc
28、e alignment)Sum of pairs 計(jì)分規(guī)則 多序列比對(duì)的分值=序列兩兩比對(duì)分值之和在序列數(shù)目較少時(shí),可以采用嚴(yán)格的動(dòng)態(tài)規(guī)劃算法,得到最優(yōu)比對(duì)。大多數(shù)程序采用近似算法:兩兩比對(duì)-引導(dǎo)樹-多序列比對(duì)程序/apps/bioinfo/msa.htmlExample:T-CoffeeT-Coffee: A Novel Method for Fast and AccurateMultiple Sequence AlignmentJ. Mol. Biol. (2000) 302, 205217序列比對(duì)計(jì)分函數(shù)小結(jié)Log Odds Ratio 計(jì)分總分=同源位點(diǎn)分值加和各位點(diǎn)獨(dú)立進(jìn)化統(tǒng)一的殘基
29、替換矩陣各位點(diǎn)氨基酸分布相同通用替換矩陣:PAMxx, BLOSUMxx空位罰分函數(shù)序列比對(duì)算法我們可以動(dòng)態(tài)規(guī)劃方法找到兩條序列的局部和全局最優(yōu)比對(duì)最優(yōu)比對(duì)不一定是正確比對(duì)次優(yōu)比對(duì)、Bayesian比對(duì)等多序列比對(duì):SUM OF PAIRS 計(jì)分規(guī)則動(dòng)態(tài)規(guī)劃或啟發(fā)式方法得到最優(yōu)或近似最優(yōu)的比對(duì)。統(tǒng)計(jì)檢驗(yàn)的P-value假設(shè) H (X,Y 同源)零(空白)假設(shè):X、Y之間沒有任何關(guān)系。P-value: 在零假設(shè)(空白)的情況下(X,Y間沒有任何關(guān)系)觀察到序列比對(duì)具有同樣或更大分值的概率Each statistical test has an associated null hypothesis
30、, the p-value is the probability that your sample could have been drawn from the population(s) being tested (or that a more improbable sample could be drawn) given the assumption that the null hypothesis is true. A p-value of .05, for example, indicates that you would have only a 5% chance of drawin
31、g the sample being tested if the null hypothesis was actually true. 顯著性(置信度)的判別序列兩兩比對(duì)的P-value兩條序列X、Y比對(duì)結(jié)果的P-value: 同樣長(zhǎng)度、同樣氨基酸組成的隨機(jī)序列間最優(yōu)比對(duì)分值超過X、Y最優(yōu)比對(duì)分值的概率。嚴(yán)格來說,P-value依賴于序列長(zhǎng)度、序列的氨基酸組成。問題:1、P-value越小,代表X,Y同源的可能性越高還是越低?2、為什么不直接用分值來代表顯著性?可以通過計(jì)算機(jī)數(shù)值實(shí)驗(yàn)來估計(jì)P-value可以采用近似解析公式來估計(jì)P-value隨機(jī)序列比最優(yōu)比對(duì)分值的分布服從 Gumble極值分
32、布。數(shù)據(jù)庫檢索的E-value假設(shè)數(shù)據(jù)庫中的N條序列是互相獨(dú)立的。查詢序列X與N條序列中每一條序列進(jìn)行比對(duì),相當(dāng)于進(jìn)行了N次獨(dú)立的比對(duì)實(shí)驗(yàn)。假設(shè)查詢序列x與N條序列實(shí)際上都沒有同源關(guān)系。得到的N個(gè)最優(yōu)比對(duì)分值超過某個(gè)值的概率就是該分值的顯著性。 P-valueE-value假設(shè)用給定分值作為門限,每次查詢?cè)诶碚撋系钠骄e(cuò)誤匹配數(shù)。小結(jié)統(tǒng)計(jì)檢驗(yàn):P-value:一般定義:空白假設(shè)下觀察到樣本的概率。序列兩兩比對(duì):同樣長(zhǎng)度和氨基酸組成的隨機(jī)序列產(chǎn)生同樣或更大分值的概率。可以數(shù)值或解析獲得E-value按照某個(gè)門限每次查詢得到的平均錯(cuò)誤匹配數(shù)與P-value密切相關(guān)小結(jié)生物信息學(xué)工具的四個(gè)基本方面生
33、物學(xué)數(shù)據(jù)與問題統(tǒng)計(jì)模型與參數(shù)學(xué)習(xí)算法統(tǒng)計(jì)檢驗(yàn)其中包含的概念在不同生物信息學(xué)工具中反復(fù)出現(xiàn)。蛋白質(zhì)三維結(jié)構(gòu)分類、比較蛋白質(zhì)三維結(jié)構(gòu)的專家分類 SCOPSuperfamiliesRootClassesFoldsSuperfamiliesFamiliesProtein domainsSpeciesscopAll alpha proteins Globin-like Globin-like GlobinsMyoglobin Sperm whale core: 6 helices; folded leaf, partly opened Heme-binding protein 當(dāng)前SCOP分類Class
34、es:All alpha proteins 46456 (218) All beta proteins 48724 (144) Alpha and beta proteins (a/b) 51349 (136) Mainly parallel beta sheets (beta-alpha-beta units) Alpha and beta proteins (a+b) 53931 (279) Mainly antiparallel beta sheets (segregated alpha and beta regions) Multi-domain proteins (alpha and
35、 beta) 56572 (46) Folds consisting of two or more domains belonging to different classes Membrane and cell surface proteins and peptides 56835 (47) Does not include proteins in the immune system Small proteins 56992 (75) Usually dominated by metal ligand, heme, and/or disulfide bridges Coiled coil p
36、roteins 57942 (6) Not a true class Low resolution protein structures 58117 (24) Not a true class Peptides 58231 (116) Peptides and fragments. Not a true class Designed proteins 58788 (42) Experimental structures of proteins with essentially non-natural sequences. Not a true class http:/scop.mrc-lmb.
37、cam.ac.uk/scop/data/scop.b.htmlGlobin like foldTwo superfamilies in the Spectrin repeat-like fold3 helices; bundle, closed, left-handed twist; up-and-down 蛋白質(zhì)結(jié)構(gòu)的自動(dòng)比較相似性的判據(jù):A、B:兩個(gè)不同的結(jié)構(gòu)C原子位置的均方根偏差與序列比對(duì)類似,我們假設(shè)已建立兩個(gè)結(jié)構(gòu)上殘基間的對(duì)應(yīng)關(guān)系。rA、rB:結(jié)構(gòu)A、B相應(yīng)的原子的空間坐標(biāo)。顯然,正確的對(duì)應(yīng)關(guān)系應(yīng)該使(a)NC盡可能大;(b) RMSD盡可能小。由于A、B的坐標(biāo)系是任意的,因此,在計(jì)
38、算RMSD之前,我們還必須對(duì)其中一個(gè)進(jìn)行平移、旋轉(zhuǎn)變換,以將其疊合到一起:結(jié)構(gòu)比對(duì)同時(shí)解決坐標(biāo)變換、建立序列比對(duì)(用結(jié)構(gòu)作為標(biāo)準(zhǔn))的問題早期:SAP (structure alignment of proteins)采用雙動(dòng)態(tài)規(guī)劃的算法。目前絕大多數(shù)方法:采用先找出A和B中相似的局部結(jié)構(gòu)集合,再逐漸擴(kuò)展的方法代表性的方法與程序:Dali, CE, Maxsub等Dali (distance matrix alignment) scoreS:相似性分值i、j:已比對(duì)的氨基酸殘基 i=(iA,iB),j=(jA,jB)dAij: iA、jA的距離dij*:dAij、dBij的均值=0.2、=20 :參數(shù) Dali score: 取決于比對(duì)上的位點(diǎn)的數(shù)目Dali Z-score對(duì)比對(duì)顯著性的度量。 輸入: 至少C坐標(biāo)(服務(wù)器可以用MaxSprout程序產(chǎn)生其他主鏈原子和測(cè)年遠(yuǎn)之坐標(biāo))服務(wù)器用DSSP和Puu程序解析輸入結(jié)構(gòu)中的二級(jí)結(jié)構(gòu)和結(jié)構(gòu)域。輸入結(jié)構(gòu)與PDB中的代表性結(jié)構(gòu)進(jìn)行比較。返回:數(shù)據(jù)庫中與查詢結(jié)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年別墅裝潢合同正規(guī)化范例
- 2025版企業(yè)市場(chǎng)營(yíng)銷合作協(xié)議策劃標(biāo)準(zhǔn)模板
- 2025年企業(yè)辦公耗材租賃合同范本
- 2025年產(chǎn)品開發(fā)合同規(guī)定
- 2025年乘用車銷售協(xié)同協(xié)議
- 2025年嚴(yán)格版租賃建筑工具合同示例
- 2025年采購(gòu)合同優(yōu)化談判共識(shí)
- 2025年餐廳盈利與廚師股份策劃掛鉤協(xié)議范本
- 2025年嘉興從業(yè)資格證貨運(yùn)考試答案
- 2025年大學(xué)生畢業(yè)實(shí)習(xí)與就業(yè)意向協(xié)議
- DB11∕T 446-2015 建筑施工測(cè)量技術(shù)規(guī)程
- 運(yùn)輸車輛掛靠協(xié)議書(15篇)
- 完整版:美制螺紋尺寸對(duì)照表(牙數(shù)、牙高、螺距、小徑、中徑外徑、鉆孔)
- 繪本閱讀促進(jìn)幼兒分享與合作行為發(fā)展的研究分析-以中班為例 學(xué)前教育專業(yè)
- 部編人教版五年級(jí)道德與法治下冊(cè)全冊(cè)課件完整版
- 醫(yī)院醫(yī)療質(zhì)量管理制度完整版
- 粵劇課程設(shè)計(jì)
- 食品感官檢驗(yàn)基礎(chǔ)品評(píng)員的崗前培訓(xùn)課件
- AQ/T 2061-2018 金屬非金屬地下礦山防治水安全技術(shù)規(guī)范(正式版)
- 《網(wǎng)絡(luò)安全防護(hù)項(xiàng)目教程》課件項(xiàng)目1 系統(tǒng)基本安全防護(hù)
- 留置導(dǎo)尿法操作評(píng)分標(biāo)準(zhǔn)
評(píng)論
0/150
提交評(píng)論