生物信息學-第1次理論

上傳人：我*** IP屬地：北京上傳時間：2023-01-29 格式：PPTX 頁數(shù)：73 大?。?.94MB 積分：16 舉報 版權申訴

已閱讀5頁，還剩68頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

六、蛋白質序列數(shù)據(jù)庫UniPro

Swiss-Prot

TrEMBL

PIR-PSDThemissionof

UniProt

istoprovidethescientificcommunitywithacomprehensive,high-qualityandfreelyaccessibleresourceofproteinsequenceandfunctionalinformation.1.Swiss-ProtSWISS-PROT由瑞士日內瓦大學醫(yī)學生化系于1978年創(chuàng)建，后來與歐洲分子生物學實驗室合作，由瑞士生物信息學研究所（SwissInstituteofBioinformatics，SIB）和歐洲生物信息學研究所（EBI）共同維護和管理現(xiàn)已整合進UniProtKB/Swiss-Prot。a.所有序列條目都經過有經驗的分子生物學家和蛋白質化學家通過計算機工具并查閱有關文獻資料仔細核實。SWISS-PROT的特點b.每個條目包含條目基本信息、分類信息（描述蛋白質的生物來源）、引用文獻信息、注釋、蛋白質序列等(如：ampG)。c.蛋白質注釋

包括蛋白質的功能、翻譯后修飾（如糖基化和磷酸化）、結構域和結合位點、二級結構（如α-螺旋和β-片層）、四級結構（如同聚體和異聚體）、與其它蛋白質序列的相似性、蛋白質序列殘缺與疾病的關系、序列沖突和變異體等信息。d.SWISS-PROT中盡可能減少冗余序列e.

與其它30多個數(shù)據(jù)庫建立了交叉引用，其中包括核酸序列數(shù)據(jù)庫、蛋白質序列數(shù)據(jù)庫和蛋白質結構數(shù)據(jù)庫等。f.利用序列檢索系統(tǒng)（SRS）可以方便地檢索SWISS-PROT和其它EBI的數(shù)據(jù)庫。2.TrEMBLTrEMBL數(shù)據(jù)庫建于1995年，意為“TranslationfromEMBL”。該數(shù)據(jù)庫采用SwissPro數(shù)據(jù)庫格式，其數(shù)據(jù)來源于:EMBL核酸序列數(shù)據(jù)庫（或GenBank、DDBJ）中所有編碼序列經計算機程序自動翻譯的蛋白質從文獻中查到的或向SWISS-PROT遞交的并未整合到SWISS-PROT的蛋白質序列3.PIR-PSD蛋白質信息資源－國際蛋白質序列數(shù)據(jù)庫（theProteinInformationResource-InternationalProteinSequenceDatabase，PIR-PSD由蛋白質信息資源（PIR）、慕尼黑蛋白質序列信息中心（MIPS）和日本國際蛋白質序列數(shù)據(jù)庫（JIPID）共同維護，PIR是最早的數(shù)據(jù)庫，現(xiàn)已并入UniProtKnowledgebase是一個全面的、非冗余的、經過專家注釋的公共蛋白質序列數(shù)據(jù)庫。PIR-PSD收集已發(fā)表的蛋白質序列、來源、參考文獻和特征信息等，她的注釋中還包括一些原始遞交記錄中沒有的相關信息，如在遺傳圖譜的位置、內含子位置、以及和其他序列、結構、基因組和引文數(shù)據(jù)庫（如Medline、PDB和TIGR等）的相互參照PIR-PSD的另一個重要特征是其對蛋白質超家族的分類，提供序列的等級聚類信息，揭示序列間的進化關系。4.UniPro蛋白質信息資源（PIR）、歐洲生物信息學研究所（EBI）和瑞士生物信息學研究所（SIB）合作，于2002年共同組建世界蛋白質資源（theUniversalProteinResource，UniPro）。UniPro把Swiss-Prot、TrEMBL和PIR等蛋白質數(shù)據(jù)庫整合在一起，是目前國際上最全面的蛋白質信息庫。TheUniProtKnowledgebase(UniProtKB)TheUniProtKnowledgebasecontinuestheworkofSwiss-Prot,TrEMBLandPIR-PSDbyprovidinganexpertlyandrichlycuratedproteindatabaseConsistingoftwosections.UniProtKB/Swiss-ProtUniProtKB/TrEMBL.UniProtReferenceClusters(UniRef)TheUniProtReferenceClusters(UniRef)

provideclusteredsetsofsequencesfromUniProtKBandselectedUniParcrecords.Itprovidecompletecoverageofsequencespaceatseveralresolutionsandspeedsimilaritysearchesviasequencespacecompressionbymergingsequencesthatare100%(UniRef100),90%(UniRef90)or50%(UniRef50)identical.UniRef90andUniRef50yieldadatabasesizereductionofapproximately40%and65%,respectively,providingsignificantlyfastersequencesearches.UniProtArchive(UniParc)Captureallpubliclyavailableproteinsequencedataandcontainsalltheproteinsequencesfromthemainpubliclyavailableproteinsequencedatabases.UniParcisthemostcomprehensivepubliclyaccessiblenon-redundantproteinsequencedatabase.Youcaninstantlyfindoutwhetherasequenceofinterestisalreadyinthepublicdomainand,ifnot,identifyitsclosestrelatives.YoucanalwaystracethesourcedatabasebecauseUniParccross-referencestheiraccessionnumbers.Youcanobservesequencechangesinallthesourcedatabases.UniParcrecordsarenotannotated5.Uni-Pro數(shù)據(jù)檢索七、疾病相關基因數(shù)據(jù)庫（1）OMIM：OMIM（OnlineMendelianInheritanceinMan）是美國JonhsHopkins大學Dr.VictorA.McKusick等人建立和編輯的有關人類基因和遺傳病目錄的電子版。于本世紀60年代創(chuàng)立，旨在為臨床醫(yī)師和遺傳病研究工作者提供服務。OMIM包含大量的及時更新的有關人類基因及其突變序列數(shù)據(jù)和遺傳病的臨床特征等信息和相關參考文獻。OMIM數(shù)據(jù)庫基本信息

MIM----概述、克隆、基因結構、物理圖、基因功能、生化特征、分子遺傳學、動物模型、等位突變、參考文獻、編輯史等．Eztrezgene----分類、參考序列、蛋白質等LinkoutP53基因的OMIM檢索結果：（2）GeneCardsGeneCards數(shù)據(jù)庫是由以色列Weizmann科學研究所（WeizmannInstituteofScience）和Crown人類基因組中心（CrownHumanGenomeCenter）建立和維護的它鏈接、收集了如HUGO，SWISS-PORT，Genbank，PubMed，OMIM，HGMD，Unigene等五十多個數(shù)據(jù)庫，提供有關人類、果蠅、小鼠等基因的相關信息，以及多種遺傳性疾病、癌癥、轉基因資料它對所有數(shù)據(jù)庫的信息進行了科學地分類整理，形成了一個關于基因及其產物的生物學和醫(yī)學信息的電子百科全書它的智能化的導航系統(tǒng)，使用戶能方便地查找感興趣的內容。它還提供了幾十個鏡像站，與很多的研究所、醫(yī)院、基因中心等鏈接，便于用戶進一步查找相關信息。八、蛋白質數(shù)據(jù)分析

由于傳統(tǒng)的用X光晶體衍射和核磁共振技術測定蛋白質的三維結構、用生化方法研究蛋白質功能的效率不高，無法適應由基因組測序所帶來的蛋白質序列數(shù)量飛速增長的需要，近年來，許多科學家致力于用理論計算的方法預測蛋白質的三維結構和功能，提高蛋白質功能研究的效率，并取得了一定的成果。1.蛋白質基本性質分析蛋白質序列分析的基本方面：包括分析蛋白質的氨基酸組成、相對分子質量、等電點、親水性、疏水性、消光系數(shù)、信號肽等在一些蛋白質數(shù)據(jù)庫如UniPro等可查詢到已收錄序列的基本理化性狀對于新得到的蛋白質序列，可通過蛋白質序列分析專家系統(tǒng)ExPASy服務系統(tǒng)的蛋白組學工具軟件如ProtParam、ProScale和ComputepI/Mw等軟件進行分析（）2.蛋白質功能預測InterPro數(shù)據(jù)庫與蛋白質功能預測蛋白質的功能分類蛋白質序列的代謝途徑分析

由EBI，SIB，SangerInstitute

等十多家單位維護結合了UniProt、PROSITE，

Pfam，PRINTS，ProDom、

SMART，PANTHER和

Gene3D等數(shù)據(jù)庫（1）InterPro數(shù)據(jù)庫與蛋白質功能預測InterPro功能

收集了已知蛋白質家族、蛋白質功能域和功能位點的信息，可用于未知蛋白質序列的：分類（superfamily,familyandsubfamilylevels）功能域重復序列重要位點其他的包括GOterms等深度注釋不同數(shù)據(jù)庫在數(shù)據(jù)組成上有所不同Pfam包含常見的蛋白質功能域和蛋白質家族，可瀏覽蛋白質家族的多序列比對結果、蛋白質功能域的立體構造、蛋白質家族的物種分布等。PANTHER主要包含蛋白質家族的功能分類信息，一個大的蛋白質家族進一步按功能上的差異被歸納成一些次家族，顯示蛋白質家族不同成員的特定功能的差異，使蛋白質家族的功能表達更準確。ProDom家族是由UniProtKnowledgeDatabase中自動生成的綜合性的蛋白質功能域家族數(shù)據(jù)庫。VisualizationofProDomdomainson3Dstructures;couplingofProDomanalysiswiththeGeno3Dhomologymodellingserver;ProDom-SG,aProDom-basedserverdedicatedtotheselectionofcandidateproteinsforstructuralgenomics.SMART由兩部分組成，普通SMART（NormalSMART）收集了Swiss-Prot，SP-TrEMBL和stableEnsemblproteomes的蛋白質數(shù)據(jù)，而基因組SMART（GenomicSMART）僅包含全基因組測序的生物基因組的蛋白質信息。(2)

蛋

白質的功能分類

基因分類協(xié)會（GeneOntologyConsortium，GOC）整合了現(xiàn)有數(shù)據(jù)庫生物信息資源，建立了基因分類數(shù)據(jù)庫（theGeneOntology）GOC基因分類協(xié)會(GOC)建立了可控的動態(tài)詞匯系統(tǒng)，它從分子功能(MolecularFunction)、生物過程(BiologicalProcess)和細胞組分(CellularComponent)3個不同分類角度，建立了3棵分類樹對已經分類到樹上的同源蛋白質序列，賦予蛋白質特定的術語名稱和GO編號GOC各成員提供其蛋白質數(shù)據(jù)庫中已分類的蛋白編號和GO號對照表，是對未知蛋白序列進行分類的參照和標準目前GeneBank和SwissProt已有60多萬條蛋白序列具有GO號，即它們定位于GO的分類樹上。同時一些綜合的蛋白質注釋數(shù)據(jù)庫如酶協(xié)會(EC)、InterPro等與GO還有相對應的列表，從而使蛋白序列數(shù)據(jù)庫和分類樹建立起聯(lián)系GOC基因分類協(xié)會成員TheOntologiesGO的組織原則：cellularcomponentbiologicalprocess

molecularfunction.Ageneproductmightbeassociatedwithorlocatedinoneormorecellularcomponents;itisactiveinoneormorebiologicalprocesses,duringwhichitperformsoneormoremolecularfunctions.

如基因產物cytochromec可被描述成：

themolecularfunctionterm：oxidoreductaseactivity

thebiologicalprocessterms：

oxidativephosphorylationandinductionofcelldeath

thecellularcomponentterms：

mitochondrialmatrixandmitochondrialinnermembrane3個分支：分子功能、生物過程和細胞組成FunctionalclassNumberPercentageRegulatoryfunction451.05Putativeregulatoryproteins1333.10Cellstructure1824.24Putativemembraneproteins130.30Putativestructuralproteins420.98Phage,transposons,plasmids872.03Transportandbindingproteins2816.55Putativetransportproteins1463.40Energymetabolism2435.67DNAreplication,bination,modification,andrepair1152.68Transcription,RNAsynthesis,metabolism,andmodification551.28Translation,posttranslationalproteinmodification1824.24E.coliproteins的22個功能類群

（tobecontinued）

FunctionalclassNumberPercentage

Cellprocesses(includingadaptation,protection)1884.38Biosynthesisofcofactors,prostheticgroups,andcarriers1032.40Putativechaperones90.21Nucleotidebiosynthesisandmetabolism581.35Aminoacidbiosynthesisandmetabolism1313.06Fattyacidandphospholipidmetabolism481.12Carboncompoundcatabolism1303.03Centralintermediarymetabolism1884.38Putativeenzymes2515.85Otherknowngenes(geneproductorphenotypeknown)260.61Hypothetical,unclassified,unknown163238.06Total4288100.00編碼序列的注釋－－

DistributionofSC-B67proteinsamong22functionalgroups(3)蛋白質序列的代謝途徑分析京都基因和基因組百科全書（KyotoEncyclopediaofGenesandGenomes，KEGG，）是日本京都大學生物信息學中心建立和維護的系統(tǒng)分析基因功能的綜合數(shù)據(jù)庫

包含7萬多條代謝途徑的數(shù)據(jù)庫有關基因目錄（GeneCatalogs）的基因數(shù)據(jù)庫（GENES）有關功能等級（FunctionalHierarchies）的BRITE數(shù)據(jù)庫有關化學物質及其反應（BioChemicalcompoundsandReactions）配體數(shù)據(jù)庫（LIGAND）KEGGDatabases

KEGGpathway數(shù)據(jù)的結構3.蛋白質結構預測(1)蛋白質二級結構預測二級結構：是指廣泛地存在于球狀蛋白質內的α－螺旋（α-helix）、β－折疊（β-pleatedsheet）和β－轉角（β-turn）等規(guī)則的蛋白質局部結構單元。在球狀蛋白質中，常見若干相鄰的二級結構單元組合在一起，形成規(guī)則的、在空間上能辨認的充當三級結構構件（blockbuilding）的二級結構組合體（combination），又稱超二級結構（supersecondarystructure）。蛋白質二級結構的預測大多通過與已知蛋白質的三維結構和二級結構相比較，或通過計算各種結構中氨基酸出現(xiàn)的頻率規(guī)律，結合人工神經網(wǎng)絡、遺傳算法等技術構建預測方法實現(xiàn)的。目前，二級結構預測對α－螺旋預測精度較好，對β－折疊的預測精度差些。蛋白質二級結構預測的工具用于蛋白質二級結構預測的工具較多，如：PredictProtein（）ANTHEPROT（http：//antheprot-pbil.ibcp.fr/）COILS（http：/

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

生物信息學-第1次理論

文檔簡介

溫馨提示

最新文檔

評論

生物信息學-第1次理論

文檔簡介

溫馨提示

最新文檔

評論

相關文檔