生物信息學(xué)-第1次理論_第1頁
生物信息學(xué)-第1次理論_第2頁
生物信息學(xué)-第1次理論_第3頁
生物信息學(xué)-第1次理論_第4頁
生物信息學(xué)-第1次理論_第5頁
已閱讀5頁,還剩68頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

六、蛋白質(zhì)序列數(shù)據(jù)庫UniPro

Swiss-Prot

TrEMBL

PIR-PSDThemissionof

UniProt

istoprovidethescientificcommunitywithacomprehensive,high-qualityandfreelyaccessibleresourceofproteinsequenceandfunctionalinformation.1.Swiss-ProtSWISS-PROT由瑞士日內(nèi)瓦大學(xué)醫(yī)學(xué)生化系于1978年創(chuàng)建,后來與歐洲分子生物學(xué)實(shí)驗(yàn)室合作,由瑞士生物信息學(xué)研究所(SwissInstituteofBioinformatics,SIB)和歐洲生物信息學(xué)研究所(EBI)共同維護(hù)和管理現(xiàn)已整合進(jìn)UniProtKB/Swiss-Prot。a.所有序列條目都經(jīng)過有經(jīng)驗(yàn)的分子生物學(xué)家和蛋白質(zhì)化學(xué)家通過計(jì)算機(jī)工具并查閱有關(guān)文獻(xiàn)資料仔細(xì)核實(shí)。SWISS-PROT的特點(diǎn)b.每個(gè)條目包含條目基本信息、分類信息(描述蛋白質(zhì)的生物來源)、引用文獻(xiàn)信息、注釋、蛋白質(zhì)序列等(如:ampG)。c.蛋白質(zhì)注釋

包括蛋白質(zhì)的功能、翻譯后修飾(如糖基化和磷酸化)、結(jié)構(gòu)域和結(jié)合位點(diǎn)、二級結(jié)構(gòu)(如α-螺旋和β-片層)、四級結(jié)構(gòu)(如同聚體和異聚體)、與其它蛋白質(zhì)序列的相似性、蛋白質(zhì)序列殘缺與疾病的關(guān)系、序列沖突和變異體等信息。d.SWISS-PROT中盡可能減少冗余序列e.

與其它30多個(gè)數(shù)據(jù)庫建立了交叉引用,其中包括核酸序列數(shù)據(jù)庫、蛋白質(zhì)序列數(shù)據(jù)庫和蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫等。f.利用序列檢索系統(tǒng)(SRS)可以方便地檢索SWISS-PROT和其它EBI的數(shù)據(jù)庫。2.TrEMBLTrEMBL數(shù)據(jù)庫建于1995年,意為“TranslationfromEMBL”。該數(shù)據(jù)庫采用SwissPro數(shù)據(jù)庫格式,其數(shù)據(jù)來源于:EMBL核酸序列數(shù)據(jù)庫(或GenBank、DDBJ)中所有編碼序列經(jīng)計(jì)算機(jī)程序自動(dòng)翻譯的蛋白質(zhì)從文獻(xiàn)中查到的或向SWISS-PROT遞交的并未整合到SWISS-PROT的蛋白質(zhì)序列3.PIR-PSD蛋白質(zhì)信息資源-國際蛋白質(zhì)序列數(shù)據(jù)庫(theProteinInformationResource-InternationalProteinSequenceDatabase,PIR-PSD由蛋白質(zhì)信息資源(PIR)、慕尼黑蛋白質(zhì)序列信息中心(MIPS)和日本國際蛋白質(zhì)序列數(shù)據(jù)庫(JIPID)共同維護(hù),PIR是最早的數(shù)據(jù)庫,現(xiàn)已并入U(xiǎn)niProtKnowledgebase是一個(gè)全面的、非冗余的、經(jīng)過專家注釋的公共蛋白質(zhì)序列數(shù)據(jù)庫。PIR-PSD收集已發(fā)表的蛋白質(zhì)序列、來源、參考文獻(xiàn)和特征信息等,她的注釋中還包括一些原始遞交記錄中沒有的相關(guān)信息,如在遺傳圖譜的位置、內(nèi)含子位置、以及和其他序列、結(jié)構(gòu)、基因組和引文數(shù)據(jù)庫(如Medline、PDB和TIGR等)的相互參照PIR-PSD的另一個(gè)重要特征是其對蛋白質(zhì)超家族的分類,提供序列的等級聚類信息,揭示序列間的進(jìn)化關(guān)系。4.UniPro蛋白質(zhì)信息資源(PIR)、歐洲生物信息學(xué)研究所(EBI)和瑞士生物信息學(xué)研究所(SIB)合作,于2002年共同組建世界蛋白質(zhì)資源(theUniversalProteinResource,UniPro)。UniPro把Swiss-Prot、TrEMBL和PIR等蛋白質(zhì)數(shù)據(jù)庫整合在一起,是目前國際上最全面的蛋白質(zhì)信息庫。TheUniProtKnowledgebase(UniProtKB)TheUniProtKnowledgebasecontinuestheworkofSwiss-Prot,TrEMBLandPIR-PSDbyprovidinganexpertlyandrichlycuratedproteindatabaseConsistingoftwosections.UniProtKB/Swiss-ProtUniProtKB/TrEMBL.UniProtReferenceClusters(UniRef)TheUniProtReferenceClusters(UniRef)

provideclusteredsetsofsequencesfromUniProtKBandselectedUniParcrecords.Itprovidecompletecoverageofsequencespaceatseveralresolutionsandspeedsimilaritysearchesviasequencespacecompressionbymergingsequencesthatare100%(UniRef100),90%(UniRef90)or50%(UniRef50)identical.UniRef90andUniRef50yieldadatabasesizereductionofapproximately40%and65%,respectively,providingsignificantlyfastersequencesearches.UniProtArchive(UniParc)Captureallpubliclyavailableproteinsequencedataandcontainsalltheproteinsequencesfromthemainpubliclyavailableproteinsequencedatabases.UniParcisthemostcomprehensivepubliclyaccessiblenon-redundantproteinsequencedatabase.Youcaninstantlyfindoutwhetherasequenceofinterestisalreadyinthepublicdomainand,ifnot,identifyitsclosestrelatives.YoucanalwaystracethesourcedatabasebecauseUniParccross-referencestheiraccessionnumbers.Youcanobservesequencechangesinallthesourcedatabases.UniParcrecordsarenotannotated5.Uni-Pro數(shù)據(jù)檢索七、疾病相關(guān)基因數(shù)據(jù)庫(1)OMIM:OMIM(OnlineMendelianInheritanceinMan)是美國JonhsHopkins大學(xué)Dr.VictorA.McKusick等人建立和編輯的有關(guān)人類基因和遺傳病目錄的電子版。于本世紀(jì)60年代創(chuàng)立,旨在為臨床醫(yī)師和遺傳病研究工作者提供服務(wù)。OMIM包含大量的及時(shí)更新的有關(guān)人類基因及其突變序列數(shù)據(jù)和遺傳病的臨床特征等信息和相關(guān)參考文獻(xiàn)。OMIM數(shù)據(jù)庫基本信息

MIM----概述、克隆、基因結(jié)構(gòu)、物理圖、基因功能、生化特征、分子遺傳學(xué)、動(dòng)物模型、等位突變、參考文獻(xiàn)、編輯史等.Eztrezgene----分類、參考序列、蛋白質(zhì)等LinkoutP53基因的OMIM檢索結(jié)果:(2)GeneCardsGeneCards數(shù)據(jù)庫是由以色列Weizmann科學(xué)研究所(WeizmannInstituteofScience)和Crown人類基因組中心(CrownHumanGenomeCenter)建立和維護(hù)的它鏈接、收集了如HUGO,SWISS-PORT,Genbank,PubMed,OMIM,HGMD,Unigene等五十多個(gè)數(shù)據(jù)庫,提供有關(guān)人類、果蠅、小鼠等基因的相關(guān)信息,以及多種遺傳性疾病、癌癥、轉(zhuǎn)基因資料它對所有數(shù)據(jù)庫的信息進(jìn)行了科學(xué)地分類整理,形成了一個(gè)關(guān)于基因及其產(chǎn)物的生物學(xué)和醫(yī)學(xué)信息的電子百科全書它的智能化的導(dǎo)航系統(tǒng),使用戶能方便地查找感興趣的內(nèi)容。它還提供了幾十個(gè)鏡像站,與很多的研究所、醫(yī)院、基因中心等鏈接,便于用戶進(jìn)一步查找相關(guān)信息。八、蛋白質(zhì)數(shù)據(jù)分析

由于傳統(tǒng)的用X光晶體衍射和核磁共振技術(shù)測定蛋白質(zhì)的三維結(jié)構(gòu)、用生化方法研究蛋白質(zhì)功能的效率不高,無法適應(yīng)由基因組測序所帶來的蛋白質(zhì)序列數(shù)量飛速增長的需要,近年來,許多科學(xué)家致力于用理論計(jì)算的方法預(yù)測蛋白質(zhì)的三維結(jié)構(gòu)和功能,提高蛋白質(zhì)功能研究的效率,并取得了一定的成果。1.蛋白質(zhì)基本性質(zhì)分析蛋白質(zhì)序列分析的基本方面:包括分析蛋白質(zhì)的氨基酸組成、相對分子質(zhì)量、等電點(diǎn)、親水性、疏水性、消光系數(shù)、信號肽等在一些蛋白質(zhì)數(shù)據(jù)庫如UniPro等可查詢到已收錄序列的基本理化性狀對于新得到的蛋白質(zhì)序列,可通過蛋白質(zhì)序列分析專家系統(tǒng)ExPASy服務(wù)系統(tǒng)的蛋白組學(xué)工具軟件如ProtParam、ProScale和ComputepI/Mw等軟件進(jìn)行分析()2.蛋白質(zhì)功能預(yù)測InterPro數(shù)據(jù)庫與蛋白質(zhì)功能預(yù)測蛋白質(zhì)的功能分類蛋白質(zhì)序列的代謝途徑分析

由EBI,SIB,SangerInstitute

等十多家單位維護(hù)結(jié)合了UniProt、PROSITE,

Pfam,PRINTS,ProDom、

SMART,PANTHER和

Gene3D等數(shù)據(jù)庫(1)InterPro數(shù)據(jù)庫與蛋白質(zhì)功能預(yù)測InterPro功能

收集了已知蛋白質(zhì)家族、蛋白質(zhì)功能域和功能位點(diǎn)的信息,可用于未知蛋白質(zhì)序列的:分類(superfamily,familyandsubfamilylevels)功能域重復(fù)序列重要位點(diǎn)其他的包括GOterms等深度注釋不同數(shù)據(jù)庫在數(shù)據(jù)組成上有所不同Pfam包含常見的蛋白質(zhì)功能域和蛋白質(zhì)家族,可瀏覽蛋白質(zhì)家族的多序列比對結(jié)果、蛋白質(zhì)功能域的立體構(gòu)造、蛋白質(zhì)家族的物種分布等。PANTHER主要包含蛋白質(zhì)家族的功能分類信息,一個(gè)大的蛋白質(zhì)家族進(jìn)一步按功能上的差異被歸納成一些次家族,顯示蛋白質(zhì)家族不同成員的特定功能的差異,使蛋白質(zhì)家族的功能表達(dá)更準(zhǔn)確。ProDom家族是由UniProtKnowledgeDatabase中自動(dòng)生成的綜合性的蛋白質(zhì)功能域家族數(shù)據(jù)庫。VisualizationofProDomdomainson3Dstructures;couplingofProDomanalysiswiththeGeno3Dhomologymodellingserver;ProDom-SG,aProDom-basedserverdedicatedtotheselectionofcandidateproteinsforstructuralgenomics.SMART由兩部分組成,普通SMART(NormalSMART)收集了Swiss-Prot,SP-TrEMBL和stableEnsemblproteomes的蛋白質(zhì)數(shù)據(jù),而基因組SMART(GenomicSMART)僅包含全基因組測序的生物基因組的蛋白質(zhì)信息。(2)

白質(zhì)的功能分類

基因分類協(xié)會(huì)(GeneOntologyConsortium,GOC)整合了現(xiàn)有數(shù)據(jù)庫生物信息資源,建立了基因分類數(shù)據(jù)庫(theGeneOntology)GOC基因分類協(xié)會(huì)(GOC)建立了可控的動(dòng)態(tài)詞匯系統(tǒng),它從分子功能(MolecularFunction)、生物過程(BiologicalProcess)和細(xì)胞組分(CellularComponent)3個(gè)不同分類角度,建立了3棵分類樹對已經(jīng)分類到樹上的同源蛋白質(zhì)序列,賦予蛋白質(zhì)特定的術(shù)語名稱和GO編號GOC各成員提供其蛋白質(zhì)數(shù)據(jù)庫中已分類的蛋白編號和GO號對照表,是對未知蛋白序列進(jìn)行分類的參照和標(biāo)準(zhǔn)目前GeneBank和SwissProt已有60多萬條蛋白序列具有GO號,即它們定位于GO的分類樹上。同時(shí)一些綜合的蛋白質(zhì)注釋數(shù)據(jù)庫如酶協(xié)會(huì)(EC)、InterPro等與GO還有相對應(yīng)的列表,從而使蛋白序列數(shù)據(jù)庫和分類樹建立起聯(lián)系GOC基因分類協(xié)會(huì)成員TheOntologiesGO的組織原則:cellularcomponentbiologicalprocess

molecularfunction.Ageneproductmightbeassociatedwithorlocatedinoneormorecellularcomponents;itisactiveinoneormorebiologicalprocesses,duringwhichitperformsoneormoremolecularfunctions.

如基因產(chǎn)物cytochromec可被描述成:

themolecularfunctionterm:oxidoreductaseactivity

thebiologicalprocessterms:

oxidativephosphorylationandinductionofcelldeath

thecellularcomponentterms:

mitochondrialmatrixandmitochondrialinnermembrane3個(gè)分支:分子功能、生物過程和細(xì)胞組成FunctionalclassNumberPercentageRegulatoryfunction451.05Putativeregulatoryproteins1333.10Cellstructure1824.24Putativemembraneproteins130.30Putativestructuralproteins420.98Phage,transposons,plasmids872.03Transportandbindingproteins2816.55Putativetransportproteins1463.40Energymetabolism2435.67DNAreplication,bination,modification,andrepair1152.68Transcription,RNAsynthesis,metabolism,andmodification551.28Translation,posttranslationalproteinmodification1824.24E.coliproteins的22個(gè)功能類群

(tobecontinued)

FunctionalclassNumberPercentage

Cellprocesses(includingadaptation,protection)1884.38Biosynthesisofcofactors,prostheticgroups,andcarriers1032.40Putativechaperones90.21Nucleotidebiosynthesisandmetabolism581.35Aminoacidbiosynthesisandmetabolism1313.06Fattyacidandphospholipidmetabolism481.12Carboncompoundcatabolism1303.03Centralintermediarymetabolism1884.38Putativeenzymes2515.85Otherknowngenes(geneproductorphenotypeknown)260.61Hypothetical,unclassified,unknown163238.06Total4288100.00編碼序列的注釋--

DistributionofSC-B67proteinsamong22functionalgroups(3)蛋白質(zhì)序列的代謝途徑分析京都基因和基因組百科全書(KyotoEncyclopediaofGenesandGenomes,KEGG,)是日本京都大學(xué)生物信息學(xué)中心建立和維護(hù)的系統(tǒng)分析基因功能的綜合數(shù)據(jù)庫

包含7萬多條代謝途徑的數(shù)據(jù)庫有關(guān)基因目錄(GeneCatalogs)的基因數(shù)據(jù)庫(GENES)有關(guān)功能等級(FunctionalHierarchies)的BRITE數(shù)據(jù)庫有關(guān)化學(xué)物質(zhì)及其反應(yīng)(BioChemicalcompoundsandReactions)配體數(shù)據(jù)庫(LIGAND)KEGGDatabases

KEGGpathway數(shù)據(jù)的結(jié)構(gòu)3.蛋白質(zhì)結(jié)構(gòu)預(yù)測(1)蛋白質(zhì)二級結(jié)構(gòu)預(yù)測二級結(jié)構(gòu):是指廣泛地存在于球狀蛋白質(zhì)內(nèi)的α-螺旋(α-helix)、β-折疊(β-pleatedsheet)和β-轉(zhuǎn)角(β-turn)等規(guī)則的蛋白質(zhì)局部結(jié)構(gòu)單元。在球狀蛋白質(zhì)中,常見若干相鄰的二級結(jié)構(gòu)單元組合在一起,形成規(guī)則的、在空間上能辨認(rèn)的充當(dāng)三級結(jié)構(gòu)構(gòu)件(blockbuilding)的二級結(jié)構(gòu)組合體(combination),又稱超二級結(jié)構(gòu)(supersecondarystructure)。蛋白質(zhì)二級結(jié)構(gòu)的預(yù)測大多通過與已知蛋白質(zhì)的三維結(jié)構(gòu)和二級結(jié)構(gòu)相比較,或通過計(jì)算各種結(jié)構(gòu)中氨基酸出現(xiàn)的頻率規(guī)律,結(jié)合人工神經(jīng)網(wǎng)絡(luò)、遺傳算法等技術(shù)構(gòu)建預(yù)測方法實(shí)現(xiàn)的。目前,二級結(jié)構(gòu)預(yù)測對α-螺旋預(yù)測精度較好,對β-折疊的預(yù)測精度差些。蛋白質(zhì)二級結(jié)構(gòu)預(yù)測的工具用于蛋白質(zhì)二級結(jié)構(gòu)預(yù)測的工具較多,如:PredictProtein()ANTHEPROT(http://antheprot-pbil.ibcp.fr/)COILS(http:/

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論