




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、生物信息學,第三講:序列的采集、存儲和查詢,本章內(nèi)容提要,1. DNA測序 2. 序列數(shù)據(jù)的存儲 3. 序列數(shù)據(jù)的文件格式 4. 序列數(shù)據(jù)的查詢,1. DNA測序,1. DNA一次測序的長度為500bp。 2.基因組的測序方案:將大的染色體打斷成100kbp的片斷,插入到BAC (Bacterial Artificial Chromosome)中。再隨機打斷,克隆,然后再組裝成長的序列(contig)。 3. EST (Expressed sequence tag) 測序:細胞中mRNA反轉(zhuǎn)錄成cDNA,方向不定,測序。 4. UniGene: 為每一個基因創(chuàng)造一個唯一的條目,收集這個基因所有
2、的ESTs. 5. GSS (基因組測序序列):類似于ESTs,來源基因組。 6. HTG (高通量基因組序列):高通量、尚未完工的DNA序列,基因組測序:兩種方案,1. DNA片段在染色體上的位置、方向已知。首先染色體被打斷成150kbp左右的片段,然后克隆到BACs中,再進一步打碎,克隆,測序,組裝。 2. “鳥槍法”,shotgun,隨機將DNA片段打碎,克隆,測序,組裝。DNA片段在染色體上的位置和方向未知,2. 序列數(shù)據(jù)的存儲,1. 核酸三大數(shù)據(jù)庫:GenBank, EBI, DDBJ. 2. Ensembl數(shù)據(jù)庫:基因組注釋。 3. ESTs數(shù)據(jù)庫; 4. UniGene數(shù)據(jù)庫 5
3、. Refseq數(shù)據(jù)庫; 6. NCBI的Gene信息數(shù)據(jù)庫; 7. 蛋白質(zhì)序列:Swissprot/TrEMBL/UniProt數(shù)據(jù)庫,三大數(shù)據(jù)庫之間的聯(lián)系,GenBank中測序最多的20個物種,161.0版,2007.08,dbEST: 表達序列標簽數(shù)據(jù)庫,2007.08,總序列45,660,524條,最多的20個物種如下,UniGene: An Organized View of the Transcriptom,Refseq數(shù)據(jù)庫,1. 提供高質(zhì)量的,無冗余的,完整的序列信息; 2. 包括基因組的DNA,轉(zhuǎn)錄成的RNA以及蛋白質(zhì)序列信息。 3. 序列文件的標識符: DNA/RNA序列,
4、NM_XXXXXX; 蛋白質(zhì)序列:NP_XXXXXX,NCBI Gene,1. /sites/entrez?db=gene 2. 序列從Refseq數(shù)據(jù)庫中得到; 3. 詳盡的注釋信息,包括基因在基因組的定位,基因名稱、蛋白質(zhì)名稱,基因結(jié)構(gòu),等等,UniProt,1. 專家審核的蛋白質(zhì)序列數(shù)據(jù)與知識庫; 2. UniProt Knowledgebase:Release 12.1,2007.08 3. 包括: Swiss-Prot Release 54.1 of 21-Aug-2007: 277883 entries; TrEMBL Relea
5、se 37.1 of 21-Aug-2007: 4754787 entries,Swiss-Prot Release 54.1,TrEMBL Release 37.1,3. 序列數(shù)據(jù)的文件格式,1. DNA/RNA/氨基酸代碼的標識 2. GenBank數(shù)據(jù)格式 3. UniProt 4. FASTA,GenBank數(shù)據(jù)格式,Definition: 標題,序列長度,數(shù)據(jù)類型,Accession number,版本號,GI number,GenBank的數(shù)據(jù)類型,UniProt數(shù)據(jù)格式,Accession number,FASTA格式,4. 序列數(shù)據(jù)的查詢,某天,Prof. Gene發(fā)現(xiàn)人的He
6、la細胞中,有絲分裂期間有異常情況:細胞不再分裂,而是開始凋亡(表型,phenotype),通過實驗的方法(例如,酵母雙雜交),發(fā)現(xiàn)了與有絲分裂期間某個蛋白可能相互作用的一個基因,測序結(jié)果如下(genotype,CCCCTGCCTGGCAGCCCTTTCTCAAGGACCACCGCATCTCTACATTCAAGAACTGGCCCTTCTTGGAGGGCTGCGCCTGCACCCCGGAGCGGATGGCCGAGGCTGGCTTCATCCACTGCCCCACTGAGAACGAGCCAGACTTGGCCCAGTGTTTCTTCTGCTTCAAGGAGCTGGAAGGCTGGGAGCCAGATGAC
7、GACCCCATAGAGGAACATAAAAAGCATTCGTCCGGTTGCGCTTTCCTTTCTGTCAAGAAGCAGTTTGAAGAATTAACCCTTGGTGAATTTTTGAAACTGGACAGAGAAAGAGCCAAGAACAAAATTGCAAAGGAAACCAACAATAAGAAGAAAGAATTTGAGGAAACTGCGGAGAAAGTGCGCCGTGCCATCGAGCAGCTGGCTGCCATGGATTGAGGCCTCTGGC,問題,1. 這是哪個基因? 2. 編碼的蛋白質(zhì)序列是怎樣的? 3. 有沒有保守的功能結(jié)構(gòu)域 (domain)? 4. 它的功能是怎樣的? 5. 它
8、在真核生物中保守嗎? 6. 有沒有三級結(jié)構(gòu)信息,NCBI: BLAST,,nucleotide blast,Megablast: 找基因序列,輸入序列,提交序列,NM_001168.2:Survivin,UniGene,Geo: 基因表達信息,Gene info:基因信息,Survivin,Gene info: 17號染色體,功能注釋:Gene Ontology,結(jié)論1,1. 該基因為人的Survivin基因,染色體定位:17號染色體,73721872-73733311;基因標識符:NM_001168.2; 2. 初步的功能分析:細胞周期,c
9、aspase酶的抑制因子,等等,NM_001168.2:Survivin,Human Survivin,獲取蛋白質(zhì)的序列信息,Survivin:142aa,結(jié)論2,人的Survivin蛋白質(zhì)包含142個氨基酸,序列標識符為:NP_001159.2,獲取FASTA序列,FASTA格式的序列,PHI-BLAST: find domain,填入蛋白質(zhì)的FASTA序列,BIR domain,結(jié)論3,Survivin具有保守的功能結(jié)構(gòu)域BIR,UniProt: 蛋白質(zhì)數(shù)據(jù)庫,在人中做BLAST搜索,Survivin:O15392,Survivin的蛋白質(zhì)信息,功能注釋,結(jié)論4:功能分析,1. 在瘤形成過
10、程中可能起一定作用; 2. 阻礙G2/M期的細胞編程性凋亡; 3. Chromosomal passenger complex (CPC)的成員之一。 細胞亞定位:胞質(zhì),核,人的Survivin在酵母中有同源物嗎,提交序列,在酵母中進行序列比對,酵母BIR1: P47134,酵母BIR1的信息,結(jié)論5,人的Survivin在酵母中的同源物可能是BIR1,PDB:三級結(jié)構(gòu)數(shù)據(jù)庫,Survivin的三級結(jié)構(gòu)信息,Raswin: 三級結(jié)構(gòu)顯示,總結(jié),現(xiàn)在,Prof. Gene知道了: 1. 該基因為人的Survivin基因,染色體定位:17號染色體,73721872-73733311;基因標識符:N
11、M_001168.2; 2. 人的Survivin蛋白質(zhì)包含142個氨基酸,序列標識符為:NP_001159.2 3. Survivin具有保守的功能結(jié)構(gòu)域BIR 4. Survivin的細胞亞定位:胞質(zhì),核,其功能有: (1) 在瘤形成過程中可能起一定作用; (2) 阻礙G2/M期的細胞編程性凋亡; (3) Chromosomal passenger complex (CPC)的成員之一。等等。 5. 人的Survivin在酵母中的同源物可能是BIR1。 6. Survivin的三級結(jié)構(gòu)已知,在PDB中的標識符為1E31,作業(yè),某天,Prof. Gene在小鼠(Mus musculus)中又
12、發(fā)現(xiàn)了一個與有絲分裂相關(guān)的基因,通過DNA測序,得到部分序列,GATGAGCTGCTTATCCTACAACGAGAAGTCGGACATCTGGTCCTTGGGCTGCCTGCTGTATGAGCTGTGTGCACTAATGCCTCCCTTTACAGCTTTCAACCAAAAAGAGCTAGCTGGGAAAATCAGGGAAGGGAGGTTCAGGCGCATCCCCTACCGCTACTCTGATGGCTTGAATGACCTCATCACTCGGATGCTGAATTTAAAGGACTACCATCGACCTTCAGTGGAAGAAATTCTGGAGAGCCCTTTGATAGCAGACTTGGTTGCAGAAGAGCAAAGGAGAAATCTGGAGAGGAGAGGACGGCGCTCAGGCGAGCCTTCGAAGCTGCCGGACTCCAGCCCTGTGCTGAGCGAGCTCAAGTTGAAGGAAAGGCAACTGCAGGATCGAGAGCAAGCACTCAGAGCTCGGGAGGACATCCT,問題,1. 這個基因在小鼠中是哪個基因?基因的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 服務合同:自費出國留學中介服務委托合同6篇
- 2025年福建貨運從業(yè)資格證科目一模擬考試題庫
- 2025年唐山貨運從業(yè)資格證網(wǎng)上考試答案
- 2025年資陽貨運員初級考試題庫
- 建筑勞務施工合同
- 勞務外包安全管理協(xié)議
- 涂料助劑:流平劑產(chǎn)業(yè)分析報告
- 廠房施工標準合同范例
- 臺面加工承攬合同范本
- 債權(quán)收益權(quán)轉(zhuǎn)讓合同范本
- 2023年山東藥品食品職業(yè)學院單招綜合素質(zhì)考試筆試題庫及答案解析
- 《工程化學》全套教學課件
- 4.1比的意義 導學案 2022-2023學年六年級數(shù)學上冊-人教版(含答案)
- 美容手術(shù)的麻醉精品課件
- 蔬菜生產(chǎn)技術(shù)實踐教學大綱
- 施耐德APC1-20K不間斷電源內(nèi)部培訓(ppt可編輯修改)課件
- 看圖寫話我是乖孩子
- 油管、套管等規(guī)格對照表
- IEST-RP-CC0053
- 模糊邏輯與模糊推理
- 玉米收割機的設計(機械CAD圖紙)
評論
0/150
提交評論