




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、生物信息學(xué)技術(shù) Technology of Bioinformatics概要數(shù)據(jù)庫(kù)及其查詢序列比對(duì)引物設(shè)計(jì)預(yù)測(cè)啟動(dòng)子和轉(zhuǎn)錄因子預(yù)測(cè)開放閱讀框蛋白質(zhì)數(shù)據(jù)分析生物信息學(xué)是一門綜合運(yùn)用生物學(xué)、計(jì)算機(jī)科學(xué)和數(shù)學(xué)等多方面知識(shí)與方法,獲取、管理、分析、解釋和應(yīng)用生物信息的學(xué)科。1. 什么是生物信息學(xué)生物信息(biological imformation)生物信息2. 生物信息學(xué)的發(fā)展史20世紀(jì)60年代 最早的蛋白質(zhì)數(shù)據(jù)庫(kù)Margaret Dayhoff“蛋白質(zhì)信息資源”(Protein Information Resource, PIR)R. DulbeccoA turning point in canc
2、er research: sequencing the human genome Science 1986.Mar 7;231(4742): 1055-6 “要徹底闡明癌癥的發(fā)生、演進(jìn)、侵襲和轉(zhuǎn)移的機(jī)制, 必須對(duì)人體細(xì)胞的基因組進(jìn)行全測(cè)序.”1990年10月, 美國(guó)政府正式啟動(dòng)一項(xiàng)耗資30億美元的15年計(jì)劃-人類基因組計(jì)劃 (Human Genome Project, HGP). 20世紀(jì)80年代 人類基因組計(jì)劃“今天,我們知道了上帝用以創(chuàng)造生命的語(yǔ)言?!倍逊e如山的數(shù)據(jù)“對(duì)于上帝帶來(lái)的這份神圣禮物中所展現(xiàn)的復(fù)雜、精致和奇妙,我們懷有更多的敬畏之情?!?. 生物學(xué)數(shù)據(jù)庫(kù)1.序列數(shù)據(jù)庫(kù)2.結(jié)構(gòu)數(shù)據(jù)
3、庫(kù)3.文獻(xiàn)數(shù)據(jù)庫(kù)1.一級(jí)數(shù)據(jù)庫(kù)2.二級(jí)數(shù)據(jù)庫(kù)核酸序列數(shù)據(jù)庫(kù)GenBankEMBLDDBJ 蛋白質(zhì)序列數(shù)據(jù)庫(kù)PIRSWISS-PROT蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)PDB重要的一級(jí)數(shù)據(jù)庫(kù)國(guó)際核酸序列數(shù)據(jù)庫(kù)聯(lián)合中心 (International Nucleotide Sequence Database Collaboration) GenBankLos Alamos National Laboratory (LANL) /Los Alamos Sequence Database/ Walter Goad(1979) GenBank(1982)美國(guó)國(guó)家生物技術(shù)信息中心(National Center for Bi
4、otechnology Information)Walter Goad美國(guó)國(guó)家醫(yī)學(xué)圖書館(National Library Medicine)美國(guó)國(guó)立衛(wèi)生研究院(National Institutes of Health)年份堿基對(duì)序列19826803386061983227402924271984336876541751985520442057001986961537199781987155147761458419882380000020579198934762585287911990491792853953319917194742655627199210100848678608199315
5、7152442143492199421710246221527319953849394855556941996651972984102121119971160300687176584719982008761784283789719996841163011486457020001110106628810106023200115849921438149763102002285079901662231888320033655336848530968418200444575745176406043192013150141354858 162886727子數(shù)據(jù)庫(kù)名稱收錄內(nèi)容分類數(shù)據(jù)庫(kù)BCT細(xì)菌序列數(shù)據(jù)庫(kù)
6、INV無(wú)脊椎動(dòng)物序列數(shù)據(jù)庫(kù)MAM其它哺乳動(dòng)物序列數(shù)據(jù)庫(kù)PHG噬菌體序列數(shù)據(jù)庫(kù)PLN植物、真菌、藻類序列數(shù)據(jù)庫(kù)PRI人類、靈長(zhǎng)類動(dòng)物序列數(shù)據(jù)庫(kù)RNA結(jié)構(gòu)RNA序列數(shù)據(jù)庫(kù)ROD嚙齒類動(dòng)物序列數(shù)據(jù)庫(kù)SYN人工合成序列數(shù)據(jù)庫(kù)VRL病毒序列數(shù)據(jù)庫(kù)VRT其它脊椎動(dòng)物序列數(shù)據(jù)庫(kù)UNA未分類機(jī)未注明來(lái)源的序列數(shù)據(jù)庫(kù)功能數(shù)據(jù)庫(kù)CON部分染色體序列的信息EST表達(dá)序列標(biāo)簽序列數(shù)據(jù)庫(kù)GSS基因組普查序列數(shù)據(jù)庫(kù)HTG高通量基因組序列Patent專利序列STS序列示蹤位點(diǎn)序列數(shù)據(jù)庫(kù)GenBank的子數(shù)據(jù)庫(kù)構(gòu)成GenBank中的一些比較重要的子庫(kù)dbGSS(基因組測(cè)序序列)dbEST(表達(dá)序列標(biāo)簽)dbSTS(基因組測(cè)序
7、序列序列標(biāo)簽位點(diǎn))unigene(基因組測(cè)序序列)GenBank flatfileLocus nameSequence lengthMolecular typeGenBank divisionGenBank flatfileModification Datecoding sequence/collab/FT/The DDBJ/EMBL/GenBank Feature Table: Definition /db_xref=交叉引用其他數(shù)據(jù)庫(kù)的信息 Medline 美國(guó)國(guó)立醫(yī)學(xué)圖書館(NLM)6. 文獻(xiàn)檢索目前規(guī)模最大、權(quán)威性最高的文獻(xiàn)數(shù)據(jù)庫(kù)收錄了自1966年至今來(lái)自70多個(gè)國(guó)家和地區(qū)共5千多種生
8、物醫(yī)學(xué)期刊,超過(guò)1100萬(wàn)篇參考文獻(xiàn)每一篇文獻(xiàn)都提供了詳盡的出處及相關(guān)文章的連接,部分文獻(xiàn)提供免費(fèi)的全文內(nèi)容涉及醫(yī)學(xué)、動(dòng)物學(xué)、微生物、食品等多個(gè)領(lǐng)域PubMed: 提供MEDLINE檢索服務(wù)的服務(wù)器7. 集成檢索Entrez系統(tǒng) Entrez所包含的部分?jǐn)?shù)據(jù)庫(kù)PubMed生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)Nucleotide核酸序列數(shù)據(jù)庫(kù)Protein蛋白質(zhì)序列數(shù)據(jù)庫(kù)Structure結(jié)構(gòu)數(shù)據(jù)庫(kù)Genome基因組數(shù)據(jù)庫(kù)Popset種群、種系發(fā)生或突變序列數(shù)據(jù)庫(kù)OMIM人類孟德爾遺傳數(shù)據(jù)庫(kù)Taxonomy物種分類學(xué)數(shù)據(jù)庫(kù)ProbeSet基因表達(dá)和排序數(shù)據(jù)庫(kù)3D Domains分子三維結(jié)構(gòu)數(shù)據(jù)庫(kù)UniSTS標(biāo)簽和
9、作圖數(shù)據(jù)庫(kù)SNP單核苷酸多態(tài)性數(shù)據(jù)庫(kù) 在生物信息學(xué)研究中, 對(duì)比是最常用和最經(jīng)典的研究手段. 序列對(duì)比(Alignment)又叫序列聯(lián)配, 其意義在于從核酸、氨基酸的層次分析序列的相似性, 推測(cè)其結(jié)構(gòu)功能及進(jìn)化上的聯(lián)系. 序列對(duì)比的理論基礎(chǔ)是進(jìn)化學(xué)說(shuō).8. 序列對(duì)比兩個(gè)序列之間具有足夠的相似性兩個(gè)序列具有同源關(guān)系兩個(gè)序列具有相似的結(jié)構(gòu)與功能 通過(guò)已知的相似序列預(yù)測(cè)新序列的結(jié)構(gòu)和功能結(jié)構(gòu)和功能未知基因組測(cè)序新的序列基因復(fù)制的進(jìn)化機(jī)制同時(shí)擁有多份基因拷貝沒有功能的假基因不同功能的同源基因新的序列結(jié)構(gòu)和功能已知相似序列序列對(duì)比序列數(shù)據(jù)庫(kù)推導(dǎo)并不一定正確 序列對(duì)比是從已知推導(dǎo)未知的一個(gè)十分有用的方法.
10、 但不能僅僅通過(guò)計(jì)算分析來(lái)斷定結(jié)論是否正確. 所得結(jié)論必須通過(guò)實(shí)驗(yàn)驗(yàn)證. -晶狀體(脊椎動(dòng)物眼睛里晶狀體基質(zhì)的組成部分)苯醌氧化還原酶(大腸桿菌的代謝酶) 序列對(duì)比 蛋白質(zhì)序列比核酸序列具有更大的保守性,能揭示更疏遠(yuǎn)的進(jìn)化關(guān)系.一般認(rèn)為核酸序列之間的相似性超過(guò)30%,它們就很可能是同源的。 如何進(jìn)行序列對(duì)比DNA(蛋白質(zhì))序列由4(20)種堿基組成對(duì)相似性進(jìn)行量化、評(píng)分任意兩條DNA序列間必然存在一定的相似性真正擁有進(jìn)化意義的相似性偶然的相似性 序列比對(duì)的基本算法 BLASTAATTGATTGCGCATTTAAAGGGAACTGACGCATTTAAAGGGAACTGA-CGCATTTAAAGG
11、G尋找序列的最佳聯(lián)配動(dòng)態(tài)規(guī)劃算法局部(Smith-Waterman)全局(Needleman-Wunsch)Basic Local Alignment Search Tool (基本局部相似性對(duì)比搜索工具) 聯(lián)配分值與空位罰分AATTGATTGCGCATTTAAAGGGAACTGA-CGCATTTAAAGGG空位罰分仿射法按比例罰分常數(shù)罰分ABLA+BL空位開放罰分空位擴(kuò)展罰分匹配:+1 不匹配:0 插入空位:-1ACGTA1000C0100G0010T0001 相同聯(lián)配殘基比例AATTGATTGCGCATTTAAAGGGAACTGA-CGCATTTAAAGGG(16/22)x100=73%
12、排除了聯(lián)配序列的長(zhǎng)度影響,給不同長(zhǎng)度的聯(lián)配提供了可比性。 在長(zhǎng)的聯(lián)配結(jié)果中找到的高比例一致性,才可能反應(yīng)真正的生物學(xué)或進(jìn)化關(guān)系。 蛋白質(zhì)序列的比對(duì) 氨基酸物理化學(xué)性質(zhì)間的關(guān)系 氨基酸序列的替代記分矩陣PAM250替代記分矩陣 序列比對(duì)的基本算法 BLASTAATTGATTGCGCATTTAAAGGGAACTGACGCATTTAAAGGGAACTGA-CGCATTTAAAGGG尋找序列的最佳聯(lián)配動(dòng)態(tài)規(guī)劃算法局部(Smith-Waterman)全局(Needleman-Wunsch)Basic Local Alignment Search Tool (基本局部相似性對(duì)比搜索工具)匹配:+1; 不匹
13、配:-0.3;插入空位:-1.3;smith-Waterman算法的快速、啟發(fā)式版本:BLASTBasic Local Alignment Search Tool (基本局部相似性對(duì)比搜索工具)程序數(shù)據(jù)庫(kù)查詢搜索方法nucleotide blast核苷酸核苷酸將待查詢的核酸序列及其互補(bǔ)序列與核酸序列數(shù)據(jù)庫(kù)中的序列逐一進(jìn)行對(duì)比protein blast蛋白質(zhì)蛋白質(zhì)用于鑒定蛋白質(zhì)的氨基酸序列和在數(shù)據(jù)庫(kù)中尋找相似序列blastx蛋白質(zhì)核苷酸(翻譯)把需要查詢的核苷酸序列翻譯成氨基酸序列,再在蛋白質(zhì)數(shù)據(jù)庫(kù)中查找相似序列tblastn核苷酸(翻譯)蛋白質(zhì)將核苷酸序列按6種讀碼框即時(shí)翻譯后再與待檢蛋白質(zhì)序
14、列進(jìn)行比對(duì)tblastx核苷酸(翻譯)核苷酸(翻譯)將待檢核酸序列與數(shù)據(jù)庫(kù)中的核酸序列都按6種讀碼框翻譯成氨基酸序列后再進(jìn)行比較smith-Waterman算法的快速、啟發(fā)式版本:BLASTBasic Local Alignment Search Tool (基本局部相似性對(duì)比搜索工具)Megablast:檢索敏感度較低。尋找相似性較高的核酸序列。適用于查找與查詢序列完全相同的序列。blastn:檢索敏感度較megablast高??捎糜趯ふ移渌锓N中與查詢序列相似或相關(guān)的序列。Discontiguouse-megablast:檢索敏感度較blastn高??捎糜趯ふ蚁嗨贫雀?、親緣關(guān)系較遠(yuǎn)的序列
15、。Nucleotide BLAST 的三種計(jì)算方式: 核酸序列與核酸序列間的對(duì)比只適合于尋找相似性較高的匹配序列,而不適合于遠(yuǎn)緣關(guān)系序列的檢索。blastp:最簡(jiǎn)單的一種蛋白序列與蛋白序列間的對(duì)比算法。目的在于尋找不同蛋白序列間的相似區(qū)域。PSI-blast: 通過(guò)尋找蛋白家族保守序列來(lái)提高查詢敏感性的對(duì)比方法。對(duì)查詢數(shù)據(jù)庫(kù)進(jìn)行多輪循環(huán)檢索,以每一輪結(jié)構(gòu)中相似性最高的序列來(lái)重新構(gòu)建位點(diǎn)特異性打分矩陣(PSSM),以此矩陣進(jìn)行下一輪檢索。是在眾多blast 程序中敏感性最高的一種,對(duì)于發(fā)現(xiàn)遠(yuǎn)緣物種的相似蛋白或蛋白家族新成員非常有效。PHI-blast:針對(duì)查詢序列中包含某種特殊氨基酸排列模式的序
16、列對(duì)比方法。DELTA-blast:與PSI-blast類似,敏感度較高的蛋白質(zhì)序列對(duì)比方法。首輪查詢的是蛋白質(zhì)保守序列數(shù)據(jù)庫(kù)(CDD)。Protein BLAST 的四種計(jì)算方式:輸入需對(duì)比序列要對(duì)比的序列范圍選擇要對(duì)比的蛋白質(zhì)數(shù)據(jù)庫(kù)選擇要對(duì)比的物種最大檢索結(jié)果輸出量當(dāng)查詢序列較短時(shí),程序會(huì)自動(dòng)調(diào)整查詢系數(shù)E值的最高值限定替代計(jì)分矩陣空位罰分:空位開放罰分(A),空位擴(kuò)展罰分(B)BLAST resultSummaryGraphical overviewDescriptions tableAlignment sectionSummaryGraphical overviewDescriptions table相似性分?jǐn)?shù)值(score)和比特分?jǐn)?shù)堿基/氨基酸配對(duì)得分及空位罰分的總和,匹配序列越長(zhǎng)、相同堿基越多,分?jǐn)?shù)越高。期望值(expect)表示目標(biāo)片段與數(shù)據(jù)庫(kù)中片段隨機(jī)配對(duì)可能性的數(shù)值。由于概率而造成的相似性幾率。Alignment section多序列比對(duì)Feng和Doolittle的漸進(jìn)比對(duì)方法隱馬模型Feng和Doolittle的漸進(jìn)比對(duì)方法Feng和Doolittle的漸進(jìn)比對(duì)方法引物設(shè)計(jì)Primer3web version 4.0.0 Pick primers from a DNA sequence. 啟動(dòng)子預(yù)測(cè)FirstEF(Fir
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 產(chǎn)品推廣與營(yíng)銷方案總結(jié)
- 私人心理咨詢服務(wù)免責(zé)協(xié)議書
- 廢舊物資購(gòu)銷合同
- 股份制企業(yè)合同審查文書模板
- Unit 1 You and Me 大單元整體教學(xué)設(shè)計(jì) 2024-2025學(xué)年人教版英語(yǔ)七年級(jí)上冊(cè)
- 第3章開源硬件創(chuàng)意設(shè)計(jì)3.4審查并優(yōu)化方案 -高中教學(xué)同步《信息技術(shù)人工-開源硬件項(xiàng)目設(shè)計(jì)》教學(xué)設(shè)計(jì)(人教-中圖版2019)
- 川教版信息技術(shù)(2019)五年級(jí)上冊(cè)第三單元 圖形化編程之聰明的角色 2 偵測(cè)太空垃圾-教學(xué)設(shè)計(jì)
- 20《美麗的小興安嶺》教學(xué)設(shè)計(jì)-2024-2025學(xué)年三年級(jí)上冊(cè)語(yǔ)文統(tǒng)編版(五四制)
- 2025屆高考生物備考教學(xué)設(shè)計(jì):第四章 細(xì)胞的生命歷程 課時(shí)1 細(xì)胞的增殖
- 第六單元課題3二氧化碳的實(shí)驗(yàn)室制取教學(xué)設(shè)計(jì)-2024-2025學(xué)年九年級(jí)化學(xué)人教版上冊(cè)
- 預(yù)防深靜脈血栓VTE持續(xù)改進(jìn)QCC品管圈PDCA案例3例
- 水環(huán)境綜合治理服務(wù)方案(技術(shù)標(biāo))
- 【原創(chuàng)】頭腦特工隊(duì)開的那些心理學(xué)腦洞
- 美甲藝術(shù)全套教學(xué)課件
- 中國(guó)古代餐具
- 上海市嘉定一中2023年高二數(shù)學(xué)第一學(xué)期期末質(zhì)量檢測(cè)試題含解析
- 施工日志模板
- 消費(fèi)者起訴狀模板范文
- Agilent7820A氣相色譜儀操作規(guī)程知識(shí)講解
- 醫(yī)院招標(biāo)采購(gòu)管理辦法及實(shí)施細(xì)則(試行)
- 中華人民共和國(guó)文物保護(hù)法學(xué)習(xí)課程PPT
評(píng)論
0/150
提交評(píng)論