生物信息學全考點復習題庫全套_第1頁
生物信息學全考點復習題庫全套_第2頁
生物信息學全考點復習題庫全套_第3頁
生物信息學全考點復習題庫全套_第4頁
生物信息學全考點復習題庫全套_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

生物信息學全考點復習題庫全套生物信息學,一、名詞解釋:

1、生物信息學:生物分子信息的獲取、存貯、分析和利用;以數學為基礎,應用計算機技術,研究生物學數據的科學。

2、相似性(similarity):兩個序列(核酸、蛋白質)間的相關性。

3、同源性(homology):生物進化過程中源于同一祖先的分支之間的關系。

4、同一性(identity):兩個序列(核酸、蛋白質)間未發(fā)生變異序列的關系。

5、序列比對(alignment):為確定兩個或多個序列之間的相似性以至于同源性,而將它們按照一定的規(guī)律排列。

6、生物數據庫檢索(databasequery,數據庫查詢):對序列、結構以及各種二次數據庫中的注釋信息進行關鍵詞匹配查找。

7、生物數據庫搜索(databasesearch):通過特定序列相似性比對算法,找出核酸或蛋白質序列數據庫中與待檢序列具有一定程度相似性的序列。

二、簡答題:

1、分子生物學的三大核心數據庫是什么?它們各有何特點?

GenBank核酸序列數據庫;SWISS-PROT蛋白質序列數據庫;PDB生物大分子結構數據庫;

2、簡述生物信息學的發(fā)生和發(fā)展。

20世紀50年代,生物信息學開始孕育;

20世紀60年代,生物分子信息在概念上將計算生物學和計算機科學聯系起來;

20世紀70年代,生物信息學的真正開端;

20世紀70年代到80年代初期,出現了一系列著名的序列比較方法和生物信息分析方;

20世紀80年代以后,出現一批生物信息服務機構和生物信息數據庫;

20世紀90年代后,HGP促進生物信息學的迅速發(fā)展。

3、生物信息學的主要方法和技術是什么?

數學統計方法;動態(tài)規(guī)劃方法;機器學習與模式識別技術;數據庫技術及數據挖掘;人工神經網絡技術;專家系統;分子模型化技術;量子力學和分子力學計算;生物分子的計算機模擬;因特網(Internet)技術

4、常見的DNA測序方法有哪些?各有何技術特點和優(yōu)缺點?

Maxam-GilbertDNA化學降解法:優(yōu)點:可測完全未知序列及CG富含區(qū);缺點:操作繁瑣;

Sanger雙脫氧鏈終止法:優(yōu)點:簡便,可測較長片段;缺點:需已知部分序列或加接頭;

焦磷酸測序:優(yōu)點:廉價、高通量;缺點:一次測序片段短。

5、分子生物學數據庫有哪些類型?各有何特點?基因組數據庫:基因組測序

核酸序列數據庫:核酸序列測定

一次數據庫:蛋白質序列數據庫:蛋白質序列測定。生物大分子(蛋白質)三維結構數據庫:X-衍射和核磁共振

特點:數量少,容量大,更新快

二次數據庫:上述四類數據庫和文獻資料為基礎構建

特點:數量多,容量小,更新慢

6、簡述NCBIEntrez系統的功能。

高級檢索系統;查找核酸、蛋白、文獻、結構、基因組序列、大分子三維結構、突變數據、探針序列、單核苷酸多態(tài)性等數據。

7、簡述NCBIBLAST的功能和種類。

序列相似性比對工具;

對核酸:普通blastn,對高度相似序列megablast;

對蛋白質:普通blastp,對保守域rpsblast;

對人工翻譯序列:核酸翻譯序列對蛋白質序列blastx,蛋白質對翻譯序列tblastn,核酸翻譯序列對翻譯序列tblastx;

其它:基因組blast,基因表達序列搜索GEOblast,序列兩兩比對……三、論述題:

1、什么是生物信息學?生物信息學有哪些主要應用領域?

生物分子信息的獲取、存貯、分析和利用;以數學為基礎,應用計算機技術,研究生物學數據的科學。

生物分子數據的收集與管理;數據庫搜索及序列比較;基因組序列分析;基因表達數據的分析與處理;蛋白質結構預測。

2、生物信息學在醫(yī)藥領域有什么應用?

輔助診斷(遺傳病,HLA分型);

研究藥物作用機制,輔助新藥物開發(fā)和制造。

3、人類基因組計劃中主要使用的那些生物信息學手段?它們對人類基因組計劃發(fā)揮了哪些重大作用?

單一測序結果判讀;contig和chromosome拼接;識別基因區(qū)及其調控區(qū);尋找基因相互作用的時空關系;

4、試述蛋白質二級結構預測的主要策略和方法。

策略:

目標:判斷每一段中心的殘基是否處于a螺旋、b折疊、b轉角(或其它狀態(tài))之一的二級結構態(tài),即三態(tài)。

a、理論分析法(從頭計算法):通過理論計算(分子力學、分子動力學等)進行結構預測。優(yōu)點:不需要經驗數據,由一級結構推測高級結構

缺點:天然和未折疊蛋白間能級差很小(kcal/mol);蛋白質可能的構想空間龐大,針對蛋白質折疊的計算量巨大;計算模型中力場參數不準確。

b、統計方法:對已知結構的蛋白質進行統計分析,建立序列到結構的映射模型,進而根據映射模型對未知結構的蛋白質直接從氨基酸預測結構。

c經驗性方法:根據一定序列形成一定結構的傾向進行結構預測。通過對已知結構的蛋白質進行統計分析,發(fā)現各種氨基酸形成不同二級結構的傾向,從而形成一系列關于二級結構預測的規(guī)律。d結構規(guī)律提取方法:從蛋白質結構數據庫中提取關于蛋白質結構形成的一般性規(guī)律,指導建立未知結構的蛋白質模型。e同源模型化方法:通過同源序列分析或模式匹配,預測蛋白質的空間結構或結構單元。

方法:

1、Chou-Fasman方法;(基于單個氨基酸殘基統計的經驗參數方法,由Chou和Fasman在20世紀70年代提出來。通過統計分析,獲得每個殘基出現于特定二級結構構象的傾向性因子,進而利用這些傾向性因子預測蛋白質的二級結構。)2GOR方法;(是一種基于信息論和貝葉斯統計學的方法GOR將蛋白質序列當作一連串的信息值來處理;GOR方法不僅考慮被預測位置本身氨基酸殘基種類的影響,而且考慮相鄰殘基種類對該位置構象的影響)3、基于氨基酸疏水性的方法;4、最鄰近方法;5、人工神經網絡方法;6、綜合方法:7、利用進化信息預測蛋白質的二級結構。1.生物信息學:1)生物信息學包含了生物信息的獲取、處理、分析、和解釋等在內的一門交叉學科;2)它綜合運用了數學、計算機學和生物學的各種工具來進行研究;3)目的在于闡明大量生物學數據所包含的生物學意義。2.BLAST(BasicLocalAlignmentSearchTool)直譯:基本局部排比搜索工具意譯:基于局部序列排比的常用數據庫搜索工具含義:蛋白質和核酸序列數據庫搜索軟件系統及相關數據庫3.PSI-BLAST:是一種迭代的搜索方法,可以提高BLAST和FASTA的相似序列發(fā)現率。4.一致序列:這些序列是指把多序列聯配的信息壓縮至單條序列,主要的缺點是除了在特定位置最常見的殘基之外,它們不能表示任何概率信息。5.HMM隱馬爾可夫模型:一種統計模型,它考慮有關匹配、錯配和間隔的所有可能的組合來生成一組序列排列。(課件定義)是蛋白質結構域家族序列的一種嚴格的統計模型,包括序列的匹配,插入和缺失狀態(tài),并根據每種狀態(tài)的概率分布和狀態(tài)間的相互轉換來生成蛋白質序列。6.信息位點:由位點產生的突變數目把其中的一課樹與其他樹區(qū)分開的位點。7.非信息位點:對于最大簡約法來說沒有意義的點。8.標度樹:分支長度與相鄰節(jié)點對的差異程度成正比的樹。9.非標度樹:只表示親緣關系無差異程度信息。10.有根樹:單一的節(jié)點能指派為共同的祖先,從祖先節(jié)點只有唯一的路徑歷經進化到達其他任何節(jié)點。11.無根樹:只表明節(jié)點間的關系,無進化發(fā)生方向的信息,通過引入外群或外部參考物種,可以在無根樹中指派根節(jié)點。12.注釋:指從原始序列數據中獲得有用的生物學信息。這主要是指在基因組DNA中尋找基因和其他功能元件(結構注釋),并給出這些序列的功能(功能注釋)。13.聚類分析:一種通過將相似的數據劃分到特定的組中以簡化大規(guī)模數據集的方法。14.無監(jiān)督分析法:這種方法沒有內建的分類標準,組的數目和類型只決定于所使用的算法和數據本身的分析方法。15.有監(jiān)督分析法:這種方法引入某些形式的分類系統,從而將表達模式分配到一個或多個預定義的類目中。16.微陣列芯片:將探針有規(guī)律地排列固定于載體上,與標記熒光分子的樣品進行雜交,通過掃描儀掃描對熒光信號的強度進行檢測,從而迅速得出所要的信息。17.虛擬消化:是基于已知蛋白序列和切斷酶的特異性的情況下進行的理論酶切(課件定義)。是在已知蛋白質序列和蛋白外切酶之類切斷試劑的已知特異性的基礎上,由計算機進行的一種理論上的蛋白裂解反應。18.質譜(MS)是一種準確測定真空中離子的分子質量/電荷比(m/z)的方法,從而使分子質量的準確確定成為可能。質譜分析的兩個工具19.分子途徑是指一組連續(xù)起作用以達到共同目標的蛋白質。20.虛擬細胞:一種建模手段,把細胞定義為許多結構,分子,反應和物質流的集合體。21.先導化合物:是指具有一定藥理活性的、可通過結構改造來優(yōu)化其藥理特性而可能導致藥物發(fā)現的特殊化合物。就是利用計算機在含有大量化合物三維結構的數據庫中,搜索能與生物大分子靶點匹配的化合物,或者搜索能與結合藥效團相符的化合物,又稱原型物,簡稱先導物,是通過各種途徑或方法得到的具有生物活性的化學結構22.權重矩陣(序列輪廓):它們表示完全結構域序列,多序列聯配中每個位點的氨基酸都有分值,并且特定位置插入或缺失的可能性均有一定的衡量方法(課件定義)?;A上針對特定的應用目標而建立的數據庫。23.系統發(fā)育學(phylogenetic):確定生物體間進化關系的科學分支。24.系統生物學(systemsbiology):是研究一個生物系統中所有組分成分(基因、mRNA、蛋白質等)的構成以及在特定條件下這些組分間的相互關系,并分析生物系統在一定時間內的動力學過程25.蛋白質組(proteome):是指一個基因組、一種生物或一個細胞/組織的基因組所表達的全套蛋白質。26.ESI電噴霧離子化:一種適合大分子如蛋白質離子化沒有明顯降解的質譜技術。二.填空題1.常用的三種序列格式:NBRF/PIR,FASTA和GDE2.初級序列數據庫:GenBank,EMBL和DDBJ3.蛋白質序列數據庫:SWISS-PROT和TrEMBL4.提供蛋白質功能注釋信息的數據庫:KEGG(京都基因和基因組百科全書)和PIR(蛋白質信息資源)5.目前由NCBI維護的大型文獻資源是PubMed6.數據庫常用的數據檢索工具:Entrez,SRS,DBGET7.常用的序列搜索方法:FASTA和BLAST8.高分值局部聯配的BLAST參數是HSPs(高分值片段對),E(期望值)9.多序列聯配的常用軟件:Clustal10.蛋白質結構域家族的數據庫有:Pfam,SMART11.系統發(fā)育學的研究方法有:表現型分類法,遺傳分類法和進化分類法12.系統發(fā)育樹的構建方法:

距離矩陣法,最大簡約法和最大似然法13.常用系統發(fā)育分析軟件:PHYLIP14.檢測系統發(fā)育樹可靠性的技術:bootstrapping和Jack-knifing15.

原核生物和真核生物基因組中的注釋所涉及的問題是不同的16.檢測原核生物ORF的程序:NCBIORFfinder17.測試基因預測程序正確預測基因的能力的項目是GASP(基因預測評估項目)18.二級結構的三種狀態(tài):α螺旋,β折疊和β轉角19.用于蛋白質二級結構預測的基本神經網絡模型為三層的前饋網絡,包括輸入層,隱含層和輸出層20.通過比較建模預測蛋白質結構的軟件有SWISS-PDBVIEWER(SWISS—MODEL網站)21.蛋白質質譜數據搜索工具:SEQUEST22.分子途徑最廣泛數據庫:KEGG23.聚類分析方法,分為有監(jiān)督學習方法,無監(jiān)督學習方法24.質譜的兩個數據庫搜索工具:SEQEST和Lutkefish三.問答題1.

FASTA序列格式第一行以“>”開頭但并沒有指明是蛋白質還是核酸序列。后跟代碼,接著是注釋(在同一行),通常注釋要以“|”符號相隔,第一行沒有長度限制。值得注意的是FASTA文件允許以小寫字母表示氨基酸。文件擴展名為“.fasta”。(NBIR/PIR序列格式第一行以“>”開頭,后面緊跟兩字母編碼(P1代表蛋白質序列,N1代表核酸),再接一個分號,分號后緊跟序列標識號。后面是說明行,該行可長可短,沒有長度限制。接下來是序列本身,以“*”號終止。文件的擴展名為“.pir”或“.seq”。GDE序列格式與FASTA的格式基本相同,但行首為“%”,文件擴展名為“.gde”。)2.BLAST的五個子程序程序查詢序列數據庫種類簡述方法Blastp蛋白質蛋白質可以找到具有遠源進化關系的匹配序列待搜索蛋白序列與蛋白數據庫比較Blastn核苷酸核苷酸適合尋找分值較高的匹配,不適合遠源關系待搜索核酸序列與核酸數據庫比較Blastx核苷酸(已翻譯)蛋白質適合新DNA序列和EST序列的分析將待搜索核酸序列按6個讀框翻譯成蛋白質序列,然后與數據庫中的蛋白質比較TBlastn蛋白質核苷酸(已翻譯)適合尋找數據庫中尚未標注的編碼區(qū)將數據庫中核酸序列按6個讀框翻譯成蛋白序列,然后與待搜索蛋白序列對比TBlastx核苷酸(已翻譯)核苷酸(已翻譯)適合分析EST序列無論是待搜索核酸序列還是數據庫中核酸序列,都按6個讀框翻譯成蛋白序列3.生物類的數據庫類別:一級數據庫:數據庫中的數據直接來源于實驗獲得的原始數據,只經過簡單的歸類整理和注釋;二級數據庫:對原始生物分子數據進行整理、分類的結果,是在一級數據庫、實驗數據和理論分析的基礎上針對特定的應用目標而建立的。4.PSI-Blast的原理:PSI-BLAST是一種將雙序列比對和多序列比對結合在一起的數據庫搜索方法。其主要思想是通過多次迭代找出最佳結果。每次迭代都發(fā)現一些中間序列,用于在接下去的迭代中尋找查詢序列的更多疏遠相關序列(拓展了序列進化關系的覆蓋面積)。具體做法是最初對查詢序列進行BLAST搜索,接著把查找得到的每一擊中項作為BLAST搜索第二次迭代的查詢序列,重復這個過程直到找不到有意義的相似序列為止。(以下為研究生課件部分)PSI-BLAST的基本思路在于根據最初的搜索結果,依照預先定義的相似性閾值將序列分成不同的組,構建一個位點特異性的序列譜,并通過多次迭代不斷改進這一序列譜以提高搜索的靈敏度。利用第一次搜索結果構建位置特異性分數矩陣,并用于第二次的搜索,第二次搜索結果用于第三次搜索,依此類推,直到找出最佳搜索結果。此外,BLAST不僅可用于檢測序列對數據庫的搜索,還可用于兩個序列之間的比對。5.多序列聯配的意義:1)分析多個序列的一致序列;2)用于進化分析,是用系統發(fā)育方法構建進化樹的初始步驟;3)尋找個體間單核苷酸多態(tài)性;4)通過序列比對發(fā)現直親同源與旁系同源基因;5)尋找同源基因(相似的序列往往具有同源性);6)尋找蛋白家族識別多個序列的保守區(qū)域;7)相似的蛋白序列往往具有相似的結構與功能;8)輔助預測新序列的二級或三級結構;9)可以直觀地看到基因的哪些區(qū)域對突變敏感;10)PCR引物設計。6.系統發(fā)育學的研究方法:1)表現型分類法:將表型相像的物種歸類在一起,所有特征都要被考慮到;2)遺傳分類法:具有共有起源的物種歸類在一起,也就是說,這些字符并沒有出現在離它們較遠的祖先序列;3)進化分類法:該方法綜合了表現型分類法和遺傳分類法的原理,進化方法被普遍認為是最好的系統發(fā)育分析方法,因為該方法承認并采用目前的進化理論;7.系統發(fā)育樹的構建方法:1)距離矩陣法:首先通過各個物種之間的比較,根據一定的假設(進化距離模型)推到得出分類群之間的進化距離,構建一個進化距離矩陣,其次基于這個矩陣中的進化距離關系構建進化樹;2)最大簡約法:該法依據在任何位置將一條序列轉變成另一條序列所需要突變的最少數量對序列進行比較和聚類;3)最大似然法:該模型可將一個給定替代發(fā)生在序列中任何位置的概率融合進算法,該方法計算序列中每個位置的一個給定序列變化的可能性,最可靠的樹為總的可能性最大的那棵。8.簡述人工神經網絡預測蛋白質二級結構的基本步驟。1)輸入數據(來自PDB)2)產生一個神經網絡(一個計算程序)3)用已知的蛋白質二級結構來訓練這個模型4)由訓練好的模型來給出未知蛋白的一個可能的結構5)最后從生物角度來檢驗預測的一系列氨基酸是否合理9.預測蛋白質三級結構的三種方法1)同源建模法:依據蛋白質與已知結構蛋白比對信息構建3D模型;2)折疊識別法:尋找與未知蛋白最合適的模板,進行序列與結構比對,最終建立結構模型;3)從頭預測法:根據序列本身從頭預測蛋白質結構。10.分子途徑和網絡的特點:1)分子途徑和網絡的結構隨意性大。圖可以很簡單,也可以非常復雜。它們可能包含了多個分支,盤繞的連接和回路。2)它們通常也顯示出節(jié)點間關系的方向,例如表示出代謝通路或信號傳導的方向。調控途徑和網絡的圖也應該說明相互作用是正的還是負的。正的相互作用(促進或者活化作用)常常用箭頭表示,而負的交互效應(抑制或者失活作用)常常用T型棒表示。11.先導化合物的來源有四種來源:1)通過偶然性觀察發(fā)現的先導化合物(這個方法最著名的例子就是亞歷山大.弗萊明發(fā)現的青霉素,今天所用的許多抗生素皆由其發(fā)展出來)2)也可以通過替代療法的藥物開發(fā)中發(fā)現的藥物副作用來識別先導化合物(例如,鎮(zhèn)定劑氯化物丙嫀是在試驗中發(fā)現用在抗組胺劑時被發(fā)現的)3)先導化合物也可以來自傳統醫(yī)藥學(如奎寧化合物就來自金雞納的樹皮)4)先導化合物也可以來自天然的底物或是配體(比如說,腎上腺素作為舒喘寧的類似物用來治療哮喘)12.簡述DNA計算機的基本原理:1)以編碼生命信息的遺傳物質—DNA序列,作為信息編碼的載體,利用DNA分子的雙螺旋結構和堿基互補配對的性質,將所要處理的問題映射為特定的DNA分子;2)在生物酶的作用下,通過可控的生化反應生成問題的解空間;最后利用各種現代分子生物技術如聚合酶鏈反應RCR、超聲波降解、親和層析、分子純化、電泳、磁珠分離等手段破獲運算結果。DNA計算機優(yōu)點:低能耗、存儲容量高、運算速度快,可真正實現并行工作。13.簡述DNA計算實現方式中,表面方式與試管方式相比具有哪些優(yōu)點?試管方式:就是在一個或多個試管的溶液里進行生化反應;表面方式:是將對應的解空間的DNA分子固定在一塊固體上,其次進行各種生化反應,或是在表面逐步形成解空間,然后根據具體問題對所有可能的解進行篩選,最后得到運算結果。(1)操作簡單,易于實現自動化操作;(2)減少人為操作過程中造成的DNA分子的丟失及其它操作失誤;(3)減少分子在表面上的相互作用,同時增強分子間的特異性結合;(4)信息儲存密度大,據估計,10毫克DNA表面上的儲存密度是傳統計算姬的10的8次方倍,而在溶液中僅為10的5次方倍;(5)結果易于純化。14.簡述PCR引物設計的基本原則及其注意要點原則:首先引物與模板的序列要緊密互補,其次引物與引物之間避免形成穩(wěn)定的二聚體或發(fā)夾結構,再次引物不能再模板的非等位點引發(fā)DNA聚合反應(即錯配)。注意要點:1、引物的長度一般為15-30bp,常用的是18-27bp,但不應大于38,因為過長會導致其延伸溫度大于74℃,不適合于TaqDNA聚合酶進行反應。2、引物序列在模板內應當沒有相似性較高,尤其是3’端相似性較高的序列,否則容易導致錯配。引物3’端出現3個以上的連續(xù)堿基,如GGG或CCC,也會使錯誤引發(fā)幾率增加。3、引物3’端的末位堿基對Taq酶的DNA合成效率有較大的影響。不同的末位堿基在錯配位置導致不同的擴增效率,末位堿基為A的錯配效率明顯高于其他3個堿基,因此應當避免在引物的3’端使用堿基。另外,引物二聚體或發(fā)夾結構也可能導致PCR反應失敗。5’端序列對PCR影響不太大,因此常用來引進修飾位點或標記物。4、引物序列的GC含量一般為40-60%,過高或過低都不利于引發(fā)反應。上下游引物的GC含量不能相差太大。5、引物所對應模板位置序列的Tm值在72℃左右可使復性條件最佳。Tm值的計算有很多種方法,如按公式Tm=4(G+C)+2(A+T),在Oligo軟件中使用的是最鄰近法(thenearestneighbormethod)。6、G值是指DNA雙鏈形成所需的自由能,該值反映了雙鏈結構內部堿基對的相對穩(wěn)定性。應當選用3’端G值較低(絕對值不超過9),而在5’端和中間G值相對較高的引物。引物的3’端的G值過高,容易在錯配位點形成雙鏈結構并引發(fā)DNA聚合反應。7、引物二聚體及發(fā)夾結構的能值過高(超過4.5kcal/mol)易導致產生引物二聚體帶,并且降低引物有效濃度而使PCR反應不能正常進行。8、對引物的修飾一般是在5’端增加酶切位點,應根據下一步實驗中要插入PCR產物的載體的相應序列而確定。15.假設你得到一段未知基因的DNA序列,從你學習到的生物信息學分析方法和軟件,設計一個分析流程來分析該未知基因的功能和家族類別(包括系統發(fā)育樹構建)1、得到未知基因的DNA序列,用Blast做序列比對,找出與其基因相似的核苷酸序列和蛋白質序列。2、接著,用搜索出來的較相似的序列用ClustW進行多序列比對,得到該序列的保守情況和突變情況。3、最后用距離法構建系統發(fā)育樹。16.假設你得到一段未知蛋白的氨基酸序列,從你學習到的生物信息學分析方法和軟件,設計一個分析流程來分析該未知蛋白的功能和家族類別以及其結構預測。1、用該序列進行BLASTP搜索。2、再對其進行蛋白質結構域、功能域的搜索,可以用Znterproscan、Pfam,并對其進行結構分析。3、再用ClustW進行多序列比對。4、用人工神經網絡的方法對其結構進行結構預測。17.BLAST中,E值和P值分別是什么,它們有什么意義?答:BLAST中使用的統計值有概率p值和期望e值。E期望值(E-value)這個數值表示你僅僅因為隨機性造成獲得這一比對結果的可能次數。這一數值越接近零,發(fā)生這一事件的可能性越小。從搜索的角度看,E值越小,比對結果越顯著。默認值為10,表示比對結果中將有10個匹配序列是由隨機產生,如果比對的統計顯著性值(E值)小于該值(10),則該比對結果將被檢出,換句話說,比較低的E值將使搜索的匹配要求更嚴格,結果報告中隨機產生的匹配序列減少。p值表示比對結果得到的分數值的可信度。一般說來,p值越接近于零,則比對結果的可信度越大;相反,p值越大,則比對結果來自隨機匹配的可能性越大。18.什么是序列比對中使用的PAM矩陣和BLOSUM矩陣,它們的作用是什么,一般BLAST選擇使用的矩陣是什么答:PAM矩陣和BLOSUM矩陣都是用于序列相似性的記分矩陣(scoringmatrix)。記分矩陣中含有對齊時具體使用的數值。一般FASTA和BLAST都提供BLOSUM或PAM系列矩陣供選擇,若要進行突變性質的進化分析時可以使用PAM,FASTA缺省推薦BLOSUM50矩陣。PAM矩陣(PointAcceptedMutation)基于進化的點突變模型,如果兩種氨基酸替換頻繁,說明自然界接受這種替換,那么這對氨基酸替換得分就高。一個PAM就是一個進化的變異單位,即1%的氨基酸改變,但這并不意味100次PAM后,每個氨基酸都發(fā)生變化,因為其中一些位置可能會經過多次突變,甚至可能會變回到原來的氨基酸。模塊替換矩陣BLOSUM(BLOcksSubstitutionMatrix)首先尋找氨基酸模式,即有意義的一段氨基酸片斷(如一個結構域及其相鄰的兩小段氨基酸序列),分別比較相同的氨基酸模式之間氨基酸的保守性(某種氨基酸對另一種氨基酸的取代數據),然后,以所有60%保守性的氨基酸模式之間的比較數據為根據,產生BLOSUM60;以所有80%保守性的氨基酸模式之間的比較數據為根據,產生BLOSUM80。19.為什么蛋白質空間結構預測很重要,目前有哪幾條途徑用于從蛋白質的氨基酸序列預測其空間三維結構?答:蛋白質空間結構的預測很重要。研究蛋白質結構,有助于了解蛋白質如何行使其生物功能,認識蛋白質與蛋白質(或其它分子)之間的相互作用,通過分析蛋白質的結構,確認功能單位或者結構域,可以為遺傳操作提供目標,為設計新的蛋白質或改造已有蛋白質提供可靠的依據,同時為新的藥物分子設計提供合理的靶分子結構。目前有三條途徑用于從蛋白質一級序列預測其空間三維結構:A、同源建模法。是蛋白質三維結構預測的主要方法。對于一個未知結構的蛋白質,首先通過序列同源分析找到一個已知結構的同源蛋白質,然后,以該蛋白質的結構為模板,為未知結構的蛋白質建立結構模型。前提是必須要有一個已知結構的同源蛋白質。B、穿針引線法。需建立核心折疊數據庫,在預測蛋白質空間結構時將一個待預測結構的蛋白質序列與數據庫中核心折疊進行比對,找出比對結果最好的核心折疊,作為構造待預測蛋白質結構模型的根據。C、從頭開始法。在既沒有已知結構的同源蛋白質、也沒有已知結構的遠程同源蛋白質的情況下,直接根據序列本身來預測其結構。該方法先對蛋白質及溶劑作近似處理,再建立能量函數,通過對構象空間進行快速搜索找到與某一全局最小能量相對應的構象。生物信息學的應用:1(商業(yè))生物信息學市場規(guī)模:生物醫(yī)藥信息市場藥物基因組學數據收集和分析生物芯片數據收集和分析2基因組分析(基礎科學研究的需要)基因組測序,拼接基因的分離基因組的結構基因的序列到功能比較基因組學研究蛋白質的結構與功能分子進化研究3更多的應用(與人類生活密切相關)新藥物設計基因芯片疾病快速診斷流行病學研究人類基因組計劃寄生蟲基因組計劃:基因芯片一、

名詞解釋1.

GenBank:是美國全國衛(wèi)生研究所維護的基因序列數據庫,匯集并注釋了所有公開的核酸序列,與日本的DNA數據庫DDBJ以及歐洲分子實驗室核酸序列數據庫EMBL一起,都是國際核苷酸序列數據庫合作的成員。2.

EMBL:EMBL實驗室—歐洲分子生物學實驗室,EMBL數據庫—是非盈利性學術組織EMBL建立的綜合性數據庫,EMBL核酸數據庫是歐洲最重要的核酸序列數據庫,它定期地與美國的GenBank、日本的DDBJ數據庫中的數據進行交換,并同步更新。3.

DDBJ:日本DNA數據庫,主要向研究者收集DNA序列信息并賦予其數據存取號,信息來源主要是日本的研究機構,也接受其他國家呈遞的序列。4.

BLAST:基本局部比對搜索工具的縮寫,是一種序列類似性檢索工具。BLAST采用統計學幾分系統,同時采用局部比對算法,BLAST程序能迅速與公開數據庫進行相似性序列比較。BLAST結果中的得分是對一種對相似性的統計說明。5.

BLASTn:是核酸序列到核酸庫中的一種查詢。庫中存在的每條已知序列都將同所查序列作一對一地核酸序列比對。6.

BLASTp:是蛋白序列到蛋白庫中的一種查詢。庫中存在的每條已知序列將逐一地同每條所查序列作一對一的序列比對。7.

ClustslX:是CLUSTAL多重序列比對程序的Windows版本,是用來對核酸與蛋白序列進行多序列比較的程序,也可以對來自不同物種的功能或結構相似的序列進行比對和聚類,通過重建系統發(fā)生樹判斷親緣關系,并對序列在生物進化過程中的保守性進行估計。8.

Entrez:是由NCBI主持的一個數據庫檢索系統,它包括核酸,蛋白以及Medline文摘數據庫,在這三個數據庫中建立了非常完善的聯系。因此,可以從一個DNA序列查詢到蛋白產物以及相關文獻,而且,每個條目均有一個類鄰(neighboring)信息,給出與查詢條目接近的信息。9.

SRS(sequenceretrievalsystem):序列查詢系統,是EBI提供的多數據庫查詢工具之一。有與Entrez類似的功能外,還提供了一系列的序列分析工具,可以直接進行在線序列分析處理。10.

SWLSS—MODE:是目前最著名的蛋白質三級結構預測服務器,建立在已知生物大分子結構基礎上,利用同源建模的方法對未知序列的蛋白質三級結構進行預測。11.

homologymodeling:是目前最為成功且實用的蛋白質結構預測方法,它的前提是已知一個或多個同源蛋白質的結構。當兩個蛋白質的序列同源性高于35%,一般情況下認為他們的三維結構基本相同。12.

Abinitioprediction:蛋白質三級結構預測方法—從頭預測法,在既沒有已知結構的同源蛋白質、也沒有已知結構的遠程同源蛋白質的情況下,只能采用從頭預測方法,即(直接)僅僅根據序列本身來預測其結構。13.

molecularphylogenetictree:分子進化樹,精確地反映物種間或群體間在進化過程中發(fā)生的極微細的遺傳變異,而且借助化石提供的大分子類群的分化年代能定量地估計出物種間或群體間的分化年代。14.

genetree:基因樹,表示一組基因或一組DNA順序進化關系的系統發(fā)生樹。15.

neighbor—joiningmethod:鄰接法,基于最小進化原理經常被使用的一種算法,它不檢驗所有可能的拓撲結構,能同時給出拓撲結構和分支長度。在重建系統發(fā)生樹時,認為在進化分子上,發(fā)生趨異的次數可以不同,它是最有效的的基于距離數據重建系統樹的方法之一。16.

maximumparsimonymethod:最大簡約法基于進化過程中所需核苷酸(或氨基酸)替代數目最少的假說,對所有可能正確的拓撲結構進行計算并挑選出所需替代數最小的拓撲結構作為最優(yōu)系統樹。17.

MEGA(MolecularEvolutionaryGeneticsAnalysis):是一款免費的構樹軟件,它提供了序列比對、格式轉換、數據修訂、距離計算、系統樹重建和可信度評估等全套功能,能對DNA、mRNA氨基酸序列及遺傳距離進行系統發(fā)生分析以及基因分化年代的分析。18.

BioEdit:BioEdit是一個序列編輯器與分析工具軟件。功能包括:序列編輯、外掛分析程序、RNA分析、尋找特征序列、支持超過20000個序列的多序列文件、基本序列處理功能、質粒圖繪制等等。19.

EST:表達序列標簽—是從一個隨機選擇的cDNA克隆,進行5’端和3’端單一次測序挑選出來獲得的短的cDNA部分序列,代表一個完整基因的一小部分20.

GSS:基因組勘測序列,是基因組DNA克隆的一次性部分測序得到的序列。包括隨機的基因組勘測序列、cosmid/BAC/YAC末端序列、通過Exontrapped獲得基因組序列、通過AluPCR獲得的序列、以及轉座子標記(序列等。21.

ORF:核酸序列的開放閱讀框,一個ORF就是一個潛在的蛋白質編碼區(qū)。22.

promoter:啟動子,是RNA聚合酶識別、結合并開始轉錄所必需的一段DNA序列。23.

3’UTR:3’非翻譯區(qū)的縮寫,真核生物的轉錄終止信號是在3’非翻譯區(qū)的polyA。24.

CpGisland:是DNA上的一個區(qū)域,富含GC,兩者以磷酸酯鍵相連,長度約幾百到幾千bp不等,常出現在管家基因或頻繁表達的基因的啟動子附近,在這些部位,CpG島具有阻止序列甲基化的作用。25.

coiledcoil:卷曲螺旋,是蛋白質中由2~7條α螺旋鏈相互纏繞形成類似麻花狀結構的總稱。卷曲螺旋是控制蛋白質寡聚化的元件,在機體內執(zhí)行著分子識別、代謝調控、細胞分化、肌肉收縮、膜通道等生物學功能。26.

heptadrepeat:七肽重復區(qū)是典型的卷曲螺旋結構類型之一,由多個七肽單元連接而成的重復序列。27.

structuredomain:結構域,是在蛋白質三級結構中介于二級和三級結構之間的可以明顯區(qū)分但又相對獨立的折疊單元,每個結構域自身形成緊實的三維結構,可以獨立存在或折疊,但結構域

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論