生物信息學(xué)復(fù)習(xí)題及答案(打印)_第1頁
生物信息學(xué)復(fù)習(xí)題及答案(打印)_第2頁
生物信息學(xué)復(fù)習(xí)題及答案(打印)_第3頁
生物信息學(xué)復(fù)習(xí)題及答案(打印)_第4頁
生物信息學(xué)復(fù)習(xí)題及答案(打印)_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、、名詞解釋:1. 生物信息學(xué): 研究大量生物數(shù)據(jù)復(fù)雜關(guān)系的學(xué)科,其特征是多學(xué)科交叉,以互聯(lián)網(wǎng)為媒 介,數(shù)據(jù)庫為載體。利用數(shù)學(xué)知識建立各種數(shù)學(xué)模型 ; 利用計(jì)算機(jī)為工具對實(shí)驗(yàn)所得大量生 物學(xué)數(shù)據(jù)進(jìn)行儲(chǔ)存、檢索、處理及分析,并以生物學(xué)知識對結(jié)果進(jìn)行解釋。2. 二級數(shù)據(jù)庫: 在一級數(shù)據(jù)庫、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上針對特定目標(biāo)衍生而來,是對 生物學(xué)知識和信息的進(jìn)一步的整理。3. FASTA 序列格式 :是將 DNA 或者蛋白質(zhì)序列表示為一個(gè)帶有一些標(biāo)記的核苷酸或者氨基 酸字符串,大于號( )表示一個(gè)新文件的開始,其他無特殊要求。4. genbank 序列格式: 是 GenBank 數(shù)據(jù)庫的基本信息單

2、位,是最為廣泛的生物信息學(xué)序列 格式之一。該文件格式按域劃分為 4 個(gè)部分:第一部分包含整個(gè)記錄的信息(描述符);第 二部分包含注釋; 第三部分是引文區(qū), 提供了這個(gè)記錄的科學(xué)依據(jù); 第四部分是核苷酸序列 本身,以“ /”結(jié)尾。5. Entrez 檢索系統(tǒng): 是 NCBI 開發(fā)的核心檢索系統(tǒng),集成了 NCBI 的各種數(shù)據(jù)庫,具有鏈接 的數(shù)據(jù)庫多,使用方便,能夠進(jìn)行交叉索引等特點(diǎn)。6. BLAST :基本局部比對搜索工具, 用于相似性搜索的工具, 對需要進(jìn)行檢索的序列與數(shù)據(jù) 庫中的每個(gè)序列做相似性比較。 P947. 查詢序列( query sequence) :也稱被檢索序列,用來在數(shù)據(jù)庫中檢索

3、并進(jìn)行相似性比較 的序列。 P988. 打分矩陣( scoring matrix ):在相似性檢索中對序列兩兩比對的質(zhì)量評估方法。包括基于理論(如考慮核酸和氨基酸之間的類似性)和實(shí)際進(jìn)化距離(如 PAM )兩類方法。 P299. 空位( gap): 在序列比對時(shí),由于序列長度不同,需要插入一個(gè)或幾個(gè)位點(diǎn)以取得最佳 比對結(jié)果,這樣在其中一序列上產(chǎn)生中斷現(xiàn)象,這些中斷的位點(diǎn)稱為空位。 P2910. 空位罰分 :空位罰分是為了補(bǔ)償插入和缺失對序列相似性的影響,序列中的空位的引入 不代表真正的進(jìn)化事件,所以要對其進(jìn)行罰分,空位罰分的多少直接影響對比的結(jié)果。 P3711. E 值: 衡量序列之間相似性是

4、否顯著的期望值。 E 值大小說明了可以找到與查詢序列 (query )相匹配的隨機(jī)或無關(guān)序列的概率,E 值越接近零,越不可能找到其他匹配序列, E值越小意味著序列的相似性偶然發(fā)生的機(jī)會(huì)越小,也即相似性越能反映真實(shí)的生物學(xué)意義。 P9512. 低復(fù)雜度區(qū)域: BLAST 搜索的過濾選項(xiàng)。 指序列中包含的重復(fù)度高的區(qū)域, 如 poly( A )。13. 點(diǎn)矩陣(dot matrix ):構(gòu)建一個(gè)二維矩陣,其 X軸是一條序列,Y軸是另一個(gè)序列,然 后在2個(gè)序列相同堿基的對應(yīng)位置(x, y)加點(diǎn),如果兩條序列完全相同則會(huì)形成一條主對 角線,如果兩條序列相似則會(huì)出現(xiàn)一條或者幾條直線; 如果完全沒有相似性

5、則不能連成直線。14. 多序列比對: 通過序列的相似性檢索得到許多相似性序列,將這些序列做一個(gè)總體的比 對,以觀察它們在結(jié)構(gòu)上的異同,來回答大量的生物學(xué)問題。15. 分子鐘: 認(rèn)為分子進(jìn)化速率是恒定的或者幾乎恒定的假說,從而可以通過分子進(jìn)化推斷 出物種起源的時(shí)間。16. 系統(tǒng)發(fā)育分析: 通過一組相關(guān)的基因或者蛋白質(zhì)的多序列比對或其他性狀,可以研究推 斷不同物種或基因之間的進(jìn)化關(guān)系。17. 進(jìn)化樹的二歧分叉結(jié)構(gòu):指在進(jìn)化樹上任何一個(gè)分支節(jié)點(diǎn),一個(gè)父分支都只能被分成兩個(gè)子分支。系統(tǒng)發(fā)育圖: 用枝長表示進(jìn)化時(shí)間的系統(tǒng)樹稱為系統(tǒng)發(fā)育圖, 是引入時(shí)間概念的支序圖。18. 直系同源: 指由于物種形成事件來

6、自一個(gè)共同祖先的不同物種中的同源序列,具有相似 或不同的功能。 (書: 在缺乏任何基因復(fù)制證據(jù)的情況下, 具有共同祖先和相同功能的同源基因。)19. 旁系(并系)同源: 指同一個(gè)物種中具有共同祖先,通過基因重復(fù)產(chǎn)生的一組基因,這 些基因在功能上可能發(fā)生了改變。(書:由于基因重復(fù)事件產(chǎn)生的相似序列。)20. 外類群: 是進(jìn)化樹中處于一組被分析物種之外的,具有相近親緣關(guān)系的物種。21. 有根樹: 能夠確定所有分析物種的共同祖先的進(jìn)化樹。22. 除權(quán)配對算法( UPGMA ): 最初,每個(gè)序列歸為一類,然后找到距離最近的兩類將其 歸為一類,定義為一個(gè)節(jié)點(diǎn),重復(fù)這個(gè)過程,直到所有的聚類被加入,最終產(chǎn)生

7、樹根。23.鄰接法( neighbor-joining method ):是一種不僅僅計(jì)算兩兩比對距離,還對整個(gè)樹的長 度進(jìn)行最小化,從而對樹的拓?fù)浣Y(jié)構(gòu)進(jìn)行限制,能夠克服 UPGMA 算法要求進(jìn)化速率保持 恒定的缺陷。24. 最大簡約法( MP ):在一系列能夠解釋序列差異的的進(jìn)化樹中找到具有最少核酸或氨基 酸替換的進(jìn)化樹。25. 最大似然法( ML ): 它對每個(gè)可能的進(jìn)化位點(diǎn)分配一個(gè)概率,然后綜合所有位點(diǎn),找到 概率最大的進(jìn)化樹。 最大似然法允許采用不同的進(jìn)化模型對變異進(jìn)行分析評估, 并在此基礎(chǔ) 上構(gòu)建系統(tǒng)發(fā)育樹。26. 致樹(consensustree):在同一算法中產(chǎn)生多個(gè)最優(yōu)樹,合并

8、這些最優(yōu)樹得到的樹即 一致樹。27. 自舉法檢驗(yàn)( Bootstrap): 放回式抽樣統(tǒng)計(jì)法。通過對數(shù)據(jù)集多次重復(fù)取樣,構(gòu)建多個(gè) 進(jìn)化樹,用來檢查給定樹的分枝可信度。28. 開放閱讀框( ORF ) :開放閱讀框是基因序列的一部分,包含一段可以編碼蛋白的堿基 序列。29. 密碼子偏好性( codon bias): 氨基酸的同義密碼子的使用頻率與相應(yīng)的同功 tRNA 的水 平相一致, 大多數(shù)高效表達(dá)的基因僅使用那些含量高的同功 tRNA 所對應(yīng)的密碼子, 這種效 應(yīng)稱為密碼子偏好性。30. 基因預(yù)測的從頭分析:依據(jù)綜合利用基因的特征,如剪接位點(diǎn),內(nèi)含子與外顯子邊界,調(diào)控區(qū),預(yù)測基因組序列中包含的

9、基因。31. 結(jié)構(gòu)域( domain): 保守的結(jié)構(gòu)單元,包含獨(dú)特的二級結(jié)構(gòu)組合和疏水內(nèi)核,可能 單獨(dú)存在,也可能與其他結(jié)構(gòu)域組合。相同功能的同源結(jié)構(gòu)域具有序列的相似性。32. 超家族 :進(jìn)化上相關(guān),功能可能不同的一類蛋白質(zhì)。33. 模體( motif ): 短的保守的多肽段,含有相同模體的蛋白質(zhì)不一定是同源的,一般10-20 個(gè)殘基。34. 序列表譜( profile ):是一種特殊位點(diǎn)或模體序列,在多序列比較的基礎(chǔ)上,氨基 酸的權(quán)值和空位罰分的表格。35. PAM 矩陣: PAM 指可接受突變百分率。一個(gè)氨基酸在進(jìn)化中變成另一種氨基酸的 可能性,通過這種可能性可以鑒定蛋白質(zhì)之間的相似性,并

10、產(chǎn)生蛋白質(zhì)之間的比對。一個(gè) PAM 單位是蛋白質(zhì)序列平均發(fā)生 1% 的替代量需要的進(jìn)化時(shí)間。36. BLOSUM 矩陣: 模塊替代矩陣。 矩陣中的每個(gè)位點(diǎn)的分值來自蛋白比對的局部塊中的替 代頻率的觀察。每個(gè)矩陣適合特定的進(jìn)化距離。例如,在 BLOSUM62 矩陣中,比對的分值 來自不超過 62%一致率的一組序列。37. PSI-BLAST :位點(diǎn)特異性迭代比對。是一種專門化的的比對,通過調(diào)節(jié)序列打分矩陣( scoring matrix )探測遠(yuǎn)緣相關(guān)的蛋白。38. RefSeq:給出了對應(yīng)于基因和蛋白質(zhì)的索引號碼,對應(yīng)于最穩(wěn)定、最被人承認(rèn)的Gen ba nk序列。39.PDB ( Protei

11、n Data Bank ):PDB 中收錄了大量通過實(shí)驗(yàn)( X 射線晶體衍射,核磁共振 NMR )測定的生物大分子的三維結(jié)構(gòu),記錄有原子坐標(biāo)、配基的化學(xué)結(jié)構(gòu)和晶體結(jié)構(gòu)的描 述等。 PDB 數(shù)據(jù)庫的訪問號由一個(gè)數(shù)字和三個(gè)字母組成(如, 4HHB ),同時(shí)支持關(guān)鍵詞搜 索,還可以 FASTA 程序進(jìn)行搜索。40. GenPept: 是由 GenBank 中的 DNA 序列翻譯得到的蛋白質(zhì)序列。數(shù)據(jù)量很大,且隨核酸 序列數(shù)據(jù)庫的更新而更新, 但它們均是由核酸序列翻譯得到的序列, 未經(jīng)試驗(yàn)證實(shí), 也沒有 詳細(xì)的注釋。41. 折疊子(Fold):在兩個(gè)或更多的蛋白質(zhì)中具有相似二級結(jié)構(gòu)的大區(qū)域,這些大區(qū)域

12、具有 特定的空間取向。42. TrEMBL: 是與 SWISS-PROT 相關(guān)的一個(gè)數(shù)據(jù)庫。包含從 EMBL 核酸數(shù)據(jù)庫中根據(jù)編碼序列(CDS)翻譯而得到的蛋白質(zhì)序列,并且這些序列尚未集成到SWISS-PROT數(shù)據(jù)庫中。43. MMDB(Molecular Modeling Database) : 是( NCBI )所開發(fā)的生物信息數(shù)據(jù)庫集成系統(tǒng)Entrez 的一個(gè)部分,數(shù)據(jù)庫的內(nèi)容包括來自于實(shí)驗(yàn)的生物大分子結(jié)構(gòu)數(shù)據(jù)。與PDB 相比,對于數(shù)據(jù)庫中的每一個(gè)生物大分子結(jié)構(gòu), MMDB 具有許多附加的信息,如分子的生物學(xué)功 能、產(chǎn)生功能的機(jī)制、分子的進(jìn)化歷史等 ,還提供生物大分子三維結(jié)構(gòu)模型顯示、結(jié)

13、構(gòu)分 析和結(jié)構(gòu)比較工具。44.SCOP 數(shù)據(jù)庫: 提供關(guān)于已知結(jié)構(gòu)的蛋白質(zhì)之間結(jié)構(gòu)和進(jìn)化關(guān)系的詳細(xì)描述,包括蛋白 質(zhì)結(jié)構(gòu)數(shù)據(jù)庫PDB中的所有條目。SCOP數(shù)據(jù)庫除了提供蛋白質(zhì)結(jié)構(gòu)和進(jìn)化關(guān)系信息外, 對于每一個(gè)蛋白質(zhì)還包括下述信息:到 PDB 的連接,序列,參考文獻(xiàn),結(jié)構(gòu)的圖像等???以按結(jié)構(gòu)和進(jìn)化關(guān)系對蛋白質(zhì)分類, 分類結(jié)果是一個(gè)具有層次結(jié)構(gòu)的樹, 其主要的層次依次 是類(class)、折疊子(fold )、超家族(super family )、家族(family )、單個(gè)PDB蛋白結(jié)構(gòu) 記錄。45. PROSITE :是蛋白質(zhì)家族和結(jié)構(gòu)域數(shù)據(jù)庫,包含具有生物學(xué)意義的位點(diǎn)、模式、可幫助 識別蛋

14、白質(zhì)家族的統(tǒng)計(jì)特征。 PROSITE 中涉及的序列模式包括酶的催化位點(diǎn)、 配體結(jié)合位 點(diǎn)、與金屬離子結(jié)合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質(zhì)結(jié)合的區(qū)域等;PROSITE 還包括根據(jù)多序列比對而構(gòu)建的序列統(tǒng)計(jì)特征,能更敏感地發(fā)現(xiàn)一個(gè)序列是否具 有相應(yīng)的特征。46. Gene Ontology 協(xié)會(huì): 編輯一組動(dòng)態(tài)的、可控的基因產(chǎn)物不同方面性質(zhì)的字匯的協(xié)會(huì)。 從 3 個(gè)方面描述基因產(chǎn)物的性質(zhì),即,分子功能,生物過程,細(xì)胞區(qū)室。47. 表譜( PSSM ):指一張基于多序列比對的打分表,表示一個(gè)蛋白質(zhì)家族,可以用來搜索 序列數(shù)據(jù)庫。48. 比較基因組學(xué): 是在基因組圖譜和測序的基礎(chǔ)上,利用

15、某個(gè)基因組研究獲得的信息推測 其他原核生物、真核生物類群中的基因數(shù)目、位置、功能、表達(dá)機(jī)制和物種進(jìn)化的學(xué)科。49. 簡約信息位點(diǎn): 指基于 DNA 或蛋白質(zhì)序列,利用最大簡約法構(gòu)建系統(tǒng)發(fā)育樹時(shí), 如果每個(gè)位點(diǎn)的狀態(tài)至少存在兩種,每種狀態(tài)至少出現(xiàn)兩次的位點(diǎn)。其它位點(diǎn)為都是 非簡約性信息位點(diǎn)。二、問答題1)生物信息學(xué)的發(fā)展經(jīng)歷了哪幾個(gè)階段 答:生物信息學(xué)的發(fā)展經(jīng)歷了3個(gè)階段。第一個(gè)階段是前基因組時(shí)代。這一階段主要是以各種算法法則的建立、生物數(shù)據(jù)庫 的建立以及 DNA 和蛋白質(zhì)序列分析為主要工作;第二階段是基因組時(shí)代。這一階段以各種基因組計(jì)劃測序、網(wǎng)絡(luò)數(shù)據(jù)庫系統(tǒng)的建立 和基因?qū)ふ覟橹饕ぷ?。第三階段

16、是后基因組時(shí)代。這一階段的主要工作是進(jìn)行大規(guī)模基因組分析、蛋白質(zhì) 組分析以及其他各種基因組學(xué)研究。2)生物信息學(xué)步入后基因組時(shí)代后,其發(fā)展方向有哪幾個(gè)方面。 答:生物信息學(xué)步入后基因組時(shí)代后,其發(fā)展方向主要有:各種生物基因組測序及新基因的發(fā)現(xiàn);單核苷酸多態(tài)性(SNP)分析;基因組非編碼區(qū)信息結(jié)構(gòu)與分析;比較基因組學(xué)和生物進(jìn)化研究;蛋白質(zhì)結(jié)構(gòu)和功能的 研究。3) 美國國家生物技術(shù)信息中心(NCBI )的主要工作是什么?請列舉 3個(gè)以上 Entrez 系統(tǒng) 可以檢索的數(shù)據(jù)庫。 (NCBI 維護(hù)的數(shù)據(jù)庫) NCBI 的主要工作是在分子水平上應(yīng)用數(shù)學(xué)和 計(jì)算機(jī)科學(xué)的方法研究基礎(chǔ)生物, 醫(yī)學(xué)問題。 為科

17、學(xué)界開發(fā), 維護(hù)和分享一系列的生物信息 數(shù)據(jù)庫;開發(fā)和促進(jìn)生物信息學(xué)數(shù)據(jù)庫,數(shù)據(jù)的儲(chǔ)存,交換以及生物學(xué)命名規(guī)則的標(biāo)準(zhǔn)化。 維護(hù)的主要數(shù)據(jù)庫包括答:PubMed、核酸序列數(shù)據(jù)庫 Gen Ba nk、PROW、三維蛋白質(zhì)結(jié)構(gòu)分子模型數(shù)據(jù)庫MMDB 。4)序列的相似性與同源性有什么區(qū)別與聯(lián)系?答:相似性是指序列之間相關(guān)的一種量度, 兩序列的的相似性可以基于序列的一致性的百分 比;而同源性是指序列所代表的物種具有共同的祖先,強(qiáng)調(diào)進(jìn)化上的親緣關(guān)系。P1475)BLAST 套件的 blastn、 blastp、 blastx 、 tblastn 和 tblastx 子工具的用途什么?答: blastn 是

18、將給定的核酸序列與核酸數(shù)據(jù)庫中的序列進(jìn)行比較;Blastp 是使用蛋白質(zhì)序列與蛋白質(zhì)數(shù)據(jù)庫中的序列進(jìn)行比較, 可以尋找較遠(yuǎn)的關(guān)系; Blastx 將給定的核酸序列按照六 種閱讀框架將其翻譯成蛋白質(zhì)與蛋白質(zhì)數(shù)據(jù)庫中的序列進(jìn)行比對,對分析新序列和EST 很有用; Tblastn 將給定的氨基酸序列與核酸數(shù)據(jù)庫中的序列(雙鏈)按不同的閱讀框進(jìn)行比 對,對于尋找數(shù)據(jù)庫中序列沒有標(biāo)注的新編碼區(qū)很有用;Tblastx 只在特殊情況下使用,它將 DNA 被檢索的序列和核酸序列數(shù)據(jù)庫中的序列按不同的閱讀框全部翻譯成蛋白質(zhì)序列, 然后進(jìn)行蛋白質(zhì)序列比對。 P976)簡述 BLAST 搜索的算法思想。答: BLA

19、ST 是一種局部最優(yōu)比對搜索算法,將所查詢的序列打斷成許多小序列片段,然后小序列逐步與數(shù)據(jù)庫中的序列進(jìn)行比對,這些小片段被叫做字”word”;當(dāng)一定長度的的字(W)與檢索序列的比對達(dá)到一個(gè)指定的最低分(T)后,初始比對就結(jié)束了; 一個(gè)序列的匹配度由各部分匹配分?jǐn)?shù)的總和決定,獲得高分的序列叫做高分匹配片段(HSP),程序?qū)⒆詈玫?HSP 雙向擴(kuò)展進(jìn)行比對,直到序列結(jié)束或者不再具有生物學(xué)顯著性,最后所得到的 序列是那些在整體上具有最高分的序列,即,最高分匹配片段(MSP),這樣,BLAST既保持了整體的運(yùn)算速度,也維持了比對的精度。 P957)什么是物種的標(biāo)記序列?答:指物種特有的一段核苷酸序列。

20、 可以通過相似性查詢, 得到某一序列在數(shù)據(jù)庫中的某一 物種中反復(fù)出現(xiàn),且在其他物種中沒有的明顯相似的序列。8)什么是多序列全局比對的累進(jìn)算法?(三個(gè)步驟)答:第一,所有的序列之間逐一比對(雙重比對) ;第二,生成一個(gè)系統(tǒng)樹圖,將序列按相 似性大致分組;第三,使用系統(tǒng)樹圖作為引導(dǎo),產(chǎn)生出最終的多序列比對結(jié)果。P529) 簡述構(gòu)建進(jìn)化樹的步驟,每一步列舉1-2 種使用的軟件或統(tǒng)計(jì)學(xué)方法。答:(1)多序列比對: Clustal W(2)校對比對結(jié)果: BIOEDIT( 3)建樹: MEGA( 4)評估系統(tǒng)發(fā)育信號和進(jìn)化樹的牢固度:自舉法(Bootstrap) P11410)簡述除權(quán)配對法( UPGM

21、A )的算法思想。答:通過兩兩比對聚類的方法進(jìn)行, 在開始時(shí),每個(gè)序列分為一類,分別作為一個(gè)樹枝的生 長點(diǎn), 然后將最近的兩序列合并,從而定義出一個(gè)節(jié)點(diǎn), 將這個(gè)過程不斷的重復(fù), 直到所有 的序列都被加入,最后得到一棵進(jìn)化樹。 P11911)簡述鄰接法( NJ )構(gòu)樹的算法思想。 答:鄰接法的思想不僅僅計(jì)算最小兩兩比對距離, 還對整個(gè)樹的長度進(jìn)行最小化, 從而對樹 的拓?fù)浣Y(jié)構(gòu)進(jìn)行限制。 這種算法由一棵星狀樹開始, 所有的物種都從一個(gè)中心節(jié)點(diǎn)出發(fā), 然 后通過計(jì)算最小分支長度的和相繼尋找到近鄰的兩個(gè)序列, 每一輪過程中考慮所有可能的序 列對, 把能使樹的整個(gè)分支長度最小的序列對一組, 從而產(chǎn)生新

22、的距離矩陣, 直到尋找所有 的近鄰序列。 P11712)簡述最大簡約法( MP )的算法思想。 P68 答:是一種基于離散特征的進(jìn)化樹算法。 生物演化應(yīng)該遵循簡約性原則, 所需變異次數(shù)最少 (演化步數(shù)最少) 的演化樹可能為最符合自然情況的系統(tǒng)樹。 在具體的操作中, 分為非加權(quán) 最大簡約分析 (或稱為同等加權(quán)) 和加權(quán)最大簡約分析, 后者是根據(jù)性狀本身的演化規(guī)律 (比 如 DNA 不同位點(diǎn)進(jìn)化速率不同)而對其進(jìn)行不同的加權(quán)處理。 P12013)簡述最大似然法( ML )的算法思想。 P69 答:是一種基于離散特征的進(jìn)化樹算法。 該法首先選擇一個(gè)合適的進(jìn)化模型, 然后對所有可 能的進(jìn)化樹進(jìn)行評估,

23、 通過對每個(gè)進(jìn)化位點(diǎn)的替代分配一個(gè)概率, 最后找出概率最大的進(jìn)化 樹。 P12214) UPGMA 構(gòu)樹法不精確的原因是什么?P69答:由個(gè)于 UPGMA 假設(shè)在進(jìn)化過程中所有核苷酸 /氨基酸都有相同的變異率,也就是存在 著一個(gè)分子鐘; 這種算法當(dāng)所構(gòu)建的進(jìn)化樹的序列進(jìn)化速率明顯不一致時(shí), 得到的進(jìn)化樹相 對來說不準(zhǔn)確的。P119倒數(shù)第2段,前4行。15) 在 MEGA2 軟件中,提供了哪些堿基替換距離模型,試列舉其中 3 種,解釋其含義。 答:堿基替換模型包括, No.of differences 、 p-distance、 Jukes-Cantor distance、 T ajima-Ne

24、i distance、 Kimur 2-parameter distance 、Tamura 3-parameter distance、 Tamura-Nei distance p-distance: 表示有差異的核苷酸位點(diǎn)在序列中所占比例,將有差異的核苷酸位點(diǎn)數(shù)除 已經(jīng)比對的總位點(diǎn)數(shù)就可以得到Jukes-Cantor:模型假設(shè) A T C G的替換速率是一致的,然后給出兩個(gè)序列核苷酸替換 數(shù)的最大似然估計(jì)Kimura 2-parameter :模型考慮到了轉(zhuǎn)換很顛換隊(duì)多重?fù)糁械挠绊懀?但假設(shè)整個(gè)序列中 4 鐘核苷酸的頻率是相同哈德在不同位點(diǎn)上的堿基替換頻率是相同的16)列舉 5項(xiàng) DNA 序

25、列分析的內(nèi)容及代表性分析工具。答: ( 1 )尋找重復(fù)元件: RepeatMasker(2) 同源性檢索確定是否存在已知基因:BLASTn(3) 從頭開始方法預(yù)測基因:Genscan(4) 分析各種調(diào)控序列:TRES/DRAGON PROMOTOR FINDER(5)CpG 島:CpGPlotP130,表格代表性工具: ORF Finder 、BLASTn 、tBLASTx 、BLASTx 、 Gene Wise17 )如何用 BLAST 發(fā)現(xiàn)新基因?答: 從一個(gè)一直蛋白質(zhì)序列開始,通過 tBLASTn 工具搜索一個(gè) DNA 數(shù)據(jù)庫,可以找到相 應(yīng)的匹配,如與 DNA 編碼的已知蛋白質(zhì)的匹配或

26、者與 DNA 編碼的相關(guān)蛋白質(zhì)的匹配。然 后通過 BLASTx 或 BLASTp 在蛋白質(zhì)數(shù)據(jù)庫中搜索 DNA 或蛋白質(zhì)序列來 “確定” 一個(gè)新基 因。18 )試述 SCOP 蛋白質(zhì)分類方案答:SCOP將PDB數(shù)據(jù)庫中的蛋白質(zhì)按傳統(tǒng)分類方法分成a型、B型、a / B型、a + B型,并將多結(jié)構(gòu)域蛋白、膜蛋白和細(xì)胞表面蛋白、 N 蛋白單獨(dú)分類, 一共分成 7種類型, 并在此 基礎(chǔ)上,按折疊類型、超家族、 家族三個(gè)層次逐級分類。 對于具有不同種屬來源的同源蛋白 家族, SCOP 數(shù)據(jù)庫按照種屬名稱將它們分成若干子類,一直到蛋白質(zhì)分子的亞基。19)試述 SWISS-PROT 中的數(shù)據(jù)來源。答:( 1

27、)從核酸數(shù)據(jù)庫經(jīng)過翻譯推導(dǎo)而來;(2)從蛋白質(zhì)數(shù)據(jù)庫 PIR 挑選出合適的數(shù)據(jù);( 3)從科學(xué)文獻(xiàn)中摘錄; (4)研究人員直接提交的蛋白質(zhì)序列數(shù)據(jù)。20)TrEMBL 哪兩個(gè)部分?答:(1)SP-TrEMBL(SWISS-PROT TrEMBL)包含最終將要集成到 SWISS-PROT 的數(shù)據(jù), 所有的 SP-TrEMBL 序列都已被賦予 SWISS-PROT 的登錄號。(2)REM-TrEMBL(REMaining TrEMBL)包括所有不準(zhǔn)備放入 SWISS-PROT 的數(shù)據(jù),因此這部分?jǐn)?shù)據(jù)都沒有登錄號。21)試述 PSI-BLAST 搜索的 5 個(gè)步驟。答:1 選擇待查序列( query

28、 )和蛋白質(zhì)數(shù)據(jù)庫;2 PSI-BLAST 構(gòu)建一個(gè)多序列比對,然后創(chuàng)建一個(gè)序列表譜( profile )又稱特定位置打分 矩陣( PSSM );3 PSSM 被用作 query 搜索數(shù)據(jù)庫4 PSI-BLAST 估計(jì)統(tǒng)計(jì)學(xué)意義 (E values)5 重復(fù) 3 和 4 , 直到?jīng)]有新的序列發(fā)現(xiàn)。22) 列舉 5種常用的系統(tǒng)發(fā)育分析軟件PHYLIP 、 PAUP、 MEGA、 PAML、 TreeView 。 三 . 操作與計(jì)算題1. 如何獲取訪問號為 U49845 的 genbank 文件?解釋如下 genbank 文件的 LOCUS 行提供的 信息:LOCUS SCU49845 5028

29、bp DNA linear PLN 21-JUN-1999答:(1)訪問NCBI的Entrez檢索系統(tǒng),(2)選擇核酸數(shù)據(jù)庫,(3)輸入U(xiǎn)49845序列訪 問號開始檢索。第一項(xiàng)是 LOCUS 名稱,前三個(gè)字母代表物種名第二項(xiàng)是序列長度第三項(xiàng)是序列分子類型第四項(xiàng)是分子為線性的第五項(xiàng)是 GenBank 分類碼第六項(xiàng)是最后修訂日期P132. 利用 Entrez 檢索系統(tǒng)對核酸數(shù)據(jù)搜索,輸入如下信息,將獲得什么結(jié)果:AF114696:AF114714ACCN。P35答:獲得序列訪問號 AF114696到AF114714之間的連續(xù)編號的序列。3. 相比使用BLAST套件搜索數(shù)據(jù)庫,BLAST2工具在結(jié)果

30、呈現(xiàn)上有什么優(yōu)點(diǎn)?答:BLAST2序列分析工具,它能進(jìn)行兩條序列的精確比對,同時(shí)給出兩序列的圖形化比對結(jié)果和文本形式的聯(lián)配結(jié)果。4. MEGA2如何將其它多序列比對格式文件轉(zhuǎn)化為MEGE格式的多序列比對文件?答:(1)選擇菜單 file ,( 2)選擇 Text File Editor and Format Coverter 工具,(3)調(diào)入需 要轉(zhuǎn)換的序列和相應(yīng)的格式,(4)獲得轉(zhuǎn)換后的 MEGA格式的文件并保存。5. 什么簡約信息位點(diǎn) Pi?答:指基于DNA或蛋白質(zhì)序列,應(yīng)用最大簡約法構(gòu)建系統(tǒng)發(fā)育樹時(shí),如果某個(gè)位點(diǎn)的狀態(tài) 存在兩種或兩種以上,每種狀態(tài)出現(xiàn)兩次或兩次以上,這樣的位點(diǎn)稱簡約信息位點(diǎn)。6. 以下軟件的主要用途是什么?RepeatMasker, CpGPlot, Splice View, Gen sca n, ORF fin der, n eural n etwork promoter predict ion. 答:RepeatMasker:是對重復(fù)序列進(jìn)行分析的軟件GpGPlot:用來查找一條 DNA序列中CpG島,使用Gardine-Garden和Frommer描述的方法Splice View :是對一段序列進(jìn)行剪接位

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論