![基因組學(xué)研究中一些常用軟件的概述_第1頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-2/24/e363fbb6-e10e-4487-a147-736ed655c726/e363fbb6-e10e-4487-a147-736ed655c7261.gif)
![基因組學(xué)研究中一些常用軟件的概述_第2頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-2/24/e363fbb6-e10e-4487-a147-736ed655c726/e363fbb6-e10e-4487-a147-736ed655c7262.gif)
![基因組學(xué)研究中一些常用軟件的概述_第3頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-2/24/e363fbb6-e10e-4487-a147-736ed655c726/e363fbb6-e10e-4487-a147-736ed655c7263.gif)
![基因組學(xué)研究中一些常用軟件的概述_第4頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-2/24/e363fbb6-e10e-4487-a147-736ed655c726/e363fbb6-e10e-4487-a147-736ed655c7264.gif)
![基因組學(xué)研究中一些常用軟件的概述_第5頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-2/24/e363fbb6-e10e-4487-a147-736ed655c726/e363fbb6-e10e-4487-a147-736ed655c7265.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、遺 傳 HEREDITAS(Beijin g 25(6 :708712, 2003技術(shù)與方法收稿日期 :2002-11-08; 修回日期 :2003-02-18作者簡(jiǎn)介 :吳清發(fā) (1972- , 男 , 安徽人 , 博士研究生 , 專業(yè)方向 :基因組學(xué)。 Tel E mail:wuqfgenomics. org. c n基因組學(xué)研究中一些常用軟件的概述吳清發(fā)(北京華大基因研究中心 , 北京 101300; 中國(guó)科學(xué)院遺傳與發(fā)育生物學(xué)研究所人類基因組中心 , 北京 100101摘 要 :基因組學(xué)是以一個(gè)物種的全部遺傳信息為 研究對(duì) 象 , 在 整體上 研究遺 傳信息
2、 的分子 組成、 組織結(jié) 構(gòu)、 表 達(dá) 調(diào)控和進(jìn)化等內(nèi)在機(jī)制的基礎(chǔ)性學(xué)科?;蚪M學(xué)研究中 海量數(shù) 據(jù)的存 儲(chǔ)、 管 理和檢 索 , 以及對(duì)這 些數(shù)據(jù) 進(jìn)行挖 掘 等過(guò)程 , 必須借助于生物信息學(xué)的方法。目前 , 大量成熟的 軟件廣泛地應(yīng)用在基因組學(xué)研究中 , 它們 大都可通過(guò) 互 聯(lián)網(wǎng)免費(fèi)訪問(wèn)或索取。本文擬對(duì)人類基因組計(jì)劃中常用 的一些 軟件如 序列比對(duì)、 序 列組裝、 重復(fù) 序列鑒 定和基 因 預(yù)測(cè)等軟件的原理作一介紹 , 并結(jié)合典型軟件加 以說(shuō)明。 關(guān)鍵詞 :基因組學(xué) ; 比對(duì) ; 組裝 ; 重復(fù)序列 ; 基因 中圖分類號(hào) :Q75 文獻(xiàn)標(biāo)識(shí)碼 :A文章編號(hào) :0253-9772(2003
3、 06-0708-05An Introduction of Several Programs Used in Genomic AnalysisW U Qing Fa(Bei jing Genomic Institute , Bei jing , 101300; Human Ge nome Cente r , Institute o f Ge netic sand Deve lo pmental Biology , Chinese Ac ademy o f Scie nce s , Bei jing 100101Abstract:Genomics is a novel subject that
4、has been developed accompanying wi th the progress of hu man genome project. Genomics deals with the chemistry component, structure organization and evolu tion of genome at global level. As genomics associated with huge data, bioinformatics plays an i mportant role in these processes of data product
5、ion, data management and data mining. At pre sent, many reliable programs have been used in genomic research successfully, which are usually accessible and downloaded freely. We address here the principles of some programs used wildly in genomics such as seq uence ali gnment, sequence assembly , rep
6、eat i dentification and gene prediction, which are exemplified with typical programs respectively. Key words:genomics; ali gnment; assembly; repeat sequence; gene 基因組學(xué)是以一個(gè)物種的全部遺傳信息為研究對(duì)象 , 在 整體上研究 遺傳信息的 分子組成、 組 織結(jié)構(gòu)、 表達(dá) 調(diào)控 和進(jìn) 化等內(nèi)在機(jī)制的基礎(chǔ)性 學(xué)科。在基 因組研 究中必 須借 助于 計(jì)算科學(xué)來(lái)處理和充分利用大量的數(shù)據(jù) , 由此促成了 基因組 信息學(xué)?;蚪M信息學(xué)在基因 組
7、研究中有兩 方面基本任 務(wù) :一是 對(duì)基因組學(xué)研究各個(gè)環(huán)節(jié)如文庫(kù)構(gòu)建、 物理圖譜的制備、 遺傳 圖譜制備等發(fā)展適用的軟件 ; 二是對(duì)產(chǎn)生的海量數(shù)據(jù)的存儲(chǔ)、 管理和檢索 , 并對(duì)這些數(shù)據(jù)進(jìn)行歸納總結(jié) , 從數(shù)據(jù)中找出有價(jià) 值的生物學(xué)知識(shí)。隨著可利用 的基因組 信息不斷增 加 , 基因 組信息學(xué)將發(fā)揮越來(lái)越大的作用。我們擬對(duì)目前基因組學(xué)研 究中幾種常用工具軟件的原理和使用方法作一簡(jiǎn)要介紹。1 序列比對(duì)序列比對(duì)的理論基 礎(chǔ)是進(jìn) 化學(xué) 說(shuō)。在進(jìn) 化上曾 有共 同 祖先的序列 , 盡管它們各自在進(jìn)化過(guò)程中發(fā)生替換、 插入、 缺 失等事件 , 但和其特定生物學(xué)功能相聯(lián)系的位點(diǎn)應(yīng)具有某 種 程度的保守性 ,
8、 如酶的活性位點(diǎn)、 形成二硫鍵的半 胱氨酸等。 序列比對(duì)就是將兩條 或多條 核酸或 蛋白質(zhì)序 列排列 以獲 得 最大的相似性 (核酸 或保守性 (蛋白質(zhì) , 以評(píng)價(jià)兩條序列 的 相似性或同源程度 2。 1. 1 原理介紹任何方法在進(jìn)行比對(duì)時(shí) , 都是將序列相似或不相似的 信 息轉(zhuǎn)化為數(shù)值后進(jìn)行 。通常將 兩條序 列分別 作為打 分矩 陣 的兩維 , 矩陣點(diǎn) 是兩維上對(duì) 應(yīng)兩個(gè) 殘基的 相似 性分?jǐn)?shù) , 分 數(shù)越高則說(shuō)明兩個(gè)殘基越相似。因此 , 序列比對(duì)問(wèn)題變 成在矩 陣?yán)飳ふ易罴驯葘?duì)路徑 1, 2。最初的序列比對(duì)是以 1970年 Needleman 和 Wunsch 提出 動(dòng)態(tài)規(guī)劃算 法作為依
9、據(jù) 的 , 該 算法是 全序列 比對(duì)算 法 , 在比 對(duì)中包含兩個(gè)被比較序 列的所 有元素。其 缺點(diǎn)是 一些 局部 序列相似性 較高 , 而全 序列相 似性較 小的序 列 , 其 同源 性不 易檢出 , 因前者常被后者的平均效應(yīng)所掩蓋。在具有 模塊性 質(zhì)的蛋白質(zhì)比對(duì)中 , 這種情 況更為 明顯。因 此在 Needleman Wunsch 算法基 礎(chǔ)上 改 良產(chǎn) 生 了 Smi th Waterman 算法。 它是 一種局部比 對(duì)的 方法 , 用 于尋 找兩 個(gè)被 比較 序 列相 似 的片 段 , 這樣對(duì)全局相似性 較小的 序列 , 可檢出 局部性 比對(duì) 較好 的片段 2。在進(jìn)行序列兩兩比對(duì)時(shí)
10、, 有兩方面問(wèn)題直接影響 相似性 分值 :取代矩陣和空位罰分。在核酸研究中 , 情況比較簡(jiǎn) 單 , 只有 4種堿基 , 但也存在轉(zhuǎn) 換和 顛換的 區(qū)別 , 在取 代矩 陣中 應(yīng)賦予它們不同的權(quán)重。 在蛋白質(zhì) 研究 中 , 情況較 為復(fù) 雜。 組成蛋白質(zhì)的 20種氨 基酸 分為芳 香族 氨基 酸、 疏 水性 氨基 酸、 親水性氨基酸、 酸 性氨基 酸、 堿性 和半胱 氨酸 等 6類 , 類 內(nèi)氨基酸替換比類間氨基 酸替換 對(duì)蛋白 質(zhì)結(jié)構(gòu) 和功能 影響 要小 , 如纈氨酸對(duì)異亮氨酸的取代與谷氨酸對(duì)異亮氨 酸的取 代對(duì)結(jié)構(gòu)和 功能具有 不同 的影響 效果。在 蛋白質(zhì) 研究 中已 發(fā)展出不同的取代矩陣
11、來(lái)描述氨基酸殘基兩兩取代的分 值 , 常用的取代矩陣 有 PAM 和 B LOSUM 系 列 , 它 們來(lái) 源于 不同 的構(gòu)建 方 法 和 不同 的 參 數(shù) 選 擇 , 包 括 PAM 250、 BLOSUM62、 BLOSUM90、 BLOSUM30等。對(duì)于不同的對(duì)象可以采用 不同的 取代矩陣以獲得更多信息 , 例如對(duì)同源性較高的序列 可以采 用 BLOS UM90矩 陣 , 而 對(duì) 同 源 性 較 低 的 序 列 可 采 用 BLO SUM30和 PAM250矩 陣。有 時(shí)為 取得 兩 個(gè)序 列 最大 的相 似 性 , 會(huì)在序列中補(bǔ)加空位??瘴涣P分是為了補(bǔ)償插入 和缺失 對(duì)序列相似性的影響
12、 , 由于沒有什么合適的理論模型 能很好 地描述空位 問(wèn)題 , 空位 罰分缺 乏理論 依據(jù)而 更多依 據(jù)經(jīng) 驗(yàn)。 一般的處理 方法 是用 兩個(gè) 罰分 值 , 對(duì)插 入的 第 一個(gè) 空 位罰 分 , 如 1015; 另一 個(gè)對(duì) 空位 的延 伸罰 分 , 如 12。對(duì) 于具 體的 比 對(duì) 問(wèn) 題 , 采 用 不 同 的 罰 分 方 法 會(huì) 取 得 不 同 的 效 果 1,3。對(duì)于比對(duì)計(jì)算產(chǎn)生的分值 , 有統(tǒng)計(jì)學(xué)方法判斷兩 個(gè)序列 是否同源。主要的思 想是把 具有相 同長(zhǎng)度 的隨機(jī) 序列 進(jìn)行 比對(duì) , 把分值與最初的 比對(duì)分 值相比 , 看看 比對(duì)結(jié) 果是 否具 有顯著性。相關(guān)的參 數(shù) E 代表
13、隨機(jī)比 對(duì)分值 不低于實(shí) 際比 對(duì)分值的概率。對(duì)于嚴(yán) 格的 比對(duì) , 必 須 E 值 低于 一定 閾值 才能說(shuō)明比對(duì)的結(jié)果具有足夠的統(tǒng)計(jì)學(xué)顯著性 , 這樣 就排除 了由于偶然的因素產(chǎn)生高比對(duì)得分的可能 4。1. 2 具體軟件的應(yīng)用B LAST (basic local alignmen t search tool 是現(xiàn)在 應(yīng)用 最廣 泛的序列相似性搜索工 具。它采用 啟發(fā)式 算法對(duì) 局部 匹配 來(lái)取代全局匹配 , 因此 能檢測(cè) 只有部 分相 似性的 序列 4, 并 為比對(duì)結(jié)果提供統(tǒng)計(jì)學(xué)的評(píng)估。 BLAST 在檢索時(shí) , 大致可 分 為以下幾步 :(1 將長(zhǎng)度為 n 的檢索 序列按 單位長(zhǎng)度 w
14、 分 為 n -w +1個(gè)不同的字段 , 將這些字段和數(shù)據(jù)庫(kù) 的序列兩兩 比 對(duì)。各字段和比對(duì)上的序列有不同的分值 , 將所有分值高 于 T 的那些比對(duì)選出 , 用于下一步流程 ; (2 將 檢索字 段和數(shù) 據(jù) 庫(kù)中所有含該 字段 的序 列比 對(duì) , 找出 含有 檢 索片 段的 大 分 子 ; (3 對(duì)每個(gè)片段而言 , 以比 對(duì)上的 那段 序列 為核心 , 向 兩 側(cè)進(jìn)行無(wú)空位延伸。匹配加分 , 錯(cuò)配罰分。當(dāng)延伸時(shí)分值 降 低了 X 時(shí) , 停止延伸 , 并 以最后 的分值 為該比對(duì) 的分值。 將 所有分值超過(guò)某域值 的比對(duì) 作為最 后的輸 出結(jié) 果。這種 方 法無(wú)法處理含有空位的比對(duì) , 所
15、以經(jīng)常出現(xiàn)檢索序列和比 對(duì) 上的序列會(huì)輸出多個(gè)不同的比對(duì)結(jié)果 , 如將這些比對(duì)結(jié)合 在 一起考慮 , 則兩 條序列之 間有 顯著 的同源 性。為此 , Altschul 等對(duì) BLAST 作了 修改 :只 有兩 個(gè)不 相重 疊的 字段 同時(shí) 都 比 對(duì)上同一條序列 , 并且兩字段間 距離小 于設(shè)定 值 A 時(shí) , 才 能 激活程序使比 對(duì)向 兩側(cè) 無(wú)空 位延 伸 ; 如果 最 后的 分值 高 于 Sg 時(shí) , 一種改進(jìn) 的含 Smith Waterman 算 法的 程 序被 激活 , 重 新進(jìn)行包含間隔處理的比對(duì) , 所得的分值為最終分值 5。 BLAS T 包含針對(duì)不 同的查 詢序 列和要
16、搜索 的數(shù) 據(jù)庫(kù) 類 型 的 5個(gè) 程 序。 最 常 用 的 為 BLASTN (核 酸 核 酸 和 BLAS TP(蛋白 蛋白 兩 種程 序。 B LASTX 也較為 常用 , 它 主 要用于將一段 DNA 序列 按 6個(gè)不 同的 可讀 框翻 譯后 , 與 蛋 白質(zhì)數(shù)據(jù)庫(kù)比較。這種程序?qū)π滦蛄泻?EST 分析很有用 4。2 序列組裝利用鳥槍法進(jìn)行測(cè)序 , 再將大量隨機(jī)測(cè)序得到的小片 段 用計(jì)算機(jī)拼接成完整 的基因 組序列 是基因組 研究中 的重 要 工作。好的拼接程序 , 不僅 要求組裝 結(jié)果 的錯(cuò) 誤盡可 能少 , 而且能降低目前對(duì)計(jì)算硬件的過(guò)高要求 。2. 1 原理介紹已有許多計(jì) 算機(jī)
17、程序 能 自動(dòng) 對(duì)小 片 段序 列進(jìn) 行 組裝。 目前大 部分 程序 都 遵守 overlap layout consensus 的 思路 , 即 首先在用于拼接組裝的片段中找出序列重疊 ; 用重疊度最 高 的片段建立序列 contigs, 再將 contigs 定 位定 向 , 最后 得到 完 整的一致序列。這種策略采取的計(jì)算方 法類似于 19世紀(jì) 愛 爾蘭數(shù)學(xué)家 William Rowan Hamilton 提 出的 哈米 爾頓 的路 徑 問(wèn)題 , 即給出一系列任意的城市 , 每次只經(jīng)過(guò)一個(gè) 城市 , 而 連 接所有城市最短的路徑是哪一條。如果城市的數(shù) 目較少 , 答 案很容易得到 , 但
18、隨著城市 數(shù)目的 增加 , 問(wèn)題 就越來(lái) 越難 以 解決。若有 30個(gè)城 市 , 那 么將 會(huì)超 過(guò) 上億 種可 能 的答 案。 目前計(jì)算機(jī)無(wú)法承受 如此巨 大的計(jì) 算量。由 于重復(fù) 序列 會(huì) 干擾組裝 , 在目 前的基因組 拼接中 , 多 采用啟 發(fā)式算 法來(lái) 避 免重復(fù)序列的干擾 6。最近 , 加州大學(xué)圣地亞哥分校的計(jì)算機(jī)教授 Pavel Pevzn er 嘗試 用一種新的方法 對(duì)基因 組片 段序列 組裝。他 的算 法 是以 18世紀(jì)的瑞士數(shù)學(xué)家 Leonhard Euler 命名 的數(shù)學(xué)概念為基礎(chǔ)。簡(jiǎn)單的說(shuō) , 這種技術(shù)就是將人類基因組分成更 小的片 段 , 同時(shí)利用了重復(fù)序列進(jìn)行組裝
19、, 這樣 , 不僅巧妙地 解決了 重復(fù)序列干 擾組裝的問(wèn) 題 , 而 且將耗 費(fèi)計(jì)算 資源的 哈 密爾 頓途徑 變成了 歐拉途徑 。 歐拉途 徑 就是假定每 個(gè)城市 不限定只能 訪問(wèn)一次 , 想去多 少次都 可以 , 但是每 一條 路只 能走一次 , 從這個(gè)網(wǎng)絡(luò)中找出最短的路程的問(wèn) 題 7。2. 2 具體軟件的介紹2. 2. 1 PhrapPhrap(PHRagment assembly program 是目 前在小的 基因組 片段或重復(fù)序列含量較低 的全基 因組組 裝中應(yīng) 用非常 廣泛 的軟件。它常和另幾 個(gè)軟 件一 起組成 Phred Phrap Consed 軟 件包。Phred 的基本
20、功能 是找到 電泳 道 , 識(shí)別泳 道的 空間 并對(duì) 信號(hào)進(jìn)行技術(shù)處理 ; 將測(cè)序儀上得到不同波長(zhǎng)光的強(qiáng) 度變化 軌跡 , 轉(zhuǎn)化成對(duì)應(yīng)的的 A, T, G, C 4種堿基 ; 并 根據(jù)信號(hào) 峰的 間距、 形狀及信噪比等 因素 , 判斷堿 基的可 信度信 息。 Phred 可處理不同類型的測(cè)序 反應(yīng)。這些 情況包 括測(cè)序 反應(yīng) 可為 引物標(biāo) 記 或終 止物 標(biāo) 記 ; 標(biāo) 記的 熒光 物 可以 是羅 丹 明、 big dye 或其他熒光物 質(zhì) ; 測(cè)序設(shè) 備可為 ABI 系列或 MegaBace 系 列 8,9。從 Phred 讀出的 文件 , 經(jīng) 過(guò)處 理 , 生 成序 列 文件 和 質(zhì)量 文
21、件 , 兩個(gè) 文件 互相 對(duì)應(yīng)。 在拼 接之 前 , 通常 用 cross _match軟件對(duì)反應(yīng)序列中可能 存在的 載體序 列標(biāo)記。將 去載 體后 的反應(yīng)序列和相 應(yīng)質(zhì) 量值 提交 給 Phrap 。 Phrap 通 過(guò)比 對(duì)找 出配對(duì)的反應(yīng) , 在 Phrap 階段 , 比對(duì) 時(shí)采用 的記分 標(biāo)準(zhǔn)為 :匹 配為 +1, 錯(cuò) 配為 -9(錯(cuò) 配涉及 N 時(shí)不罰分 , 起始空 位罰分 為 -11, 延伸空 位罰分 為 -10, 這樣對(duì) 于壓縮區(qū) 域配對(duì) 時(shí)傾 向于錯(cuò)配。拼接后的一致序列由最高質(zhì)量的反應(yīng)決定 , 并非 由一致序列組成。 Phrap 給拼接后的一致 序列中每個(gè) 堿基都 賦予一個(gè)拼接
22、質(zhì)量值 , 給序列的完成提供了一個(gè)客觀 的標(biāo)準(zhǔn) (http:/www.phrap. org/phrap. docs 。 完成圖 的要求 每個(gè)核 苷酸序列的準(zhǔn)確率都要達(dá)到 99. 99%以上。Consed 是推薦的和 Phrap 一起 使用 的序 列編輯 界面 , 它 的發(fā)展和 Phrap 緊 密聯(lián) 系 , 充分 利用 了 Phrap 中產(chǎn) 生的 豐富 的信息。通 過(guò) Consed 編輯 , 修改后的數(shù) 據(jù)保存為 phd 類型文 件。重新用 Phrap 拼接一次 , 修 改后的 結(jié)果則 整合在新 文件 中 10。2. 2. 2 Celera assembler另一種用于裝配全基因組的策略 , 即
23、用全基因組 的鳥槍 法測(cè)序反應(yīng)來(lái)組裝復(fù)雜 的真核 生物基 因組。這種 策略 核心 要求是每個(gè)模板須進(jìn)行雙向測(cè)序。 TIGR 用這 種策略成 功地 組裝了第一個(gè) 全基 因組 測(cè)序 的果 蠅的 基因 組。 Celera 同樣 采用這種策略開發(fā)了用于人基因組組裝的軟件 Celera assem bler 11。組 裝策略主要包括 5個(gè) 步驟 :Screener 、 Overlapper 、 U nitigger 、 Scaffolder 和 Repeat Resolver 。 Screener 標(biāo)出 序 列中 所 有的重復(fù)單位小于 6個(gè)堿基 的簡(jiǎn)單 重復(fù)序 列和所 有已 知的 散布重復(fù)序列如 SIN
24、E; LINE 等。 Overlapper 這 一步則 將屏 蔽 重復(fù)序列的各反應(yīng)互 相比對(duì) , 找 出那些末 段匹配 至少 40bp, 差異率小于 6%的 反應(yīng) , 組 成各 個(gè)不 同的 類 , 進(jìn)行 拼接。 由 于某些低復(fù) 雜度區(qū) 域 (LCR 在 Screener 中未 被標(biāo) 出 , 不同 染 色體位置的 LCR 因 相似 性高 在這 一步 中可 能被 聚于 一類 , 產(chǎn)生組裝錯(cuò)誤。 Unitigger 則應(yīng)用統(tǒng)計(jì)學(xué)方法來(lái)選出那些組裝 可信 度高 的 contig, 用于 下一 步框 架圖的 構(gòu)建。 Scaffolder 根 據(jù)反應(yīng)對(duì)提供的連鎖信息 將 contig 相互定 位和定 向。
25、 Repeat Resolver 則根據(jù)反應(yīng)對(duì)的信息將重復(fù)序列回填 組裝的框架 圖 中。最后根據(jù)最大節(jié)約算法 , 結(jié)合堿基的質(zhì)量測(cè)度值得到 的 一致序列和 Phrap 由 最 高質(zhì) 量的 反應(yīng) 決定 一致 序列 不太 一 致 11。3 重復(fù)序列的鑒定在真核生物 中 , 重復(fù) 序列 是 基因 組結(jié) 構(gòu) 的重 要組 成 部 分 , 也是進(jìn)化主要推動(dòng)力 之一。對(duì)基 因組 中重 復(fù)序列 檢測(cè) , 不僅是基因組組裝的不可缺少的一步 , 也是認(rèn)識(shí)基因組結(jié) 構(gòu) 與功能和進(jìn)行基因預(yù)測(cè)的必不可少的前 提。3. 1 原理介紹將基因組序列和該 物種的重 復(fù)序列 數(shù)據(jù) 庫(kù)比對(duì) 是檢 測(cè) 重復(fù)序列的主要思路 , 但也存
26、在基于數(shù)學(xué)原理檢測(cè)串聯(lián)重 復(fù) 序列的方案。對(duì)不同物種而言 , 重復(fù)序列的類型和序列都 不 一致。在人基因組中重復(fù)序列主要分為兩類 :散布重復(fù)和 串 聯(lián)重復(fù) , 其中散 布重 復(fù)又可 分為 SINE 、 LINE 、 LTR 返 座子 和 DNA 轉(zhuǎn)座子等 4大類 , 它們和不同的進(jìn)化時(shí)間相聯(lián)系。構(gòu) 建 每種重復(fù)序列 的共有 序列 (consensus sequence 時(shí) , 將 該類 重 復(fù)序列多序列比對(duì) , 找出每個(gè)位置上出現(xiàn)頻率最多的堿基 為 共有 序 列 (ftp. genome. washington. edu/RM/RepeatMasker. html 。Repbase 為 Juk
27、a 等建立的 重復(fù)序 列數(shù) 據(jù)庫(kù) , 至目 前人 重 復(fù)序列共有 632種 , 為重復(fù)序 列種類知道最 多的物種???以 實(shí)時(shí)下載最新的數(shù)據(jù)庫(kù) , 并把它用于重復(fù)序列檢測(cè) 12。 將得到的重復(fù)序列和基因組序列比對(duì)時(shí) , 為盡可能的 檢 出基因組中的重復(fù)序 列 , 必 須能檢 測(cè)相似 性較 低 , 允 許大 量 插入和缺 失的 局 部比 對(duì) 的 程 序 , 因 此 , 選 用 靈敏 度 最 高 的 Smith Waterman 算法來(lái)進(jìn)行檢測(cè) 10。3. 2 具體軟件的介紹目前能 提供 重 復(fù) 序 列 檢測(cè) 的 主 要 有 Censor 和 Repeat Masker , 其中 Repeat M
28、 asker 程序應(yīng)用最為廣泛。RepeatMasker 通過(guò)選用不同物種的重復(fù)序列數(shù)據(jù) 庫(kù) , 識(shí)別 不同物種的基因組序列 中重復(fù) 序列。 RepeatMasker 通過(guò) 比對(duì) 重復(fù)序列數(shù)據(jù)庫(kù)中數(shù)據(jù)與 FAS TA 格式的序列 , 用 crossmatch 比 對(duì)標(biāo)出。由于重復(fù)序列 和 GC 含量相關(guān) , 在輸入?yún)?shù)時(shí) , 可指 定特定的 GC 值 , 程序會(huì)選用相應(yīng)的取 代矩陣 , 如果缺 省該選 項(xiàng) , 程序自動(dòng)選用 43%。在運(yùn)行程 序時(shí) , 還可設(shè) 定分歧度 , 即 將與一致序列比較小于該分歧度的重復(fù)序列找出。某些人類疾病就是由重復(fù)序列引起的 , 這些重復(fù)序列 , 一般都是現(xiàn)在仍 有
29、轉(zhuǎn)座能力的重復(fù)序列引 起的 , 他 們的突變率 都為 0或接近 于 0, 我們可以在選項(xiàng)中設(shè)置 突變率參數(shù) , 找 出那些保守性較 好的重復(fù)序列。在使用 RepeatMasker 時(shí) , 我們可以自己選定數(shù) 據(jù)庫(kù) , 可以方便地對(duì)某些數(shù)據(jù)進(jìn)行處理。由于 Crossmatch 采用 了 SW 方法 , 耗費(fèi)機(jī)時(shí)過(guò)多。因此 , RepeatMasker 也提供了其它 比對(duì)程序 Wu BLAS T , 同 時(shí) , 通 過(guò)改變 S W 方法的 內(nèi)部參 數(shù)設(shè) 置 , 也能加快檢索 速度 (ftp. genome. washington. edu/R M/Repeat Masker. html 。4 基因
30、預(yù)測(cè)基因預(yù) 測(cè)在基因組學(xué) 研究中 占有重 要的 地位。基 因預(yù) 測(cè)有多種不同的策略?,F(xiàn)有 的基因 預(yù)測(cè)軟 件多是 利用 基因 本身的特征來(lái)進(jìn)行新基因的識(shí)別 , 但將數(shù)據(jù)庫(kù)搜索比 較整合 入預(yù)測(cè)軟件成為一種趨勢(shì)。4. 1 原理介紹敏感性 和特異性是基 因預(yù)測(cè) 的兩個(gè) 重要 指標(biāo)。敏 感性 表示程序預(yù)測(cè)的能力 , 而特異性表 示預(yù)測(cè)結(jié)果 的可信度。敏 感性和特異性往往是一對(duì)矛盾 , 一般以敏感性和特異 性的平 均值作為評(píng)判程序優(yōu)劣的標(biāo)準(zhǔn) 3。在完全從新的基因預(yù)測(cè)中 , 主要依據(jù)兩方面 信息 :(1 搜 索與編碼區(qū)有關(guān)的信號(hào) 序列 (信號(hào) 搜索 ; (2 從統(tǒng) 計(jì)學(xué) 角度 分析一段連續(xù)的 DNA 序
31、列是否更像編碼序列 (內(nèi)容識(shí) 別 。 4. 1. 1 編碼區(qū)識(shí)別 (內(nèi)容識(shí)別 在原核生物中可以通過(guò)尋找較 長(zhǎng)的 ORF 來(lái)預(yù)測(cè)基 因編 碼區(qū)。在真 核生物中 , 由 于基因 的編碼 區(qū)被 內(nèi)含子 打斷 , 識(shí) 別 ORF 的方法就 不適 用 , 但利 用真 核生 物編 碼區(qū) 的一 些特 征序列可以 找出基因 組序 列中的 編碼 區(qū)。因?yàn)橥?義密 碼子 的使用頻率在不同的物種中有自己的特征模式 , 有些 高表達(dá) 的基因 , 往往只選用同 義密碼 子中的 一種 , 其他密 碼子 使用 頻率很低 ; 同時(shí)密碼子 3個(gè)位置上不同堿基的使用頻 率也有 差別 , 這樣就使得編碼區(qū)的序列具有統(tǒng)計(jì)顯著 性。利
32、 用這一 特性對(duì)基因組序列進(jìn)行統(tǒng)計(jì)學(xué)分析 , 可以發(fā)現(xiàn)編碼區(qū) 的粗略 位置 2。最初統(tǒng)計(jì)分析 3個(gè)堿 基的選 用頻 率在編 碼區(qū) 和隨 機(jī)序列中的差異 , 但發(fā)現(xiàn)密碼子選用的頻率和鄰近的 密碼子 相關(guān)聯(lián) 13。在一特定的可讀框中 , 6核苷酸 (雙密碼子 的選 用頻率的統(tǒng)計(jì)差異被用來(lái)區(qū)別編碼和非編碼區(qū)域最為有 效 , 因?yàn)椴粌H能測(cè)量密碼子的偏歧性 , 而且能衡量鄰近密 碼子的 關(guān)聯(lián)尺度。在目前的 各種預(yù) 測(cè)程序 中這是 一種被 廣泛 應(yīng)用 的方法 13。4. 1. 2 信號(hào)識(shí)別在原核生物中 , 識(shí)別 轉(zhuǎn)錄和 翻譯的 起始 信號(hào)、 核糖 體結(jié) 合位點(diǎn)、 轉(zhuǎn)錄和翻譯的終止信號(hào)可以幫助確定編碼蛋 白
33、的序 列。在真核 生物中 , 情況 遠(yuǎn)為復(fù) 雜 , 這 不僅 因?yàn)橥?一個(gè) 信號(hào) 在不同的基因中可能相差很大 , 而且信號(hào)和基因之間 距離可 能相距較遠(yuǎn) 。可以輔 助確定 真核生 物基因 組的為 翻譯 起始 位點(diǎn) ; 內(nèi)含子剪接位點(diǎn) ; poly(A 位點(diǎn) ; 翻譯終止位點(diǎn)等 2。 啟動(dòng)子是基因表達(dá)所必需的重要信號(hào)序列 , 識(shí)別出啟 動(dòng) 子對(duì)于基因辨識(shí)十分 重要。 Cp G 島和 持家 基因 的 5 端相 聯(lián) 系 , 預(yù)測(cè)出 CpG 島 也可 為 識(shí)別 新基 因提 供輔 助信 息。內(nèi) 含 子和外顯子剪接位點(diǎn)具有較明顯的序列特征 , 但是要注意 可 變剪接的問(wèn)題。如果把 剪接位 點(diǎn)和兩 側(cè)的編
34、碼特性 結(jié)合 起 來(lái)分析則有助于提供剪接位點(diǎn)的識(shí)別效 果。對(duì)于 真核生物 , 如果已知轉(zhuǎn)錄 起始 點(diǎn) , 并且 沒有 內(nèi)含 子打 斷 5 非 翻譯 區(qū) 的 話 , Kozak 規(guī) 則 可 以 在 大 多 數(shù) 情 況 下 定 位 起 始 密 碼 子。 polyA 和翻譯終止信 號(hào)不 像起 始信號(hào) 那么 重要 , 但也 可以 輔 助劃分基因的范圍 2。目前用于基因預(yù)測(cè)的軟件很多 , 而且都 是整合了多 種算 法復(fù)合分析軟件。許多基因預(yù)測(cè)的程序都已經(jīng)整合了同源比 較算法 , 比如著名的 GRAIL 程序。盡管每種預(yù)測(cè)方法都有假 陽(yáng)性 , 并會(huì)漏掉一些外顯子 , 可采用不同的預(yù)測(cè)方法對(duì)同一段 基因組序
35、列預(yù)測(cè) , 其共同的外 顯子是真實(shí)的 外顯子的可 能性 加大。但基因預(yù)測(cè)對(duì)基因的 UTR 區(qū)預(yù)測(cè)能力仍較弱。4. 2 具體軟件的介紹Genscan 是目前較為 常用 的基因 預(yù) 測(cè)軟 件 , 可應(yīng) 用于 多 種物種進(jìn)行基 因識(shí) 別。 Genscan 只 對(duì)編 碼的 基因 進(jìn)行 預(yù)測(cè) , 不考慮 tRNA 和 rRNA 的預(yù)測(cè)。 Genscan 可對(duì)兩 條鏈進(jìn)行基因 預(yù)測(cè) , 不僅可預(yù)測(cè)完整的基因 , 也可預(yù)測(cè)部分基因 , 但不能 預(yù) 測(cè)重疊的基因 14。Genscan 用于基因預(yù)測(cè)的概率模 型包含基 因的基因組 特 征參數(shù) , 這些基因組特征參數(shù)與物種緊密相關(guān)。這些特征 包 括 :典型基因密度
36、 , 每個(gè)基因的平均外顯子數(shù) , 不同類型的 外 顯子大小分布 , 編碼區(qū)和非編碼區(qū) (內(nèi)含子和基因 間序列 的 6核苷酸組成的差異 , 轉(zhuǎn)錄 起始和終 止信號(hào) , TATA 框 , cap 位 點(diǎn) , poly(A 位點(diǎn) , 供體和 受體信 息等。在人 或脊椎 動(dòng)物基 因 組中 , GC 含量不同區(qū)域的基因密度和基因結(jié)構(gòu)相 差很大 , 在 預(yù)測(cè)時(shí)須采用 不同 的模型 參數(shù) 14。在 不同 的概 率模 型中 , 模型參數(shù)相差較大 , 如類別 1(G+C<43% 中的 intron 長(zhǎng) 度 為 2069bp, 而在類別 4(G+C>57% 中 , intron 長(zhǎng)度為 518bp 。
37、 在基因不同位置的外顯子長(zhǎng)度也相應(yīng)的 不同 , 對(duì) 5 UTR 和 3 UTR 來(lái)講 , 平均值為 769bp 和 457bp 14。Genscan 在 Unix/Linux 環(huán)境下運(yùn)行 , 對(duì) RAM 的要求很高 , 通常需將較長(zhǎng)的基因組序列分成較小的基因組片 段后預(yù)測(cè)。 在運(yùn)行基因預(yù)測(cè)時(shí) , 須選用不同物種的參數(shù)文件。對(duì)預(yù)測(cè) 的 靈敏度可通過(guò)設(shè)定域值來(lái) 實(shí)現(xiàn)。域值 范圍為 (0. 010 99 , 缺省值為 0. 1。降低域值 , 可使?jié)撛?的編碼 區(qū)盡可 能多的 預(yù) 測(cè)出來(lái) , 但假陽(yáng)性增多 ; 升高域值 , 則可能使某些真正的外 顯 子無(wú)法預(yù)測(cè)出來(lái) 14。值得注意的是 , Gensca
38、n 的模 型參 數(shù)多 來(lái)自 于對(duì) 較小 基 因的歸 納總結(jié)。在 人基因 組中 , 存在一 些大基 因 , 它 們占 基 因總數(shù)的百分比較少 , 但占 基因總 長(zhǎng)度的 比例 卻很高 , 如 > 100kb 的基 因占基 因總 數(shù) 16. 5%, 但占基 因總 長(zhǎng)的 70. 5%;>250kb 的基因占基因總 數(shù) 6. 2%, 但占 基因總長(zhǎng) 的 48 7%; >500kb 的基 因占基因 總數(shù) 2. 8%, 但 占基因總長(zhǎng) 的 31. 5% (內(nèi)部資料 。這些大基因的特征參數(shù)與現(xiàn)有的 Genscan 軟件 中所用的模型參數(shù)相差很大 , 用 Genscan 預(yù)測(cè)這些大基因時(shí) ,
39、很難預(yù)測(cè)出正確的基因?,F(xiàn)有的人類基因組中基因空白 區(qū) , 基本上是被未知大基因所占據(jù) , 因此必須發(fā)展適合于 對(duì)大基 因預(yù)測(cè)的軟件 15。參 考 文 獻(xiàn) (References :1 Baxe vanis A D, Duelle tte B F F. Bi oi nformatics:A practic al guide to the anal ysis of genes and protei nsM, J ohn Wile y &Sons Inc, 1998. 2 G UO Zheng, LI Xia, LI Jing. Computational Molecular Bi olog
40、y and Geno me InformaticsM. Harbin:Heilongji ang Science and Technology Pres s, 1998.郭 政 , 李 霞 , 李 晶 . 計(jì)算 分 子生 物 學(xué)與 基 因組 信息 學(xué) M. 哈爾濱 :黑龍江科學(xué)技術(shù)出版社 , 1998.3 HE Lin. Dec odi ng Life:Human Genome Project and Pos t genome Pro jectM. Beijing:Science Press, 2000.賀 林 . 解碼 生命 :人類 基因 組計(jì)劃 和 后基 因組 計(jì)劃 M. 北 京 :科學(xué)出
41、版社 , 2000.4 Altschul S F, Gish W, Miller W, Myers E W, Lipman D J. Basic local alignment search tool J. J Mol Biol, 1990, 215(3:403410.5 Altschul S F, Madden T L, Schaffer A A, Zhang J, Zhang Z, Miller W, Lipman D J. Gapped BLAST and PSI BLAST:a new generation of pro tein database search programs J.
42、 Nucleic Acids Res, 1997, 25(17 : 33893402.6 Kent W J, Haussler D. As sembly of the working draft of the human genome wi th GigAss embler J . Genome Res, 2001, 11(9 :1541 1548.7 Pevz ner P A, Tang H, Waterman S W. An Eulerian path approac h to DN A frag ment assembl y J. P NAS, 2001, 98:97489753.8 E
43、w i ng B, Hillier L, Wendl M C, Green P. Bas e Calling of Automated Sequencer Traces Using Phred I Accuracy Assess ment J . Genome Res, 1998, 8:175185.9 Ewing B, Green P. Base Calling of Automated Sequencer Traces Using Phred II Error Probabilities J. Genome Res, 1998, 8:186194. 10Gordon D, Abajian
44、C, Green P. Consed:A graphical tool for sequence finis hing J. Genome Res, 1998, 8:195202.11Venter J C, Adams M D, Myers E W, Li P W, Mural R J, Sutton G G, Smi th H O, Yandell M, Evans C A, Hol t R A, G ocayne J D, A manati des P, Balle w R M, Huson D H, Wortman J R, Z hang Q, Kodira C D, Z heng X
45、H, Chen L, Skups ki M, Subramanian G, Thomas P D, Zhang J, Gabor Miklos G L, Nelson C, Broder S, Clark AG, Nadeau J, McKusick V A , Zin der N, Levi ne AJ, R oberts RJ, Si mon M, Slayman C, Hunkapiller M,Bolanos R, Delcher A, Dew I, Fasulo D, Flani gan M, Florea L, Halpern A,Hannenhalli S, Kravitz S,
46、 Levy S, Mobarry C, Reinert K, Remington K, Abu Threide h J, Beasley E, Bi ddic k K, Bonazzi V, Brandon R, Cargill M, Chandra mouli swaran I, Charlab R, Chaturvedi K, Deng Z, Di Francesc o V, Dunn P, Eilbeck K, Evangelista C, Gabrielian AE, Gan W, Ge W, Gong F, Gu Z, Guan P, Hei man TJ, Higgins ME,
47、Ji RR, Ke Z, Ketchum KA, Lai Z, Lei Y, Li Z, Li J, Li ang Y, Lin X, Lu F, M erkulov GV, Mils hina N, Moore HM , Nai k AK, Narayan V A, Neelam B, Nusskern D, R usch DB, Salzberg S, Shao W, Shue B, Sun J, Wang Z, Wang A, Wang X, Wang J, Wei M , Wides R, Xi ao C, Yan C, Yao A, Ye J, Zhan M, Zhang W, Zh
48、ang H, Zhao Q, Zheng L, Zhong F, Zhong W, Zhu S, Z hao S, Gilbert D, Baumhue ter S, Spie r G, Carte r C, Cravc hik A, Woodage T, Ali F, An H, A we A, Baldwin D, Baden H, Barnstead M, Barro w I, Bee son K, Bus am D, Carver A, Center A, Cheng ML, Curry L, Danaher S, D avenport L, Desile ts R, Dietz S,
49、 Dodson K, D oup L, Ferriera S, Garg N, Gluecks mann A, Hart B, Haynes J, Haynes C, Heine r C, Hladun S, Hos ti n D, Houck J, Howl and T, Ibegwa m C, Johns on J, Kal ush F, Kline L, Koduru S, Love A, Mann F, M a y D, M c Ca wley S, McIntosh T, Mc Mullen I, Moy M, Moy L, Murphy B, Nel son K, Pfannkoch C, Pratts E, PuriV, Qures hi H, Reardon M ,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 電商平臺(tái)的廣告投放與推廣策略
- 農(nóng)業(yè)租賃設(shè)備與農(nóng)業(yè)機(jī)械化作業(yè)效率考核試卷
- 美容師中級(jí)理論習(xí)題庫(kù)
- 采購(gòu)管理??荚囶}與答案
- 現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)園區(qū)中的農(nóng)業(yè)機(jī)械化實(shí)踐
- 體檢中心臨床實(shí)驗(yàn)室質(zhì)量控制考核試卷
- 建筑節(jié)能門窗安裝工藝考核試卷
- 護(hù)理工作中的醫(yī)療設(shè)備故障應(yīng)急處理考核試卷
- 工程項(xiàng)目管理中的風(fēng)險(xiǎn)管理框架考核試卷
- 塑料絲在食品包裝保鮮膜的應(yīng)用考核試卷
- 施工周報(bào)表(標(biāo)準(zhǔn)模版)
- 4.5MWp分布式光伏項(xiàng)目主要設(shè)備材料清單(建筑工程安裝工程)
- von frey絲K值表完整版
- 云南省普通初中學(xué)生成長(zhǎng)記錄模板-好ok
- SB/T 10415-2007雞粉調(diào)味料
- 考古繪圖基礎(chǔ)
- GB/T 32574-2016抽水蓄能電站檢修導(dǎo)則
- 《社會(huì)主義市場(chǎng)經(jīng)濟(jì)理論(第三版)》第十三章社會(huì)主義市場(chǎng)經(jīng)濟(jì)標(biāo)準(zhǔn)論
- 變更索賠案例分析
- 過(guò)敏性休克的急救及處理流程教材課件(28張)
- 《花婆婆》兒童繪本故事
評(píng)論
0/150
提交評(píng)論