下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、系統(tǒng)發(fā)生足跡技術(shù)在巴西固氮螺菌基因組特征搜尋上的應(yīng)用 摘 要 巴西固氮螺菌是重要的植物促生內(nèi)生菌之一。為了研究其未知基因,在巴西固氮螺菌和與其同源的五個(gè)菌種之間進(jìn)行系統(tǒng)發(fā)生足跡研究。由于單機(jī)任務(wù)執(zhí)行的串行性,效率較低。研究發(fā)現(xiàn),整個(gè)過程包含了大量重復(fù)的、沒有數(shù)據(jù)依賴的操作,如文本信息的提取,DNA序列的比較等。因此,提出了局域網(wǎng)環(huán)境下基于客戶機(jī)/服務(wù)器模式的多機(jī)并行實(shí)現(xiàn)的思路。在充分利用資源的同時(shí),顯著提高了效率。 關(guān)鍵詞 巴西固氮螺菌;同源; 系統(tǒng)發(fā)生足跡; 客戶/服務(wù)器
2、模式; 并行 1 引言 1.1 巴西固氮螺菌 巴西固氮螺菌(Azospirillum brasilence)是重要的植物促生內(nèi)生菌之一,其質(zhì)體上的不同基因分別控制著其各種不同的特性。對巴西固氮螺菌的深入研究對我國農(nóng)業(yè)的發(fā)展有著深遠(yuǎn)的影響。 在巴西固氮螺菌的sp7菌株里,發(fā)現(xiàn)了兩個(gè)質(zhì)體,分子量分別為115 MDa (p115) 和90 MDa (p90)。 實(shí)驗(yàn)表明:p115 質(zhì)體會(huì)自發(fā)地從
3、細(xì)菌細(xì)胞中消失,并且與原生型sp7比較,由p115的衍生物來代替p115沒有造成任何表現(xiàn)型如細(xì)菌的運(yùn)動(dòng)性、化學(xué)向性等的差異,而對p90的替代卻使得細(xì)菌不能正常生存。由此得出結(jié)論:細(xì)胞存活必須的基因信息在p90質(zhì)體上。1 1.2 系統(tǒng)發(fā)生足跡技術(shù) P90的基因序列已經(jīng)被微生物與植物遺傳中心(KULeuven, Belgium)破譯,并且部分基因的位置和功能已經(jīng)確認(rèn),如exoB和exoC控制著外聚多糖的合成。然而還有一些基因如nodP和nodQ,它們的功能還有待確定。本文應(yīng)用系統(tǒng)發(fā)生足跡技術(shù)對p90 進(jìn)行研究。
4、 系統(tǒng)發(fā)生足跡是用來識(shí)別DNA序列中的調(diào)控因子(motif)的方法,它通過在多個(gè)同源基因的調(diào)控序列(基因間序列)中尋找保守區(qū)域來確定調(diào)控因子。系統(tǒng)發(fā)生足跡技術(shù)認(rèn)為:由于環(huán)境選擇的壓力,基因上的功能因子比那些非功能序列進(jìn)化的速率慢。因此,對于同源物種而言,那些保守區(qū)域?qū)⒊蔀楣δ?調(diào)控因子的主要侯選者。2 1.3 局域網(wǎng)多機(jī)并行實(shí)現(xiàn) 隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,多機(jī)并行技術(shù)應(yīng)用日益廣泛。并行是指多計(jì)算機(jī)同時(shí)運(yùn)行,與單機(jī)串行運(yùn)行相比,并行能夠顯著的提高執(zhí)行速度。本系統(tǒng)構(gòu)建客戶/服務(wù)器模式的局域網(wǎng),即一臺(tái)服務(wù)器,
5、多臺(tái)客戶機(jī)。服務(wù)器安裝應(yīng)用程序和存儲(chǔ)必要的數(shù)據(jù)供客戶機(jī)使用,同時(shí)協(xié)調(diào)客戶機(jī)之間的同步運(yùn)行??蛻魴C(jī)從服務(wù)器上下載文件并在服務(wù)器的支配下并行執(zhí)行任務(wù)。 2 方法與設(shè)計(jì) 2.1 系統(tǒng)任務(wù)提出及方案論證 由于系統(tǒng)發(fā)生足跡是在同源基因的基因間序列中尋找調(diào)控因子,因此,首要的任務(wù)是尋找與p90同源的基因間序列。本系統(tǒng)中使用新月柄桿菌,根瘤菌, 深紅紅螺菌, 球形紅桿菌和淡水菌五種細(xì)菌作為與巴西固氮螺菌p90基因比較的對象。由于都屬于a-蛋白菌,可以在它們的基因中尋找同源基因,進(jìn)而找到這
6、些同源基因的基因間序列。 針對上述任務(wù),本系統(tǒng)發(fā)生足跡研究共分為4大模塊: 2.1.1 基因信息入庫 由于存儲(chǔ)在NCBI的基因信息是以文本文件的形式存放,為了便于計(jì)算機(jī)處理,需要將文本中的各項(xiàng)信息提取出來存入數(shù)據(jù)庫表中。 并行性分析:基因信息入庫是文本信息提取操作,信息量大,需要大量單一、重復(fù)的操作,必須借助計(jì)算機(jī)程序來高速、準(zhǔn)確的完成。由于每次提取操作只針對一個(gè)文本文件,因此文本文件的信息提取操作之間沒有任何數(shù)據(jù)依賴關(guān)系,可以將這
7、些文件按照數(shù)量均分給多臺(tái)計(jì)算機(jī)并行執(zhí)行以提高信息的提取速率。 2.1.2 蛋白質(zhì)比較 一般來說,如果兩個(gè)蛋白質(zhì)的序列相似,則其功能也相近?;蜷g序列對基因編碼起著重要的調(diào)節(jié)作用。如果兩個(gè)基因間序列調(diào)控的基因編碼的蛋白質(zhì)序列相似,即蛋白質(zhì)的功能相近,則說明這兩個(gè)編碼基因序列有可能是同源關(guān)系,那么就可以將它們相應(yīng)的基因間序列提取出來進(jìn)行系統(tǒng)發(fā)生足跡研究。因此需要尋找基因編碼的蛋白質(zhì)序列,由于蛋白質(zhì)序列在NCBI是以fasta 文件形式存儲(chǔ),需要將文件中的信息進(jìn)行提取并存到數(shù)據(jù)庫表中。 &
8、#160; 對所有的蛋白質(zhì)序列進(jìn)行BLAST比較,尋找序列的相似性,結(jié)果如圖1: 圖1. BLAST比較結(jié)果 為了排除偶然因素造成的序列間的相似性,用期望值E來衡量結(jié)果的顯著性。E值越小,結(jié)果越顯著。 并行性分析:fasta文本信息的提取與基因信息提取相似,可以并行實(shí)現(xiàn);而序列間的BLAST比較只需要參與比較的蛋白質(zhì)序列信息,并不依賴與別的蛋白質(zhì)。因此,在保證所有的蛋白質(zhì)之間都能比較的前提下,可以把序列分組,由客戶機(jī)并行執(zhí)行。 2.1.
9、3 基因序列分組 根據(jù)BLAST計(jì)算出的相似度,用TribeMCL對蛋白質(zhì)進(jìn)行分組,序列相似的蛋白質(zhì)將被歸為一組。為了利用序列相似的傳遞性,將各蛋白質(zhì)之間的相似關(guān)系用圖來表示,蛋白質(zhì)作為結(jié)點(diǎn),而邊用來代表蛋白質(zhì)之間的相似度,并且用-log (E) 作為相似度的權(quán)值。將圖進(jìn)一步轉(zhuǎn)換為馬爾可夫矩陣,矩陣中的元素代表蛋白質(zhì)序列間的轉(zhuǎn)換概率。通過矩陣自乘進(jìn)一步尋找蛋白質(zhì)之間的親緣關(guān)系,避免將關(guān)系較遠(yuǎn)的蛋白質(zhì)遺漏 3。 得到蛋白質(zhì)的分組后,將蛋白質(zhì)轉(zhuǎn)換成其相應(yīng)的編碼基因,進(jìn)而得到基因分組,由于只需要與p90相關(guān)的基因組,再將包含p90基因的分組篩選出來存入數(shù)據(jù)庫中,結(jié)果如表1: 表1: 基因分組 并行性分析:蛋白質(zhì)分組需要將所有的蛋白質(zhì)相似度信息進(jìn)行比較,因此本模塊不能并行執(zhí)行,必須由一臺(tái)計(jì)算機(jī)獨(dú)立完成。 2.1.4 尋找motif 系統(tǒng)發(fā)生足跡是在與p90相關(guān)的基因間序列中尋找motif,得到了基因分組后,根據(jù)基因名稱將調(diào)控其編碼的基因間序列提取出來。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度金融機(jī)構(gòu)外匯借款合同綠色金融創(chuàng)新實(shí)踐
- 二零二五年度碼頭租賃項(xiàng)目環(huán)保驗(yàn)收及服務(wù)合同4篇
- 二零二五年度錄音系統(tǒng)定制開發(fā)與實(shí)施合同3篇
- 2025年度蘋果水果產(chǎn)地直供直銷采購合同4篇
- 2025版木工模板租賃與園林景觀設(shè)計(jì)施工承包合同范本3篇
- 二零二五年度寵物醫(yī)院寵物食品研發(fā)與生產(chǎn)合作協(xié)議3篇
- 二零二五年度辦公家具銷售合同(含安裝)2篇
- 二零二五年度天使投資協(xié)議書:生物科技研發(fā)項(xiàng)目風(fēng)險(xiǎn)投資合同
- 二零二五年度商標(biāo)授權(quán)及商標(biāo)市場推廣合同范本2篇
- 二零二五出租車公司股權(quán)轉(zhuǎn)讓與智能化改造協(xié)議4篇
- 2024-2030年中國招標(biāo)代理行業(yè)深度分析及發(fā)展前景與發(fā)展戰(zhàn)略研究報(bào)告
- 醫(yī)師定期考核 (公共衛(wèi)生)試題庫500題(含答案)
- 基因突變和基因重組(第1課時(shí))高一下學(xué)期生物人教版(2019)必修2
- 內(nèi)科學(xué)(醫(yī)學(xué)高級(jí)):風(fēng)濕性疾病試題及答案(強(qiáng)化練習(xí))
- 音樂劇好看智慧樹知到期末考試答案2024年
- 辦公設(shè)備(電腦、一體機(jī)、投影機(jī)等)采購 投標(biāo)方案(技術(shù)方案)
- 案卷評查培訓(xùn)課件模板
- 2024年江蘇省樣卷五年級(jí)數(shù)學(xué)上冊期末試卷及答案
- 人教版初中英語七八九全部單詞(打印版)
- 波浪理論要點(diǎn)圖解完美版
- 金融交易數(shù)據(jù)分析與風(fēng)險(xiǎn)評估項(xiàng)目環(huán)境敏感性分析
評論
0/150
提交評論