




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
使用Bioperl模塊作數(shù)據(jù)分析第一頁,共69頁。OutlinePerl和Bioperl簡介基本概念序列處理比對處理第二頁,共69頁。OutlinePerl和Bioperl簡介+為什么選擇perl+perl的安裝+perl腳本的編輯運行+bioperl簡介+bioperl的安裝基本概念序列處理比對處理第三頁,共69頁。為什么選擇perl腳本語言(Scriptlanguage)操作系統(tǒng)的功能:讀寫文件,移動文件圖形化界面和命令行界面:一次只能執(zhí)行一個操作腳本語言將多個操作封裝成一次操作很容易學習開源代碼已有大量模塊,提高效率擅長于文本處理強大的字符串處理功能,基因組序列、蛋白質(zhì)序列均采用字符串編碼減少人為錯誤功能強大第四頁,共69頁。Perl的安裝安裝文件下載http://第五頁,共69頁。Perl的安裝點擊下載的文件后,會彈出第六頁,共69頁。Perl的安裝過程第七頁,共69頁。Perl安裝成功與否的測試啟動命令行:開始->程序->附件->命令行提示符至此perl環(huán)境準備好第八頁,共69頁。Perl腳本的編輯運行Perl腳本的編輯:Windows下面可以采用記事本、Editplus、UltraEdit等文本編輯軟件第九頁,共69頁。Perl腳本的編輯運行Perl腳本的運行:命令行切換到工作目錄下,輸入perl腳本名稱,再按回車鍵Perl環(huán)境已經(jīng)配置好,接下來再了解一下bioperl第十頁,共69頁。Bioperl簡介Perl中的模塊關于生物數(shù)據(jù)處理開源,擁有很多代碼貢獻者不必花費時間重復別人的工作具有可擴展性根據(jù)自己的需要擴展現(xiàn)存方法參考網(wǎng)站/參考文獻Stajichetal.(2002)GenomeRes第十一頁,共69頁。Bioperl的安裝啟動PerlPackageManager(ppm)第十二頁,共69頁。Bioperl的安裝名稱perl5.8perl5.10BioPerl-RegularReleases/DIST/DISTBioPerl-ReleaseCandidates/DIST/RC/DIST/RCKobesBribesTrouchelletcool/archives/無Windows下,安裝bioperl所需要的代碼倉庫:如何將這些倉庫地址導入ppm?第十三頁,共69頁。點擊Edit-》Preference菜單,啟動倉庫地址添加界面:4:結束,返回主界面,進行安裝3:輸入倉庫信息2:進入倉庫(Repositories)界面1:進入首選項(Preference)Bioperl的安裝點擊Repositories標簽1:輸入倉庫名稱:BioPerl-RegularReleases2:輸入倉庫地址:/DIST3:點擊Add按鈕4:按1~3,依次添加完所有倉庫倉庫添加完后,點擊OK,返回PPM的主界面添加倉庫信息:第十四頁,共69頁。Bioperl的安裝1:查詢框中輸入bioperl2:標記要安裝的bioperl包3:點擊安裝按鈕進行安裝4:確認安裝5:等待安裝完成安裝按鈕已經(jīng)完成perl和bioperl的環(huán)境設置第十五頁,共69頁。OutlinePerl和Bioperl簡介+為什么選擇perl+perl的安裝+perl腳本的編輯運行+bioperl簡介+bioperl的安裝基本概念序列處理比對處理第十六頁,共69頁。OutlinePerl和Bioperl簡介基本概念+對象、模塊和實例+模塊與模塊之間的關系+模塊的構成+模塊中的方法+操作符+結構控制語句+如何使用perl/bioperl序列處理比對處理第十七頁,共69頁。對象、模塊(類)和實例對象:對象是我們要進行研究的任何事物,例如生活中我們碰到的各種交通工具:汽車、輪船、飛機等。而在今天的bioperl中,我們將要學習的對象有:序列、多序列比對等第十八頁,共69頁。對象、模塊(類)和實例模塊(類):一個模塊(類)是對一個對象(或者一類對象)的描述,例如:對汽車的描述:車牌號,行駛在公路上的交通工具對序列的描述:序列名稱、序列類型(DNA、RNA或者蛋白質(zhì))模塊實例(對象實例):一個個具體對象,叫做實例,比如說:車牌號為“京2009”便是汽車的一個實例。而水稻葉綠體基因組序列,則是序列的一個具體實例。第十九頁,共69頁。模塊與模塊之間的關系在分類學上的對象之間存在一些包含關系:例如:汽車,可以包含小汽車、公共汽車、貨車等序列文件格式有fasta,genbank,embl等。模塊與模塊之間的關系:所有的小汽車模塊、公共汽車模塊和貨車模塊都具有汽車模塊的描述,以及各自獨有的描述。汽車小汽車父模塊公共汽車貨車SeqIOfastagenbankembl……子模塊模塊是對“對象”的一種描述學習bioperl,重點是了解其中的模塊第二十頁,共69頁。模塊的構成模塊是對“對象”的描述,這里的描述分為兩部分:屬性(靜態(tài)),方法(行為特征,動態(tài))以汽車為例:屬性特征有車牌號、車子的顏色等行為特征有啟動車子、剎車等以序列文件讀寫為例:屬性特征有文件名、文件格式等行為特征有讀一條序列、寫一條序列模塊:屬性部分:屬性1,屬性2,屬性3方法部分:方法1,方法2,方法3如何使用一個模塊?第二十一頁,共69頁。模塊中的方法與模塊進行交互:在bioperl中,一般通過模塊中的方法與模塊進行交互!模塊………方法1參數(shù)11…參數(shù)1n返回結果1方法2參數(shù)21…參數(shù)2n返回結果2方法…….返回結果重點:是否已經(jīng)存在有關模塊?是否有合適的方法?返回值=模塊->方法n(參數(shù)n1,參數(shù)n2,….)第二十二頁,共69頁。操作符$,后跟字符,表示一個變量。$var@,后跟字符,表示一個數(shù)組變量。@arr$arr[0],$arr[1],$arr[2],…$arr[i]...,取用數(shù)組里第i個位置的值。@,后跟變量,表示將變量中存儲的地址中的內(nèi)容當做數(shù)組對待。@$arr_ref%,后跟字符,表示一個哈希表變量,%hash;$hash{$key},取用哈希表(hash)里“鍵名”為$key的鍵值。%后跟變量,表示把變量中存儲的地址中的內(nèi)容當做哈希表對待。%$hash_ref@arr%hash$var…102…key3key2key1第二十三頁,共69頁。操作符=,變量賦值,即把“=”右邊的內(nèi)容賦給“=”左邊的變量。賦值可以簡單地理解為把內(nèi)容(值)放到某個盒子(變量)里。$var=5;$var=“Iamastring”;$var$var=5;盒子里是什么,不清楚$var盒子里裝的內(nèi)容是“5”BioSeqIO::,取子模塊,“::”左邊為父模塊,“::”右邊為子模塊。useBio::SeqIO;第二十四頁,共69頁。操作符->,取用模塊里的方法,“->”左邊為模塊或者模塊的實例,“->”右邊為模塊里的方法。$in=Bio::SeqIO->new(-file=>”$inputFile”,-format=>’fasta’);$in->next_seq();=>,用法多樣,當在方法的()中的時候,其表示賦值,即把“=>”右邊的值賦給左邊的參數(shù)。當方法沒有參數(shù)的時候,可以不寫()。$in->next_seq;SeqIO…newfile…format返回結果1Next_seq返回結果2第二十五頁,共69頁。結構控制語句while循環(huán):while(條件){當滿足()中的條件時,反復執(zhí)行這里的內(nèi)容}當不滿足()中的條件時,反復執(zhí)行這里的內(nèi)容Foreach循環(huán):foreachmy$element(@array)#依次把數(shù)組array中的內(nèi)容轉放到變量element中{當element中有真實內(nèi)容的時候,執(zhí)行這里的內(nèi)容}if條件語句:If(條件){符合條件時的執(zhí)行內(nèi)容}else{不符合條件時的執(zhí)行內(nèi)容}第二十六頁,共69頁。如何使用perl/bioperl1.明確問題2.尋找已經(jīng)存在的代碼3.確定自己的解決方案4.編寫代碼用操作符組合變量和數(shù)據(jù)結構控制相關語句修改->調(diào)試->修改5.運行程序第二十七頁,共69頁。OutlinePerl和Bioperl簡介基本概念+對象、模塊和實例+模塊與模塊之間的關系+模塊的構成+模塊中的方法+操作符+結構控制語句+如何使用perl/bioperl序列處理比對處理第二十八頁,共69頁。OutlinePerl和Bioperl簡介基本概念序列處理 +序列格式介紹+序列文件格式的轉換 +DNA序列的翻譯+序列長度的計算 +序列特征的提取+序列特征的圖形化顯示 +序列的遠程獲取+序列處理管道設計比對處理第二十九頁,共69頁。序列格式介紹文件格式:fasta序列名稱(ID)序列描述序列本身第三十頁,共69頁。序列格式介紹文件格式:genbankgenbank格式fasta格式第三十一頁,共69頁。序列格式介紹文件格式:emblfasta格式embl格式第三十二頁,共69頁。序列文件格式的轉換1,提出問題:如何進行文件格式的轉換?(實例1)fasta格式genbank格式embl格式第三十三頁,共69頁。序列文件格式的轉換2,是否已經(jīng)相關代碼?Bioperl中SeqIO模塊,封裝了序列有關的文件讀寫通過useBio::SeqIO;語句告訴程序要使用SeqIO模塊方法參數(shù)返回值作用new序列文件、序列格式SeqIO模塊實例產(chǎn)生一個與文件關聯(lián)的變量next_seq無序列(Seq模塊實例)從文件中讀取序列,但每次只讀一條write_seq序列(Seq模塊實例)成功返回1,否則0往文件寫一條序列第三十四頁,共69頁。3,解決方案:3.1利用SeqIO模塊中的new方法產(chǎn)生一個讀實例3.2利用SeqIO模塊中的new方法產(chǎn)生一個寫實例3.3從讀實例中取序列3.4通過寫實例往文件存入序列3.5反復操作3.3和3.4,直到讀實例中無序列可取序列文件格式的轉換第三十五頁,共69頁。序列文件格式的轉換4,編寫代碼$in和$out均為SeqIO模塊的實例$seq為Seq模塊的實例第三十六頁,共69頁。序列文件格式的轉換5,運行代碼:首先要準備好待轉換的序列文件將上述代碼保存到文件ex001.pl在命令行上,進入工作目錄在命令行上,鍵入命令perlex001.pl查看結果第三十七頁,共69頁。序列文件格式的轉換1.明確問題 -將某個序列文件的格式改成其它格式2.尋找已經(jīng)存在的代碼 -Bio::SeqIO模塊3.確定解決方案 -分別產(chǎn)生一個讀實例和一個寫實例 -讀實例不斷地讀取序列到內(nèi)存 -同時寫實例不斷地把內(nèi)存中的序列寫到文件4.編寫代碼 -關鍵變量$in,$out,$seq -while -修改->調(diào)試->修改5.運行程序第三十八頁,共69頁。DNA序列的翻譯問題2:DNA序列的翻譯?............64密碼子20氨基酸+終止信號第三十九頁,共69頁。DNA序列的翻譯$seq和$prot兩個均為Seq模塊實例2,已存在的代碼;3,解決方案;4:代碼編寫第四十頁,共69頁。DNA序列的翻譯5,運行代碼后,結果展示如下:序列的統(tǒng)計信息:長度分布提出問題:如何統(tǒng)計每條序列的長度?(實例3)第四十一頁,共69頁。序列長度的計算2,已存在的代碼;3,解決方案;4代碼編寫:$seq為Seq模塊實例第四十二頁,共69頁。序列長度的計算5,運行代碼后的結果展示:借助于其它程序,比如perl,Excel可以獲得下圖第四十三頁,共69頁。Seq模塊總結告訴程序要使用Seq模塊?(即如何產(chǎn)生Seq模塊實例?)1,直接使用“useBio::Seq;”語句;2,通過SeqIO模塊中的next_seq方法;3,或者有關模塊中的有關方法方法參數(shù)返回值new序列名稱(id)、序列本身(一段字符串)……Seq模塊實例id無,或者序列的新名稱序列名稱desc無,或者序列的新描述序列描述Length無序列長度seq無,或者Seq模塊實例的新序列序列(用一串字符表示)subseq起始位點,終止位點子序列(一串字符)alphabetDNA,或者RNA,或者protein序列類型Revcom反向互補序列(Seq模塊實例)translate終止符的表示,frame,密碼子表….(大多數(shù)情況下采用默認值)翻譯后的蛋白質(zhì)序列(可以認為是Seq模塊實例)get_SeqFeatures無一系列的SeqFeatureI模塊實例第四十四頁,共69頁。序列特征表問題4:如何解析genbank文件?序列的特征注釋,比序列本身更容易看出生物學信息序列特征表(Featuretable)序列特征表(Featuretable)genbank文件的內(nèi)容第四十五頁,共69頁。序列特征主標簽(primary_tag)特征起始位置(start)特征終止位置(end)特征所在的鏈(strand)標簽(tag)標簽值(tagvalue)第四十六頁,共69頁。序列特征表的獲取1,提出問題:如何獲取genbank文件中的序列特征表?(實例4)genbank中的序列特征序列特征列表?第四十七頁,共69頁。序列特征表的獲取2,已存在代碼;3,解決方案;4代碼編寫:SeqFeatureI模塊的主要方法均在本例中用到$feature均為SeqFeatureI模塊實例;@features為一系列SeqFeatureI模塊實例的集合,包含了序列中所有序列特征第四十八頁,共69頁。序列特征表的獲取5,運行代碼;結果展示:1,提出問題:如何圖形化顯示序列特征?(實例5)第四十九頁,共69頁。圖形化顯示序列特征2,已存在代碼;3,解決方案;4:代碼編寫:$panel為畫板模塊的實例;$full_length為SeqFeature模塊的實例;5,運行代碼;結果同前一張ppt第五十頁,共69頁。序列的遠程獲取實例6:從公共數(shù)據(jù)庫(GenBank)獲取序列?$out是SeqIO模塊的一個實例$gb是DB::GenBank模塊的一個實例DB::GenBank模塊中的主要方法為:get_Seq_by_acc,參數(shù)為AccessionNumberget_Seq_by_gi,參數(shù)為GINumber這兩個方法都返回Seq模塊的實例第五十一頁,共69頁。序列的遠程獲取實例6:從公共數(shù)據(jù)庫(GenBank)獲取序列的結果展示第五十二頁,共69頁。分析管道1:水稻葉綠體基因組從遠程數(shù)據(jù)庫獲取序列序列特征表的表格化顯示序列特征表的圖形化顯示全部CDS核苷酸序列的提取全部CDS蛋白質(zhì)序列的獲取蛋白質(zhì)序列長度分析已知條件:水稻葉綠體基因組的NCBI登錄號(AccessionNumber:NC_001320)后續(xù)分析:水稻葉綠體蛋白質(zhì)組的分析….第五十三頁,共69頁。OutlinePerl和Bioperl簡介基本概念序列處理 +序列格式介紹+序列文件格式的轉換 +DNA序列的翻譯+序列長度的計算 +序列特征的提取+序列特征的圖形化顯示 +序列的遠程獲取+序列處理管道設計比對處理第五十四頁,共69頁。OutlinePerl和Bioperl簡介基本概念序列處理比對處理 +比對文件格式的轉換 +進化距離的計算 +同義替換率(D_s)和非同義替換率(D_n)的計算 +序列聯(lián)配的自動化進行 +比對處理的管道設計第五十五頁,共69頁。多序列比對文件格式Clustalw格式的序列比對(聯(lián)配)Phylip格式的序列比對某些軟件對比對文件的格式有要求?。?!例如,phylip軟件包就要使用phylip格式的比對文件第五十六頁,共69頁。序列比對文件格式轉換$in是AlignIO模塊的一個實例,負責輸入$out是AlignIO模塊的一個實例,負責輸出$aln是AlignI模塊的一個實例,儲存序列比對的信息實例7:多序列比對文件格式轉換AlignIO和SeqIO模塊很相似AlignIO模塊的主要方法:new,產(chǎn)生一個AlignIO模塊實例,參數(shù)為文件名稱和格式;next_aln,順序地讀取一個比對到Align模塊實例中,無參數(shù);write_aln,向文件寫入比對,參數(shù)為Align模塊實例。AlignI模塊的主要方法?第五十七頁,共69頁。序列比對模塊AlignI模塊的介紹:如何獲取AlignI模塊的實例?通過AlignIO模塊實例從文件中讀取。方法名稱參數(shù)返回值new比對文件和格式AlignIO模塊實例length無比對的長度num_sequences無參與比對的序列數(shù)目consensus_string閾值(0~1),默認為0一致性序列(字符串表示)consensus_iupac無獲取IUPAC模糊字符表示的一致性序列column_from_residue_number序列名稱,序列中的位點序列中某個位點在多序列比對中的位置each_seq無獲得一系列Seq模塊實例,分別對應著比對中的每個序列序列比對完成之后,接下來該做什么?進化距離第五十八頁,共69頁。進化距離計算實例8:計算比對序列JukesCantor距離$in為AlignIO模塊的一個實例,負責讀入比對;$stats為Align::DNAStatistics模塊的一個實例,負責對多序列比對進行統(tǒng)計分析;$matrix為一矩陣模塊實例,它以矩陣的形式保存序列之間的進化距離JukesCantor距離計算結果展示:第五十九頁,共69頁。同義和非同義替換率計算實例9:計算同義替換率和非同義替換率calc_all_KaKs_pairs方法計算所有兩兩序列對之間同義和非同義替換距離,參數(shù)為一個AlignI模塊實例,返回的是一系列的比對結果,存放于數(shù)組results中。每個比對結果存放于一個哈希(Hash)表中。$results為數(shù)組地址,要獲得該地址的數(shù)組使用@$results$key為哈希表的地址,要獲得其中某個鍵的值,使用$key->{‘鍵’}第六十頁,共69頁。DNAStatistics方法總結Align::DNAStatistics中的主要方法:方法參數(shù)返回值new無DNAStatistics模塊實例D_JukesCantorAlignI模塊實例距離矩陣實例D_KimuraAlignI模塊實例距離矩陣實例D_UncorrectedAlignI模塊實例距離矩陣實例TransversionsAlignI模塊實例兩序列間的顛換TransitionsAlignI模塊實例兩序列間的轉換
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 心臟疾病化驗指標臨床解讀與運用
- 2025西藏職業(yè)技術學院輔導員考試試題及答案
- 幼兒傳染性疾病的衛(wèi)生保健
- 2025貴州中醫(yī)藥大學時珍學院輔導員考試試題及答案
- 2025貴州大學輔導員考試試題及答案
- 2025甘肅農(nóng)業(yè)職業(yè)技術學院輔導員考試試題及答案
- 共筑生命家園教學設計
- 小學生性教育
- 軟件工程詳細設計
- 工程專業(yè)畢業(yè)設計
- 行政執(zhí)法實務講課課件PPT
- DB43∕T 604-2010 日用炻瓷-行業(yè)標準
- 《品牌策劃與管理(第4版)》知識點與關鍵詞解釋
- 萬里國際南寧汽配城物業(yè)管理方案
- 國家開放大學本科《機器人技術及應用》形考期末考試題及答案匯總
- 國家開放大學《水利水電工程造價管理》形考任務1-4參考答案
- 司法局PPT模板
- 軸直線滑臺設計畢業(yè)論文
- 泄爆墻施工方案1
- FC西游記后傳金手指
- 飽和蒸汽、過熱蒸汽壓力與溫度、密度對照表
評論
0/150
提交評論