




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、基因家族生信分析一、 什么是基因家族 概念:是來源于同一個祖先,有一個基因通過基因重復而產(chǎn)生兩個或更多的拷 貝而構成的一組基因, 他們在結構和功能上具有明顯的相似性, 編碼相似的蛋白 質產(chǎn)物。劃分:按功能劃分 : 把一些功能類似的基因聚類,形成一個家族。 按照序列相似程度劃分 : 一般將同源的基因放在一起認為是一個家族。1. 常見基因家族:WRKY基因家族 :是植物前十大蛋白質基因家族之一,大量研究表明, WRKY 基因家族的許多成員參與調控植物的生長發(fā)育,形態(tài)建成與抗病蟲。NBS-LRR抗病基因家族 :是植物中最大類抗病基因家族之一。MADS-BOX基因家族: 是植物體的重要轉錄因子,它們廣
2、泛地調控著植物的 生長、發(fā)育和生殖等過程。在植物中參與花器官的發(fā)育,開花時間的調節(jié),在果 實,根,莖,葉的發(fā)育中都起著重要的作用。熱激蛋白 70 家族(HSP70)是一類在植物中高度保守的分子伴侶蛋白, 在細 胞中協(xié)助蛋白質正確折疊?;蚣易宸治隽鞒?:基因的加倍復制利用蛋白保守域結構提取號在 Pfam 數(shù)據(jù)庫提取其隱馬爾科夫模型矩 陣文件( *.hmm)在數(shù)據(jù)庫( Ensemble 、JGI、NVBI)下載你所需要的物種的基因組數(shù) 據(jù)( *.fa,*.gff )在虛擬機中 Bio-Linux 中的 hummsearch程序,用隱馬爾科夫模型矩 陣文件在蛋白序列文件中搜索含有該保守結構域的蛋白
3、 將蛋白序列導入 MEGA軟件構建進化樹(可以闡明成員之間系統(tǒng)進化 關系,從進化關系上揭示其多樣性) 利用 MEME搜索蛋白質的保守結構域利用 MEME搜索基因家族成員的 motif 可以揭示基因家族在物種 的多樣化及其功能, 如果他們都含有相同的 motif 表明其功能具有相 似性,如果部分家族成員含有其他不同的 motif, 很可能這些成員有其 他特異功能,或者可以歸分為一個亞族 繪制基因染色體位置圖從 *.gff 文 件 中 抽 取 我 們 搜 索 到 的 基 因 位 置 信 息 , http:/mg2c.iask.in/mg2c_v2.0/ 在線繪制基因染色體位置圖 通過染色體位置分布
4、,可以了解基因主要分布字哪條染色體上,及是 否能形成基因簇(被認為是通過重組與錯配促進基因交流) 基因結構分析從 gff 文件中抽取基因的結構信息,繪制轉錄本結構圖。 計算串聯(lián)重復基因的 Ka,Ks1. 首先將篩選到的基因的 cds 序列進行多序列對比, 篩選 identity 75%,tength 大于對比的兩條序列中較長的那條的長度的 75%,將 篩選 到 的 基因 分 別 用 clustalw 進 行 比 對 , 比對 結 果 導 入 KsKs_Calculster 計算 Ka, Ks、Ka/ks 比,計算核苷酸的非同義替代( ka)與核苷酸的同義替代 (ks)的平均速率。2. Ka/k
5、s 比值1, 表明這些基因可能已經(jīng)收到積極選 擇,有利于適應性遺傳,這些受正向選擇的基因將作為以后的研 究重點。軟件的安裝從圖片中獲得進入 NCBI-blast 官網(wǎng)復制 blast-linux 版本的在 Linux 終端1. blast 的安裝#wget blast#tar xvfz 文件名 解壓縮文件# mv 解壓縮文件 /root/local/app# mv 解壓縮文件 blast# vi .bashrc #在最后一行添加 出#source .bashrc #blastp -versionexport $PATH=/root/local/app/blast/bin:$PATH 運行查看是
6、否安裝成功。并保存退2hummer的安裝 #yum install -y wget / #wget hmmer 源碼 #tar -zxvf hmmer-3.2.1安裝 wget# vi .bashrc#(在最末端添加的語句 ) PATH=$PATH:/biosoft/ hmmer-3.2.1/binaries#yum install -y gcc#./configure#make#make check#make install#which hmmsearch 查看是否安裝成功。3.perl 的安裝#wget 源代碼# tar xvfz perl-5.28.1.tar.gz解壓縮#cd perl
7、-5.28.1#./configure#make#make install 安裝完成。3.bioperl 的安裝#wget -O - https:/install.perlbrew.pl | bash#perlbrew install-cpanm#/root/perl5/perlbrew/bin/cpanm Bio:Perl三、 具體操作 :1. 保守域結構分析下載蛋白保守結構域文件、 cds、cDNA、gff 注釋文件和隱馬爾科夫矩陣模型。 以擬南芥為例:下載完成后,需要將文件傳到 Linux 系統(tǒng)上進行分析:打開虛擬機輸入 ip a 將虛擬機 IP 連接到 Xshell 上,在 Xshel
8、l 上進行操作, 將文件通過 xftp (同樣需要連接 IP )傳到 Linux 系統(tǒng)上,然后進行解壓。( 一個命令解壓多個文件 :gunzip*.gz)接下來用 hummsearch尋找含有該蛋白保守結構域的蛋白及核酸序列安裝 hummsearchyum install -y wget / 安裝 wget#wget hmmer 源碼#tar -zxvf hmmer-3.2.1# vi .bashrc#(在最末端添加的語句 ) PATH=$PATH:/biosoft/ hmmer-3.2.1/binaries #yum install -y gcc#./configure#make#make
9、check#make install#which hmmsearch 查看是否安裝成功。解壓文件移動到 APP目錄下面在 app 目錄下面新建文件夾 mkdir hmmer 將 hmmer-3.2.1 移到 hmmer 目錄下面 mmove -v c:/hmmer-3.2.1 c:/hmmer刪除安裝包 打開文字編輯器 vi /.bashrc在文字編輯器里最后一行添加以上容安裝好 wget如果 make check 出現(xiàn)錯誤百度用以下方法解決出現(xiàn) complete 安裝完成#source /.bashrc#which hmmsearch至此 hmmer安裝完成。虛擬機操作:1. 導入下載好的文
10、件;2.hmmsearch -cut_tc domtblout NB-ARC.txt NB-ARC.hmm Arabidopsis_thaliana.TAIR10 pep.all.fa可以用 editplus 打開 .txt 文件3. perl domain_xulie.pl結果文件 .txt 蛋白序列文件 domain.fa 1e-204. clustalw 進行多序列比對,得到 aln 文件和 dnd 文件。5. hmmbuild 擬南芥特異的 hmm模型文件 domain.aln6. hmmsearch cut_tc domtblout result.txt newhmm 文件 蛋白質序
11、 列文件7. 在 Excel 中,根據(jù)特定的 evalue 進行篩選,并對第一列進行去重復,得到第 一列去重復的 id ,保存為 id.txt8. 用 perl 腳本根據(jù) id 提取序列Per get_fa_by_id.pl id.txt 蛋白序列 wenjain 結果輸出文件 可以根據(jù)的得到的序列文件進行后續(xù)的構建進化樹、 motif 分析等。2. 搜索基因家族成員的 MOTIF2.1 需要準備的文件1. 擬南芥 NBS基因蛋白質序列2. 蛋白保守結構域的隱馬爾科夫模型矩陣文件2.2 MOTIF 的搜索使用 meme軟件命令: memen bs_pep.fa -protein-oc nbs_
12、motif -nostatus -maxsize 600000-mor anr -nmotifs 10 -minw 6 -maxw 50搜索結果存放在 nbs_motif 文件夾中。文件夾中的 eps 文件可以用 AI 打開編輯, 可以另存為 png或jpg 格式,也可打開網(wǎng)頁版, 也可用 tbtools 軟件打開,下載 motif 在基因上的位置信息。3. 繪制基因在染色體上的位置圖3.1 需要準備的文件1. 擬南芥 NBS基因 id2. 擬南芥的注釋文件( gff3 文件)3. 擬南芥基因組長度4.1 在線繪圖工具: MapGene2Chrom4.2 samtools faidx 擬南芥
13、.dna.toplevel.fa 可得到擬南芥 .dna.fa.fai 文件 該文件包括 各個染色體,染色體長度。4.3 對基因的 id 文件在 Excel 中進行分列,去重復處理。4.4 使用處理過的 id 文件,對擬南芥的注釋文件進行篩選使用 perl 腳本得到基因在染色體上的位置。命令: perl get_gene_gff.pl -in1 基因的 id 文件 -in2 擬南芥 gff3 文件 -out 新文件名稱4.5 新文件存放的是基因在染色體上的位置4.6 在在線文件 MapGene2chrom中 ,將基因在染色體上的位置信息文件復制到, input1 框中,在 input2 中粘入
14、 samtools 得到的 fai 文件。4. 繪制轉錄本的結構圖4.1 需要準備的文件1. 擬南芥 NBS基因轉錄本 id (通過家族成員鑒定得到的蛋白 id 文件)2. 擬南芥基因的注釋文件( gtf 文件)3. 在線繪圖工具: Gene Structure Display Server 2.0http :/./index.php4.2 具體方法1. 準備 gtf 文件:輸入命令:gffread gff3 注釋文件 -T -o 輸出文件( gtf 文件)2. editplus 打開 gtf 文件,去除” transcript: ”3. 使用 perl 腳本提
15、取擬南芥轉錄本結構信息: 命令: perl get_gtf.pl -in1 擬南芥轉錄本 id 文件 -in2 gtf 文件 -out 輸出文件( nbs_gtf.txt )4. 通過在線繪圖工具,進行繪圖。5. 篩選出串聯(lián)重復基因5.1 準備文件1.擬南芥 NBS基因 CDS序列串聯(lián)重復基因篩選標準【 (a)length of alignable sequence covers75% of longer gene,and(b) similarity of aligned regions 75% 】 參考文 獻: Extent of gene duplicationin the genomes
16、 of Drosophila,nematode, and yeast.2. 由于篩選時產(chǎn)生的文件較多,因此創(chuàng)建新的目錄: mkdir 新目錄3. 用 editplus 打開家族成員的 id 文件,對轉錄本 id 進行處理,使一個基因只 拿一個轉錄本。4. 把 id 復制到 Excel ,首先排序處理,然后進行分列,然后以第一列刪除重復 值。最后將第一列和第二列進行合并。將處理好的 id 導入 Linux 。5. 使用 perl 腳本提取 cds 序列:命令: perl get_fa_by_id.pl id 文件 擬 南芥 cds 序列文件 cds.fa6. 使用 blast 軟件篩選串聯(lián)重復基
17、因6.1 建 立目 標序列的數(shù)據(jù)庫 : makeblastdb -in cds.fa -dbtype nucl -title cds.fa6.2 進行多序列比對: blastn -query cds.fa -db cds.fa -evalue 1e-20-outfmt 9 -out result.txt6.3 用 editplus 打開6.4 得到 cds 序列的長度,使用 samtools 工具建立索引:命令 :samtools faidxcds.fa6.5 用 perl 腳本對 result.txt 進行篩選, perl KAKS_SHAIXUAN.pl -in1 cds.fa.fai -
18、in2 result.txt -out cleanresult.txt6.6 用 editplus 打開,將容復制到 Excel ,在 id 后插入一列用公式: if( A1B1,A1&B1,B1&A)1。然后全選,以第 C列刪除重復值。并保存到新的文件中, 并導入到 Linux 中7. 計算串聯(lián)重復基因的 KaKs。7.1 準備文件1. 串聯(lián)重復基因的 CDS序列文件7.2 將成對的串聯(lián)重復序列保存在一個文件中。 、 方法一:復制需要找到的序列的 id ,在 editplus 中按 ctrl+F 搜索,找到后復 制粘貼到一個文件中。方法二:首先將成對的 id 保存在同一個文件,導入到 Lin
19、ux 中,在 Linux 中, 利用 perl 腳本提取序列: perl get_fa_by_id.pl 新的 id 文件 cds.fa 文 件 id1.fa7.3 計算 KaKS1. 計算之前需要使用 CLUSTAW對序列進行比較??色@得 id1.aln 。2. 使用 KaKs_calculator 工具將 id1.aln 文件轉換成 id1.axt 文件 命令: axtvenvertor id1.aln id1.axt3. 計算 KaKs,輸入命令: KaKs_calculstor -i id.axt -o id1_kaks.txt4. 如果報錯,則把兩條序列長度保持一致。 依此將所有的串
20、聯(lián)重復基因對, 進行 計算。四基因家族成員的鑒定(未知隱馬爾科夫模型)1. 鑒定測略? 在 NCBI 數(shù)據(jù)庫中盡量多下載幾個物種的需要鑒定的蛋白保守結構域序列,以 及所要研究物種的所有蛋白序列? 在虛擬機中本地建庫,并進行 blast建庫命令: makeblastdb -in 研究物種的蛋白序列文件 -dbtype prot -title 庫 名稱? 進行序列比對命令: blastp -query 下載的多個物種序列文件 -db 庫名稱 -evalue 1e-10 -outfmt 6 -out結構域 .blast? 使用 sed 命令去除表頭和結尾得到新的 new 結構域 . blast? A
21、wk print$1 結 ne構w域 . Blast |less可查看打印的結果? Awk print$1結 n構ew域. Blast id.txt? cat id.txt|sort|uniq idd.txt 去重復? Perl get_fa_by_id.pl idd.txt 去重復 蛋白序列 wenjain 結果輸出文件? 在 Pfam或者 NCBI的 cdd 中搜索檢查是否有相關蛋白結構域。 之后再進行 motif 分析一些命令及軟件應用說明(參考一些視頻資料) hmmsearch使用說明 用途:利用蛋白保守結構域的隱馬爾科夫模型搜索蛋白序列中具有該保守結構域的蛋白 用法: hmmsear
22、ch -cut_tc -domtblout result.txt *.hmm pep.all.fa說明: result.txt 是輸出的結果文件, *.hmm 在 pfam 數(shù)據(jù)庫下載的模型, pep.all.fa 物 種基因組所有蛋白序列hmmbuild 使用說明用途:利用 clustalw 比對生成的 aln 文件構建蛋白保守結構域的隱馬爾科夫模型 用法: hmmbuild new.hmm domain.aln說明: new.hmm 是結果文件也就是構建的蛋白保守結構域的隱馬爾科夫模型,domain.aln是 clustalw 比對生成的 aln 文件domain_xulie.pl 腳本使
23、用說明用途:提取 hmmsearch 搜索結果中蛋白序列中保守結構域的序列, 用于構建新的物種特異的 蛋白保守結構域的隱馬爾科夫模型用法:perl domain_xulie.pl ( 腳本不在使用目錄下要寫全路徑) hmmoutfile pep.all.fa domain.fasta E-value說明: hmmoutfile 是 hmmsearch 搜索結果文件 pep.all.fa 物種基因組所有蛋白序列 domain.fasta 是結果存放文件也就是蛋白序列中保守結構域的序列, E-value 是提取序列 時設定的 E 值get_fa_by_id.pl 使用說明用途:通過 ID 號獲取其
24、相應的基因或蛋白序列用法: perl perl get_fa_by_id.pl id.txt cds.fastat id_cds.fasta說明: id.txt 是包含你的 ID 的文件, cds.fasta 是你叢數(shù)據(jù)庫中下載的包含所有 cds 序列 的文件, id_cds.fasta 是輸出文件容是 ID 對應的序列samtools faidx用途:提取 fasta 文件信息用法: samtools faidx *.fa說明:輸入文件是 fasta 文件,自動生成輸出目錄 *.fa.fai, 結果的 fai 文件第一列是你輸 入的 fasta 文件的 ID 第二列是其序列長度Gffread
25、 使用說明用途:將基因組注釋文件 gff3 轉化成基因的注釋文件 gtf用法: gffread my.gff3 -T -o my.gtf說明: my.gff3 是輸入文件 基因組注釋文件, my.gtf 是輸出文件是基因的注釋文件Get_gene_gff.pl 用途:想要繪制基因的染色體位置圖必須要拿到基因在染色體上的具體信息, 該腳本就是從 總的 gff 文件抽去你需要的基因的信息如:所在染色體,起始終止位置等信息用法:Perl Get_gene_gff.pl -in1gene_id.txt -in2 my.gff3 -out gene_location.txt說明: gene_id.txt
26、 是第一個輸入文件基因的 ID 文件, my.gff3 是第二個輸入文件是 物種 基因組所有蛋白序列 , gene_location.txt是結果輸出文件Get_gtf.pl 腳本使用說明用途:從基因注釋文件 gtf 文件中提取轉錄本的結構信息用法: perl get_gtf.pl -in1 id.txt -in2 gene.gtf -outstructure .txt說明: id.txt 是第一個輸入文件是 id 文件 , gene.gtf 是第二個輸入文件是基因注釋文件 gtf 文件 structure .txt 是結果輸出文件存放著轉錄本的結構信息KaKs_shaixuan.pl 使用說明 用途:在多序列比對結果文件中篩選 identity 大于 75%,比對上的序列長度大于對比的兩 條序列中最長序列的長度的 75%用法: perl KaKs_shaixuan.pl -in1 cds.fai -in2 result.txt -out shaixuan.txt 說明:cds.fai 是 samtools faidx 對 cds 的序列文件 fasta 作用,生成的文件, result.txt是拿 cds 進行多序列比對得到的結果, shaixuan.txt 是篩選后的結果存放的文本aln
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年證件打印一體機項目合作計劃書
- 2025年中石化:石油腦項目合作計劃書
- 吧臺設備轉讓合同范例
- 影片拍攝投標合同范本
- 農(nóng)業(yè)技能培訓合同范本
- 司機水泥合同范例
- 合同范例新版正版
- 單位綠化施工合同范例
- LED戶外顯示屏廣告位租賃合同范本
- 個人購房合同范本簡易
- 全國青少年機器人技術等級考試一二級講稿課件-參考
- 大學計算機概論(Windows10+Office2016)PPT完整全套教學課件
- 四川峨勝水泥集團股份有限公司環(huán)保搬遷3000td熟料新型干法大壩水泥生產(chǎn)線環(huán)境影響評價報告書
- 《公路工程計量與計價》說課草稿
- 2023年教師招聘面試高中政治《堅持以人民為中心》試講稿 統(tǒng)編版 必修三
- Barrett食管醫(yī)學知識講解
- 數(shù)獨課件完整版
- 西師大版六年級數(shù)學下冊全冊知識點匯總
- DCF-現(xiàn)金流貼現(xiàn)模型-Excel模版(dcf-估值模型)
- 江西2023年分宜九銀村鎮(zhèn)銀行社會招聘上岸提分題庫3套【500題帶答案含詳解】
- 一年級美術課后服務教案-1
評論
0/150
提交評論