版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
汕頭大學(xué)醫(yī)學(xué)院許麗艷第十一章
轉(zhuǎn)錄調(diào)控的信息學(xué)分析BioinformaticAnalysisofTranscriptionalRegulation學(xué)習(xí)提綱
重點(diǎn):
轉(zhuǎn)錄因子結(jié)合位點(diǎn)的識(shí)別及其定位的基本概念和表示方法轉(zhuǎn)錄因子結(jié)合位點(diǎn)識(shí)別的操作步驟和相關(guān)算法的使用轉(zhuǎn)錄因子結(jié)合位點(diǎn)定位預(yù)測(cè)軟件的使用學(xué)習(xí)提綱
難點(diǎn):
轉(zhuǎn)錄因子結(jié)合位點(diǎn)識(shí)別的操作步驟和相關(guān)算法的使用
轉(zhuǎn)錄調(diào)控相關(guān)數(shù)據(jù)庫(kù)
熟悉:、基因轉(zhuǎn)錄調(diào)節(jié)的基本模式第一節(jié)引言Introduction二、基因轉(zhuǎn)錄調(diào)節(jié)機(jī)制的研究方法實(shí)驗(yàn)方法:熒光素酶報(bào)告基因(luciferasereportgene)凝膠遷移(electrophoreticmobilityshiftassays)染色質(zhì)免疫沉淀(ChIP)DNase足跡法(DNasefootprinting)信息學(xué)分析第二節(jié)轉(zhuǎn)錄調(diào)控的高通量實(shí)驗(yàn)測(cè)定High-throughputTechniquesinTranscriptionalRegulationAnalysis
一、ChIP技術(shù)創(chuàng)立者:
20世紀(jì)80年代末
AlexanderVarshavsky等人
(Cell.1988,53(6):937-947
)甲醛交聯(lián),穩(wěn)定蛋白質(zhì)-DNA復(fù)合物裂解細(xì)胞,分離蛋白質(zhì)-DNA復(fù)合物加入特異性抗體,沉淀蛋白質(zhì)-DNA復(fù)合物去交聯(lián),純化DNA應(yīng)用PCR技術(shù),特異性擴(kuò)增目的DNA片段基本實(shí)驗(yàn)過(guò)程:特點(diǎn):針對(duì)某一特定候選轉(zhuǎn)錄因子,是否特異性結(jié)合于所調(diào)節(jié)的靶基因某一預(yù)定區(qū)域內(nèi),如啟動(dòng)子區(qū),進(jìn)行檢測(cè)。對(duì)同一DNA底物,可以運(yùn)用多種不同的抗體,分別進(jìn)行免疫共沉淀,以確定多種結(jié)合蛋白在同一染色質(zhì)片段上的結(jié)合。二、ChIP-chip技術(shù)創(chuàng)立者:
2000年,RichardA.Young等人
(Science.2000,290(5500):2306-2309)ChIP和芯片技術(shù)的聯(lián)合運(yùn)用全基因組范圍內(nèi)的定位分析靶基因群的高通量分析特點(diǎn):不足之處:成本較高結(jié)果分析的標(biāo)準(zhǔn)化尚待完善分辨率較低,大于200bp基因芯片是“封閉系統(tǒng)”,只能檢測(cè)已知序列三、ChIP-seq技術(shù)創(chuàng)立者:
2007年,StevenJ.M.Jones等人
(Science.2000,290(5500):2306-2309)特點(diǎn):染色質(zhì)免疫沉淀后的DNA,直接進(jìn)行高通量測(cè)序是一個(gè)“開放系統(tǒng)”。它可以檢測(cè)更小的結(jié)合區(qū)段、未知的結(jié)合位點(diǎn)、結(jié)合位點(diǎn)內(nèi)的突變情況和蛋白親合力較低的區(qū)段成本低,周期短,省去了標(biāo)記和雜交等步驟,并且無(wú)需多次重復(fù)實(shí)驗(yàn),極大提高了工作效率分辨率可提高到30~50bp
第三節(jié)轉(zhuǎn)錄因子結(jié)合位點(diǎn)的信息學(xué)預(yù)測(cè)方法PredictionofTranscriptionalFactorBindingsites一、轉(zhuǎn)錄因子結(jié)合位點(diǎn)的的表示方法(一)共性序列(consensussequence)
將能與同一個(gè)轉(zhuǎn)錄因子結(jié)合的所有DNA片段按照對(duì)應(yīng)位置進(jìn)行排列,在每個(gè)位置上選擇最可能出現(xiàn)的堿基,就組成了該轉(zhuǎn)錄因子結(jié)合位點(diǎn)的共有序列。共性序列中用A、C、G、T之外的字母來(lái)表示結(jié)合位點(diǎn)中各個(gè)位置上可能出現(xiàn)的堿基組合,這些字母稱為IUPAC簡(jiǎn)并碼。共性序列的表示方法簡(jiǎn)明易懂,卻不能夠反映每個(gè)位置上不同堿基出現(xiàn)的概率。
IUPAC簡(jiǎn)并碼IUPACcodeNucleotideIUPACcodeNucleotideWAorTBC,GorTRAorGDA,GorTKGorTHA,CorTSCorGVA,CorGYCorTNA,C,GorTMAorC(二)位置頻率矩陣(positionfrequencymatrix)
位置頻率矩陣可以反映出每個(gè)位置上不同堿基出現(xiàn)的概率。該模型的一個(gè)前提假設(shè)是各個(gè)位置上堿基出現(xiàn)的概率相互獨(dú)立。矩陣每一列表示模體相應(yīng)位置上四種堿基出現(xiàn)的概率。對(duì)于長(zhǎng)度為n的模體,堿基i(i={A,C,G,T})在模體第j
個(gè)位置上出現(xiàn)的頻率為q
i,j,則整個(gè)模體用矩陣M表示如下:(三)序列標(biāo)識(shí)圖(sequencelogo)
序列標(biāo)識(shí)圖依次繪出模體中各個(gè)位置上出現(xiàn)的堿基,每個(gè)位置上所有堿基的高度和反映了該位置上堿基的一致性,每個(gè)堿基字母的大小與堿基在該位置上出現(xiàn)的頻率成正比。這種表示方法直觀地給出模體各個(gè)位置上堿基出現(xiàn)的傾向性和整個(gè)模體的序列的一致性。二、轉(zhuǎn)錄因子結(jié)合位點(diǎn)的識(shí)別基本概念:通過(guò)收集可能被同一轉(zhuǎn)錄因子調(diào)控的基因啟動(dòng)子序列,在其中尋找具有統(tǒng)計(jì)顯著性的短片段,作為轉(zhuǎn)錄因子可能的結(jié)合位點(diǎn),稱之為轉(zhuǎn)錄因子結(jié)合位點(diǎn)的識(shí)別基本流程:收集可能被同一轉(zhuǎn)錄因子調(diào)控的多基因序列
通過(guò)多種計(jì)算方法從不同角度或不同層面去進(jìn)行計(jì)算、評(píng)估和分析,盡可能地屏蔽掉冗余序列和噪音序列,尋找出具有統(tǒng)計(jì)顯著性的短片段,作為轉(zhuǎn)錄因子可能的結(jié)合位點(diǎn)查詢相關(guān)轉(zhuǎn)錄因子數(shù)據(jù)庫(kù),以確定轉(zhuǎn)錄因子基本流程(一)獲得靶向序列從基因差異表達(dá)譜芯片數(shù)據(jù)出發(fā)獲得啟動(dòng)子序列。利用NCBI上相關(guān)核酸數(shù)據(jù)庫(kù)選取轉(zhuǎn)錄起始位點(diǎn)附近1000~2000bp的長(zhǎng)度作為啟動(dòng)子區(qū)從差異表達(dá)蛋白質(zhì)數(shù)據(jù)出發(fā)獲得啟動(dòng)子序列。從SWISS-PROT和NCBI等數(shù)據(jù)庫(kù)中獲得編碼基因的啟動(dòng)子區(qū)從ChIP-chip和ChIP-seq數(shù)據(jù)出發(fā)獲得結(jié)合位點(diǎn)序列。(二)轉(zhuǎn)錄因子結(jié)合位點(diǎn)識(shí)別的計(jì)算方法1.單個(gè)模體預(yù)測(cè)算法2.比較基因組學(xué)基于共有序列的識(shí)別方法:MobyDick和YMF算法
基于位置頻率矩陣的識(shí)別方法:
MEME和GibbsMotifSampler算法遺傳系譜印記法:
PhyMe、PhyloGibbs和PhyloCon
等方法3.順式調(diào)控模塊識(shí)別方法
CisModule、GibbsModuleSampler和
EMCModule方法4.基于啟動(dòng)子區(qū)重要性差異的識(shí)別算法
MDScan和DME算法5.SISSRs算法(三)處理識(shí)別結(jié)果去冗余及質(zhì)量控制
Motifclass法通過(guò)回歸分析尋找特定條件下起作用的模體REDUCE算法:以模體出現(xiàn)的次數(shù)作為自變量來(lái)進(jìn)行簡(jiǎn)單線性回歸MatrixREDUCE算法:用位置頻率矩陣的打分作為自變量進(jìn)行回歸MARSMotif-M算法:多變量適應(yīng)回歸模型
轉(zhuǎn)錄因子結(jié)合位點(diǎn)分析可利用網(wǎng)絡(luò)資源CategoryProgramURLSinglemotifdiscoveryMobyDick/mobydick/YMF/software.htmlConsensus/software.htmlMEME/meme/intro.htmlGibbsSampler/gibbs/gibbs.htmlMDScan/~xsliu/MDscan/DME/software/index1.htmSISSRs/papers/lmi/epigenomes/sissrs/ComparativegenomicsPhyMe/cgi-bin/phyme/download.plPhyloGibbshttp://www.imsc.res.in/~rsidd/phylogibbs/Cis-moduleanalysisCisModule/~zhou/CisModule/EMCModule/~gupta/emcmodule.htmlRegressionmethodsREDUCE:8080/reduce/MatrixREDUCE/software/MatrixREDUCE/MotifRegressor/~conlon/mr.htmlMarsMotif-M/software/index1.htmMotifsearchDatabaseTRANSFAC/Jasparhttp://jaspar.cgb.ki.se/DBTBShttp://dbtbs.hgc.jp/TRED/cgi-bin/TRED/tred.cgi?process=home三、轉(zhuǎn)錄因子結(jié)合位點(diǎn)的定位基本概念:根據(jù)若干已知的轉(zhuǎn)錄因子結(jié)合位點(diǎn)的模體,在所研究基因的啟動(dòng)子區(qū)域內(nèi)搜索相應(yīng)轉(zhuǎn)錄因子可能的結(jié)合位點(diǎn),稱之為轉(zhuǎn)錄因子結(jié)合位點(diǎn)的定位對(duì)任一長(zhǎng)度為n的已知模體位置頻率矩陣M,轉(zhuǎn)錄因子結(jié)合位點(diǎn)定位就是判斷某一長(zhǎng)度為n的序列片段與M的匹配程度??紤]到DNA序列本身有可能存在堿基組成上的偏向性,通常把位置頻率矩陣轉(zhuǎn)換為位置權(quán)重矩陣。用位置權(quán)重矩陣的打分來(lái)衡量模體與任意給定序列的匹配程度。(一)轉(zhuǎn)錄因子結(jié)合位點(diǎn)定位的計(jì)算方法位置權(quán)重矩陣在位置權(quán)重矩陣中,引入堿基i(i={A,C,G,T})在背景序列中出現(xiàn)的頻率(記為bi)來(lái)消除DNA序列本身堿基組成偏向性的影響。位置權(quán)重矩陣的每一項(xiàng)記為Si,j:則M被轉(zhuǎn)換為的位置權(quán)重矩陣S為:對(duì)于長(zhǎng)度為n的DNA序列片段,它作為模體M對(duì)應(yīng)的轉(zhuǎn)錄因子結(jié)合位點(diǎn)的打分為:tj
表示相應(yīng)序列第j個(gè)位置上出現(xiàn)的堿基。給定閾值T,如果序列片段由上式給出的打分S≥T,則認(rèn)為它有可能是相應(yīng)轉(zhuǎn)錄因子的結(jié)合位點(diǎn)。(二)轉(zhuǎn)錄因子結(jié)合位點(diǎn)的預(yù)測(cè)1.TRANSFACAliBabaP-MatchPatchMatrixCatch2.TESS/cgi-bin/tess/tess4.分析結(jié)果1.粘貼序列2.選擇參數(shù)3.開始搜索P-Match-Public1.0Public1.粘貼序列2.選擇參數(shù)3.提交序列4.分析結(jié)果1.粘貼序列3.開始分析4.分析結(jié)果2.選擇參數(shù)3.開始搜索4.分析結(jié)果1.粘貼序列2.選擇參數(shù)第一步:進(jìn)入TESS主頁(yè),并輸入感興趣的序列;點(diǎn)擊“Submit”提交,或點(diǎn)擊“fullsearchform”進(jìn)入?yún)?shù)選擇界面第二步:點(diǎn)擊”Summary“下的超鏈接,查看結(jié)果第三步:點(diǎn)擊”ResultNavigation“下的超鏈接,輸出結(jié)果第四步:分析結(jié)果;也可返回,優(yōu)化參數(shù),重新開始第四節(jié)轉(zhuǎn)錄調(diào)控相關(guān)數(shù)據(jù)庫(kù)TranscriptionalRegulationDatabases
一、TRANSFAC數(shù)據(jù)庫(kù)(
)TRANSFAC7.0數(shù)據(jù)庫(kù)收集的數(shù)據(jù)TableTRANSFAC_7.0FACTOR6133其中:Homosapiens(人類)
1040Musmusculus
(小鼠)765D.melanogaster
(黑腹果蠅)233A.thaliana
(擬南芥)1751S.cerevisiae
(啤酒酵母)368SITE7915MATRIX398GENE(allentries)2397其中:H.sapiens608M.musculus417D.melanogaster145A.thaliana115S.cerevisiae195GENE(entrieswithSITElinks)1504CLASS50CELL1307二、JASPAR數(shù)據(jù)庫(kù)(http://jaspar.cgb.ki.se)JASPAR數(shù)據(jù)庫(kù)的特點(diǎn)數(shù)據(jù)庫(kù)名稱特點(diǎn)JASPARCORE高質(zhì)量,非冗余的轉(zhuǎn)錄因子數(shù)據(jù)庫(kù),收錄了460個(gè)序列模式,用于尋找特異轉(zhuǎn)錄因子模型或其結(jié)構(gòu)類型JASPARFAM包含11種轉(zhuǎn)錄因子結(jié)構(gòu)類型的模型。用于搜索未知基因組序列某一轉(zhuǎn)錄因子家族的共有模式和鑒定新模式的分類JASPARPHYLOFACTS由174種系統(tǒng)發(fā)育中保守的基因上游調(diào)控元件組成。用于分析啟動(dòng)子的組織特異性JASPARPOLII保存了13種與RNA聚合酶II核心啟動(dòng)子連接的DNA模型。用于分析潛在的核心啟動(dòng)子JASPARCNE收集了233個(gè)人類保守的非編碼元件,但是其生化和生物學(xué)功能尚不清楚。用于分析潛在的增強(qiáng)子。JASPARSPLICE包含有6種人類高度可靠的經(jīng)典和非經(jīng)典剪切位點(diǎn)的矩陣模式。用于分析剪切位點(diǎn)和選擇性剪切JASPARPBM保存有104種小鼠轉(zhuǎn)錄因子矩陣模式JASPARPBMHOMEO保存有176種小鼠同源結(jié)構(gòu)域矩陣模式JASPARPBMHLH保存有19種線蟲堿性螺旋環(huán)螺旋(bHLH)轉(zhuǎn)錄因子模型三、TRED數(shù)據(jù)庫(kù)(/TRED)TRED數(shù)據(jù)庫(kù)統(tǒng)計(jì)表相關(guān)數(shù)據(jù)人類小鼠大鼠版本hg15:UCSCHumanGoldenPathApr.03mm3:UCSCMouseGoldenPathFeb.03rn2:UCSCRatGoldenPathJan.03基因數(shù)309813168326064啟動(dòng)子數(shù)582295076430386轉(zhuǎn)錄因子有效靶點(diǎn)3409個(gè)基因,9085個(gè)啟動(dòng)子,1249個(gè)結(jié)合模體1126個(gè)基因,3089個(gè)啟動(dòng)子,366個(gè)結(jié)合模體461個(gè)基因,1132個(gè)啟動(dòng)子,150個(gè)結(jié)合模體同源組數(shù)(兩種或三種)23471與腫瘤相關(guān)的36個(gè)轉(zhuǎn)錄因子家族成員所靶向的啟動(dòng)子/基因數(shù)轉(zhuǎn)錄因子家族人類小鼠大鼠AP1(ActivatorProtein1)432/383217/190157/143AP2(ActivatorProtein2)338/318123/12390/86AR(AndrogenReceptor)69/4919/1924/15ATF(ActivatingTranscriptionFactor)189/17359/5926/26BCL(B-cellCLL/lymphoma)21/1915/150/0BRCA(breastcancersusceptibilityprotein)20/204/40/0CEBP(CCAAT/enhancerbindingprotein335/325152/134241/179CREB(cAMPresponsiveelementbindingprotein)224/220138/13395/93E2F(E2Ftranscriptionfactor)1593/1329141/12711/11EGR(earlygrowthresponseprotein)120/11167/5533/26ELK(memberofETSoncogenefamily)47/4115/136/6ER(EstrogenReceptor)169/15240/3932/31ERG(ets-relatedgene)21/215/50/0ETS(ETS-domaintranscriptionfactor)445/412207/19651/51FLI1(friendleukemiaintegrationsite1)41/4117/160/0GLI(glioma-associatedoncogenehomolog)16/168/80/0HIF(Hypoxia-induciblefactor)119/11263/6029/29HLF(hepaticleukemiafactor)10/105/52/2HOX(homeoboxgene)65/5793/815/5LEF(lymphoidenhancingfactor)40/3326/235/5MYB(myeloblastosisoncogene)253/23940/406/6MYC(myelocytomatosisviraloncogenehomolog)2676/785108/38128/62NFI(nuclearfactorI;CCAAT-bindingtranscriptionfactor136/12775/6273/65NFKB(NuclearfactorkappaB,reticuloendotheliosisoncogene)445/396202/18187/87OCT(Octamerbindingproteins)232/195123/10834/34p53(P53family)337/313135/13032/30PAX(pairedboxgene)52/4776/6113/11PPAR(Peroxisomeproliferator-activatedreceptor)149/149125/12488/84PR(ProgesteroneReceptor)31/2714/1410/10RAR(retinoicacidreceptor)233/21871/7140/40SMAD(MothersAgainstDecapentaplegichomolog)139/13076/7517/17SP(sequence-specifictranscriptionfactor)655/515296/263235/220STAT(signaltransducerandactivatoroftranscription)245/218111/10648/46TAL1(T-cellacutelymphocyticleukemia-1protein)15/149/60/0USF(upstreamstimulatoryfactor)235/21594/9172/
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 養(yǎng)老機(jī)構(gòu)社交活動(dòng)合同
- 養(yǎng)老機(jī)構(gòu)心理咨詢服務(wù)合同
- 對(duì)外經(jīng)濟(jì)合作保險(xiǎn)擔(dān)保協(xié)議
- 批發(fā)買賣合同
- 咨詢項(xiàng)目合作協(xié)議
- 某三甲醫(yī)院門戶系統(tǒng)建設(shè)方案
- 網(wǎng)站加載速度優(yōu)化合同
- 質(zhì)量管理思想史
- 井下透水事故現(xiàn)場(chǎng)處置方案
- 工程砌墻招投標(biāo)代理合同
- 西師版三年級(jí)上冊(cè)數(shù)學(xué)全冊(cè)教案
- 采油廠聯(lián)合站主要危險(xiǎn)辨識(shí)及安全管理與對(duì)策
- 城區(qū)綠化病蟲害防治服務(wù)投標(biāo)方案
- CASES-仿真分析規(guī)范編制指南V1.0版
- 孕婦學(xué)校質(zhì)量管理評(píng)價(jià)標(biāo)準(zhǔn)(100分)
- 2023年融媒體中心建設(shè)工作方案
- 老年友善醫(yī)院創(chuàng)建匯報(bào)PPT
- 園林景觀施工技術(shù)交底大全
- 交叉作業(yè)安全規(guī)程
- 個(gè)人二手牽引車轉(zhuǎn)讓合同范本
- 多學(xué)科聯(lián)合門診的實(shí)踐與探索課件
評(píng)論
0/150
提交評(píng)論