![生物信息學(xué)復(fù)習(xí)總結(jié)_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/10/3f0398fd-671d-47c2-a7f6-55a07f7a94ec/3f0398fd-671d-47c2-a7f6-55a07f7a94ec1.gif)
![生物信息學(xué)復(fù)習(xí)總結(jié)_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/10/3f0398fd-671d-47c2-a7f6-55a07f7a94ec/3f0398fd-671d-47c2-a7f6-55a07f7a94ec2.gif)
![生物信息學(xué)復(fù)習(xí)總結(jié)_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/10/3f0398fd-671d-47c2-a7f6-55a07f7a94ec/3f0398fd-671d-47c2-a7f6-55a07f7a94ec3.gif)
![生物信息學(xué)復(fù)習(xí)總結(jié)_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/10/3f0398fd-671d-47c2-a7f6-55a07f7a94ec/3f0398fd-671d-47c2-a7f6-55a07f7a94ec4.gif)
![生物信息學(xué)復(fù)習(xí)總結(jié)_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/10/3f0398fd-671d-47c2-a7f6-55a07f7a94ec/3f0398fd-671d-47c2-a7f6-55a07f7a94ec5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、肇生物信息期末總結(jié)1.2.箍生物信息學(xué)Bioinformatics定義:第一章肄生物信息學(xué)是一門交叉科學(xué),它包含了生物信息的獲取、加工、存儲、分配、分析、解釋等在內(nèi)的所有方面,它綜合運用數(shù)學(xué)、計算機科學(xué)和生物學(xué)的各種工具來說明和理解大量數(shù)據(jù)所包含的生物學(xué)意義.螞或:膈生物信息學(xué)是運用計算機技術(shù)和信息技術(shù)開發(fā)新的算法和統(tǒng)計方法,對生物實驗數(shù)據(jù)進行分析,確定數(shù)據(jù)所含的生物學(xué)意義,并開發(fā)新的數(shù)據(jù)分析工具以實現(xiàn)對各種信息的獲取和治理的學(xué)科.NSFC莆2.科研機構(gòu)及網(wǎng)絡(luò)資源中央:蒂NCBI:美國國立衛(wèi)生研究院NIH下屬國立生物技術(shù)信息中央;筮EMBnet:歐洲分子生物學(xué)網(wǎng)絡(luò);胭EMBL-EBI:歐洲分子
2、生物學(xué)實驗室下屬歐洲生物信息學(xué)研究所;蟆ExPASy:瑞士生物信息研究所SIB下屬的蛋白質(zhì)分析專家系統(tǒng);ExpertProteinAnalysisSystem充BioinformaticsLinksDirectory;膀PDB(ProteinDataBank);芾UniProt數(shù)據(jù)庫膈3.生物信息學(xué)的主要應(yīng)用:螞1.生物信息學(xué)數(shù)據(jù)庫;2.序列分析;3.比擬基因組學(xué);4.表達分析;5.蛋白質(zhì)結(jié)構(gòu)預(yù)測;6.系統(tǒng)生物學(xué);7.計算進化生物學(xué)與生物多樣性.荒4.什么是數(shù)據(jù)庫:勘1、定義:數(shù)據(jù)庫是存儲與治理數(shù)據(jù)的計算機文檔、結(jié)構(gòu)化記錄形式的數(shù)據(jù)集合.芍記錄record、字段field、值value第2、生
3、物信息數(shù)據(jù)庫應(yīng)滿足5個方面的主要需求:輻1時間性;2注釋;3支撐數(shù)據(jù);4數(shù)據(jù)質(zhì)量;5集成性.藏3、生物學(xué)數(shù)據(jù)庫的類型:一級數(shù)據(jù)庫和二級數(shù)據(jù)庫.蟻國際著名的一級核酸數(shù)據(jù)庫有Genbank數(shù)據(jù)庫、EMBL核酸庫和DDBJ庫等;肆蛋白質(zhì)序列數(shù)據(jù)庫有SWISS-PROT等;蛋白質(zhì)結(jié)構(gòu)庫有PDB等.腿4、一級數(shù)據(jù)庫與二級數(shù)據(jù)庫的區(qū)別:薇1一級數(shù)據(jù)庫:胭包括:a.基因組數(shù)據(jù)庫-來自基因組作圖;蒲b.核酸和蛋白質(zhì)一級結(jié)構(gòu)序列數(shù)據(jù)庫;覆c生物大分子主要是蛋白質(zhì)的三維空間結(jié)構(gòu)數(shù)據(jù)庫,來自X-衍射和核磁共振結(jié)構(gòu)測定;蝸2二級數(shù)據(jù)庫:薇是對原始生物分子數(shù)據(jù)進行整理、分類的結(jié)果,是在一級數(shù)據(jù)庫、實驗數(shù)據(jù)和理論分析的根
4、底上針對特定的應(yīng)用目標(biāo)而建立的.芍一般說來,一次數(shù)據(jù)庫的數(shù)據(jù)量大,更新速度快,用戶面廣,通常需要高性能的計算機效勞器、大容量的磁盤空間和專門的數(shù)據(jù)庫治理系統(tǒng)支撐.蕨二次數(shù)據(jù)庫的容量那么小得多,更新速度也不像一次數(shù)據(jù)庫那樣快,也可以不用大型商業(yè)數(shù)據(jù)庫軟件支持,這類針對不同問題開發(fā)的二次數(shù)據(jù)庫的最大特點是使用方便,特別適用于計算機使用經(jīng)驗不太豐富的生物學(xué)家.蟆5、一個數(shù)據(jù)庫記錄entry一般由兩局部組成:妨1原始序列數(shù)據(jù)sequencedata螃2描述這些數(shù)據(jù)生物學(xué)信息的注釋annotation:注釋中包含的信息與相應(yīng)的筮序列數(shù)據(jù)同樣重要和有應(yīng)用價值.蟆6、數(shù)據(jù)的完整性和注釋工作量:1序列數(shù)據(jù)廣,
5、序列注釋不夠完整;*2庫數(shù)據(jù)面窄,序列注釋全面.菜7、數(shù)據(jù)庫的動態(tài)更新:1不斷增加;2不斷修正.聿5、幾個大型數(shù)據(jù)庫簡介:膀NCBI、EBI、SIB共點:擁有龐大的一級數(shù)樨庫、大量工具軟件和廣泛的外聯(lián).荽1、NCBI:裂NCBI是指美國國家生物技術(shù)信息中央NationalCenterforBiotechnologyInformation,NCBI,成立于1988年,其主要工作是開發(fā)以GenBank為代表的數(shù)據(jù)庫,進行計算生物學(xué)研究,開發(fā)用于分析基因組數(shù)據(jù)的軟件工具,發(fā)布生物醫(yī)學(xué)信息.膈1Entrez集成化的數(shù)據(jù)庫方Entrez是NCBI著名的用于提取序列信息的工具,它將科學(xué)文獻、DNA和蛋白質(zhì)
6、序列數(shù)據(jù)庫、蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)、種群研究數(shù)據(jù)以及全基因組組裝數(shù)據(jù)整合成一個高度集成的系統(tǒng).類似于EBI的SRS見下文,是一個查詢、提取和顯示系統(tǒng).Theoriginalversion原始版本1991ofEntrezhadjust3nodsw2可查Protein、PubMed生物醫(yī)學(xué)文獻數(shù)據(jù)庫、Nucleotide、GenomeGene.Pathway等相關(guān)信息.蛔2、EMBL-EBI()袂EMBLNucleotideSequenceDataLibrary(nowknownasEMBL-Bank)為世界上第一個核酸序列數(shù)據(jù)庫(1980).蔗歐洲分子生物學(xué)實驗室下屬歐洲生物信息學(xué)研究所(Europ
7、eanBioinformaticsInstitute,EBI,1992,英國)EMBL-EBI核酸數(shù)據(jù)庫提供了序列搜索的效勞.通過它的序列提取系統(tǒng)一SRS6(搜索引擎),我們可以用十幾種不同的方法(如用關(guān)鍵字)搜索我們想要的序列.EBI還資助了Ensembl工程,Ensembl是一個用于對各類物種基因組進行生物信息學(xué)分析的非常完備的網(wǎng)站.歐洲分子生物學(xué)實驗室EMBL(TheEuropeanMolecularBiologyLaboratory).ServicesUniProt、ArrayExpress、Ensembl、InterPro、PDBe等界面.羋3、SIB()肅瑞士生物信息研究所(Swi
8、ssInstitueofBioinformatics,SIB,30March1998?).用于獲取蛋白質(zhì)序列和相關(guān)數(shù)據(jù)的最有用的資源之一就SIB提供的蛋白質(zhì)專家分析系統(tǒng):SWISS-PROT,ExPASy(ExpertProteinAnalysisSystem瑞士日內(nèi)瓦大學(xué)專家蛋白質(zhì)分析系統(tǒng)()0蟻6、核酸序列數(shù)據(jù)庫:蔗1、國際上權(quán)威的核酸序列數(shù)據(jù)庫:蒞(1)歐洲分子生物學(xué)實驗室的EMBL;蝴(2)美國生物技術(shù)信息中央的GenBank;蔓(3)日本遺傳研究所的DDBJ,();蔓這三個數(shù)據(jù)庫是綜合性的DNA和RNA序列數(shù)據(jù)庫,每條記錄代表一個單獨、連續(xù)、附有注釋的DNA或RNA片段.三個數(shù)據(jù)庫中
9、的數(shù)據(jù)根本一致,僅在數(shù)據(jù)格式上有所差異,對于特定的查詢,三個數(shù)據(jù)庫的響應(yīng)結(jié)果一樣.嵋2、INSDC國際核酸序列數(shù)據(jù)庫協(xié)會:節(jié)1998年,GenBank、EMBL和DDBJ共同成立了國際核酸序列數(shù)據(jù)庫協(xié)會(InternationalNucleotideSequenceDatabaseCollaboratioriNSDC),三大核酸數(shù)據(jù)庫之間每天將新測定或更新的數(shù)據(jù)進行交換共享,保證數(shù)據(jù)信息的完整與同步,每兩個月更新一次版本.()蒂7、蛋白質(zhì)序列數(shù)據(jù)庫:薄1)PIR(ProteinInformationResource;()滕2)SWISS-PROT;()肄3)TrEMBL;()是與SWISS-P
10、ROT相關(guān)的一個數(shù)據(jù)庫.包含從EMBL核酸數(shù)據(jù)庫中根據(jù)編碼序列(CDS)譯而得到的蛋白質(zhì)序列,并且這些序列尚未集成到SWISS-PROT數(shù)據(jù)庫中;其4)NCBI美國國家生物技術(shù)信息中央(NationalCenterforBiotechnologyInformation,NCBI);蝕5)UniProt;通用蛋白質(zhì)數(shù)據(jù)庫()包括:(Swiss-Prot、TrEMBL、PIR)用戶可以通過文本查詢數(shù)據(jù)庫,可以利用BLAST程序搜索數(shù)據(jù)庫,也可以直接通過FTP下載數(shù)據(jù).薇8、生物大分子結(jié)構(gòu)數(shù)據(jù)庫:蒂1)PDB(ProteinDataBank);()輯2)MMDB(MolecularModelingD
11、atabase);()蜜9、其它生物分子數(shù)據(jù)庫:菱1)單堿基多態(tài)性數(shù)據(jù)庫dbSNP;2)基因組數(shù)據(jù)庫(GDB);3)人類基因組數(shù)據(jù)庫Ensembl;4)表達序列標(biāo)記數(shù)據(jù)庫dbEST;5)序列標(biāo)記位點數(shù)據(jù)庫dbSTS;6)面向基因聚類數(shù)據(jù)庫UniGene;7)蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫SCOP;8)蛋白質(zhì)二級結(jié)構(gòu)數(shù)據(jù)庫DSSP;9)蛋白質(zhì)同源序列比對數(shù)據(jù)庫HSSP;10)OMIM(OnlineMendelianInheritanceinMan),是關(guān)于人類基因和遺傳疾病的分類數(shù)據(jù)庫.«»»»NucleicAcidResearch«««
12、;英附:1、NCBI和EBI使用的搜索引擎分別是什么?螞答:NCBI使用的是Entrez,EBI使用的是SRS.贛2、FASTA格式有哪些局部組成,以什么字符開始?英答:包含ginumber,Databaseidentifiers,Accessionnumber,Locusname等局部,以字符開始.薄3、NCBI的WEB和離線序列提交軟件是什么?腿答:WEB提交工具:Bankit;離線提交:Sequin芨4、系統(tǒng)生物學(xué):肆答:確定、分析和整合生物系統(tǒng)在遺傳或環(huán)境擾動下所有內(nèi)部元件間相互作用關(guān)系的一門學(xué)科.蒂10、序列數(shù)據(jù)的文件格式:第二章腿格式主要有三種:蠅DNA/RNA/氨基酸代碼的標(biāo)識B
13、、Z;薄GenBank數(shù)據(jù)格式;膂FASTA數(shù)據(jù)格式.袁一、GBFFGenBankflatfileGenBank平面文件格式:膀GenBank、EMBL、DDBJ每天都相互同步更新各自的數(shù)據(jù)庫,那么它們是怎樣交換數(shù)據(jù)的呢?這里引入GBFFGenBankflatfile即GenBank平面文件格式GBFF是GenBank數(shù)據(jù)庫的根本信息單位,是最為廣泛使用的生物信息學(xué)序列格式之一.GBFF文件分為三局部:a.頭部包含整個記錄的信息描述符;b.第.局部包含了注釋這一記錄的特性;c.第三局部是核甘酸序列本身.黃注:所有序列數(shù)據(jù)庫記錄都在最后一行以“/結(jié)尾.12瞧GBFF:LOCUS行羈(LOCUS,
14、SCU49845,5028bp,DNAlinear,PLN,21-JUN-1999)芾所有GBFF都起始于LOCUS行:踴第一項:是LOCUS名稱(SCU49845):現(xiàn)在唯一的作用是它在數(shù)據(jù)庫中是獨一無二的,已不再具有任何實際意義.大多數(shù)情況下,它僅使用檢索號(accesessionnumber以滿足對LOCUS名稱的要求;肄第二項是序列長度(5028bp):規(guī)定單條數(shù)據(jù)庫記錄的長度不能超過350kb.除歷史原因外,GenBank已經(jīng)很少接受長度低于50bp的序列了;量第三項說明分子類型(DNA):其序列必須是一種單一的分子類型;研第四項是GenBank分類碼(PLN):由3個字母組成.現(xiàn)在
15、其作用僅限于在下載數(shù)據(jù)庫時對數(shù)據(jù)庫作簡單的分類.菜最后一項為哪一項其最后修訂日期(21-JUN-1999):有時也僅表示數(shù)據(jù)首次公開日期.3)4)螂GBFF:DEFINITION行(definition)»(DEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds;andAxl2p(AXL2)andRev7p(REV7)genes,completecds.)肇LOCUS行的下一行為DEFINITION行:主要對GenBank記錄中所含的生物學(xué)意義做出總結(jié).它的說明內(nèi)容包括了來源物種、基因/蛋白質(zhì)名稱.假設(shè)序列是非編碼區(qū),那么包
16、含對序列功能的簡單描述;假設(shè)是一段編碼區(qū),那么標(biāo)明該序列是部分序歹U(partialcds)還是全序歹!J(completecds).5)6)腿GBFF:ACCESSION行(accession檢索號行蓬(ACCESSIONU49845)范檢索號(accession是序列記錄的惟一指針.通常由1個字母加5個數(shù)字(U12345)或由2個字母加6個數(shù)字(AF123456)組成.它在數(shù)據(jù)庫中是惟一而且不變的.有時ACCESSION行中可能會出現(xiàn)多個檢索號,可能是由于數(shù)據(jù)提交者提交了一條與原記錄相關(guān)的新記錄或新提交的記錄覆蓋了原有的舊記錄.我們稱第一個檢索號為主檢索號,其余的統(tǒng)稱為二級檢索號.7)8)
17、 >GBFF:VERSION行(version)版本號行蛔(VERSIONU49845.1GI:1293613)薄VERSION行是版本號,格式為:檢索號.版本號.版本號用于識別數(shù)據(jù)庫中一條單一的特定核甘酸序列.在數(shù)據(jù)庫中,如某條序列數(shù)據(jù)發(fā)生了變化,即使是單堿基的改變它的版本號也將增加,而其檢索號保持不變.筮版本號系統(tǒng)與其后的GI(geninfoidentifier)號系統(tǒng)是平行運行的.即當(dāng)一條序列改變后,它將被賦予一個新的GI號,其版本號也將增加.蛋白質(zhì)的譯發(fā)生任何變換,核酸序列都將被賦予一個新的GI號.蝸5)GBFF:KEYWORDS行(keywords)關(guān)鍵詞行勘(KEYWORDS
18、.)范關(guān)鍵詞行是用來描述序列的.如果該行沒有任何內(nèi)容,那么就只包含一個.由于沒有對照詞匯表,故NCBI/GenBank拒絕接受關(guān)鍵詞,它只存在于舊的記錄中.蔗6)GBFF:OURCE行(source來源行肇(SOURCESaccharomycescerevisiae(baker'syeast)ORGANISMSaccharomycescerevisiaeEukaryota;Fungi;Ascomycota;Saccharomycotina;Saccharomycetes;Saccharomycetales;Saccharomycetaceae;Saccharomyces.嵋對來源行(S
19、OURCE)沒做特殊的規(guī)定,它通常包含序列來源生物的簡稱,有時也包含分子類型.在下面以NCBI的分類數(shù)據(jù)庫為依據(jù),指明物種的正式科學(xué)名稱.建7)GBFF:REFERENCE行reference參考文獻行京(REFERENCE1(bases1to5028)AUTHORSTorpey,L.E.,Gibbs,PE.,Nelson,J.andLawrence,C.W.TITLECloningandsequenceofREV7,agenewhosefunctionisrequiredforDNAdamage-inducedmutagenesisinSaccharomycescerevisiaeJOURN
20、ALYeast10(11),1503-1509(1994)PUBMED7871890曹參考文獻行將與該數(shù)據(jù)有關(guān)的參考文獻均收錄在內(nèi).將最先發(fā)表的文獻列于第一位.如果序列數(shù)據(jù)沒有被相關(guān)文獻報道,該行將出現(xiàn)“unpublished或“inpresso最后將有一個可能的PUBMED指針.藏8)GBFF:FEATURES行(features)特性表行鼐(FEATURESLocation/Qualifiers薄CDS<1.206/codon_start=3/product="TCP1-beta"/protein_id="AAA98665.1"/dbxref=
21、"GI:1293614/translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEAgeneAEVLLRVDNIIRARPRTANRQHM"687.3158/gene="AXL2"艘特性表features靦述基因和基因的產(chǎn)物以及與序列相關(guān)的生物學(xué)特性.特性表提供一個參考詞匯表以對合法的特性進行注釋.這些特性包括:1、該序列是否執(zhí)行一個生物學(xué)功能;2、它是否與一個生物學(xué)功能的表達相關(guān);3、它是否與其它分子相互作用;4、它是否影響一條序列的復(fù)制;5、它是否與其他序列的重組相關(guān);6、它是否是一條已
22、識別的重復(fù)序列;7、它是否有二級或三級結(jié)構(gòu);8、它是否存在變異或者它是否被修訂過.筮特性表格式是按表單的方式設(shè)計的,分三個主要局部:材1特性表關(guān)鍵詞feature,簡要說明功能組;蟆2特性位置location,指明在特性表中的什么地方可以找到相關(guān)特性,在此可以包含操作符operator和功能性描述符descriptor-以指明序列需經(jīng)過怎樣的處理才能得到相應(yīng)的特性;祎3限定詞qualfier,相關(guān)特性的輔助信息,限定詞組使用一組標(biāo)準(zhǔn)化的對照詞匯表以利于計算機從中提取信息.蔻這段序列可以解讀為:該編碼序列CDS起始于第1堿基,終止于第206堿基,它的產(chǎn)物是TCP1-beta,基因名為“AXL2.
23、輯9GBFF:ORIGINorigin膈ORIGIN充1gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg膈61ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct輯修4981tgccatgactcagattctaattttaagctattcaatttctctttgatc肆在GBFF文件的最后,以類似于FASTA格式的方式給出了所記錄的序列.輻二、FASTA數(shù)據(jù)格式FASTAformat:聿Accessionnumbersarelabelsforsequen
24、ces檢索號輯11、RefSeq資料庫:NCBIReferenceSequenceDatabas參考序歹!J數(shù)據(jù)庫蔻RefSeq資料庫是NCBI將GenBank的序列再做詳細整理的non-redundent序列資料庫,它的序列格式和GenBank幾乎完全相同,但由于是完全不同的獨立資料庫,為與GenBank區(qū)別,RefSeq的AccessionNumber檢索號格式和GenBank的不同.該數(shù)據(jù)庫所收集的參考序列一直在不斷地被修改中,盡管如此,NCBIRefSeq仍是目前最可信賴的序列數(shù)據(jù)庫.箍GenBank中一個基因的索引號可能有上百個,但對應(yīng)一個基因的RefSeq只有一個.腿NCBI參考序
25、列數(shù)據(jù)庫RefSeq旨在提供一個全面的、集成的、冗余,好的注釋組序列,包括基因組DNA、轉(zhuǎn)錄和蛋白質(zhì).RefSeq是醫(yī)學(xué)、功能和多樣性研究的根底;它們提供一個穩(wěn)定的參考基因組注釋、基因識別和表征,突變和多態(tài)性分析特別是RefSeqGene記錄,表達研究和比擬分析.肇e.g.數(shù)據(jù)庫檢索實例:滕搜索Genbankno.FJ798090,獲得序列相關(guān)信息1.2 .蝴進入NCBI網(wǎng)站,選擇nucleotide:FJ798090搜索,得到相關(guān)信息;3 .4 .假設(shè)從CDS行可看到有關(guān)Aa的信息,從ORIDIN行可看到DNA相關(guān)信息;5 .6 .曹在原網(wǎng)頁上選擇右邊相關(guān)信息選擇框的PubMed,查看關(guān)聯(lián)文
26、章;7 .8 .袈主頁進入DNA&RNA,選擇tools,點第二個BatchEntrez,批量下載序列;9 .10.蒲提交結(jié)果,顯示參數(shù)與序列下載Send選項、選File、然后選FASTA格式,下載序列,提交序列.箴12、提交序列:衿1、提交方式主要有三種:1、Bankit逐條提交、需要注冊;2、Sequin10000條以下;3、Tbl2asn超過1萬條、命令行.莆2、Bankit提交:先注冊,后點NewSubmission創(chuàng)立一個新提交,SequencingTechnology測序技術(shù),nucleotide核酸,Organism生物體,SubmissionCategory提交類別,S
27、ourceModifiers源存放器修改,Primers引物,Features特性,ReviewandCorrect檢查和糾正,3處.前3、SequinDNA分析軟件:ADNASequenceSubmissionandUpdateToOl唐序列提交:研究產(chǎn)生的新序列,需要遞交到公共數(shù)據(jù)庫保存;需要撰寫論文發(fā)表新序列時,需要數(shù)據(jù)庫接受號.方4、WEB在線提交工具:1、NCBI的Bankit;2、EBI的WEBIN;3、DDBJ的SAKURA;肇5、離線提交:NCBI的Sequin.蒞6、提交比擬:Bankit提交:使用簡單,每個步驟有詳細說明.但一次只能提交一個序列,長度不能太長;Sequin:
28、安裝在用戶自己的計算機上,可同時遞交假設(shè)干序列和較長序列,而且整合了許多有用的序列注釋工具.唐13、引物設(shè)計及測序結(jié)果分析:第三章荽1、引物設(shè)計流程:薄1序列查找與下載GenBank;膈2序列同源性比擬Blast/alignment;覆3引物設(shè)計與篩選primer3/其他;w4引物加工與修飾酶切、保護、標(biāo)簽、啟動子等;芾5引物評價分析Oligo6;袂6引物二次篩選blast;蠢7引物最終評估band;羋2、引物設(shè)計原那么:蛔根本原那么:1引物與模板的序列要緊密互補;2引物與引物之間防止形成穩(wěn)定的二聚體或發(fā)夾結(jié)構(gòu);3引物不能在非靶點引發(fā)DNA聚合反響.箍注意點:1、引物長度在15-30bp之間;
29、肅2、GC含量為40-60%之間;蠶3、引物的特異性3'端不能有連續(xù)的GGG或CCC;藏4、M匕G的絕對值不超過9,雙鏈形成所需自由能;妨5、密碼子的兼并:3'不要位于密碼子的第3位.膂3、引物設(shè)計軟件:1在線工具Primer3、Primer-Blast;聿2)本地軟件PrimerPremier5;裊3引物評估軟件Oligo6蒙e.g.在線設(shè)計引物:膂在Primer3界面上將需要設(shè)計的序列粘貼復(fù)制進入大方框,確定根本參數(shù)和結(jié)果參數(shù)后,點擊pick鍵后出現(xiàn)output頁面,將所需的序列即一定要PCR出的序列用中括號括上,再復(fù)制進大方框.這兩者的差異是第一個是隨機的引物,而第二個選
30、出的引物必然包含你所需的那一段.腿KEYS(inorderofprecedence優(yōu)選弓I物:(*target,>>>>>>leftprimer,薇<<<<<<rightprimer)節(jié)4、Oligo7手工設(shè)計引物:節(jié)上游ATGGGAAAAGACTATTACAAAATCit下游TCAATTCGGCAGCGTATCGTAGAG索選擇引物長度一選定上下游引物一3ZG絕對值不能超過9一DuplexFormation二聚體分析、Hairpinformation發(fā)火分析G不能超過4.5一成分和Tm一錯誤引發(fā)位點分析:一般在100以下
31、,假設(shè)正確引發(fā)效率到達400,可承受超過100多點一PCR最終分析評價一引物二次篩選上下游引物在ncbi中進行blast分析搜索primerncbi并輸入設(shè)計的引物,選擇nr數(shù)據(jù)庫引物最終評估大小、特異性、效率-保護堿基與酶切位點BamHI,NotI.芍5、測序結(jié)果分析:一、Sanger法測序;二、測序圖查看;三、序列拼接.前Sanger法測序:流程:1.PCR擴增;2.產(chǎn)物純化;3.測序反響;4.電泳別離;量DNA測序的實驗方法:末端終止法;蟆測序圖查看軟件:Chromas、Seqman;唐不好的結(jié)果:雜峰、套峰.we.g.序列拼接實例:嵋1.SeqMan軟件啟動界面;2.原始測序文件導(dǎo)入軟
32、件;3.Assemble裝配;4.StrategyofContig重疊群策略Contig-Strategyview和Contig-Alignmentview-去除矛盾堿基和缺口手動刪除、修改可疑堿基-導(dǎo)出拼接序列.蝕14、核酸序列分析:第四章羋常規(guī)分析、比對分析、基因結(jié)構(gòu)識別贛1、常規(guī)分析:輻序列的檢索、序列組分分析、序列變換、限制性酶切分析前1、核酸序列檢索:Entrez、SRS贛2、核酸序列組分分析:Bioedit-分子量;DNAMAN堿基組成;EditSec堿基分布12肇EditSeq堿基組成:GoodiesDNAStatistic;34蒂Bioedit堿基組成Sequence-Nucl
33、eicAcidNucleotidecomposition;Bioedit:一種對基因序列進行分析加工或序列拼接的軟件.蟄3、序列變換:反向互補序列EditSeq-GoodiesReversecomplementt聿反向序歹UEditSeqGoodies-ReverseSequence腿4、限制性酶切分析:BioEdit-SequenceNucleicAcid-RestrictMap蝴在線:NEBcutter、WebCutter、Rebase蒂2、比對分析:蠅意義:推測基因和蛋白質(zhì)的進化演變規(guī)律;推測基因和蛋白質(zhì)的結(jié)構(gòu)和功能;胭根本假設(shè):序列的保守性-功能的保守性;糖工具:Blast和Clust
34、alX;12量BLAST比對BasicLocalAlignmentSearchToo根本局部比對搜索工具薇BLAST程序的中央思想是將序列切割成一段一段來比擬.這兩段序列長度為W分別來自提交序列,與數(shù)據(jù)庫,比對分值T芾主要分三步進行:第一步:由查詢序列生成的長度固定W=3的字段編譯列表Score>T;第二步:在數(shù)據(jù)庫中掃描獲得與編譯列表中的字段匹配的序列記錄,作為后續(xù)延伸的種子seect第三步:對于每一對選擇出來的種子,將其向兩邊延伸,使其在盡可能長的距離得到盡可能多的分數(shù).薄比對結(jié)果的判讀:比對結(jié)果的顯著性以E值Expectvalue來衡量,E值趨向于0時,說明比對結(jié)果越顯著.E值的意
35、義就是概率;蟻比對得分bitscore:說明序列比對的得分,數(shù)值越高,兩序列越相似.薄【作業(yè):以纖維素酶基因序列為靶標(biāo),進行核酸組分分析,NCBI中比對你的序列,至少使用blastn,blastx并下載不少于十個比對出來的序列.】勘回頭來看NCBI參數(shù)選擇:blast出blastn螞LimitbyEntrezQuery:任何NCBIBLAST搜索的范圍都可以用在Entrez搜索中使用的任何一種范圍限定詞來限定;希Maxtargetsequences比對之后顯示的最大的比對序列的數(shù)目;箴期望expect期望值E是得分大于或等于某個分值S的不同的比對的數(shù)目在隨機的數(shù)據(jù)庫搜索中發(fā)生的可能性.這個數(shù)值
36、表示你僅僅由于隨機性造成獲得這一聯(lián)配結(jié)果的可能次數(shù).對于blastn、blastblastxt和blastn期望值的默認設(shè)置是10.在這個E值下,隨機出現(xiàn)得分等于或高于比對得分S的期望數(shù)為10個這里是假設(shè)用與實際的查詢序列長度相等的隨機的查詢序列搜索數(shù)據(jù)庫0當(dāng)將期望選項值調(diào)小時,返回的數(shù)據(jù)庫搜索結(jié)果將變少,匹配被搜索到的概率也會變小.增大E值將返回更多的結(jié)果;藏字段長度wordsize:對于蛋白質(zhì)搜索,窗口大小可以被設(shè)定為3默認值或者2.當(dāng)用一個查詢序列來進行數(shù)據(jù)庫搜索時,BLAST算法首先將查詢序列分割成一系列具有特定長度字段長度的小的序列段字段.實際應(yīng)用中對于蛋白質(zhì)搜索很少需要改變字段的長
37、度;對于核酸序列,默認的字段長度是28,BLAST的字長缺省值為28,即BLASTN將掃描數(shù)據(jù)庫,直到發(fā)現(xiàn)那些與未知序列的28個連續(xù)堿基完全匹配的28個連續(xù)堿基長度片段為止.然后這些片段即字被擴展.降低字段長度將會使搜索變得更準(zhǔn)確同時也會變得更慢;肅矩P$matrix:對于blastp的蛋白質(zhì)-蛋白質(zhì)搜索有5種氨基酸替代矩陣:PAM30、PAM70、BLOSUM45、BLOSUM62默認值以及BLOSUM80.一些其他的BLAST效勞器還提供了很多其他的替代矩陣,如PAM250O通常情況下明智的選擇是在一次BLAST搜索中使用幾種不同的打分矩陣;袁Compositionaladjustment
38、s這個選項是默認選擇的,一般來說可改善E值的統(tǒng)計計算和提升靈敏度減少返回的假陽性結(jié)果的數(shù)目;膈2blast2雙序列比對:菱Blast比對后,當(dāng)數(shù)據(jù)庫中搜索到多個顯著相似的序列時,檢測目的序列是否與之有真正關(guān)聯(lián),可進行雙序列比對PairwiseAligment.蔻Ncleotide:Hsp40ORFVSbm40改變參數(shù)ProgramSerial項崛情Highlysimilar卿hks峋螂淖I;eredssiiiilrcoercesizisccnligtous門即b在;旗«0Somtiatsrnilarsequeices觸加tesaBLTalgonltin.蒲點陣圖Dotmatrixvi
39、ew:連續(xù)線表示序列匹配指出,缺口說明量序列不匹配之處.w比對結(jié)果:*6=3itnCi.c-r5JRei?mcrrrnccmclm-kjnt-rhMActr、氣rh>43、ctrIcn43d氣/王*:>£EV»«,口y:srv.131bJ01C:1=Uj.Hy工工SEnUN4>XirIKJ>VY»rXFtaX1rVKXMCXE3»KWKIKAITMK3-LFh.E-K-TXIHr5W.T-JV*jriuA.CILAUCKEXtaJKITKVK.GOMGPK.DlTlfK.1Z«OIXKiZ3A3DO+XKKAV
40、P.MTDiKWftACMLEE*fKIT*Af_A.¥BIVINSZ>K.K13K.L3-VMWX,<KU人L3XJE3-.&KKjIKVTAt3>J».T-JIE:XIT-RLIE'VjnUE-MuITK:VmT:k.勺口“XW'HE-7tMiTUiK.iu-LJ-X-aKu-LjiLAjsj0u0u3uiuH3Y3Ji三力HHWAE-7bJHjfcTTirARk_33?An13Kkki±KjX20KE-+-WFBJCizfT-iccj.iraql口BCSP-+HTTLHraQb+4TLja.Q"kT+f&a
41、mp;rLk*itn工e-w字工3a新皂立.皂口二namnoc;Mfe:1討I_-J4J1I_.匕二UK.j«_rMLd,'_Ti;_FUri打片1?li,.*i=-_i->、:ir-'_irjiLu0M1二丁OU-H=:fcTD一03fJfal&30&口匕上*牙產(chǎn)whrq'=口百H"n-n=3COnHLRZ3C4r>TI-B"W314TDTEL.PVTa'S1期3、基因結(jié)構(gòu)識別:裊包括:ORF識別;啟動子與轉(zhuǎn)錄因子結(jié)合位點分析;重復(fù)序列分析;CpGisland12犀ORF識另I:.Kozak原那么:1、
42、第四位的偏好堿基為G;2、ATG的5端約15bp范圍內(nèi)的側(cè)翼序列內(nèi)不含堿基T;3、在第3、6、9位,G為偏好堿基;4、除第3、6、9位,在整個側(cè)翼序列中,c為偏好堿基.蟆常見ORF在線預(yù)測工具:ORFFinder;GeneMark,hmm;Glimmer原核生物;GlimmerHMM真核生物ORF的驗證:Blast.建2啟動子及轉(zhuǎn)錄因子結(jié)合分析:PromoterScan螃3重復(fù)序列分析:repeatmasker芨4CpGisland:CpGPlot;CpGisland通常位于啟動子附近荽CpG雙核甘酸在人類基因組中的分布很不均一,而在基因組的某些區(qū)段,CpG保持或高于正常概率,這些區(qū)段被稱作C
43、pG島.在哺乳動物基因組中的12kb的DNA片段,它富含非甲基化的CpG雙倍體.CpG島主要位于基因的啟動子promotor和第一外顯子區(qū)域,約有60%以上基因的啟動子含有CpG島.GC含量大于50%,長度超過200bp,建15、DNA雙序列比對PairwiseSequenceAlignmenM理:第五章材1、比什么?給定兩條序列DNAorprotein腿Seq1:CATATTGCAGTGGTCCCGCGTCAGGCT«Seq2:TAAATTGCGTGGTCGCACTGCACGCT蒙它們存在多大程度的相似?蕨CATATTGCAGTGGTCCCGCGTCAGGCT膀TAAATTGCGT
44、-GGTCGCACTGCACGCT蝸2、為什么比?發(fā)現(xiàn)功能、研究進化、某條序列的關(guān)鍵特征、疾病的鑒定襖3、序列變化:三種類型的變化包括:Substitution點突變、Insertion插入、Deletion刪除,后兩個統(tǒng)稱為Indel插入缺失.聿4、為到達比對兩序列的目的,我們需要一個定量模型來評估兩序列,如何定量兩序列間的相似性?一、二、量全局比對Globalalignment:嵋是對給定序列全長進行比擬的方式.在待比擬的兩個序列中引入空位gap,使得對序列的全長都得到比擬,Needleman-Wunsch算法.全局序列比對,比對的是全部序列.建立一個得分矩陣,A序列在上方,B序列在左側(cè),方格i,j的數(shù)值是A0-i到B0-j的最正確比對.全部比對的得分在最下角四、芍局部比對:獲得兩序列最正確匹配的區(qū)域,有時與全局匹配一致.螂16、蛋白序列比對:第六章蜩一般規(guī)那么:蛋白質(zhì)序列25%的同一性長度100,即為同源基因homologousgene,DNA序列同一性大于70%為同源序列.裊基于氨基酸相似性的序列比對:蒂打分矩陣,基于同一性的打分矩陣:對相似性序列比對不錯;但對于相似性程度低的序列效果很差;膀替換矩陣,對高度相似的序列,我們可以對氨基酸替換頻率進行評估打分;藏BLOSUM矩陣基于高度保守區(qū)的置換模式;裊PAM矩
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2013-2022年北京市中考真題物理試題匯編:功和能章節(jié)綜合
- 2025年代理設(shè)備戰(zhàn)略合作協(xié)議(2篇)
- 2025年產(chǎn)品賠償協(xié)議樣本(三篇)
- 2025年九年級二班班主任的工作總結(jié)(三篇)
- 2025年個體單位用工合同標(biāo)準(zhǔn)范文(2篇)
- 2025年產(chǎn)品研發(fā)合作協(xié)議常用版(2篇)
- 智能家居項目居間合同-@-1
- 傳統(tǒng)制造業(yè)辦公室翻新合同
- 水產(chǎn)冷凍品運輸合同格式
- 2025年度保密技術(shù)合作開發(fā)合同
- 河北省滄州市五縣聯(lián)考2024-2025學(xué)年高一上學(xué)期期末英語試卷(含答案含含聽力原文無音頻)
- 福建省泉州市南安市2024-2025學(xué)年九年級上學(xué)期期末考試語文試題(無答案)
- 腫瘤護士培訓(xùn)課件
- 新課標(biāo)體育與健康水平二教案合集
- 2025屆高考語文一輪復(fù)習(xí)知識清單:古代詩歌鑒賞
- 醫(yī)療器材申請物價流程
- 我的消防文員職業(yè)規(guī)劃
- 2025年公司品質(zhì)部部門工作計劃
- 2024年世界職業(yè)院校技能大賽高職組“市政管線(道)數(shù)字化施工組”賽項考試題庫
- 華為研發(fā)部門績效考核制度及方案
- CSC資助出國博士聯(lián)合培養(yǎng)研修計劃英文-research-plan
評論
0/150
提交評論