


版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、一、名詞Bioinformatics :生物信息學是一門綜合運用生物學、數(shù)學、物理學、信息科學以及電腦科學等諸多學科的理論方法,以互聯(lián)網(wǎng)為媒介、數(shù)據(jù)庫為載體、利用數(shù)學和電腦科學對生物學數(shù)據(jù)進行儲存、檢索和處理分析,并進一步挖掘和解讀生物學數(shù)據(jù)。Consensus sequenee :共有序列決定啟動序列的轉錄活性大小。各種原核啟動序列特定區(qū)域內通常在轉錄起始點上游 -10及-35區(qū)域存在共有序列,是在兩個或多個同源序列的每一個位置上多 數(shù)出現(xiàn)的核苷酸或氨基酸組成的序列。Data mining :數(shù)據(jù)挖掘一一數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中自動搜索隱藏于其中的有著特殊關 系性的信息的過程。數(shù)據(jù)挖掘
2、通常是利用計算方法分析生物數(shù)據(jù),即根據(jù)核酸序列預測蛋白質序列、結 構、功能的算法等,實現(xiàn)對現(xiàn)有數(shù)據(jù)庫中的數(shù)據(jù)進行開掘。EST (Expressed Sequenee Tag)表達序列標簽一一是某個基因cDNA克隆測序所得的局部序列片段,長度大約為200600bp。Similarity :相似性一一是直接的連續(xù)的數(shù)量關系,是指序列比對過程中用來描述檢測序列和目標 序列之間相同 DNA堿基或氨基酸殘基順序所占比例的上下。Homology:同源性一一是兩個對象間的肯定或者否認的關系。如兩個基因在進化上是否曾具有共同祖先。從足夠的相似性能夠判定二者之間的同源性。Alignment :比對 從核酸以及氨
3、基酸的層次去分析序列的相同點和不同點,以期能夠推測它們 的結構、功能以及進化上的聯(lián)系?;蚴侵笧榇_定兩個或多個序列之間的相似性以至于同源性,而將它們 按照一定的規(guī)律排列。BLOSUM模塊替換矩陣一一是指在對蛋白質數(shù)據(jù)庫搜索時,采用不同的相似性分數(shù)矩陣進行檢索的 相似性矩陣。以序列片段為根底,從蛋白質模塊數(shù)據(jù)庫BLOCK沖找出一組替換矩陣,用于解決序列的遠距離相關。在構建矩陣過程中,通過設置最小相同殘基數(shù)百分比將序列片段整合在一起,以防止由于 同一個殘基對被重復計數(shù)而引入的任何潛在的偏差。在每一片段中,計算出每個殘基位置的平均奉獻, 使得整個片段可以有效地被看作為單一序列。通過設置不同的百分比,產
4、生了不同矩陣。PAM(Point Accepted Mutation):突變數(shù)據(jù)矩陣 PAM即可接受點突變指1個PAM表示100個殘基中發(fā)生一個殘基突變概率的進化距離。在序列比對中,能夠反映一個氨基酸發(fā)生改變的概率與兩個氨 基酸隨機出現(xiàn)的概率的比值的矩陣。Con tig :疊連群一一是指一組相互兩兩頭尾拼接的可裝配成長片段的DNA序列克隆群,也指彼此間可通過重疊序列而連接成連續(xù)的、擴展的、不間斷的DNA序列的交疊片段產物。通過比對不同的序列,我們能夠發(fā)現(xiàn)片段的順序,并且con tigs能被添加、刪除、重排列來形成新的序列。Phyloge netic tree :系統(tǒng)發(fā)生樹又稱為演化樹evolu
5、ti on arytree是說明被認為具有共同祖先的各物種間演化關系的樹,是一種親緣分支分類方法。在樹中,每個節(jié)點代表其各分支的最近共同 祖先,而節(jié)點間的線段長度對應演化距離如估計的演化時間。它用來表示系統(tǒng)發(fā)生研究的結果,用它描述物種之間的進化關系。In Silico Cloning:電子克隆一一是近年來開展起來的一門基于表達序列標簽ESTs的快速克隆基因的新技術,其利用種子序列從EST及Uni Ge ne數(shù)據(jù)庫中搜索相似性序列,進行拼裝、檢索、分析等,以此獲得目標基因的全長cDNA在此根底上也能夠實現(xiàn)基因作圖定位。二、問題思考1、生物信息學這門學科是如何開展起來的?答:生物學數(shù)據(jù)爆炸式增長生
6、物大分子數(shù)據(jù)庫相繼建立生物技術與電腦技術并行飛速開展Internet 的廣泛應用人類基因組方案HGP的推動 生物信息學的產生是生命科學開展的必然。2、舉例說明生物信息學的主要應用?答: a. 獲取各種生物的全基因組及其他數(shù)據(jù) ;b. 新基因發(fā)現(xiàn) ;c. 單核苷酸多態(tài)性分析 ;d. 基因組中非編碼區(qū)域的結構與功能 ;e. 從基因組水平研究生物進化及其他遺傳語言的可能 ;f. 全基因組的比擬研究 ;g. 基因功能預測 ;h. 遺傳疾病的研究以及關鍵基因鑒定 ;i. 蛋白質組學研究 ;j. 新藥設計和定向化酶 ;k. 生物芯片 .3、為什么說生物信息學是大規(guī)模研究生命科學的利器? 答:生物信息學主要
7、是一門研究生物學系統(tǒng)和生物學過程中信息流的綜合系統(tǒng)學科,是綜合運用生物學、數(shù)學、物理學、 信息科學以及電腦科學等諸多學科的理論方法, 以互聯(lián)網(wǎng)為媒介、 數(shù)據(jù)庫為載體、 利用數(shù)學和電腦科學對生物學數(shù)據(jù)進行儲存、 檢索和處理分析, 并進一步挖掘和解讀生物學數(shù)據(jù)。 目前, 其核心是基因組信息學,包括基因組信息的獲取、處理、存儲、分配和解讀。還包括:蛋白質空間結構 模擬、預測和藥物分子設計;軟件開發(fā)和方法學研究。未來,生物信息學將進一步揭示生命系統(tǒng)的復雜 性、遺傳語言、基因表達譜、基因組、蛋白質組、代謝組、細胞信號組、系統(tǒng)生物學等等。因此,生物 信息學是大規(guī)模研究生命科學的利器。4、生物信息學涉及的生
8、物大分子信息有哪些?答:涉及的有:1核算序列 DNA包括:基因組序列、基因序列、cDNA EST堿基修飾、DNA功能模塊/位點如啟動子、剪接體、表達調控位點等 。2蛋白質 Protein 包括:氨基酸組成、氨基酸序列、理化性質、原子坐標、二級結構、模體、結構域、功能域/位點、3D 結構。5、在大分子序列分析中,為何局部比比照全局比對更有意義?答:全局比對 global alignment 指全長序列比對,用于相似性很高的序列間的分析。 局部比對 local alignment 指生物分子序列常常是局部具有較高的相似性,呈板塊分布。 此法用于整體相似性較低的序列分析,靈敏度高。原因:1全局比對是
9、沿整個長度實現(xiàn)序列之間匹配的最大化,嘗試對齊整個序列。而局部比對是對動態(tài) 規(guī)劃算法的修改,是給兩個序列之間得分最高的地方進行匹配,集中在尋找相似度高的序列的延伸。因 此相比而言, 在序列分析中將未知序列同序列進行相似性比擬, 局部比對的準確性比全局比對更高。 因為要實現(xiàn)整個序列長度的相似性匹配,比起局部匹配分析帶來的誤差更大;2另外,與局部序列比對算法相比,全序列比對算法會導致一些局部序列相似性較高而全序列相 似性很小,因為全序列的平均效應而將兩者的相似性漏檢。一般對于2 個未知關系的序列,使用局部序 列比對工具要比用全序列比對工具好。而對于一個較長的序列和一個較短的序列的比對,也應該使用局
10、部序列比對工具。3再那么全局比對的最高分是最后一個,而局部比對的任何一個地方都可能是最高分,即任何地方 都可以是對位起始點,可見局部比對操作更為靈敏。4應用范圍上,全局比對僅適用于相似性很高的序列間分析,而局部比對一般用于相似性較低的 序列分析,但是也可以用于高相似性序列分析,這樣的分析結果會更加精準。所以局部比比照全局比對更加有意義。6、在大分子序列分析中,為何蛋白質的取代矩陣比核酸的取代矩陣更復雜?答:取代矩陣 (substitution matrix) 的規(guī)那么是“獎勵匹配位點,罰扣不匹配位點 ,故又稱為計分 矩陣 scoring matrix 。核算序列分析利用堿基取代矩陣,通過相似性
11、比對匹配與否進行打分,便可 以分析出其大致的堿基組成,特異位點等。而蛋白質序列利用其氨基酸殘基取代矩陣分析,由于蛋白質 的序列組成復制,而且蛋白質的功能是通過其三維高級結構來執(zhí)行的,該結構又不一定處于靜態(tài),在行 使功能的過程中,一般會發(fā)生相應的改變,所以氨基酸殘基的進化取代不能簡單地表述各種殘基在結構 和功能上的關系,所以要對蛋白質序列進一步的分析就需要更加復雜的取代矩陣。7、 多重比對的用途?BLAST的用途? 答:多重比對的用途主要用于:1) 系統(tǒng)演化分析,解釋物種之間的進化關系;2) 基因預測;3) 蛋白質結構域的三級結構與二級結構,甚至是個別的氨基酸或核苷酸;4) 研究一個家族中的相關
12、蛋白質序列中的保守區(qū)域,進而分析蛋白質的結構和功能。BLAST是現(xiàn)在應用最廣泛的序列相似性搜索工具,主要用于:1) 新DNA序列的發(fā)現(xiàn)、定位與分析、結構和功能預測;2) ESTs的分析;3) 尋找分析遠源關系的蛋白質序列;4) 實驗設計如 PCR Primer , Mutagenesis Studies ,構建 Profile(-譜 ) 等;5) 揭示相似性和同源性,發(fā)現(xiàn)系統(tǒng)發(fā)育的信息;6) 尋找數(shù)據(jù)庫中沒有標注的編碼區(qū)、發(fā)現(xiàn)保守區(qū)域、特定序列框等重要信息。8、聚類分析的策略?答:聚類分析 (cluster analysis) 是一組將研究對象分為相對同質的群組 (clusters) 的統(tǒng)計分
13、析技 術。其策略方法為:先將多個序列兩兩比對構建距離矩陣,反響序列之間兩兩關系;然后根據(jù)距離矩陣計算產生系統(tǒng)進 化指導樹,對關系密切的序列進行加權;然后從最緊密的兩條序列開始,逐步引入臨近的序列并不斷重 新構建比對,直到所有序列都被參加為止。第一步:點擊 File tLoad Sequences輸入序列文件。第二步:點擊 Alignment 設定比對的一些參數(shù)。第三步:點擊 Alignment tDo Complete Alignment 開始序列比對。第四步:點擊 File tSave Sequence as.比對完成,選擇保存結果文件的格式。9、電子克隆比傳統(tǒng)的實驗克隆有何優(yōu)勢?為何能實現(xiàn)
14、電子克???答:電子克隆利用種子序列從EST及UniGene數(shù)據(jù)庫中搜索相似性序列,進行拼裝、檢索、分析等,以此獲得目標基因的全長cDNA在此根底上也能夠實現(xiàn)基因作圖定位。其相比實驗克隆所具有的優(yōu)勢有:1) 實驗進程短、快捷、設備簡單;2) 本錢低、得率高、針對性強等;3) 對操作人員技術要求不高;4) 另外運用電子克隆的方法延伸得到的CDNA幾乎囊括了所有疑似為目的基因的CDNA序列。能實現(xiàn)電子克隆是因為:EST數(shù)據(jù)庫的不斷完善,使得電子克隆策略已成為克隆新基因的重要方法。 從GenBank的核酸nr數(shù)據(jù)庫中檢索已測序列生物的目的基因,獲得目的基因cDNA序列,以該序列為模板對另一種未測序列生
15、物EST數(shù)據(jù)庫進行BLAST檢索,獲得與之局部同源的EST群,從中選取一條EST作為種子序列BLAST檢索該生物的EST數(shù)據(jù)庫,將檢出與種子序列同源性較高或有局部重疊的 EST序列拼接組裝為重疊群contig,再以此重疊群序列重復以上BLAST檢索過程,反復進行EST重疊群序列的拼接和比對,直至檢出所有的重疊EST或重疊群不能繼續(xù)延伸,最終獲得未測序列生物基因的cDNA全序列。10、蛋白質分子結構的層次?相應的分析工具? 答:蛋白質一級結構分析:1) ProtParam :蛋白質理化參數(shù)檢索;2) ProtScale :蛋白質親疏水性分析;3) coiled-coil 卷曲螺旋預測。蛋白質二級
16、結構預測:二級結構指a-helix , 3 - sheet,無規(guī)那么卷曲(coil) , motif等組件。預測方法:1) 神經網(wǎng)絡、遺傳算法、機器學習等;2) 與二級模板建立序列譜矩陣 (profile matrix) 、PSI- BLASTP;3) 與同源蛋白多重比對。模式和序列譜分析: EBI: InterProScan整合出的局部數(shù)據(jù)庫有:Proside 蛋白質結構域、家族和功能位點;Pfam 蛋白質家族比對;TMH Mh跨膜區(qū)預測。蛋白質三級結構預測:實驗測定方法:X-ray 、NMR、 Cryo-EM;理論預測方法:同源建模、折疊識別、從頭計算。三、綜合分析1、DNA序列的鑒定策略
17、答:鑒定三步驟:1) 找到序列中的非編碼區(qū) 編碼區(qū)與非編碼區(qū)顯著不同,重復序列和低復雜序列排除基因的可能性,首先屏蔽掉。屏蔽重復序列的分析程序有:RepeatMasker, XBLAST, CENSOI等。此外,確定待檢序列是否真實載體污染,宿主 序列污染,純度因素等 ,載體序列污染分析程序有: NCBI / VecScreen ;EMBL / Blast2 EVEC 。2) 找基因根據(jù)基因特征信號,如保守序列 (啟動子,CpG島)、起始和終止密碼子、polyA,堿基頻率,密碼子 偏好,EST。原核生物采用可讀框 ORF檢測基因非常有效。CpG島的預測工具:EMBL-EBIK的在線工具CpGP
18、lot;轉錄終止信號的預測方式:真核生物基因末端有終止子信號,在mRNA終止密碼子下游具有polyA加尾信號AATAAA可用于基因終止位點的預測。在線預測工具:POLYAH啟動子預測分析工具:TRES、 Neural network 、 Dragon promoter finder、 PromoterScan ;可讀框ORF起始密碼子 AT終止密碼子 TGA或 TAG或TAA開放讀框的識別分析程序有: ORF Finder (NCBI), GenScan, GenomeScan 。采用mRNA序列預測基因:以公共數(shù)據(jù)庫獲得mRNA /cDNA從基因組序列預測基因,在線預測工具(NCBI) Sp
19、idey 。3) 鑒定找到的基因 建立基因模型以便核對,同源性搜索增加可信度2、蛋白質結構分析和預測的策略 答:策略為:1) 在數(shù)據(jù)庫中搜尋與蛋白質序列相似的模板;2) 查詢序列和三維結構的蛋白質序列的相似性比對;3) 如果符合相似那么直接進行結構比擬建模;4) 如果不相似那么先進行蛋白質家族、功能域、聚類分析,再與的蛋白質結構比對,有關 系的才進行比擬建模;5) 假設還是不相關,那么對蛋白質序列進行結構分析,對可以預想出其結構的蛋白質預測其三 維結構,對無法預想出結構的蛋白質在實驗室中進行進一步結構分析。知識點生物信息學研究的根本方法?生物學數(shù)據(jù)庫的建立?生物學數(shù)據(jù)的檢索?生物學數(shù)據(jù)的處理?
20、生物學數(shù)據(jù)的利用生物信息數(shù)據(jù)的存儲格式一般由兩 / 三局部組成:紀錄信息、特性注釋、序列本身FASTA格式序列最簡單注釋?序列文件的第一行是由大于符號打頭的任意文字說明,主要為標記序列用。?從第二行開始是序列本身,標準核苷酸符號或氨基酸單字母符號。通常核苷酸符號 大小寫均可,而氨基酸一般用大寫字母。?文件中和每一行都不要超過 80個字符通常 60 個字符。GenBank和EMBL數(shù)據(jù)庫根本數(shù)據(jù)的格式序列名稱、長度、日期序列說明、編號、版本號 物種來源、學名、分類學位置 相關文獻作者、題目、刊物、日期 序列特征表堿基組成序列本身每行 60 個堿基PDB格 式記錄除了原子坐標外,還包括物種來源、化
21、合物名稱、結構遞交以及有關文獻等根本注釋信息。此外, 還給出分辨率、結構因子、溫度系數(shù)、蛋白質主鏈數(shù)目、配體分子式、金屬離子、二級結構信息、二硫 鍵位置等和結構有關的數(shù)據(jù)。蛋白質序列的格式FASTA序列文件格式、PDB數(shù)據(jù)格式一次數(shù)據(jù)庫 直接來源于實驗獲得的原始數(shù)據(jù),只經過簡單的歸類、整理和注釋。一級核酸數(shù)據(jù)庫:GenBank數(shù)據(jù)庫、EMBL數(shù)據(jù)庫、DDBJ數(shù)據(jù)庫一級蛋白質序列數(shù)據(jù)庫:SWISS-PRO庫、PIR庫一級蛋白質結構數(shù)據(jù)庫:PDB數(shù)據(jù)庫二次數(shù)據(jù)庫在一級數(shù)據(jù)庫、實驗數(shù)據(jù)、文獻數(shù)據(jù)和理論分析的根底上,針對不同的研究內容和需要,對生物學知識 和信息的進一步整理得到的數(shù)據(jù)庫。人類基因組圖譜
22、庫 GDB轉錄因子和結合位點庫、TRANSFAC蛋白質序列功能位點數(shù)據(jù)庫Prosite等。蛋白質數(shù)據(jù)庫序列數(shù)據(jù)庫序列及其注釋 :SWISS-PROT PIR (protein in formation resource)、NCBI其功能和應用范圍快速拓展模體和結構域數(shù)據(jù)庫結構域、功能域 :PROSITE、 Pfam (protein families database of alignments and HMMs)結構數(shù)據(jù)庫:PDB (protein databank)蛋白質分類數(shù)據(jù)庫:SCOP、 CATH、 FSSPPDB是目前最主要的收集生物大分子(蛋白質、核酸和糖,以及病毒)三維結構的數(shù)
23、據(jù)庫,是通過X射線單晶衍射、核磁共振、電子衍射等實驗手段確定的蛋白質、多糖、核酸、病毒等生物大分子的三維結構數(shù) 據(jù)庫。NCBI 數(shù)據(jù)庫檢索系統(tǒng) EntrezEntrez是NCBI開發(fā)的基于 WW的數(shù)據(jù)庫檢索工具,它可以用來搜索20多個集成在NCBI中的數(shù)據(jù)庫信息。數(shù)據(jù)庫搜索: BLAST & FASTABLASTS 序:程序査詢內容Blastp蚩白威蚩白煩使用取代地脖尋找較近的 關耒:町以進tBlastni伐轉島仆們的匹配,對 牧遠關系不農適用.Blastx対T新的DNA阡列印ESTs 的分析槌為有用Tblastn核昔酸【關譯討丁孑找數(shù)惟睥屮沒h標注的編心區(qū)他為向用一tblastx楝昔
24、酸翻樣核昔酸翩怦対丁分析EST磁為白用.多序列比對工具Clustal W :對DNA和蛋白質進行多序列聯(lián)配并且生成親緣樹的工具。EMBL提供在線的基于萬維網(wǎng)界面的ClustalW 效勞:對Clustal W 的結果進行觀察的程序為:njplotWIN95, treeview, 等構建進化樹基于大分子序列進化這個分子系統(tǒng)發(fā)育:DNA在進化過程中積累突變,從而導致不同株系后代的DNA RNA和蛋白質的分支。原那么被用于進化樹的構建。進化樹構建的根本步驟1、 多序列比對自動或手動:用Clustal,有些軟件已整合上 Clustal, 如MEGA2、 確定建樹方法取代模型:距離UPGMA, NJ, ME、最大節(jié)約MP、最大似然ML,3、建樹;4、進化樹評估。電子克隆7.1禾U用UniGene數(shù)據(jù)庫進行序列電子延伸7.2從數(shù)據(jù)庫中獲取cDNA全長序列7.3序列拼接本地拼接軟件Windows: Sequencher, DNAstar, Unix: CAP3, Phrap, TIGR Assembler, Velvet,在線效勞:CAP3網(wǎng)址7.4基因的電子表達譜分析7.5 核酸
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 客服外包合同范本
- 垃圾分類設備維護合同
- 護士操作培訓計劃
- 培訓評估方案
- 制作護理計劃單
- 員工培訓課件模板
- 新能源行業(yè)月報:2025年3月報新能源入市刺激搶裝光伏漲價風電淡季不淡
- 隴東學院《可持續(xù)建設》2023-2024學年第二學期期末試卷
- 陜西國防工業(yè)職業(yè)技術學院《中外文化交流史》2023-2024學年第二學期期末試卷
- 陜西旅游烹飪職業(yè)學院《婦產科學B》2023-2024學年第二學期期末試卷
- 幼兒園繪本:《小蛇散步》 課件
- Unit 6 Food and Drinks-Grammar 可數(shù)名詞與不可數(shù)名詞課件(共12張PPT)-2022-2023學年中職英語新高教版(2021)基礎模塊1
- 《藝術學概論考研》課件藝術本體論-形式論
- 墻面裱糊工程施工方案及工藝方法
- 核電廠安全核電廠安全設計
- 電解質分析儀MI操作規(guī)程 sop
- 常用酶切位點表含保護堿基
- 男性生育報銷女方未就業(yè)證明(共1頁)
- 彩鋼棚施工方案
- 熱固板施工方案
- 第四次工業(yè)革命
評論
0/150
提交評論