電子教案與課件:化學(xué)信息學(xué)_第1頁(yè)
電子教案與課件:化學(xué)信息學(xué)_第2頁(yè)
電子教案與課件:化學(xué)信息學(xué)_第3頁(yè)
電子教案與課件:化學(xué)信息學(xué)_第4頁(yè)
電子教案與課件:化學(xué)信息學(xué)_第5頁(yè)
已閱讀5頁(yè),還剩41頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1化學(xué)信息學(xué)化學(xué)模式識(shí)別 (一)數(shù)據(jù)挖掘(Data Mining,DM)數(shù)據(jù)挖掘(Data Mining,DM)是從大量的數(shù)據(jù)中提取隱含的或隱藏的信息,是一種新的信息處理技術(shù),其目的在于找到外在物理、化學(xué)、生物或生理表征與內(nèi)在結(jié)構(gòu)如化學(xué)組成、分子構(gòu)型、構(gòu)象、形態(tài)等之間的相互關(guān)系,并從中提取輔助決策的關(guān)鍵信息。2數(shù)據(jù)挖掘一般包含以下步驟:3圖 10-1 數(shù)據(jù)挖掘全過程數(shù)據(jù)的標(biāo)準(zhǔn)化模式識(shí)別中將需作處理的樣本集X一般用如下矩陣形式表示: 4為了消除量綱和變化幅度不同帶來的影響,原始數(shù)據(jù)可作標(biāo)準(zhǔn)化處理,有關(guān)計(jì)算公式如下:5 (10-2)(10-3)(10-4)其中 為所有樣本第j個(gè)特征的平均值, 為所

2、有樣本第j個(gè)特征的方差,xij為經(jīng)標(biāo)準(zhǔn)化處理后的數(shù)據(jù),各變量權(quán)重相同,均值為0,方差為1。特征提取與優(yōu)化主成分分析偏最小二乘法逐步回歸分析遺傳算法6主成分分析(Principal Component Analysis,PCA)主成分分析也稱主分量分析,是多元統(tǒng)計(jì)的一部分重要內(nèi)容。在統(tǒng)計(jì)學(xué)中,主成分分析是一種簡(jiǎn)化數(shù)據(jù)集的技術(shù)。主成分分析的一般目的是對(duì)變量降維或?qū)χ鞒煞纸忉尅?7主成分分析是將數(shù)據(jù)原來的p個(gè)指標(biāo)作線性組合,作為新的綜合指標(biāo)( )。其中 是“信息最多”的指標(biāo),即原指標(biāo)所有線性組合中使 最大的組合所對(duì)應(yīng)的指標(biāo), 稱為第一主成分; 為除 外信息最多的指標(biāo),即 且 最大,稱為第二主成分;依

3、次類推。8主成分分析(Principal Component Analysis,PCA)求主成分的一般步驟如下:1.對(duì)樣本數(shù)據(jù)的標(biāo)準(zhǔn)化2.計(jì)算相關(guān)矩陣3.求特征值和特征向量4.求主成分(取線性組合)5.定義9主成分分析(Principal Component Analysis,PCA)10 圖 10-2 主成分的空間投影圖(PC1是第一主成分,PC2是第二主成分,PC3是第3主成分)主成分分析(Principal Component Analysis,PCA)偏最小二乘法(Partial Least Squares, PLS)偏最小二乘法是在20世紀(jì)60年代末由Wold提出的,80年代開始應(yīng)用

4、于化學(xué)研究,該方法具有簡(jiǎn)單穩(wěn)健、計(jì)算量小、預(yù)測(cè)精度高、無(wú)需剔除任何解釋變量或樣本點(diǎn)、所構(gòu)造的潛變量較確定、易于定性解釋等優(yōu)點(diǎn)。學(xué)測(cè)量和數(shù)據(jù)挖掘中得到廣泛應(yīng)用。11偏最小二乘法PLS是對(duì)每個(gè)X 矩陣的潛變量方向進(jìn)行修改,使它與Y矩陣間的協(xié)方差最大,即在原回歸方程中刪去那些特征值近似為零的項(xiàng),其X和Y矩陣分別按式10-16和10-17分解為較小的矩陣:12 (10-16)(10-17)式中:T為X的得分矩陣, 為得分向量,P為X的載荷矩陣, 為相應(yīng)的載荷向量,E是殘差矩陣,是X中無(wú)法用 個(gè)潛變量t反映的部分。U為Y的得分矩陣,為得分向量,Q為Y的載荷矩陣, 為相應(yīng)的載荷向量,F(xiàn)是殘差矩陣,是Y中無(wú)

5、法用 個(gè)潛變量u反映的部分。逐步回歸分析最佳回歸方程:最佳回歸方程應(yīng)該包括所有對(duì)因變量作用顯著的變量13逐步回歸分析法就是從一個(gè)預(yù)報(bào)因子開始,按自變量對(duì)因變量作用的顯著程度,從大到小地依次逐個(gè)地引入回歸方程,另一方面是當(dāng)先引入的自變量由于后面自變量的引入變得不顯著時(shí),就將前者從回歸方程中剔除。顯著性檢驗(yàn)F檢驗(yàn)法14相關(guān)系數(shù)檢驗(yàn)法顯著性檢驗(yàn),以確定自變量X與因變量Y之間確實(shí)線性相關(guān)。兩種常用的回歸方程檢驗(yàn)方法:F檢驗(yàn)法首先將觀測(cè)值和擬合值差值的平方和(SS)分解為回歸平方和(SSE)和殘差平方和(SSR),用以下統(tǒng)計(jì)量進(jìn)行檢驗(yàn): (10-18)式中:n為數(shù)據(jù)組數(shù)。當(dāng)F值大于一定的臨界值時(shí),拒絕原

6、假設(shè),認(rèn)為因變量與自變量之間是相關(guān)的。15相關(guān)系數(shù)檢驗(yàn)法相關(guān)系數(shù)R反映了回歸平方和在總平方和中的比例,即反映了X與Y之間線性相關(guān)的密切程度,|R|愈接近0,X與Y之間的線性相關(guān)程度愈小,反之,|R|愈大,愈接近1,X與Y之間的線性相關(guān)程度愈大。16(10-19)對(duì)于一個(gè)具體問題,只有當(dāng)|R|大到一定程度時(shí)才可以認(rèn)為X與Y之間有線性相關(guān)關(guān)系。遺傳算法遺傳算法(Genetic Algorithms, GA)最早由Holland教授于20世紀(jì)70年代創(chuàng)建的。它以達(dá)爾文進(jìn)化論和孟德爾遺傳學(xué)說為理論基礎(chǔ),通過模擬自然界生物“遺傳變異適者生存”的進(jìn)化過程,對(duì)優(yōu)化空間進(jìn)行隨機(jī)搜索,從而得到全局最優(yōu)解。17遺

7、傳算法18圖10-3 遺傳算法基本流程遺傳算法遺傳算法的具體實(shí)施需要以下步驟:染色體的編碼、初始化操作、染色體適應(yīng)度的計(jì)算和遺傳操作。19染色體的編碼和適應(yīng)度的確定方法(1)染色體的編碼和形成:直接采用二進(jìn)制編碼,用0代表某個(gè)變量未被選中,1代表選中。染色體的長(zhǎng)度為待選變量的個(gè)數(shù)。(2)染色體適應(yīng)度的確定:Hasegawa等人提出了用平方預(yù)測(cè)相關(guān)系數(shù)作為染色體適應(yīng)度,其計(jì)算公式為:20其中,yi為實(shí)際值,y(-i),pred為用除掉第i個(gè)樣本的數(shù)據(jù)建立的模型對(duì)yi的預(yù)測(cè)值, 為yi的平均值,h為公式(10-18)獲得最大值時(shí)的主元個(gè)數(shù)。染色體的編碼和適應(yīng)度的確定方法(3)確定最佳的主元個(gè)數(shù):交

8、叉有效性驗(yàn)證是最常用的確定主元個(gè)數(shù)的方法,式(10-21)中的最佳主元個(gè)數(shù)的確定為:如果PRESSj/RSSj-10.952,則增加一個(gè)主元是有益的。21基于GA-PLS算法的變量選擇步驟(1)用隨機(jī)方法來初始化種群,指定最大迭代次數(shù)、交叉率和變異率;(2)根據(jù)式(10-19)計(jì)算種群各個(gè)個(gè)體的適應(yīng)度值,再?gòu)漠?dāng)前種群中選擇出優(yōu)良的個(gè)體,使它們隨機(jī)兩兩配對(duì);(3)根據(jù)指定的交叉率,對(duì)以上各對(duì)染色體進(jìn)行交叉處理;(4)根據(jù)指定的變異率,對(duì)染色體進(jìn)行變異處理;(5)如果循環(huán)終止條件滿足,則算法結(jié)束,否則轉(zhuǎn)到第(2)步。22信號(hào)處理方法信號(hào)處理的目的就是對(duì)數(shù)字信息進(jìn)行準(zhǔn)確的分析、診斷、編碼壓縮和量化、

9、快速傳遞或存儲(chǔ)、精確重構(gòu)(或恢復(fù))。將信號(hào)處理的方法結(jié)合到蛋白質(zhì)序列分析中,能發(fā)揮其特有的信息提取優(yōu)勢(shì),已成為生物信息學(xué)研究領(lǐng)域的一個(gè)重要的發(fā)展方向。23信號(hào)處理方法信號(hào)分成兩大類確知信號(hào)和隨機(jī)信號(hào)。確知信號(hào)具有一定的變化規(guī)律,因而容易分析,而隨機(jī)信號(hào)無(wú)準(zhǔn)確的變化規(guī)律,需要用統(tǒng)計(jì)特性進(jìn)行分析。在工程技術(shù)中,一般采用描述隨機(jī)過程的主要平均統(tǒng)計(jì)特性的幾個(gè)函數(shù),包括均值、方差、相關(guān)函數(shù)、頻譜及功率譜密度等來描述。24協(xié)方差與相關(guān)系數(shù)若兩個(gè)隨機(jī)變量x和y相互獨(dú)立,則 =0,若上述數(shù)學(xué)期望不為零,則x和y必不是相互獨(dú)立的,即它們之間存在著一定的關(guān)系。因而定義 稱為隨機(jī)變量x和y的協(xié)方差,記作COV(x,

10、y),即:25(10-26)其中E表示數(shù)學(xué)期望設(shè)隨機(jī)變量x、y的數(shù)學(xué)期望和方差都存在,則變量x和y之間的相關(guān)程度常用相關(guān)系數(shù) 表示:26其中, 、 ,隨機(jī)變量x、y的均值; 、 ,隨機(jī)變量x、y的方差。(10-27)協(xié)方差與相關(guān)系數(shù)自、互相關(guān)分析設(shè)x(t)是各態(tài)歷經(jīng)隨機(jī)過程的一個(gè)樣本函數(shù),x(t+)是x(t)時(shí)移后的樣本如圖10-4所示。兩個(gè)樣本的相關(guān)程度可以用相關(guān)系數(shù)來表示。27圖10-4 自相關(guān)函數(shù)自相關(guān)函數(shù)若用 表示自相關(guān)函數(shù),其定義為:28(10-28)自相關(guān)函數(shù)的性質(zhì)如下:(1)自相關(guān)函數(shù)為實(shí)偶函數(shù),即 = 。(2)值不同, 不同,當(dāng)=0時(shí), 值最大,并等于信號(hào)的均方值。(3)值的限

11、制范圍為: 。(4)當(dāng)時(shí) ,x(t)和x(t+)之間不存在內(nèi)在聯(lián)系,彼此無(wú)關(guān)。(5)周期函數(shù)的自相關(guān)函數(shù)認(rèn)為同頻率的周期函數(shù)?;ハ嚓P(guān)函數(shù)對(duì)于各態(tài)歷經(jīng)隨機(jī)過程,兩個(gè)隨機(jī)信號(hào)x(t)和y(t)的互相關(guān)函數(shù) 定義為:29(10-29)互相關(guān)函數(shù)30互相關(guān)函數(shù)的性質(zhì)如下:(1)互相關(guān)函數(shù)是可正可負(fù)的實(shí)函數(shù)。(2)互相關(guān)函數(shù)非偶函數(shù),亦非奇函數(shù),而是 = (3) 的峰值不在=0處,其峰值偏離原點(diǎn)的位置 反映了兩信號(hào)時(shí)移的大小,相關(guān)程度最高。(4) 限制范圍為: (5)兩個(gè)統(tǒng)計(jì)獨(dú)立的隨機(jī)信號(hào),當(dāng)均值為零時(shí), =0(6)兩個(gè)不同頻率的周期信號(hào),其互相關(guān)函數(shù)為零。(7)兩個(gè)同頻率正余弦函數(shù)不相關(guān)。(8)周期信

12、號(hào)與隨機(jī)信號(hào)的互相關(guān)函數(shù)為零。功率譜密度31隨機(jī)過程的功率譜密度為:隨機(jī)信號(hào)的功率譜密度是隨機(jī)信號(hào)的各個(gè)樣本在單位頻帶內(nèi)的頻譜分量統(tǒng)計(jì)均值,是從頻域描述隨機(jī)信號(hào)的平均統(tǒng)計(jì)參量,表示x(t)的平均功率在頻域上的分布。它表示功率信號(hào)x(t)中以角頻率為中心的單位帶寬內(nèi)所具有的功率。(10-30)功率譜密度隨機(jī)信號(hào)的功率譜密度具有以下四個(gè)性質(zhì):(1)功率譜密度為非負(fù)值,即功率譜密度大于等于0。(2)功率譜密度是的實(shí)函數(shù)。(3)對(duì)于實(shí)隨機(jī)信號(hào)來說,功率譜密度是的偶函數(shù),即S()= S(-)。(4)功率譜密度可積。功率譜密度曲線下的總面積(即隨機(jī)信號(hào)的全部功率)等于隨機(jī)信號(hào)的均方值。32傅立葉變換傅立葉

13、變換(Fourier Transform, FT)是將分析信號(hào)在測(cè)量的時(shí)域變換到頻域,這樣分析工作者有可能獲得特殊的信息以提高信噪比或可使計(jì)算能較為方便地進(jìn)行。33小波變換小波變換 (Wavelet Transform, WT)是給出時(shí)間域和頻率域方面信息的另外一種技術(shù),類似于傅立葉變換,小波變換將測(cè)量信號(hào)分解為一組稱之為小波基的基函數(shù),這種小波基函數(shù)稱為分析小波(analyzing wavelet)。34小波變換35圖10-5 常用的小波函數(shù)類型小波變換小波函數(shù)的定義為:設(shè)(t)為一平方可積函數(shù),若其傅立葉變換()滿足條件:36(10-33)則稱(t)為一個(gè)基本小波或小波母函數(shù)。上述條件也稱

14、為小波函數(shù)的可容許條件。將小波母函數(shù)(t)進(jìn)行平移和伸縮,就可以得到一系列小波基函數(shù):a0, bR (10-34)其中a和b分別稱為 的伸縮因子和平移因子。小波變換的應(yīng)用小波變換在蛋白質(zhì)頻譜分析中的應(yīng)用小波變換在基因組序列分析中的應(yīng)用小波變換在蛋白質(zhì)序列分析中的應(yīng)用小波變換在基因芯片數(shù)據(jù)分析中的應(yīng)用37機(jī)器學(xué)習(xí)方法K最近鄰法概率神經(jīng)網(wǎng)絡(luò)分類回歸樹助推法人工神經(jīng)網(wǎng)絡(luò)支持向量機(jī)38數(shù)據(jù)庫(kù)挖掘技術(shù)聚類算法決策樹算法39聚類算法聚類是一種常見的數(shù)據(jù)分析工具,其目的是把大量數(shù)據(jù)點(diǎn)的集合分成若干類,使得每個(gè)類中的數(shù)據(jù)之間最大程度的相似,而不同類中的數(shù)據(jù)最大程度的不同。常見的聚類算法主要包括層次聚類算法(H

15、ierarchical Clustering Method)、分割聚類算法 (Partitioning Clustering Method)、基于密度的方法(Density-Based Methods)、基于網(wǎng)格的方法(Grid-Based Methods)等。40決策樹算法常見的決策樹算法主要有ID3 算法、C4.5算法、CART算法、SPRINT算法等。41Web數(shù)據(jù)挖掘技術(shù)Web挖掘是從Internet網(wǎng)絡(luò)資源上挖掘有趣的、潛在的、有用的模式及隱藏信息的過程,它是數(shù)據(jù)挖掘技術(shù)應(yīng)用于網(wǎng)絡(luò)資源進(jìn)行挖掘的一個(gè)新興研究領(lǐng)域。42圖10-16 Web挖掘分類Web內(nèi)容挖掘Web內(nèi)容挖掘是對(duì)Web上大量文檔的集合進(jìn)行總結(jié)、分類、聚類與關(guān)聯(lián)分析來獲取有用信息,Web頁(yè)面的內(nèi)容主要

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論