第三節(jié)信息處理與數(shù)據(jù)挖掘技術_第1頁
第三節(jié)信息處理與數(shù)據(jù)挖掘技術_第2頁
第三節(jié)信息處理與數(shù)據(jù)挖掘技術_第3頁
第三節(jié)信息處理與數(shù)據(jù)挖掘技術_第4頁
第三節(jié)信息處理與數(shù)據(jù)挖掘技術_第5頁
已閱讀5頁,還剩21頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第二章第二章第二章第二章第二章第二章 計算機與儀器分析計算機與儀器分析計算機與儀器分析計算機與儀器分析計算機與儀器分析計算機與儀器分析 一、一、化學計量學介紹化學計量學介紹a brief introduction of chemometrics二、二、信息評價信息評價information appraise三、信號與噪聲三、信號與噪聲signal and noise四、信號的處理技術四、信號的處理技術technology of signal process 五、多元分析方法五、多元分析方法polybasis analysis methods第三節(jié)第三節(jié)第三節(jié)第三節(jié)第三節(jié)第三節(jié) 信息處理與數(shù)據(jù)挖

2、信息處理與數(shù)據(jù)挖信息處理與數(shù)據(jù)挖信息處理與數(shù)據(jù)挖信息處理與數(shù)據(jù)挖信息處理與數(shù)據(jù)挖掘技術掘技術掘技術掘技術掘技術掘技術computer and instrument analysis information process and technology of date excavate2:40:10一、化學計量學簡介一、化學計量學簡介一、化學計量學簡介一、化學計量學簡介一、化學計量學簡介一、化學計量學簡介a brief introduction of chemometrics化學計量學:化學與計算機結合的產(chǎn)物化學計量學:化學與計算機結合的產(chǎn)物1974年,Kowalski 與Wold 提出建立國際

3、化學計量學協(xié)會任務:任務:運用數(shù)學和統(tǒng)計的方法設計或選擇最佳測試過程和實驗 通過化學數(shù)據(jù)分析提供更多化學信息。通過化學數(shù)據(jù)分析提供更多化學信息。范疇:范疇:純化學與量子化學之間凡涉及計算和計算機的所有領域。應用舉例:應用舉例:大連灣海水污染物與污染源之間的關系;控制控制 由尿樣獲取身體健康狀況的全部信息;簡化簡化 化合物性質數(shù)據(jù)結構,結構與性質的關系;新藥新藥 產(chǎn)品質量檢驗生產(chǎn)中的問題;決策決策 犯罪現(xiàn)場的煙霧分析:香煙牌號,種類;破案破案2:40:11 二、二、二、二、二、二、 信息評價信息評價信息評價信息評價信息評價信息評價 information appraise 分析儀器是分析化學家為

4、獲取化學信息所使用的工具,因此可以由信息理論來評價儀器的性能。1. 1. 信息量和熵信息量和熵 設有一事件有幾種可能性,他們各自的概率為設有一事件有幾種可能性,他們各自的概率為p pi i,ShannonShannon定義定義信息熵信息熵: niiinpppppH121lg),( 在信息理論中,習慣取在信息理論中,習慣取“2”作為對數(shù)的底,此時單位作為對數(shù)的底,此時單位為為bit(e為底,為底,nat)。設有一具有兩種可能性的等概率事件:設有一具有兩種可能性的等概率事件:bit1)21,21(2121 Hpp則則即即bit2)41,41,41,41( H同理同理2:40:12信息量和熵信息量和

5、熵 熵是事件不確定程度的度量,不確定程度越大,熵就越熵是事件不確定程度的度量,不確定程度越大,熵就越大。大。對于一個概率密度為對于一個概率密度為p p( (x x) )的連續(xù)型分布熵的定義為的連續(xù)型分布熵的定義為: xxpxpxpHd)(lg)()( 信息的概念是與事件發(fā)生的概率相聯(lián)系的,出現(xiàn)小概率信息的概念是與事件發(fā)生的概率相聯(lián)系的,出現(xiàn)小概率事件所包含的信息量大,因此可定義事件所包含的信息量大,因此可定義信息量信息量: I = -lgpi 如果事件發(fā)生后的概率不等于如果事件發(fā)生后的概率不等于1,即它是不確定的,則信,即它是不確定的,則信息量可表示為:息量可表示為: I =lg(qi/pi)

6、式中式中 qi 是事件發(fā)生后的概率。是事件發(fā)生后的概率。2:40:122. 2. 信息量與熵的關系信息量與熵的關系 如果通過某些方法獲取信息使原來事件的不確定程度減如果通過某些方法獲取信息使原來事件的不確定程度減小,所得到的信息的數(shù)量就是信息量,小,所得到的信息的數(shù)量就是信息量,故信息量就是熵減少故信息量就是熵減少的量:的量: I = H0- H式中式中 H0 和和H 分別表示獲取分別表示獲取“情報情報”前后,事件不確定程度。前后,事件不確定程度。在分析化學中則是實驗前后的熵。若經(jīng)過實驗后的結果完全在分析化學中則是實驗前后的熵。若經(jīng)過實驗后的結果完全確定,即實驗后的熵確定,即實驗后的熵=0,則

7、:,則: I = H0 =Hmax即經(jīng)過這樣一個實驗后,可能得到的最大信息量。即經(jīng)過這樣一個實驗后,可能得到的最大信息量。2:40:133. 3. 分析化學實驗中的信息量與熵分析化學實驗中的信息量與熵 在定性分析實驗中,判斷某一組分是否存在。在定性分析實驗中,判斷某一組分是否存在。實驗前:實驗前: 概率:各為概率:各為1/21/2(實驗前并無任何信息)(實驗前并無任何信息) H H0 0 = 1 bit = 1 bit實驗后:實驗后: H H =0=0故信息量:故信息量: I I = = H H0 0 - - H H = 1 bit = 1 bit如果采用儀器分析定性,不能將全部組分檢測出,如

8、何確定?如果采用儀器分析定性,不能將全部組分檢測出,如何確定? 例:原子吸收測定含銅、鋅試樣例:原子吸收測定含銅、鋅試樣( (組成未知組成未知) )。 僅測定出僅測定出CuCu2+2+時的信息量,測定出時的信息量,測定出CuCu2+2+ 、 Zn Zn2+2+時的信息量時的信息量分別是多少?(陰離子不能檢測)。分別是多少?(陰離子不能檢測)。2:40:134. 4. 定量分析中有關參數(shù)與信息量定量分析中有關參數(shù)與信息量 在定量分析實驗中,如果實驗前知道某一組分的大致范在定量分析實驗中,如果實驗前知道某一組分的大致范圍時,即圍時,即p p( (x x) )均勻地分布在均勻地分布在( (x x1

9、1, ,x x2 2) )區(qū)間內,則:區(qū)間內,則:)ln(d1ln1121221021xxxxxxxHxx 由于分析中偶然誤差的存在,結果不可能是一定值而成由于分析中偶然誤差的存在,結果不可能是一定值而成正態(tài)分布正態(tài)分布。設其標準偏差為。設其標準偏差為,則:,則:)2ln(d2exp21ln2exp212222exxxH 2:40:13于是于是:exxHHI2ln120 越小,信息量越大。實驗中增大信息量的途徑?越小,信息量越大。實驗中增大信息量的途徑?減少干擾、提高儀器靈敏度、減小噪聲、增加測定次數(shù)等。減少干擾、提高儀器靈敏度、減小噪聲、增加測定次數(shù)等。2:40:145. 5. 儀器的最大信

10、息量儀器的最大信息量 分析儀器通常有一測定限分析儀器通常有一測定限c cminmin,待測試樣濃度低于此值時待測試樣濃度低于此值時,不能用該儀器測定。該儀器實驗前的熵為:,不能用該儀器測定。該儀器實驗前的熵為:ccH min0lgc c 為儀器能分辨的最小濃度差,實際的信息量:為儀器能分辨的最小濃度差,實際的信息量:maxmin02lnIecHHI 2:40:14 對于多通道的儀器,可以有對于多通道的儀器,可以有n n個通道同時測定個通道同時測定n種組分,種組分,其總的信息量是各通道的信息量之和:其總的信息量是各通道的信息量之和:2/1321minmin3min2min1min)2(ln2ln

11、 nniccccecII 單位時間內信息量的變化稱為信息流:單位時間內信息量的變化稱為信息流:tIJdd 理想的分析儀器應該在很短的時間內獲得很大的信息量。理想的分析儀器應該在很短的時間內獲得很大的信息量。2:40:156. 6. 儀器的效率和剩余度儀器的效率和剩余度 儀器的效率可用剩余度來衡量。剩余度的定義:儀器的效率可用剩余度來衡量。剩余度的定義: R = Hman H 剩余度是熵偏離其最大值的度量。熵的一個重要性質是剩余度是熵偏離其最大值的度量。熵的一個重要性質是當所有的可能性都是等概率時,熵有最大值。當所有的可能性都是等概率時,熵有最大值。 在定量分析中,如果試樣中待測組分的含量完全是

12、未知在定量分析中,如果試樣中待測組分的含量完全是未知的,則其可能的含量為的,則其可能的含量為0 0100%100%,故:,故:cHman 100ln2:40:15儀器的效率和剩余度儀器的效率和剩余度 在分析儀器中,剩余度常被定義為:在分析儀器中,剩余度常被定義為: R = Iman I 即它是分析過程中被保留,未被利用的信息量的度量。即它是分析過程中被保留,未被利用的信息量的度量。剩余度大表示該儀器的效率低。剩余度大表示該儀器的效率低。 分析時,一般樣品的大致含量范圍總是知道的,設其范圍分析時,一般樣品的大致含量范圍總是知道的,設其范圍為為x x1 1x x2 2。cxxH 12lg故:故:1

13、2100lgxxR 則:則:2:40:16三、信號與噪聲三、信號與噪聲三、信號與噪聲三、信號與噪聲三、信號與噪聲三、信號與噪聲signal and noisesignal and noisesignal and noise本底信號本底信號: 沒有試樣時,儀器產(chǎn)生的信號;隨機噪聲;沒有試樣時,儀器產(chǎn)生的信號;隨機噪聲;空白信號空白信號: 試樣中無待測組分時,儀器產(chǎn)生的信號;試樣中無待測組分時,儀器產(chǎn)生的信號;試樣預處理試樣預處理: 空白信號接近本底信號;空白信號接近本底信號;2:40:161. 1. 1. 1. 1. 1. 檢出限檢出限檢出限檢出限檢出限檢出限 樣品的信號能被檢出的最低限;由于存

14、在隨機噪聲(正樣品的信號能被檢出的最低限;由于存在隨機噪聲(正態(tài)分布),有誤判的可能;態(tài)分布),有誤判的可能; 如何規(guī)定檢出限使誤判產(chǎn)生的幾率符合要求如何規(guī)定檢出限使誤判產(chǎn)生的幾率符合要求(統(tǒng)計學統(tǒng)計學),1969年,國際原子吸收光譜會議;年,國際原子吸收光譜會議;yB+3 B 1975年,年,IUPAC; yB+2 B 保險檢出限:保險檢出限: yB+6 B 數(shù)學期望值數(shù)學期望值yB;標準偏差;標準偏差 B定義:定義:以一定的置信度檢出待測組分的最低濃度(或量)以一定的置信度檢出待測組分的最低濃度(或量) yA =yB+k B k 的取值對應于不同置信概率的取值對應于不同置信概率2:40:1

15、62.2.2.2.2.2.靈敏度靈敏度靈敏度靈敏度靈敏度靈敏度 分析儀器的響應值與濃度分析儀器的響應值與濃度(或量或量)改變一個單位時所引起改變一個單位時所引起的信號的變化,的信號的變化, y/ c.(IUPAC給出的定義給出的定義); 單純靈敏度高不能保證有低的檢測限;單純靈敏度高不能保證有低的檢測限; 檢測限與檢測限與 B有關,有關, B來自隨機噪聲,信號變化可能被來自隨機噪聲,信號變化可能被噪聲淹沒。噪聲淹沒。2:40:173. 3. 3. 信噪比信噪比信噪比信噪比信噪比信噪比( ( (S S S/ / /N N N) ) )的提高的提高的提高的提高的提高的提高 途徑:途徑:a. 改善信

16、號的測量技術;改善信號的測量技術; b. 信號經(jīng)過適當處理信號經(jīng)過適當處理; c. 優(yōu)化。優(yōu)化。 (1) 信號的平均信號的平均: 噪聲信號噪聲信號 nyy/NN(2) 濾波和調制濾波和調制2:40:17四、信號處理技術四、信號處理技術四、信號處理技術四、信號處理技術四、信號處理技術四、信號處理技術 technology of signal processtechnology of signal processtechnology of signal process 對分析信號進行處理是為了提高信息量,改善信噪比。對分析信號進行處理是為了提高信息量,改善信噪比。信號處理通常采用以下幾種方法和技術

17、:信號處理通常采用以下幾種方法和技術:1 1. . 曲線擬合曲線擬合 用數(shù)學方法將獲取的數(shù)據(jù)作曲線擬合。方法:用數(shù)學方法將獲取的數(shù)據(jù)作曲線擬合。方法:(1 1)根據(jù)實際獲得的曲線找出與此曲線適應的數(shù)學模型;)根據(jù)實際獲得的曲線找出與此曲線適應的數(shù)學模型;(2 2)以實驗得到的數(shù)據(jù)對)以實驗得到的數(shù)據(jù)對( (Xi,Yi) ),代入數(shù)學模型,代入數(shù)學模型( (關系式關系式) ),用最小二乘法求出模型中的待定參數(shù)。,用最小二乘法求出模型中的待定參數(shù)。關鍵點:關鍵點:選擇正確的數(shù)學模型選擇正確的數(shù)學模型例:非正態(tài)色譜曲線,可采用例:非正態(tài)色譜曲線,可采用r函數(shù)與指數(shù)衰減曲線相結合的函數(shù)與指數(shù)衰減曲線相

18、結合的數(shù)學模型。數(shù)學模型。2:40:182 2 2 2 2 2. . . . . . 曲線的平滑處理曲線的平滑處理曲線的平滑處理曲線的平滑處理曲線的平滑處理曲線的平滑處理 曲線平滑處理可以去除數(shù)據(jù)集合中的隨機噪聲,保留有曲線平滑處理可以去除數(shù)據(jù)集合中的隨機噪聲,保留有用信息,提高信噪比。用信息,提高信噪比。 小波動:隨機噪聲小波動:隨機噪聲 大波動:包含有用信息大波動:包含有用信息方法:方法: boxcarboxcar平均化;平均化; 移動窗口均化;移動窗口均化; 最小二乘多項式平滑(最小二乘多項式平滑(Savitzky-Golay卷積法),最常卷積法),最常用的方法。用的方法。注意點:注意點

19、:不正確的進行平滑處理可能會將微弱信號當作噪聲不正確的進行平滑處理可能會將微弱信號當作噪聲處理掉。處理掉。2:40:183 3 3 3 3 3. . . . . . 信號求導信號求導信號求導信號求導信號求導信號求導 消除背景和重疊峰的干擾,提高分辨率和靈敏度。消除背景和重疊峰的干擾,提高分辨率和靈敏度。方法:方法:模擬微分電路或求導程序軟件。模擬微分電路或求導程序軟件。 微分譜比原譜對譜特征的細微變化反應要靈敏的多,被微分譜比原譜對譜特征的細微變化反應要靈敏的多,被隱藏的譜的特征可以通過對原譜圖的微分而得到加強。隱藏的譜的特征可以通過對原譜圖的微分而得到加強。應用:應用: (1 1)光譜圖、色

20、譜圖:重疊峰、弱肩峰的區(qū)分;)光譜圖、色譜圖:重疊峰、弱肩峰的區(qū)分; (2 2)電位滴定曲線的導數(shù)曲線容易確定滴定鐘點。)電位滴定曲線的導數(shù)曲線容易確定滴定鐘點。注意點:注意點:微分時,原譜的噪聲也被加強,高階導數(shù)譜的噪聲微分時,原譜的噪聲也被加強,高階導數(shù)譜的噪聲增大的更明顯,解決方法:對原譜進行平滑處理。增大的更明顯,解決方法:對原譜進行平滑處理。2:40:19五、五、五、五、五、五、 多元分析方法多元分析方法多元分析方法多元分析方法多元分析方法多元分析方法polybasispolybasispolybasis analysis methods analysis methods analy

21、sis methods 如何在大批實驗數(shù)據(jù)中總結出有用的規(guī)律或者挖掘出有如何在大批實驗數(shù)據(jù)中總結出有用的規(guī)律或者挖掘出有用的信息;用的信息; 多元分析是一類計算機信息處理、信息挖掘技術,特別多元分析是一類計算機信息處理、信息挖掘技術,特別適合用于從多種因素影響的大量實驗數(shù)據(jù)中總結規(guī)律;適合用于從多種因素影響的大量實驗數(shù)據(jù)中總結規(guī)律; 多元分析應用領域:處理衛(wèi)星照片;指紋鑒別;文字和多元分析應用領域:處理衛(wèi)星照片;指紋鑒別;文字和語音識別;多參數(shù)、多變量問題的處理;語音識別;多參數(shù)、多變量問題的處理; 分析化學中的應用:分析化學中的應用:(1 1) 多種微量元素的分布與健康(或疾?。┑年P系多種微

22、量元素的分布與健康(或疾?。┑年P系(2 2) 物質中復雜成分的含量分析物質中復雜成分的含量分析(3 3) 各種譜的特征與性質關系各種譜的特征與性質關系(4 4) 分子結構與譜特征的關系分子結構與譜特征的關系2:40:191 1 1 1 1 1. . . . . . 多元分析方法的特點多元分析方法的特點多元分析方法的特點多元分析方法的特點多元分析方法的特點多元分析方法的特點 在多元分析中,對每個研究對象(每個觀察樣本都有在多元分析中,對每個研究對象(每個觀察樣本都有M M個變量或參數(shù))取值,考察個變量或參數(shù))取值,考察N N個觀察對象的集合就作成一張個觀察對象的集合就作成一張N N* *M M的

23、數(shù)據(jù)表。的數(shù)據(jù)表。 觀察對象的集合可以是全部樣本,也可是較大集合中的觀察對象的集合可以是全部樣本,也可是較大集合中的一個子集;一個子集; 變量可以是連續(xù)的也可以是離散的;變量可以是連續(xù)的也可以是離散的;在多元分析中,通常采用以下技術:在多元分析中,通常采用以下技術:(1 1) 簡化結構簡化結構 用簡單方法來表示所研究的復雜問題;用簡單方法來表示所研究的復雜問題;(2 2) 分類分類 將觀察對象分成若干個不同的組或類;將觀察對象分成若干個不同的組或類;(3 3) 變量分組變量分組 將變量按其性質分組;將變量按其性質分組;(4 4) 相關分析相關分析 研究變量之間的相互關系、觀察對象之研究變量之間

24、的相互關系、觀察對象之間的相互關系。間的相互關系。2:40:192 2 2 2 2 2. . . . . . 多元分析中的主要方法簡介多元分析中的主要方法簡介多元分析中的主要方法簡介多元分析中的主要方法簡介多元分析中的主要方法簡介多元分析中的主要方法簡介 多元分析中所采用的方法:多元分析中所采用的方法:(1 1)回歸分析:)回歸分析: 多元線形回歸分析;偏最小二乘回歸分析;逐步回歸分多元線形回歸分析;偏最小二乘回歸分析;逐步回歸分析析。(2 2)相關分析)相關分析(3 3)因子分析)因子分析(4 4)降維與映射)降維與映射(5 5)聚類分析)聚類分析(6 6)分類與判別)分類與判別(7 7)人

25、工神經(jīng)網(wǎng)絡)人工神經(jīng)網(wǎng)絡(8 8)優(yōu)化技術)優(yōu)化技術2:40:203. 3. 3. 3. 3. 3. 化學因子分析法簡介化學因子分析法簡介化學因子分析法簡介化學因子分析法簡介化學因子分析法簡介化學因子分析法簡介 因子分析因子分析:通過對一數(shù)據(jù)矩陣進行特征分析、旋轉變換通過對一數(shù)據(jù)矩陣進行特征分析、旋轉變換等操作以獲取有關信息的數(shù)學方法。等操作以獲取有關信息的數(shù)學方法。 化學因子分析化學因子分析:將因子分析技術用于解決化學中的問題將因子分析技術用于解決化學中的問題,形成了帶有濃厚化學特色的因子分析方法。,形成了帶有濃厚化學特色的因子分析方法。 化學因子分析特點:化學因子分析特點:(1 1)解決復雜問題)解決復雜問題 同時處理多因素相互影響的復雜體系同時處理多因素相互影響的復雜體系(2 2)快速處理大量數(shù)據(jù))快速處理大量數(shù)據(jù) 采用標準因子分析程序采用標準因子分析程序(3 3)數(shù)據(jù)的有序解釋與預測)數(shù)據(jù)的有序解釋與預測 在獲得規(guī)律指導下進

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論