




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 SHANGHAISHANGHAI UNIVERSITYUNIVERSITY 畢業(yè)設計(論文) UNDERGRADUATEUNDERGRADUATE PROJECTPROJECT (THESIS)(THESIS) 題題 目目: :近紅外數據不同預處理方法定量建模比較近紅外數據不同預處理方法定量建模比較 學學 院院 理理 學學 院院 專專 業(yè)業(yè) 應用化學應用化學 學學 號號 0812246008122460 學生姓名學生姓名 朱朱 翔翔 指導教師指導教師 陸文聰陸文聰 起訖日期起訖日期 2012.03-2012.062012.03-2012.06 2 目錄目錄 摘要摘要.4 ABSTRACT.5
2、 第一章:前言第一章:前言.6 1.1、計算機化學、計算機化學 .6 1.2、近紅外光譜、近紅外光譜 .6 1.3、卷煙品質的分析方法、卷煙品質的分析方法 .8 1.4、煙草的產地識別、煙草的產地識別.8 1.5、近紅外光譜技術在煙草行業(yè)中的進展、近紅外光譜技術在煙草行業(yè)中的進展.9 1.6、本文的目的、本文的目的 .9 第二章:三種降維方法第二章:三種降維方法.10 2.1、概論、概論.10 2.2、算法、算法.10 第三章:數據處理與分析第三章:數據處理與分析.14 3.1、原始數據、原始數據.14 3.2、煙堿數據建模與預報、煙堿數據建模與預報 .15 3.3、結論與小結、結論與小結 .
3、20 第四章:煙草產地的模式識別研究第四章:煙草產地的模式識別研究.22 4.1、概論、概論.22 4.2、材料準備與實驗方法、材料準備與實驗方法 .22 3 4.3、預報結果、預報結果.24 4.4、結論與小結、結論與小結 .25 第五章:全文總結第五章:全文總結.26 參考文獻參考文獻 .27 致謝致謝.29 4 近紅外數據不同預處理方法定量建模比較近紅外數據不同預處理方法定量建模比較 摘要摘要 近紅外光譜法(NIRS)是一種常用的實驗方法,它具有前處理過程簡便、樣 品分析過程較快、分析結果精度高等優(yōu)點,而且適用范圍廣,已廣泛應用于農 業(yè)、食品以及醫(yī)藥等眾多領域。 在本工作中,對煙草中煙堿
4、的 NIRS 數據進行主成份分析法(PCA)、偏最小 二乘法(PLS)以及球型映照法(MAP)三種不同的降維方法進行降維,然后利用支 持向量機(SVM)方法對降維后的數據進行定量建模,并比較三種降維方法的優(yōu) 越性。 最后又對不同產地的煙草通過 NIRS 進行了模式識別研究,嘗試通過 NIRS 結合模式識別方法來對煙草的產地進行鑒別。 關鍵詞:關鍵詞:NIRS;煙草;PCA;PLS;MAP; 5 ABSTRACT The near-infrared spectroscopy (NIRS) is a commonly used experimental method with advantages
5、 of high precision, simple pre-treatment process, rapid sample analysis. Therefore, NIRS is a very common laboratory instruments used in many fields including agriculture, food and medicine et al. In this work, principal component analysis (PCA), Partial Least Squares (PLS) method and the spherical
6、mapping (MAP) were used to reduce the dimensionality for the data set of tobacco NIRS data. The support Vector machine (SVM) method was adopted to evaluate the results of dimensionality reduction for the data set. The different origin of tobacco can be distinguished by using pattern recognition mode
7、l based on the NIRS data of tobacco. Keywords: NIRS; Tobacco; PCA; PLS; MAP; 6 第一章:前言第一章:前言 1.1、計算機化學 計算機化學1是通過計算機對化學反應和物質變化進行研究的一門科學。 它以計算機為技術手段,建立化學化工信息資源化和智能化處理的理論和方法。 計算機化學由于它的誕生迎合了時代發(fā)展的需要,在七十年代和八十年代 得到了較大發(fā)展,至九十年代它已完全成為一門獨立的學科,受到了國際化學 界的廣泛重視。它是與數學、計算機科學、物理學、藥物學、材料科學等學科 高度交叉、相互滲透的新的生長點,是許多實用技術的基礎
8、,并深受當今計算 機與網絡通訊技術飛速發(fā)展的影響,而處在迅速發(fā)展和不斷演變之中。計算機 化學的這個特點決定了它在化學中的地位,是要幫助化學家,促進化學界的研 究方法和工業(yè)界的生產方式不斷革新。同時它與迅速崛起的高科技關系密切, 是綠色化學和綠色化工的基礎,是聯(lián)系化學化工為國民經濟可持續(xù)性發(fā)展服務 的橋梁。因此,計算機化學對化學學科發(fā)展的促進作用不可低估,沒有它的發(fā) 展就沒有現(xiàn)代化學。 1.2、近紅外光譜 1.2.1、近紅外光譜簡介 近紅外光譜25是介于可見光和中紅外之間的電磁輻射波,近紅外光譜的區(qū) 域在 780nm 到 2526nm 之間,這是吸收光譜中的一個非可見光區(qū)。近紅外光譜 區(qū)較于有機
9、物分子中的羥基等含氫的官能團來說,震動的合頻、以及各級倍頻 的吸收區(qū)是基本一致的。于是,通過掃描一些樣品的近紅外光譜,就可以知道 該樣品的含氫官能團的一些特征信息。更重要的是,近紅外光譜分析法具有前 處理過程簡便、樣品分析過程較快、分析結果精度高等事半功倍的優(yōu)點,而且 具有不破壞檢測樣品且不消耗化學試劑,對環(huán)境也不會造成污染的眾多優(yōu)點, 因此近紅外光譜技術將會越來越在研究中普及、越來越受到研究者的青睞,廣 7 泛應用于農業(yè)、食品以及醫(yī)藥等眾多領域,煙草領域也不例外。 1.2.2、近紅外光譜優(yōu)點 近紅外光譜分析方法的優(yōu)點67為: A、分析速度快。近紅外光譜分析儀一旦經過定標后在不到一分鐘的時間
10、內即可完成待測樣品多個組分的同步測量,如果采用二極管列陣型或聲光調制 型分析儀則在幾秒鐘的時間內給出測量結果,完全可以實現(xiàn)過程在線定量分析。 B、對樣品無化學污染。待測樣品視顆粒度的不同可能需要簡單的物理制 備過程(如磨碎、混合、干燥等) ,無需任何化學干預即可完成測量過程,被稱 為是一種綠色的分析技術。 近紅外光譜分析模型 C、儀器操作和維護簡單,對操作員的素質水平要求較低。通過軟件設計 可以實現(xiàn)極為簡單的操作要求,在整個測量過程中引入的人為誤差較小。 D、測量精度高。盡管該技術與傳統(tǒng)理化分析方法相比精度略遜一籌,但 是給出的測量精度足夠滿足生產過程中質量監(jiān)控的實際要求,故而非常實用。 E、
11、分析成本極低。由于在整個測量過程中無需任何化學試劑,儀器定標 完成后測量是一項非常簡單工作,所以幾乎沒有任何損耗。 1.2.3、近紅外光譜分析儀器 近紅外光譜儀器從分光系統(tǒng)可分為固定波長濾光片、光柵色散、快速傅立 葉變換、聲光可調濾光器和陣列檢測五種類型。 A、濾光片型主要作專用分析儀器,如糧食水分測定儀。由于濾光片數量 有限,很難分析復雜體系的樣品。 B、光柵掃描式具有較高的信噪比和分辨率。由于儀器中的可動部件(如 光柵軸)在連續(xù)高強度的運行中可能存在磨損問題,從而影響光譜采集的可靠 性,不太適合于在線分析。 C、傅立葉變換近紅外光譜儀是具有較高的分辨率和掃描速度,這類儀器 的弱點同樣是干涉
12、儀中存在移動性部件,且需要較嚴格的工作環(huán)境。 D、聲光可調濾光器是采用雙折射晶體,通過改變射頻頻率來調節(jié)掃描的 8 波長,整個儀器系統(tǒng)無移動部件,掃描速度快。但目前這類儀器的分辨率相對 較低,價格也較高。 E、隨著陣列檢測器件生產技術的日趨成熟,采用固定光路、光柵分光、 陣列檢測器構成的 NIR 儀器,以其性能穩(wěn)定、掃描速度快、分辨率高、信噪比 高以及性能價格比好等特點正越來越引起人們的重視。在與固定光路相匹配的 陣列檢測器中,常用的有電荷耦合器件(CCD)和二極管陣列(PDA)兩種類 型,其中 CCD 多用于近紅外短波區(qū)域的光譜儀,PDA 檢測器則用于長波近紅 外區(qū)域。 1.3、卷煙品質的分
13、析方法 在傳統(tǒng)的卷煙品質分析816過程中,目前評定者大多數都是通過感官檢測 和理化分析進行評定的。雖然感官評定方法較為簡便且直接,但是此方法顯而 易見有明顯的不足之處。例如評定者之間的感官靈敏度的差異,以及評定者的 感官靈敏度會受到自身或者外界條件等眾多因素的影響,造成評定結果的不準 確。其次,理化分析的結果雖比感官檢測要精確的多,但是過程的繁瑣、費用 的昂貴、時間的消耗等各種因素使得理化分析方法受到一定的限制,這些限制 就造成了不同卷煙在制造和加工過程中的技術成本和卷煙質量大為不同。因此, 鑒于現(xiàn)狀,有必要研究出一種新型的鑒別卷煙的檢測方法,達到快速、準確的 目的。 1.4、煙草的產地識別
14、產地、部位與等級的劃分17在煙葉采購與質量管理中起著很重要的作用。 目前這類工作主要靠人工分揀,存在主觀性強、工作量大和不夠準確、科學等 缺點。 Hana M 等對產自 16 個國家的 1600 多個樣品進行了基于 NIR 光譜的分類 研究,采用適當的數學方法建模后對煙葉所屬的品種(白肋煙、烤煙)或不同產 地(美國本地、非美國產)均得到了 100%的正確判別結果。 王國東等糾對 2003 年 125 個不同產地的國產烤煙煙葉的原始近紅外光譜、 SNV 光譜與一階導數光譜進行了主成分分析,采用主成分空間下的馬氏距離判 9 別樣本的產地歸屬,研究了主成分個數、樣本空間、光譜區(qū)間對煙葉產地識別 準確
15、率的影響,分析了煙葉產地的近紅外特征區(qū)和產地特征信息在不同主成分 上的體現(xiàn)。結果表明,采用光滑處理的全光譜區(qū)間的一階導數光譜,在建模樣 本空間進行主成分分析時所建模型對煙葉樣品的識別準確率最高。 束茹欣等用 3 批不同年份、產地、部位和等級的 831 份國產初烤煙葉樣品, 以近紅外光譜的主成分描述煙葉特征,采用馬氏距離判別準則對不同產地的烤 煙煙葉進行了產地、部位、等級的模式識別。結果表明:預測準確率隨樣本 的復雜程度和數量而變,波動范圍為 7497;部位、等級識別的準確率 低于產地的識別,這與樣本數不夠大、煙葉分級受人為因素影響較大有關。 1.5、近紅外光譜技術在煙草行業(yè)中的進展 總體看來,
16、NIR 光譜分析技術在煙草行業(yè)實際生產中已經發(fā)揮了較大的作 用18。利用 NIR 進行在線煙葉水分及主要化學成分測定快速、簡單,是發(fā)展趨 勢。應用 NIR 進行煙葉分類、分級及真?zhèn)舞b別也很有意義。今后近紅外在煙草 行業(yè)中的應用研究將主要集中于以下幾個方面:(1)便攜式 NIR 儀器的開發(fā),在 煙草早期采購過程中,對煙葉的主要成分進行現(xiàn)場測試,為煙葉的采購提供可 靠的依據。還可以應用到煙草生物、生化、栽培及施肥等方面,指導煙草農業(yè) 的健康發(fā)展,更好地為煙草工業(yè)生產提供優(yōu)質的原料;(2)大力發(fā)展在線檢測及 網絡技術,開發(fā)出在線檢測卷煙煙盒外包裝薄膜厚度、在線檢測絲束和三醋酸 甘油酯一致性、在線檢測
17、香精香料濃度等方面的專用近紅外儀。同時加強在輔 助卷煙配方設計、卷煙結構分析、卷煙感觀質量評價以及生產的過程質量控制 等方面的研究;(3)不同儀器之間,同一儀器不同條件下的定標模型的移植。 1.6、本文的目的 NIRS 分析技術的快速、無損有點是其他技術無法比擬的,在卷煙領域研究 方面也有很大的研究價值,本文將通過 NIRS 技術對卷煙的數據進行用不同的 比較方法進行降維、建模、分析比較,得出最優(yōu)的降維方法。以及對煙草的產 地進行模式識別。 本課題對不同的降維方法對近紅外數據進行預處理,有以下幾點意義: 10 1、探索解決近紅外數據挖掘中維數災難的方法 2、比較不同降維方法對近紅外數據定量建模
18、的影響 3、用近紅外方法對不同產地的煙草進行產地鑒別 第二章:三種降維方法第二章:三種降維方法 2.1、概論 在煙草樣本進行粉碎后,對這些樣品進行近紅外光譜采集。光譜的掃描范 圍約為 3800cm-1至 10000cm-1之間,分辨率大約為 3cm-1。因此,采集之后每個 樣本都會出現(xiàn)大量的數據,這些大量的數據不易進行分析和比較。因此,將這 些數據進行降維是必然的,只有將原本成百上千的數據通過某一種方法進行降 維,濃縮成 1020 個數據點,這些數據點既包括了原本上千個數據點的信息, 同時,也易于對數據進行分析與比較。 2.2、算法 1974 年,由美國的 Kowalski 和瑞典的 Wold
19、 等發(fā)起成立了國際化學計量學 學會,此后開展了一系列的學術交流活動,促進了數學、人工智能、機器學習 和計算機科學在化學、化工領域的廣泛使用。至二十世紀 90 年代中后期,由于 數據挖掘概念的形成和數據挖掘技術的發(fā)展,相繼出現(xiàn)了許多新的數據挖掘方 法,如支持向量機方法和集成學習算法等等,這些方法在化學、化工領域得到 了廣泛的應用,并取得了良好的結果。目前,化學化工數據挖掘已步入穩(wěn)步發(fā) 展的階段,不同數據挖掘方法在各自擅長的專題中得到應用和發(fā)展。本章簡要 介紹了論文工作中所用的主要數據挖掘算法,包括支持向量回歸(Support Vector Regression, SVR)算法、支持向量分類(Su
20、pport Vector Classification, SVC)算法、多元線性回歸(Multiple Linear Regression, MLR) 、主成分分析 (Principal Component Analysis, PCA) 、偏最小二乘法(Partial Least Squares, PLS) 、反向傳播人工神經網絡(Back-Propagation Artificial Neural Network, BP ANN) 、多重判別矢量法和 Fisher 判別分析法(Fisher Discriminant Analysis, 11 FDA)等。 通過近紅外光譜對樣品進行數據采集之后
21、,往往需要用統(tǒng)計的方法進行分 析。此時如果數據變量太多,就會使得分析過程變得更為復雜。因此,在這種 情況下,需要對數據進行壓縮,目的在于盡可能用較少的數據,而反映出更多 的信息。我們可以發(fā)現(xiàn),在很多情況下,這些成百上千的數據中并不是雜亂無 章、無規(guī)律可循的,這些數據中一定存在著某種聯(lián)系。因此,我們要做的,就 是通過多種不同的數學降維方法,將大量的數據進行壓縮,設法將成百上千的 數據組合成一組新的相互無關的數據,然后通過留一法等各種方法對數據進行 分析,再對不同的降維方法進行橫向對比、分析,最終得出最理想最合適的降 維方法。 2.2.1、主成分分析法PCA 降維(Principal Compon
22、ent Analysis, PCA) PCA 降維法1920,又稱主成分分析法。PCA 降維法是設法將原來具有一定 相關性的大量數據,重新轉化成互相無關的一組少量數據來代替原來大量的數 據。在數學上來說,就是將原來若干個指標作線性組合,得出新的綜合指標。 在一般情況下,選取第一個綜合指標的方差來表達,也就是說,方差的值越大, 則表示第一個綜合指標包含的信息也就越多。因此在所有的線性組合中選取的 第一個綜合指標應該是方差最大的,因此,第一個綜合指標就是第一主成分。 但是,如果第一主成分不足以代表原來若干數量指標的信息,再考慮選取一個 線性組合,為了有效地反映原來信息,第一個線性組合已有的信息就沒
23、有必要 在第二個線性組合中再次體現(xiàn),這時,稱第二個線性組合的綜合指標為第二主 成分。依此類推,用類似的方法就可以得出更多數量的主成分。 在實際應用中可取前幾個對信息量貢獻較大的主成分便可達到空間維數下 降而使信息量丟失盡可能少的目的。若取兩個主成分構成投影平面即可在平面 上剖析數據結構。 主成分分析的幾何意義是一個線性的旋軸變換,使第一主成分指向樣本散 布最大的方向,第二主成分指向樣本散布次大的方向,余此類推(見圖) 。 12 圖 2-1:主成分分析的幾何意義示意圖 2.2.2、偏最小二乘法PLS 降維(Partial Least Squares, PLS) PLS 降維法2122,又稱偏最小
24、二乘法。PLS 降維法是多因變量對多自變量 的一種回歸降維方法,該方法可以解決許多用其他方法無法解決的問題。相對 于 PCA 降維法而言,PCA 降維法的主要目的在于提取隱藏在矩陣 X 中的相關 信息,通過這些信息來預測變量 Y 的值。這樣,可以保證在用 PCA 降維法時 只使用那些獨立變量,從而達到改善預測模型的目的。但是,PCA 降維法有一 些不足之處,當一些有用變量的相關性不大時,這種情況下,在選取主成分時 就很容易把它們漏掉,使得最終的預測模型可靠性下降,如果我們對每一個成 分進行挑選,那樣又太困難了。PLS 降維法就可以迎刃而解。該方法對變量 X 和 Y 都進行分解并同時提取因子,之
25、后將提取出的因子,根據因子之間的相關 性進行排列。當建立一個 PLS 模型時,只要選擇幾個因子參與建模即可。 2.2.3、球型映照MAP 降維(MAP) 球型映照法2324又稱非線性映照法(MAP)。 非線性映照法可使多維圖象映照到二維,映照中盡可能保留其固有的數據 結構。若樣本集標準化因素矩陣 X 表示為 =(2-1) MNij xX )( NMNN M M xxx xxx xxx 21 22221 11211 其中 N 為樣本數,M 為特征數。則 X 映照至二維空間的結果 Y 可表示為 13 (2-2) 21 2221 1211 . NN yy yy yy Y 設和分別為多維空間(映照前)
26、和二維(映照后)空間中 i、j 點間 * ij d ij d 距離 (2-3) M k jkikij xxd 1 2* )( (2-4) 2 1 2 )( k jkikij yyd 映照中的誤差函數定義為 (2-5) N ji ij ijij N ji ij d dd d E * 2* * 1 E 值愈小,數據結構保留程度愈大。各種非線性映照算法都使用迭代技術, 其迭代算法主要分三步: 第一步:初選一組 Y 矢量。 第二步:從初始結構開始調整其當前結構的 Y 矢量。 第三步:重復第二步,直至具備下列三個終止條件之一: (1)誤差函數 E 已達到預先設定的允許值; (2)迭代已達到預先指定的次數
27、; (3)當前的結構已使觀察者滿意。 非線性映照法對樣本分類能力較線性映照法強,但其計算量亦較大, 且其二維映照圖縱橫坐標沒有明確的意義。通常在線性模式識別投影結果不理 想的情況下再嘗試 NLM 方法。 2.2.4、支持向量機算法(SVM) 統(tǒng)計學習理論是建立在一套較堅實的理論基礎之上的,為解決有限樣本學 習問題提供了一個統(tǒng)一的框架。它能將很多現(xiàn)有方法納入其中,有望幫助解決 許多原來難以解決的問題(如神經網絡結構選擇問題、局部極小點問題等) ;同 14 時,在這一理論基礎上發(fā)展了一種新的通用學習方法支持向量機(SVM) 2526,包括支持向量分類算法(Support Vector Classi
28、fication, SVC)和支持向量 回歸算法(Support Vector Regression, SVR) ,它已初步表現(xiàn)出很多優(yōu)于已有方 法的性能,能較好地解決小樣本、非線性、高維數和局部極小點等實際問題, 因此成為 20 世紀 90 年代末發(fā)展最快的研究方向之一。一些學者認為,SLT 和 SVM 正成為繼神經網絡之后新的研究熱點,并將有力地推動機器學習理論和技 術的發(fā)展。 第三章:數據處理與分析第三章:數據處理與分析 3.1、原始數據 在得出結論之前,就必須通過實驗來得出實驗數據。下面的數據是通過一 些樣本經過近紅外儀器掃描光譜得出的數據。 表 3-1 NIRS 掃描原始數據 文文件
29、件名名類類別別煙煙堿堿X X1 1X X2 2X X3 3X X4 4X X5 5 1 12 21 1. .7 78 80 0. .4 41 17 72 24 4 0 0. .4 41 17 76 63 3 0 0. .4 41 16 69 95 5 0 0. .4 41 16 60 08 8 0 0. .4 41 15 55 52 2 2 22 22 2. .5 51 10 0. .4 41 10 08 86 6 0 0. .4 41 11 14 48 8 0 0. .4 41 11 12 28 8 0 0. .4 41 10 04 41 1 0 0. .4 41 10 00 01 1 3
30、32 22 2. .3 30 0. .4 42 24 49 92 2 0 0. .4 42 24 47 74 4 0 0. .4 42 24 42 26 6 0 0. .4 42 22 29 99 9 0 0. .4 42 22 20 09 9 4 41 11 1. .4 45 50 0. .4 43 33 39 93 3 0 0. .4 43 33 35 57 70 0. .4 43 33 33 30 0. .4 43 32 29 99 90 0. .4 43 32 27 7 5 51 11 1. .2 29 90 0. .3 38 85 57 75 5 0 0. .3 38 85 57 7
31、4 4 0 0. .3 38 86 62 26 6 0 0. .3 38 86 63 35 5 0 0. .3 38 85 59 94 4 6 61 11 1. .4 43 30 0. .4 44 40 04 48 8 0 0. .4 44 40 02 27 7 0 0. .4 44 40 09 97 7 0 0. .4 44 41 13 39 9 0 0. .4 44 40 08 88 8 7 72 21 1. .9 95 50 0. .4 48 83 36 65 5 0 0. .4 48 83 33 35 5 0 0. .4 48 83 36 64 4 0 0. .4 48 83 35 5
32、1 1 0 0. .4 48 82 28 82 2 8 81 11 1. .2 21 10 0. .4 41 18 80 04 4 0 0. .4 41 17 77 71 1 0 0. .4 41 17 74 47 7 0 0. .4 41 17 72 27 7 0 0. .4 41 17 74 44 4 1 10 01 11 1. .3 33 30 0. .4 42 23 34 44 4 0 0. .4 42 23 39 97 70 0. .4 42 23 37 70 0. .4 42 23 31 15 5 0 0. .4 42 22 29 94 4 1 11 11 11 1. .1 18
33、80 0. .4 43 30 07 76 6 0 0. .4 43 30 02 23 3 0 0. .4 42 29 92 25 5 0 0. .4 42 28 82 26 6 0 0. .4 42 27 79 98 8 1 12 21 10 0. .9 96 60 0. .4 41 19 92 24 40 0. .4 41 18 87 70 0. .4 41 18 80 03 30 0. .4 41 17 77 70 0. .4 41 17 77 79 9 1 13 31 11 1. .1 17 70 0. .3 39 95 55 52 2 0 0. .3 39 95 57 77 7 0 0
34、. .3 39 96 60 02 2 0 0. .3 39 95 55 57 70 0. .3 39 94 48 8 1 14 41 11 1. .0 08 80 0. .4 40 01 13 31 1 0 0. .4 40 01 16 67 7 0 0. .4 40 01 18 87 7 0 0. .4 40 01 11 17 7 0 0. .4 40 00 01 14 4 1 15 51 11 1. .2 28 80 0. .4 43 36 62 21 1 0 0. .4 43 36 60 06 6 0 0. .4 43 36 63 39 9 0 0. .4 43 36 63 38 80
35、0. .4 43 36 6 1 16 62 21 1. .8 87 70 0. .4 41 16 62 22 2 0 0. .4 41 17 73 36 6 0 0. .4 41 18 80 09 9 0 0. .4 41 17 75 56 6 0 0. .4 41 16 64 42 2 從表中可以發(fā)現(xiàn),每個樣本的圖像都可以看作有很多個數據點構成,約為 1500 至 2000 個數據點。數量如此龐大的數據點在數據分析和比較都比較困難, 因此必須通過一些降維方法,將上千個數據點通過降維,減少到 1520 個數據 15 點,這樣,這些數據點既囊括了所有上千個數據點的信息,同時也易于對數據 進行分析
36、。 首先我們對這組原始數據采取三種不同的降維方法進行建模,主成分分析 法降維,偏最小二乘法降維,以及球型映照法進行降維。進行建模后的數據計 算出每個樣品的計算值與實驗值的絕對誤差和相對誤差,然后對此進行分析與 比較。然后我們采取的是“留一法(Leave One Out, LOO)27”方法進行數據分析。 留一法,簡單地說,就是在一組樣品中取出一件,然后將剩余的樣品進行建模, 分析,然后得出一個預報結果。將這個預報結果與先前取出的樣品進行比較, 計算出絕對誤差和相對誤差的方法進行分析。這樣,對樣品中的每件樣本進行 留一法計算,得出一個平均的相對誤差。往往留一法得出的結果比建模得出的 結果更具有代
37、表性。接下來,我們在對建模結果進行預報,即取出 5 個其他未 知樣品,對其煙堿量進行預報,將未知樣品的預報值和計算值進行比較,得出 誤差結果。通過這個誤差結果,對數據進行分析。最后,將 PCA、PLS、MAP 三種降維方法的數據通過 SVM 算法進行定量建模得出一個相對誤差,通過這 個相對誤差,最后分析得出三種降維方法的優(yōu)缺點。 3.2、煙堿數據建模與預報 煙堿(Nicotine)28,俗名尼古丁,是一種存在于茄科植物(茄屬)中的生 物堿,也是煙草的重要成分。尼古丁會使人上癮或產生依賴性(最難戒除的毒 癮之一),人們通常難以克制自己,重復使用尼古丁也增加心臟速度和升高血 壓并降低食欲。 16
38、3.2.1、煙堿 PCA 降維 3.2.1.1、煙堿 PCA 降維法建模 圖 3-1:煙堿 PCA 降維法建模結果 從圖中可以發(fā)現(xiàn),大多數樣本的建模數據的誤差都是比較小的,基本都控 制在 3%以內。而且誤差的波動也比較小,因此初步得出用 PLS 建模法適合對 煙草煙堿的測定與預報。 通過建模結果的圖像可以基本得出,所有的數據點都幾乎在這條直線上, 也就是說,回歸結果較好,比較適宜用 PCA 降維法進行建模。 17 3.2.1.2、煙堿 PCA 降維法留一法結果 圖 3-2:煙堿 PCA 降維法留一法結果 PCA 留一法得出的誤差打大多都在 10%左右,與之前的建模結果相比,已 經偏離了很多。而
39、且有些數據的誤差居然能相差到 60%以上,說明誤差的波動 也很大。 同樣,可以從途中發(fā)現(xiàn),與之前的建模結果相比,PCA 降維法的留一法得 出的數據點就偏離了直線,而且很明顯,也很分散。因此,在煙草煙堿量的測 定中,PCA 降維法可能并不是一種很理想的降維方法。 3.2.1.3、煙堿 PCA 降維法預報結果 表 3-2:煙堿 PCA 降維法預報結果 文文件件名名類類別別實實驗驗值值預預報報值值絕絕對對誤誤差差相相對對誤誤差差 9 91 11 1. .3 39 91 1. .0 06 66 60 0- -0 0. .3 32 24 40 00 0. .2 23 33 31 1 1 18 81 11
40、 1. .4 41 1. .7 70 03 39 90 0. .3 30 03 39 90 0. .2 21 17 71 1 2 21 12 22 2. .2 27 72 2. .2 27 75 57 70 0. .0 00 05 57 70 0. .0 00 02 25 5 4 44 41 11 1. .3 33 31 1. .1 19 93 30 0- -0 0. .1 13 37 70 00 0. .1 10 03 30 0 4 45 51 11 1. .3 33 31 1. .3 37 76 67 70 0. .0 04 46 67 70 0. .0 03 35 51 1 18 由圖可
41、見,PCA 降維法的預報結果的相對誤差波動范圍比較大,從 1%以 下到 20%以上都有,也就是說,煙堿 PCA 降維的預報結果比較不穩(wěn)定,可能有 好的預報結果,也會有較大誤差的預報結果,總的來說預報結果不是很理想。 3.2.1.4、煙堿 PCA 降維法小結 從煙堿 PCA 降維法的建模、留一法、預報三個方面綜合考慮,雖然在 PCA 降維法在建模方面有著不錯的結果,但是在更為重要的留一法以及預報這 兩個關鍵的方面,無論從誤差的大小以及誤差的波動性來看,都表現(xiàn)地并不怎 么理想。因此綜上所述,PCA 降維法并不太適用于煙草煙堿的測定。 3.2.2、煙堿 PLS 降維 3.2.2.1、煙堿 PLS 降
42、維法建模 圖 3-3:煙堿 PLS 降維法建模結果 根據上圖的數據,發(fā)現(xiàn) PCA 降維法的誤差一般較大,都是百分之幾十的誤 差。因此可以從下圖中看到大多數數據點偏離直線較遠。 從煙堿 PLS 建模結果的圖像可以直觀得看出,PLS 建模的數據離直線 y=x 有一定的偏離,當值比較小的時候,往往實驗值要小于預報值,當值比較大的 時候,基本上實驗值和預報值之間的差距會越來越小,甚至實驗值會大于預報 值。因此,PLS 的降維方法看上去沒有 PCA 建模法的結果那么出色。但是只要 隨著實驗次數的增多,發(fā)現(xiàn)還是有規(guī)律可循。 19 3.2.2.2、煙堿 PLS 降維法留一法結果 圖 3-4:煙堿 PLS 降
43、維法留一法結果 從煙堿 PLS 降維法的留一法結果可以看出,誤差一般控制在 10%以下,只 有極個別的誤差打到 20%。也就是說,煙堿 PLS 降維法在留一法方面的表現(xiàn)比 較不錯。相對于之前的 PCA 降維的留一法結果,可以明顯地表現(xiàn)出 PLS 降維 法優(yōu)點,雖然 PLS 在建模上的結果沒有 PCA 理想,但是在留一法的結果卻明 顯優(yōu)于 PCA 降維方法。 從圖中可以看出,PLS 留一法的數據點與之前的 PCA 進行比較,顯然 PLS 降維法的數據點比較密集與集中,誤差也相對較小。 3.2.2.3、煙堿 PLS 降維法預報結果 表 3-3:煙堿 PLS 降維法預報結果 文文件件名名類類別別實實
44、驗驗值值預預報報值值絕絕對對誤誤差差相相對對誤誤差差 9 91 11 1. .3 39 91 1. .3 31 11 11 1- -0 0. .0 07 78 89 90 0. .0 05 56 68 8 1 18 81 11 1. .4 41 1. .5 50 04 41 10 0. .1 10 04 41 10 0. .0 07 74 44 4 2 21 12 22 2. .2 27 72 2. .2 23 34 48 8- -0 0. .0 03 35 52 20 0. .0 01 15 55 5 4 44 41 11 1. .3 33 31 1. .4 41 11 12 20 0. .
45、0 08 81 12 20 0. .0 06 61 10 0 4 45 51 11 1. .3 33 31 1. .5 52 20 02 20 0. .1 19 90 02 20 0. .1 14 43 30 0 煙堿 PLS 的預報結果一般都小于 10%,波動范圍比較小,因此,PLS 方法 的預報結果是比較準確的,如果有更加理想化的建模結果的話,或許 PLS 降維 法的預報結果更為準確。 20 3.2.2.4、煙堿 PLS 降維法小結 綜合地說,對煙堿進行 PLS 降維法,其建模結果的數據圖像的數據點,與 之前的 PCA 方法相比,顯然誤差增加了好多,因此從建模圖像和留一法圖像與 PCA 方
46、法進行比較的話,或許 PLS 降維法略顯欠佳。但是 PLS 的留一法結果 以及預報結果卻比 PCA 方法精確,波動也比較小。也就是說,如果 PLS 的建 模結果如果能夠再精確些的話,PLS 方法就能顯得更好。 3.2.3、煙堿球型映照降維 3.2.3.1、煙堿球型映照降維法建模 圖 3-5:煙堿球型映照降維法建模結果 看煙堿 MAP 降維法建模圖,感覺就是比較松散,其中有不少的數據還是 離直線 y=x 非常接近的,當然,也有少數數據偏離度還是比較大的。因此 MAP 降維方法適合大批量的數據進行建模,對于數量不多的數據進行建模分析,由 于 MAP 建模得出的數據比較松散,則會出現(xiàn)數據越少,誤差越
47、大。 3.2.3.2、煙堿球型映照降維法留一法結果 21 圖 3-6:煙堿球型映照降維法留一法結果 煙堿 MAP 降維法得出的結果和建模結果類似,圖像上的點略顯松散。 3.2.3.3、煙堿球型映照降維法預報結果 表 3-4:煙堿球型映照降維法預報結果 MAP 降維法得出的預報結果也是屬于波動比較大的,最大的高達 25%的誤 差,因此用 MAP 降維法進行預報得出的結果的真實度也遠遠小于之前的 PLS 的建模法。 3.2.3.4、煙堿球型映照降維法小結 MAP 在建模和留一法上得出的結果遠遠不如 PCA 降維方法,因此用 MAP 方法建模并不理想。MAP 的預報結果頁不如 PLS 的降維方法,因
48、此應 MAP 方 法也不適合預報,因此,MAP 降維方法在本次實驗中并不適用。 3.3、結論與小結 通過 PCA、PLS、MAP 三種不同的降維法進行建模,都從中得出了不同的優(yōu) 缺點。接下來再將三種不同的降維方法的建模、留一法和預報結構進行 SVM 徑 22 向法得出一個相對誤差,通過這個相對誤差再結合前面的分析來得出最佳降維 方法。 表 3-5:三種降維方法的建模、留一法、預報誤差的 svm 徑向誤差 建建模模誤誤差差 留留一一法法誤誤差差 預預報報誤誤差差 P PC CA As sv vm m徑徑向向0 0. .0 02 25 54 42 27 7 0 0. .2 21 14 43 32
49、26 6 0 0. .1 11 18 81 15 59 9 P PL LS Ss sv vm m徑徑向向0 0. .0 02 23 37 75 52 2 0 0. .0 05 52 27 70 04 40 0. .0 07 70 01 13 3 M MA AP Ps sv vm m徑徑向向0 0. .1 14 42 27 78 82 2 0 0. .2 20 02 22 22 23 3 0 0. .1 12 28 82 20 02 2 通過 PCA、PLS 以及 MAP 三種不同的降維降維方法,以及通過建模誤差、 留一法誤差以及預報誤差三個方面在綜合權衡,可以顯然得出 PLS 降維方法(偏 最
50、小二乘法)是最理想的降維方法。 判斷一個降維方法是否為好的方法,主要從這個方法的留一法誤差以及預 報誤差來體現(xiàn)。因為留一法誤差是相當與將自己作為未知樣本進行核對,而預 報誤差是對其他未樣本進行數據的預測。如果在這兩個方面都能得出理想的結 論的話,該降維方法就是理想的降維方法。 因此通過上表,無論是留一法誤差或者是預報誤差而言,PLS 的誤差結果 明顯要小于其他兩種方法所出現(xiàn)的誤差,因此綜上所述,PLS 降維方法是在煙 草煙堿量測定中,可以作為一種實用的降維方法。 23 第四章:煙草產地的模式識別研究第四章:煙草產地的模式識別研究 4.1、概論 近紅外光譜分析方法具有眾多優(yōu)點,包括檢測速度快、工
51、作效率高、費用 成本低、測試重現(xiàn)性好、測量方便等等,已經被越來越多領域普遍使用。據理 論推斷,近紅外技術可以進行研究和檢測一般卷煙煙葉中高達 80%至 90%以上 的化學成分,其中所包含的煙草化學成分的關聯(lián)信息通過近紅外光譜表現(xiàn)得非 常豐富,由于對煙葉通過近紅外信息進行聚類分析和模式識別具有可靠的物質 基礎,因此使用近紅外信息來對煙葉質量的定性及定量進行研究,將會有更加 廣闊的應用前景。 到現(xiàn)在為止,國內煙草行業(yè)對近紅外光譜技術以及其應用已經有了非常深 入的研究,本章節(jié)將通過近紅外光譜技術,對國產的幾種煙葉產地來進行模式 識別研究72930。 可視化技術3132,指的是通過計算機圖形學以及圖像
52、處理技術,將數據轉 換為圖形或圖像信息在電子屏幕上顯示,同時并進行交互處理的理論、方法與 技術??梢暬夹g涉及到計算機圖形學、計算機輔助設計、圖像處理、計算機 視覺以及人機交互技術等多方面領域。 本章節(jié)對煙草產地的進行模式識別研究,通過近紅外光譜技術,不但可以 對不同產地的煙草進行很好地區(qū)分,同時,利用可視化技術可以直接展現(xiàn)出結 果,更好地幫助了近紅外技術的深入研究。 4.2、材料準備與實驗方法 4.2.1、實驗儀器 BRUKERVECTOR22/N 傅立葉近紅外變換光譜儀; BRUKERMPA 傅立葉近紅外變換光譜儀; Antaris 傅立葉近紅外變換光譜儀。 24 4.2.2、煙草樣本 這
53、次進行檢測的樣本包括福建 15 個樣本、貴州 23 個樣本,河南 6 個樣本, 共有 44 個煙草樣本。在對煙草樣本的數據分析過程中,得到的模型不僅要求有 好的建模結果,而且預備結果也要較理想。故“檢驗集”需要在這些樣本中分 別在 3 個不同產地的煙草樣本各隨機抽取一個組成,而“建模集”即為剩余的 41 個樣本。 4.2.3、光譜采集 煙草樣本粉碎后直接進行近紅外光譜采集。采用漫反射吸收光譜法。掃描 范圍為 3800cm-1至 10000 cm-1之間,分辨率約 3cm-1 左右,平均掃描 60 次。 300060009000 0.2 0.4 0.6 0.8 absorbance wavenumber 1/cm 圖 4-1:煙草樣本近紅外掃描譜 4.2.4、光譜處理 對煙葉樣本的近紅外光譜曲線求一階導數后進行光滑處理,采用主成分分 析法進行特征抽提,取前 16 個主成分作為變量。本實驗利用主成分分析法 (PCA)對煙草產地進行模式識別研究。 25 4.3、預報結果 4.3.1、建模結果 利用 PCA 方法對這建模集的 41 個樣本進行分類,結果如下: 圖 4-2:煙草產地的模式識別圖 (注:1 類代表福建,2 類代表貴州,3 類代表河南,下同) 由圖可見:三個不同產地的煙草樣本在圖中分布在不同的區(qū)域,不同產地 的樣本聚集在不同的區(qū)域。 4.3.2、預報結果 利用檢驗集的 3
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 上海市靜安區(qū)、青浦區(qū)2024-2025學年高三下學期入學考試題生物試題文試題含解析
- 吉林省五地六市聯(lián)盟2025屆高三下學期第二次高考模擬語文試題含解析
- 江西省撫州市臨川2024-2025學年初三下學期一??荚嚁祵W試題含解析
- 吉林省白城市洮北區(qū)第一中學2025屆高考診斷性測試物理試題含解析
- 溫州市蒼南縣重點中學2024-2025學年初三第五次調研考試語文試題含解析
- 云南省昆明市晉寧縣2025屆數學四下期末預測試題含解析
- 山東省臨沂市蘭山區(qū)2025屆初三第二次教學質量檢測試題語文試題含解析
- 米蘭家居全屋定制合同范本
- 吉林省通化市梅河口五中2025屆高三上學期12月月考-物理試題(含答案)
- 員工股權激勵合同
- AQ 2001-2018 煉鋼安全規(guī)程(正式版)
- 醫(yī)院護理培訓課件:《安全注射》
- 2024年415全民國家安全教育日知識競賽及答案
- 再生資源消防安全培訓
- 高考地理二輪復習課件專題3S技術
- 安全生產治本攻堅三年行動主要任務
- 2024年濟南城市發(fā)展集團投資開發(fā)有限公司招聘筆試參考題庫含答案解析
- 2024年贛州市章貢區(qū)文化旅游發(fā)展集團有限公司招聘筆試參考題庫附帶答案詳解
- 同等學力申碩-同等學力(政治學)筆試(2018-2023年)真題摘選含答案
- 親子鑒定報告樣本
- 六年級下冊數學應用題練習100題及答案
評論
0/150
提交評論