




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、樣條變換集成罰函數(shù)偏最小二乘方法用于光譜數(shù)據(jù)重構(gòu)和定量分析 【摘要】 針對高維小樣本光譜數(shù)據(jù)所顯現(xiàn)的函數(shù)型數(shù)據(jù)(Functional data)特性、與性質(zhì)參數(shù)的非線性關(guān)系及變量間存有的嚴重共線性,采用了樣條變換集成罰函數(shù)偏最小二乘回歸新技術(shù)。它首先以三次B基樣條變換實現(xiàn)非線性光譜數(shù)據(jù)的線性化重構(gòu),隨后將重構(gòu)的新光譜矩陣交由罰函數(shù)偏最小二乘法(Penalized PLS)構(gòu)建其與性質(zhì)參變量間的校正模型,其中罰函數(shù)中的光滑因子由交叉驗證優(yōu)化確定以調(diào)控模型的擬合精度。最后,通過小麥樣品水分含量的近
2、紅外光譜定量分析,結(jié)果顯示該技術(shù)光譜數(shù)據(jù)重構(gòu)穩(wěn)健,去噪明顯,并有效解決高維小樣本的過擬合和變量間的共線性,而預(yù)測集的均方根誤差(RMSEP)為0.1808%,方法的非線性校正模型預(yù)測能力得到了明顯提高。 【關(guān)鍵詞】 樣條函數(shù), 偏最小二乘, 粗糙懲罰, 近紅外光譜, 定量分析, 小麥1 引言 現(xiàn)代光譜以其分析速度快、重現(xiàn)性好、成本低、不消耗樣品、易于實現(xiàn)在線分析等特點而得到廣泛應(yīng)用()。而光譜化學(xué)計量學(xué)是近代紅外光譜分析技術(shù)的重要組
3、成部分,它通過多變量校正技術(shù)來進行數(shù)據(jù)(樣本光譜和其性質(zhì)參數(shù))處理,以獲得準確的分析結(jié)果1,2??紤]到近紅外光譜數(shù)據(jù)通常呈多變量、強相關(guān)性,并與樣品性質(zhì)參變量間的非線性關(guān)系,適宜選用非線性偏最小二乘法(Nonlinear PLS,NLPLS)。目前,NLPLS實現(xiàn)方式有3種:一是基于樣本矩陣的非線性變換,即在建模自變量中引入某些原始變量的非線性項,如二次項、交叉項等3;二是將建模變量投影到低維的曲線或曲面上得到非線性特征向量,再建立輸入輸出特征向量間的非線性關(guān)系4,但該方法計算復(fù)雜,建模受初值影響大;三是保留PLS的線性外部模型,而內(nèi)部模型采用多項式、樣條函數(shù)、模糊規(guī)則、神經(jīng)網(wǎng)絡(luò)、支
4、持向量機等非線性形式59,該方法缺乏對建模物理變量的直觀解釋能力。 鑒于光譜變量與性質(zhì)參變量間的具體非線性依存關(guān)系不明確,及樣本個體光譜數(shù)據(jù)顯現(xiàn)為波長變量的函數(shù)型數(shù)據(jù)(Functional data)特性10,本研究采用樣條(Spline)變換集成罰函數(shù)偏最小二乘(Penalized PLS)回歸新技術(shù),記為SplinePPLS方法。首先利用樣條基函數(shù)將光譜自變量與性質(zhì)因變量之間的未知非線性關(guān)系按照各維自變量與因變量的擬線性關(guān)系相加展開11。由于樣條函數(shù)分段擬合、可按需要裁剪以適應(yīng)任意曲線連續(xù)變化的特點,使光譜的重構(gòu)函數(shù)曲線適應(yīng)
5、光譜數(shù)據(jù)局部敏感特性的同時保持了函數(shù)的光滑性和連續(xù)性,從而可削減原始數(shù)據(jù)中的噪聲。隨后,考慮到光譜矩陣經(jīng)樣條變換后變量維數(shù)顯著增加,將重構(gòu)的新光譜矩陣交由罰函數(shù)偏最小二乘法構(gòu)建其與性質(zhì)參變量間的定量線性校正模型,其中基于轉(zhuǎn)換權(quán)向量二階導(dǎo)數(shù)的罰函數(shù)用以調(diào)控模型的擬合精度(醫(yī)藥學(xué)/臨床醫(yī)學(xué)論文 )。為考察SplinePPLS方法的有效性及性能,對小麥近紅外光譜數(shù)據(jù)進行了研究。2 SplinePPLS方法的構(gòu)建2.1 B基樣條曲線 設(shè)變量與x滿足如下隨機模型:x=s(),
6、160;(), ar()()若在區(qū)間a,b上的一個段劃分a=b, 則式(1)中s()的三次B基樣條逼近曲線方程11為:s()=M+2l=0cl3l1h, ab(2)式中3l1h=13!h34k=0()k4k(l+k),是以l+k(k=0,1,2,3,4)為內(nèi)控節(jié)點、步長為h的三次B基樣條函數(shù),它與x呈線性關(guān)系。對于分點l及其內(nèi)控節(jié)點l+k位于劃分的兩側(cè),本研究取 和。 取觀測位置, 2,
7、60;, p相應(yīng)數(shù)據(jù)點x1, x2, , xp與它們在樣條曲線上插值映射點的距離平方和最小為目標(biāo)函數(shù),優(yōu)化求取各基函數(shù)的線性加權(quán)系數(shù)cl(l=0, 1, , M),即共有個基函數(shù),從而完成該序列數(shù)據(jù)形如式(2)的B基樣條逼近曲線構(gòu)造。Riches do not always bring happiness. 2.2 罰函數(shù)偏最小二乘方法(Penalized PLS) 數(shù)據(jù)點xj(j=1,2,p)在B基樣條映射的線性空間中的插值映射點zj
8、的分坐標(biāo)定義為:zj,0=(jh), zj,l=3(j0h, ,,zj,M+2=3(jh)(3)現(xiàn)將樣本個體自變量x在p維變量空間中的取值,即x=(x1,x2,xp)T,計算其所有插值映射點zj各分坐標(biāo)并加以組合,即可得到x的B基插值映射點矢量 z,即為z=(z1,0, z1,1, , z1, z,0, z,1,, z,, , zp,0, zp,1, ,zp,M+2)T(4) 由于每一維變量xj有K個映射分坐標(biāo),故矢量z的空間維數(shù)將
9、為p×。 對于樣本容量n的自變量矩陣Xn×p,欲構(gòu)建其與性質(zhì)矢量y間的非線性校正模型,則先實施X的每一樣本個體xi(i=1,2,,n)的B基樣條變換(各樣本個體選取基函數(shù)個數(shù)應(yīng)相同,即K1=K2=n=K),得到映射樣本矩陣Zn×(p×K),而其與y已演變?yōu)閿M線性關(guān)系。再實施Z與y的線性PLS算法。 鑒于Z較X的變量維數(shù)顯著增加,變量間的相關(guān)性更為嚴重,本研究采用罰函數(shù)偏最小二乘(Penalized PLS,PPLS)方法10構(gòu)建 &
10、#160;Z與y間的校正模型。PPLS方法的目標(biāo)函數(shù)為arg maxwwTZTyyTZwwTw+P(w)(5)上式分母中基于轉(zhuǎn)換權(quán)向量w的罰函數(shù)P(w)=wT(K2)w, 其中K2=(DK),而DK為(K)×維的w一階差分算子矩陣。另外, diag(,p)為各初始自變量的光滑因子對角陣。Pw實為二階導(dǎo)數(shù)罰函數(shù),意在增強w平滑其特征向量t=Zw的能力,以提高模型的穩(wěn)健性。 由上述PPLS算法思想可見,它是以放棄擬合精度為代價尋求預(yù)測性能更優(yōu)的一種改進PLS方法。同時,PPLS對病態(tài)數(shù)據(jù)的耐受性遠強于普通PLS方
11、法。現(xiàn)將基于初始樣本陣X,y及各自變量光滑因子對角陣的B基樣條變換的PPLS算法(SplinePPLS)步驟10歸結(jié)如下:(1)實施的n個B基樣條逼近曲線的優(yōu)化構(gòu)造,并得其映射矩陣Z;(2)令h=1, Zh=Z,并計算P=K2及 M=(Ip+P),其中p為p維單位陣;(3)計算轉(zhuǎn)換權(quán)向量wh=MZThy, 并規(guī)一化wh=wh/wh;(4)計算特征向量th=Zhwh,并規(guī)一化 th=th/th;(5)記Th=t1,t2,,th,計算其正交投影矩陣Qh=Th(TThTh)+TTh, 式中“+”為矩陣廣義逆;(6)
12、計算剩余矩陣Zh+1=ZhhZh;(7)令h=h+1, 重復(fù)步驟(3)(7),直至由交叉驗證(Cross validation )法13 確定所需提取的最優(yōu)成分數(shù)h后,將得到轉(zhuǎn)換權(quán)矩陣W=w1,w2,,wh, 進而可計算與y間的線性回歸系數(shù)()y)zy。3 SplinePPLS方法為小麥近紅外光譜重構(gòu)及定量分析3.1 樣本數(shù)據(jù)說明 小麥樣品數(shù)據(jù)取自文獻14,自變量取其近紅外光譜在波長11002500 nm、掃描分辨率為2 nm的若干波長
13、處的吸光度值log(1/R), 即維數(shù)p=701,其中R為樣本的反射率,樣本容量n=100,譜圖如圖1所示。性質(zhì)參變量為小麥水分質(zhì)量百分含量,數(shù)值范圍在12.45%17.36%。從原始數(shù)據(jù)集中隨機劃出80個構(gòu)成訓(xùn)練集用于光譜B基樣條變換的優(yōu)化確定及后繼校正模型建立,其余20個組成獨立測試集,用于檢驗B基樣條的光譜插值重構(gòu)能力及模型的預(yù)測性能。Fig.1 NIR diffuse reflectance spectra of wheat samples3.2 實驗方式與性能評價指標(biāo)
14、160; 為檢驗SplinePPLS方法的性能,先將訓(xùn)練樣本Xntrain×p以“變量留一交叉驗證”13選定K個樣條變換的B基函數(shù),其優(yōu)化評定指標(biāo)為式(6)中的RMSECVspline;再以“樣本個體留一交叉驗證”選定各變量的光滑因子1,2,,p及校正模型所需PLS最優(yōu)成分數(shù)h,它們的優(yōu)化評定指標(biāo)則為式(6)中的RMSECVppls。而光譜B基樣條變換的插值重構(gòu)性能及校正模型的預(yù)測性能,則交由測試樣本Xntest×p計算,它們的評價指標(biāo)分別為式(7)中的RMSEPspline和RMSEPppls。RMSECVspline=pj=1ntrai
15、ni=1(xijij)2/(ntrain×p), RMSECVppls=ntraini=1(yii)2/ntrain(6)RMSEspline=pj=1ntesti=1(xijij)2/(ntest×p), RMSEppls=ntesti=1(yii)2/ntest(7)式中xij和ij分別為第i樣本個體、第j波長變量下吸光度的實驗值和B基樣條曲線的插值;yi和i則分別為第i樣本個體性質(zhì)參變量的實驗測試值和模型預(yù)報值。Fig.2 Selection of basic functi
16、ons number and the rebuilding spectrum curve for the first sample data a. Rootmean squared error at different numbers of basic functions; b. 28 Basic functions and
17、its rebuilding spectrum curve.A clear conscience is a sure card. 圖2a顯示了RMSECVspline與K的相關(guān)關(guān)系,隨著K的增多,RMSECVspline總體呈下降趨勢,在K=28時,RMSECVspline已很小,而其后的RMSECVspline值下降有限??紤]到參數(shù)K取值越大,經(jīng)B基樣條變換后的擬線性變量個數(shù)將越多,且變量間將出現(xiàn)更多復(fù)共線性, B基樣條逼近曲線易出現(xiàn)對訓(xùn)練數(shù)據(jù)的過擬合,而對包含于數(shù)據(jù)中的噪音削減不夠;若K取值太小,B基樣條逼近曲線對數(shù)據(jù)的插值能力將下降。因
18、此,本研究選定K=28。圖2b顯示了這28個基函數(shù)及由它們所重構(gòu)的第1訓(xùn)練樣本個體光譜數(shù)據(jù)的三次B基樣條逼近曲線。由圖2b可見,該樣條曲線實現(xiàn)了對光譜數(shù)據(jù)較高精度的插值擬合。另外,將這28個基函數(shù)用于Xntest×p的插值重構(gòu),其精度指標(biāo)RMSEspline,表明B基樣條具有極強的插值重構(gòu)能力。God sends fortune to fools. In a great river great fish are found; but take heed lest you be drowned. 表1 PPLS方法中參數(shù)的優(yōu)化選擇(略)Ta
19、ble 1 Parameter selection of the penalized PLS method從表1可見,模型性能指標(biāo)ppls在參數(shù)和h的二維搜索格子點, h=5位置達最小,由此選定它們?yōu)镻PLS模型相應(yīng)參數(shù)的最優(yōu)取值。同時還發(fā)現(xiàn),該位置ppls指標(biāo)小于, h=5的PLS方法的結(jié)果。由2.2節(jié)PPLS方法的目標(biāo)函數(shù)式(5)可知,取值的大小將影響w平滑其特征向量t=Zw的程度,并進一步作用于PPLS方法的模型系數(shù)()y)x,y。圖3即為PLS和PPLS方法施于樣本陣,y的結(jié)
20、果比較。其中PPLS模型系數(shù)曲線受到變量光滑因子的粗造懲罰而得到了平滑。這樣,它既可最大限度保證分析信號不失真,又能進一步削除噪音。 圖3 PLS和PPLS模型回歸系數(shù)比較(略)We are here to add what we can to life, not to get what we can from it. Fig.3 Comparison of model coefficients for the PLS and Penalized
21、160;PLS method論文包括學(xué)年論文、畢業(yè)論文、學(xué)位論文、科技論文、成果論文等. What I have done is due to patient thought. 表2 5種不同校正模型的性能比較(略)Table 2 Comparison of model performance for five methods【參考文獻】 1 Chu XiaoLi(褚小立), Xu Yu
22、Peng(許育鵬), Lu WanZhen(陸婉珍). Chinese J. Anal. Chem.(分析化學(xué)), 2008, 36(5): 7027092 Hao Yong(郝 勇), Cai WenSheng(蔡文生), Shao XueGuang(邵學(xué)廣). Chem J Chinese Universities(高等學(xué)?;瘜W(xué)學(xué)報), 2009, 30(1):
23、28313 VerduAndres J, Massart D L, Menardo C,Sterna C. Anal Chim Acta, 1997, 349(13): 2712824 Malthouse E C, Tamhane A C, Mah R S H. Computers & Chemical Eng
24、ineering, 1997, 21(8): 8758905 Baffi G, Martin E B, Morris A J. Computers and Chemical Engineering, 1999, 23(3): 3954116 Wold S. Chemometrics and Intelligent Laboratory System
25、s, 1992, 14(1/3): 71847 Cheng Zhong(成 忠), Chen DeZhao(陳德釗), Wu XiaoHua(吳曉華),Ye ZiQing(葉子青). Chinese J. Anal. Chem.(分析化學(xué)), 2005, 33(7): 9729768 Baff G, Martin E B, Morris A J. Computers and Chemical Engineering, 1999, 23(9): 129313079 Li ShiYong(李世勇), Wang Fang(王 芳), Shao XueGuang(邵學(xué)廣). Tobacco Science & Technology(煙草科技), 200
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 買車合同買賣合同范本
- 廠房分租裝修合同范本
- 怎么講課題申報書
- 單方解除租賃合同范本
- 出口鱘魚合同范本
- 入股石礦合同范本
- 臨時駐地建設(shè)合同范例
- 保健按摩合同范本
- 合同范本教程租房文字
- 員工合同范本修訂
- 福建省福州市2024-2025學(xué)年九年級上學(xué)期期末語文試題(解析版)
- 一年級下冊綜合實踐活動教案2
- 九年級主題班會課件:遇見最好的自己(開學(xué)第一課)
- 2025版股權(quán)投資基金股份收購與退出機制協(xié)議3篇
- 【營銷方案】2025小紅書平臺營銷通案
- 2025年江西電力職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測試近5年??及鎱⒖碱}庫含答案解析
- 2025年棗莊科技職業(yè)學(xué)院高職單招語文2018-2024歷年參考題庫頻考點含答案解析
- 護苗行動安全教育課件
- 2024年湖南鐵道職業(yè)技術(shù)學(xué)院高職單招語文歷年參考題庫含答案解析
- 2024年山西同文職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測試歷年參考題庫含答案解析
- 油品庫房管理規(guī)定(2篇)
評論
0/150
提交評論