3融合模型樹(shù)的偏最小二乘法MTree_第1頁(yè)
3融合模型樹(shù)的偏最小二乘法MTree_第2頁(yè)
3融合模型樹(shù)的偏最小二乘法MTree_第3頁(yè)
3融合模型樹(shù)的偏最小二乘法MTree_第4頁(yè)
3融合模型樹(shù)的偏最小二乘法MTree_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

融合模型樹(shù)的偏最小二乘法的優(yōu)化方法*喻芳,杜建強(qiáng),聶斌,熊靜,朱志鵬,劉蕾(江西中醫(yī)藥大學(xué)計(jì)算機(jī)學(xué)院,南昌330004)摘要:在實(shí)際過(guò)程中,越來(lái)越多的數(shù)據(jù)表現(xiàn)出了多自變量、多因變量和非線性的特性。偏最小二乘法本質(zhì)上是一種線性回歸,無(wú)法滿足這些數(shù)據(jù)的特性,而模型樹(shù)建立的回歸模型是由多個(gè)多元線性片段構(gòu)成,對(duì)非線性函數(shù)有很好的適應(yīng)性?;诖?,本文提出了一種融合模型樹(shù)的偏最小二乘方法,將PLS外模型中的的主成分和被解釋變量(因變量)構(gòu)建模型樹(shù),根據(jù)殘差信息不斷建樹(shù),直到滿足精度條件。分別在麻杏石甘湯君藥平喘實(shí)驗(yàn)、麻杏石甘湯君藥止咳實(shí)驗(yàn)和UCI機(jī)器學(xué)習(xí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,融合模型樹(shù)的偏最小二乘分析方法對(duì)非線性數(shù)據(jù)的解釋程度及預(yù)測(cè)能力均有所提升。關(guān)鍵字:偏最小二乘;模型樹(shù);非線性;中醫(yī)藥信息AnalysisofTCMdatabasedonPLSandModelTreeYUFang1,DUJianqiang1+,NIEBin1,XIONGJing1,ZHUZhipeng1,LIULei1

(SchoolofComputer,JiangxiUniversityofTraditionalChineseMedicine,Nanchang,330004,

China)Abstract:Intheactualprocess,moreandmoredatashowthecharacteristicsofmultipleindependentvariables,multi-dependentvariablesandnon-linear.PartialLeastSquare(PLS)can’tadapttothecharacteristicsofthedataofTCMduetoitsownnonlinearregression.However,ModelTree(MT)hasagoodadaptabilitytononlinearfunction,whichismadeupofmanymultiplelinearsegments.Basedonthis,anewmethodcombiningPLSandMTtoanalysisandpredictthedataisproposed,whichbuildModelTreethroughthemainingredientandtheexplanatoryvariables(thedependentvariable)extractedfromPLS,andextractresidualinformationconstantlytobuildModelTreeuntilwell-pleasedaccuracyconditionissatisfied.UsingthedataofthemaxingshigandecoctionofthemonarchdrugtotreattheasthmaorcoughandtwosamplesetsintheUCIMachineLearningRepository,theexperimentalresultsshowthat,theabilityofexplanationandpredictinggetimprovedinthePLSandModelTree.Keywords:PartialLeastSquares;ModelTree;Nonlinear;TCMInformation0引言在現(xiàn)實(shí)生活中,很多實(shí)際過(guò)程均為復(fù)雜的非線性過(guò)程,這種非線性關(guān)系不僅體現(xiàn)在自變量與自變量之間,也體現(xiàn)在自變量與因變量之間。由于實(shí)驗(yàn)等一些客觀或其他非客觀因素,往往造成實(shí)驗(yàn)數(shù)據(jù)樣本數(shù)據(jù)偏小,甚至有的數(shù)據(jù)樣本量低于樣本維度。偏最小二乘法(PartialLeastSquare,PLS)最早由HermanWold提出,包括主成分分析、典型相關(guān)性分析和多元線性回歸。它對(duì)具有多自變量、多因變量以及樣本量少的數(shù)據(jù)具有很好的解釋能力,盡管如此,其線性回歸的本質(zhì)無(wú)法完全體現(xiàn)出中醫(yī)藥數(shù)據(jù)的特性。1996年,QinSJ.囹提出了一種將RBF神經(jīng)網(wǎng)絡(luò)與PLS結(jié)合的算法,該算法雖能建立良好的非線性預(yù)測(cè)模型,但卻很難解釋其對(duì)連續(xù)函數(shù)線性逼近的特性。文獻(xiàn)囪提出了將模糊神經(jīng)網(wǎng)絡(luò)模型嵌入到迭代形式的偏最小二乘中,取得了良好的非線性映射效果,但模型結(jié)果極易受到隸屬函數(shù)的影響。2013年,文獻(xiàn)回提出了一種核偏最小二乘法,利用核函數(shù)將非線性的數(shù)據(jù)映射到高維線性空間,以最大化的提取自變量和因變量之間的關(guān)系,該算法雖能極好的反應(yīng)樣本數(shù)據(jù)中所包含的非線性結(jié)構(gòu),但核函數(shù)的選取極為不易。模型樹(shù)/(ModelTree,MT)是由Quinlan提出的一種樹(shù)的葉子節(jié)點(diǎn)以線性回歸方程替代經(jīng)典回歸樹(shù)中的平均值處理的算法,MT由多個(gè)多元線性片段構(gòu)成,可分段線性逼近任何未知的變量分布趨勢(shì),效率高,魯棒性好,不僅模型結(jié)構(gòu)簡(jiǎn)單,而且對(duì)非線性數(shù)據(jù)極易解釋。據(jù)此,基于傳統(tǒng)偏最小二乘法中的內(nèi)模型的線性本質(zhì)的不足,將模型樹(shù)作為偏最小二基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(61363042);國(guó)家自然科學(xué)基金項(xiàng)目(61562045);江西省自然科學(xué)基金重大項(xiàng)目(20152ACB20007);江西中醫(yī)藥大學(xué)校級(jí)研究生創(chuàng)新專(zhuān)項(xiàng)資金項(xiàng)目(JZYC16S05)作者簡(jiǎn)介:喻芳(1992-),女,碩士研究生,研究方向?yàn)獒t(yī)藥數(shù)據(jù)挖掘及機(jī)器學(xué)習(xí);+通訊作者:杜建強(qiáng)(1968-),男,博士,教授,CCF高級(jí)會(huì)員,研究方向?yàn)閿?shù)據(jù)庫(kù)與數(shù)據(jù)挖掘;熊靜(1995-),女,本科,主要研究為醫(yī)藥數(shù)據(jù)挖掘;聶斌(1972-)男,碩士,CCF會(huì)員,主要研究中醫(yī)藥信息及數(shù)據(jù)挖掘;朱志鵬(1990-),男,碩士研究生,研究方向?yàn)闄C(jī)器學(xué)習(xí)及醫(yī)藥數(shù)據(jù)挖掘;劉蕾(1991-),女,碩士研究生,研究方向?yàn)闄C(jī)器學(xué)習(xí)及文本挖掘;乘法中的內(nèi)模型,以闡釋中醫(yī)藥數(shù)據(jù)中的非線性特性。1偏最小二乘法(PLS)偏最小二乘法不僅對(duì)具有多自變量、多因變量的數(shù)據(jù)可以進(jìn)行回歸分析,在樣本點(diǎn)個(gè)數(shù)少于變量個(gè)數(shù)時(shí)依舊可以進(jìn)行回歸建模冏。偏最小二乘法的建模思想如下:設(shè)自變量集合X=(x,x,,x,,x)和因變量集合Y=(y,y,,y,,y),t,u分別1 2i p 1 2 j q是自變量和因變量的線性權(quán)重組合,二者必須滿足如下條件:二者能最大限度承載著解釋變量和被解釋變量的變異信息;兩者之間的相關(guān)系數(shù)最大。t,u分別為從自變量X,因變量Y中提取的第一個(gè)主成分的信息,然后將t,u進(jìn)行多元線性回歸,判斷是否達(dá)到要求,若滿足條件,終止。否則,從殘差信息提取第二個(gè)主成分t2,u,如此循環(huán)下去,直到達(dá)到滿意精度為止。 22模型樹(shù)(MT)模型樹(shù)⑼摒棄了傳統(tǒng)的CART算法在回歸樹(shù)的葉子節(jié)點(diǎn)取均值處理的做法,在葉子節(jié)點(diǎn)作多元回歸處理。它將樣本按照一定的規(guī)則劃分為若干個(gè)互不相干的區(qū)域,對(duì)每一個(gè)區(qū)域選定一個(gè)合適的回歸模型,包括:樹(shù)的建立、搜索分裂屬性、處理內(nèi)部節(jié)點(diǎn)、剪枝、平滑以及預(yù)測(cè)。模型樹(shù)的具體算法流程在文獻(xiàn)【10-11】均有詳細(xì)介紹,本文不在贅述。3融合模型樹(shù)的偏最小二乘法(MTree-PLS)3.1.MTree-PLS算法流程MTree-PLS方法由兩個(gè)模塊組成,一是偏最小二乘(PLS)模塊,用來(lái)提取主成分,去除變量間的多重相關(guān)性,二是模型樹(shù)(MTree)模塊,建立主成分與因變量的關(guān)系,使模型具有非線性。MTree-PLS在傳統(tǒng)偏最小二乘方法的基礎(chǔ)上,外模型依然采用原來(lái)的主成分分析方法提取主成分t,內(nèi)模型則將所提取的主成分與因變量構(gòu)建模型樹(shù),對(duì)模型樹(shù)的葉子節(jié)點(diǎn)采取多元線性回歸,求取相應(yīng)的預(yù)測(cè)值,然后計(jì)算殘差信息并不斷建樹(shù),直到滿足精度條件為止。利用模型樹(shù)在葉子節(jié)點(diǎn)進(jìn)行多元回歸的特點(diǎn),從而使其適應(yīng)非線性的中藥數(shù)據(jù),從而建立更好地?cái)?shù)據(jù)模型?;舅枷肴鐖D頊?zhǔn)荆篊圖1MTree-PLS算法流程主成分的模型樹(shù)構(gòu)建算法主成分的模型樹(shù)構(gòu)建方法主要是利用PLS提取的主成分t1與因變量屬性集Y一起構(gòu)建模型樹(shù),由于t1是連續(xù)性數(shù)據(jù),對(duì)t1和Y通過(guò)利用多元線性回歸計(jì)算誤差方式找到屬性最佳的切分點(diǎn),進(jìn)而將t1按照該劃分點(diǎn)進(jìn)行二元切分,劃分為兩個(gè)子集,對(duì)這兩個(gè)子集按照上述方式,如此不斷劃分,直到葉節(jié)點(diǎn)個(gè)數(shù)小于一定的閾值或者誤差減小不大時(shí)便停止劃分。主成分的模型樹(shù)構(gòu)建算法如算法1所示算法1:主成分的模型樹(shù)構(gòu)建輸入:主成分t,因變量屬性列表attributeListY輸出:處理后的模型樹(shù)RTStep01構(gòu)建基本的回歸樹(shù)RT。Step02搜索分裂屬性。對(duì)RT的內(nèi)部節(jié)點(diǎn)搜索其子樹(shù)的分裂屬性(包括當(dāng)前節(jié)點(diǎn)),將這些分裂屬性組成一個(gè)集合,并將這個(gè)并集稱(chēng)為回歸屬性。Step03處理內(nèi)部節(jié)點(diǎn)選擇當(dāng)前節(jié)點(diǎn)的數(shù)據(jù)樣本和其部分或者全部回歸屬性進(jìn)行回歸,遍歷其產(chǎn)生的回歸模型,選擇當(dāng)前節(jié)點(diǎn)樣本數(shù)據(jù)誤差最小的回歸模型,并將其作為當(dāng)前節(jié)點(diǎn)的回歸模型。Step04剪枝對(duì)RT從下到上遍歷,記錄所有葉子節(jié)點(diǎn)線性擬合出每個(gè)父節(jié)點(diǎn)及其葉節(jié)點(diǎn)的回歸方程fparent、yiffRMSE<fRMSE<fRMSEparent leaf leaf對(duì)子樹(shù)剪枝else保留葉節(jié)點(diǎn)特別的,若該子樹(shù)的父節(jié)點(diǎn)是根節(jié)點(diǎn),不作處理endStep05平滑對(duì)RT從下到上遍歷. . … n-f+k-f將子結(jié)點(diǎn)與父結(jié)點(diǎn)的擬合方程合并為一個(gè)新的線性方程f=Jchild Jparent(1)n(^ew n+kiff/MSE-fchadRESE<Q,(Q為固定閾值)¥child 'newelse不進(jìn)行平滑處理endStep06returnRT。算法結(jié)束說(shuō)明:RMSE為均方根誤差,為廣d頑el,i”RMSE=\i=1

4 n公式(1)中,n為當(dāng)前父親節(jié)點(diǎn)的樣本數(shù)據(jù)個(gè)數(shù),kU2為平滑常數(shù)(默認(rèn)值為k=15),為當(dāng)前葉子節(jié)點(diǎn)模型的擬合方程,f 為當(dāng)前父親節(jié)點(diǎn)的擬合方程,f為平滑后模型的擬合方程。 53.3,融合模型樹(shù)的偏最小二乘算法MTree-PLS方法是利用PLS求出主成分,進(jìn)行X對(duì)t的多元線性回歸,Y和t構(gòu)建模型樹(shù),在X部分利用原始方法求出殘余信息,在求Y的殘余信息時(shí)由于已經(jīng)將Y與t由原來(lái)的線性回歸方程換成模型樹(shù),所以此時(shí)求Y的殘余信息應(yīng)該用Y減去模型樹(shù)的葉子節(jié)點(diǎn)進(jìn)行多元線性回歸時(shí)所求取得預(yù)測(cè)Y值。若未能滿足精度要求,則利用殘差信息繼續(xù)提取主成分,并利用該主成分與Y的殘差信息繼續(xù)建樹(shù),重復(fù)上述過(guò)程,直到構(gòu)建出達(dá)到滿意精度非線性模型,終止算法。具體算法過(guò)程如下:數(shù)據(jù)預(yù)處理對(duì)X和Y分別進(jìn)行標(biāo)準(zhǔn)化處理得到E和F;提取主成分 0 0設(shè)t是從E中提取的第一個(gè)主成分,有t=Ew,u=Fv,w,v分別為E和1 0 1 01 1 01 1 1 0F0的第一個(gè)權(quán)重軸,且||w1II=1,||叩=1,使得:var(t)—max1var(u)—max1r(t,u)—max

貝^根據(jù)cov(t,u)=r(t,u只var(t)var(u)ncov(t,u)—max,1 1 1i ii ii而cov(t,u)=』<t,u>,將t=Ew,u=Fv代入其中,則有:iinii ioiioimax<Ew,Fv>=(Ew)t(Fv)—max0i0i 0i0i根據(jù)拉格朗日乘數(shù)原理,計(jì)算得出w、V]分別為XtYYtX、YtXXtY的最大特征值所對(duì)應(yīng)的特征向量。從而很容易計(jì)算出相應(yīng)的t。主成分的模型樹(shù)回歸 i從E中提取主成分t,實(shí)施E對(duì)t的線性回歸E=tp,+E,其中p=ETt/||tU。由0 i 0i 0iii i00i于t同時(shí)攜帶了自變量和因變量的信息,于是將t與F(j),(j=1,2,3,...q)分別構(gòu)建模型樹(shù)tre;(ij),并計(jì)算出相應(yīng)的模型預(yù)測(cè)系數(shù)predict),°求出殘差信息矩陣E=E-tp',ij i0iiF=F―如t*predict(t);i0i ijj=i判斷條件,終止循環(huán)依據(jù)模型的解釋程度(R2)或者訓(xùn)練集的殘差平方和(SSETrain)判斷此時(shí)模型是否滿意精度要求,若達(dá)到要求,則停止計(jì)算,若沒(méi)有,則利用殘差信息 E、F繼續(xù)按照步驟(2),直到滿足條件為止。 ii整合MTree-PLS方程Yit..predict(tYit..predict(t,)+Xt.predict(t,)++Yt.predict(t,)對(duì)系數(shù)進(jìn)行反標(biāo)準(zhǔn)化還原Y關(guān)于XI的多元回歸方程。"融合模型樹(shù)的偏最小二乘模型主要算法如下:算法2:融合模型樹(shù)的偏最小二乘算法輸入:原始樣本數(shù)據(jù)集Dataset(D),自變量屬性列表attributeListX,維數(shù)p;因變量屬性列表attributeListY,維數(shù)p;輸出:MTree-PLS方程Step0i根據(jù)attributeListX,attributeListY從Dataset中抽取出(X,Y),對(duì)(X,Y)進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化得到(E°,F0)Step02偏最小二乘回歸(PLSR)i=iwhile主成分個(gè)數(shù)i是否達(dá)到要求依據(jù)格朗日乘數(shù)原理求權(quán)重軸w‘,v,計(jì)算FEEFFEEF 矩陣最大特征值對(duì)應(yīng)的特征向量w.、v.TOC\o"1-5"\h\zi―ii―ii―ii―i i―ii―ii―ii―i II計(jì)算主成分得分向量ti=Eiwi、建立樹(shù)tree(i)載荷向量p=xr"||t||2,并求出相應(yīng)的模型預(yù)測(cè)系數(shù)predict(t#,(j=i,2q)回歸方程E=tpT+E和F=F+Yt.predict(t) …i—1 iiii-ii i i,j.j=i得到殘差信息矩陣E和FiiendStep03整合MTree-PLS方程F=2Et.predict(t)+Yt.predict(t)++Yt.predict(t)

i ij 2 2j m mj對(duì)系數(shù)進(jìn)行反標(biāo)準(zhǔn)化還原Y關(guān)于x的多元回歸方程...j=iStep04算法結(jié)束4實(shí)驗(yàn)與分析本文的實(shí)驗(yàn)數(shù)據(jù)來(lái)源于江西中醫(yī)藥大學(xué)重點(diǎn)實(shí)驗(yàn)室所提供的麻杏石甘湯平喘數(shù)據(jù)、麻杏石甘湯治療哮喘數(shù)據(jù)以及選取了UCI機(jī)器學(xué)習(xí)樣本公共數(shù)據(jù)庫(kù)中的yacht_hydrodynamics[i3]以及CCPP_Folds5x2_pp[I4]數(shù)據(jù)集。4.1.實(shí)驗(yàn)數(shù)據(jù)說(shuō)明麻杏石甘湯治療大鼠哮喘的部分整理的實(shí)驗(yàn)數(shù)據(jù)見(jiàn)表1,共有46個(gè)樣本,是分別在10個(gè)不同麻黃用量下的大鼠體內(nèi)血藥成分關(guān)于藥理指標(biāo)的影響。其在大鼠體內(nèi)主要的血藥成分為:麻黃堿、偽麻黃堿、甲基麻黃堿、野黑櫻苷以及甘草苷,并將此作為自變量;而所考查的藥理指標(biāo)則為:引喘潛伏期以及咳嗽持續(xù)時(shí)間,作為因變量。表1麻杏石甘湯平喘實(shí)驗(yàn)數(shù)據(jù)麻黃堿偽麻黃堿甲基麻黃堿野黑櫻苷甘草苷引喘潛伏期 (s) 咳嗽持續(xù)時(shí)間0.930.520.140.000.517980.970.480.160.340.5351180.950.530.171.670.4844220.920.590.390.000.576691.090.430.410.000.427119麻杏石甘湯治療大鼠咳嗽的部分整理的實(shí)驗(yàn)數(shù)據(jù)見(jiàn)表2,共有62個(gè)樣本,是分別在10個(gè)不同杏仁用量下的大鼠體內(nèi)血藥成分關(guān)于藥理指標(biāo)的影響。其在大鼠體內(nèi)主要的血藥成分為:麻黃堿、偽麻黃堿、甲基麻黃堿、野黑櫻苷以及苦杏仁苷,并將此作為自變量;而所考查的藥理指標(biāo)則為:咳嗽持續(xù)次數(shù),作為因變量。表2麻杏石甘湯止咳實(shí)驗(yàn)數(shù)據(jù)麻黃堿偽麻黃堿甲基麻黃堿苦杏仁苷野黑櫻苷咳嗽次數(shù)402.00369.9348.460.791.8725491.00385.7947.320.000.0050412.00314.7441.280.000.0035519.00316.8139.500.611.4237387.09290.0515.290.813.1740UCI數(shù)據(jù)則選取了yacht_hydrodynamics數(shù)據(jù)集,共308個(gè)樣本、CCPP_Folds5x2_pp數(shù)據(jù)集,共9568個(gè)樣本,詳細(xì)描述見(jiàn)/ml/。實(shí)驗(yàn)過(guò)程和結(jié)果分析選取麻杏石甘湯平喘實(shí)驗(yàn)以及麻杏石甘湯止咳實(shí)驗(yàn)數(shù)據(jù)分別將其與傳統(tǒng)的偏最小二乘方法(PLS)以及隨機(jī)森林回歸(RFR)分別進(jìn)行多方位的比較,并將該算法在UCI數(shù)據(jù)集上的yacht_hydrodynamics和CCPP_Folds5x2_pp數(shù)據(jù)集測(cè)試:對(duì)原始數(shù)據(jù)按照7:3的比例進(jìn)行隨機(jī)劃分,70%作為訓(xùn)練樣本,余下的作為測(cè)試樣本。表3實(shí)驗(yàn)數(shù)據(jù)描述數(shù)據(jù)名稱(chēng)樣本總數(shù)自變量個(gè)數(shù)因變量個(gè)數(shù)訓(xùn)練集個(gè)數(shù)測(cè)試集個(gè)數(shù)麻杏石甘湯平喘數(shù)據(jù)46523214麻杏石甘湯止咳數(shù)據(jù)62514319yacht_hydrodynamics3087121692CCPPFolds5x2pp95684167002868分別考察訓(xùn)練集殘差平方和(sumofSquaresforErrorofTrain,SSETrain、測(cè)試集殘差平方和(sumofSquaresforErrorofTest,SSETest。結(jié)果如表4所示:表4PLS,RFR和MPT-PLS結(jié)果比較PLSMPT-PLSRFRSSETrainSSETestSSETrainSSETestSSETrainSSETest麻杏石甘湯平喘數(shù)據(jù)20580.650730434.75537485.327114618.48312184.291921114.3382麻杏石甘湯止咳數(shù)據(jù)3841.83571761.18641568.58781653.99893558.00251777.0677yacht_hydrodynamics15990.51228151.6082455.57901400.08088706.85714900.1754CCPPFolds5x2pp161316053570113764212813654985941834211455517916647318109由表4我們可以看出:PLS,對(duì)非線性的數(shù)據(jù)表現(xiàn)了較大的不適,改進(jìn)后的偏最小二乘法對(duì)具有明顯非線性特征的數(shù)據(jù)有良好的效果,無(wú)論是測(cè)試集的殘差平方和還是訓(xùn)練集的平方和,在麻杏石甘湯平喘數(shù)據(jù)、麻杏石甘湯止咳數(shù)據(jù)、yacht_hydrodynamics和CCPP_Folds5x2_pp上,相較偏最小二乘法以及普通的隨機(jī)森林回歸都有一定程度的降低。在麻杏石甘湯平喘數(shù)據(jù)上,RFR雖然在SSETrain上相較改進(jìn)的算法更低,但其預(yù)測(cè)集的殘差平方和卻表現(xiàn)極差,預(yù)測(cè)能力明顯不足。改進(jìn)的PLS算法,不僅對(duì)小樣本的中醫(yī)藥數(shù)據(jù)呈現(xiàn)了良好的適應(yīng)性,也適用于UCI的中等以及大樣本的具有非線性特性的數(shù)據(jù)。綜上所述,針對(duì)多維非線性的數(shù)據(jù),模型樹(shù)表現(xiàn)了很強(qiáng)的分析和預(yù)測(cè)作用。改進(jìn)后的算法無(wú)論是對(duì)小樣本數(shù)據(jù)還是大樣本數(shù)據(jù),在模型的解釋程度,亦或是對(duì)數(shù)據(jù)的學(xué)習(xí)訓(xùn)練,還是分析預(yù)測(cè)方面均比偏最小二乘法以及普通的隨機(jī)森林回歸更優(yōu)。算法時(shí)間復(fù)雜度分析對(duì)于偏最小二乘法,時(shí)間復(fù)雜度主要表現(xiàn)在主成分提取上面,由于求特征值和特征向量部分可采用奇異值矩陣進(jìn)行求解,故只在求協(xié)方差矩陣存在時(shí)間復(fù)雜度,時(shí)間復(fù)雜度為0(n2)。而對(duì)于模型樹(shù)而言,時(shí)間復(fù)雜度主要體現(xiàn)在樹(shù)的生成部分,為0(〃2),對(duì)于改進(jìn)的偏最小二乘法,假設(shè)提取的主成分的個(gè)數(shù)為m,每提取一個(gè)主成分便進(jìn)行一次樹(shù)的生成操作,因而改進(jìn)的算法的時(shí)間復(fù)雜度為0(mn2)5結(jié)論本文提出了融合模型樹(shù)的偏最小二乘法,針對(duì)偏最小二乘法不能對(duì)非線性的數(shù)據(jù)很好的解釋的問(wèn)題,充分利用模型樹(shù)建立回歸模型時(shí)由多個(gè)多元線性片段構(gòu)成的非線性表達(dá)特性,并在具有非線性特性的中醫(yī)藥數(shù)據(jù)以及UCI數(shù)據(jù)集上進(jìn)行分析測(cè)試,結(jié)果表明,改進(jìn)后的算法對(duì)模型解釋程度以及預(yù)測(cè)能力均有所提高。但模型樹(shù)的葉子節(jié)點(diǎn)個(gè)數(shù)直接決定模型的運(yùn)行結(jié)果,因而,如何選取合適的葉子節(jié)點(diǎn)有待進(jìn)一步研究。參考文獻(xiàn)張伯禮,王永炎.組分配伍研制現(xiàn)代中藥的理論與實(shí)踐一一方劑關(guān)鍵科學(xué)問(wèn)題的基礎(chǔ)研究[M].沈陽(yáng):遼寧科學(xué)技術(shù)出版社,2010.WoldH.Nonlinearestimatebyiterativeleastsquaresprocedures.ResearchPapersinStatistics,1966,Wiley,NewYork.AbdiH,WilliamsL.PartialLeastSquaresMethods:PartialLeastSquaresCorrelationandPartialLeastSquareRegression[M].ReisfeldB,MayenoAN,HumanaPress,2013:930,549-579.QinSJ,McAoyTJ.NonlinearFIRmodelingviaaneuralnetPLSapproach.Computer&ChemicalEngineering,1996,20(2):147-159.周琳.基于非線性偏最小二乘的特征提取方法研究[D].南京理工大學(xué),2011.劉宇.基于局部核偏最小二乘法的響應(yīng)面建模與仿真[D].清華大學(xué),2013.QuinlanJR.Learningwithcontinuousclasses[C].Proce

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論