袁哲明-特征選擇、學(xué)習(xí)機(jī)器選擇和樣本選擇_第1頁(yè)
袁哲明-特征選擇、學(xué)習(xí)機(jī)器選擇和樣本選擇_第2頁(yè)
袁哲明-特征選擇、學(xué)習(xí)機(jī)器選擇和樣本選擇_第3頁(yè)
袁哲明-特征選擇、學(xué)習(xí)機(jī)器選擇和樣本選擇_第4頁(yè)
袁哲明-特征選擇、學(xué)習(xí)機(jī)器選擇和樣本選擇_第5頁(yè)
已閱讀5頁(yè),還剩65頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

特征選擇、學(xué)習(xí)機(jī)器選擇和樣本選擇袁哲明zhmyuan@湖南農(nóng)大植保學(xué)院生物信息系

袁哲明

大數(shù)據(jù)與信息時(shí)代,我們并不缺少數(shù)據(jù),缺少的是對(duì)數(shù)據(jù)深入分析、挖掘、獲取知識(shí)的能力。數(shù)據(jù)變現(xiàn),算法為王Y離散,分類(二分類或多分類);Y連續(xù),回歸。任務(wù):從m個(gè)自變量中找到m’個(gè)保留自變量,建立模型,對(duì)待測(cè)樣本做出可信預(yù)測(cè)。非縱向數(shù)據(jù)有監(jiān)督學(xué)習(xí):數(shù)據(jù)矩陣(Yi,Xij)樣本YX1X2…Xj…Xm1Y1X1,1X1,2…X1,j…X1,m2Y2X2,1X2,2…X2,j…X2,m……………………iYiXi,1Xi,2…Xi,j…Xi,m……………………nYnXn,1Xn,2…Xn,j…Xn,mY:因變量(表型、性狀等)X:自變量(特征、基因等)行:樣本個(gè)數(shù),n列:自變量個(gè)數(shù),m經(jīng)典統(tǒng)計(jì)學(xué)Y二分類-X連續(xù):t測(cè)驗(yàn),|t|∈(0,∞)Y多分類-X連續(xù):F測(cè)驗(yàn),F(xiàn)∈(0,∞)Y離散-X離散:卡方測(cè)驗(yàn),χ2∈(0,∞)Y連續(xù)-X連續(xù):決定系數(shù),R2∈(0,1)一、特征選擇(1):兩變量關(guān)聯(lián)單變量過(guò)濾,即Y與某個(gè)X的兩變量關(guān)聯(lián)。Y=f(X)非線性顯性表達(dá)式未知而不可窮盡。缺陷多多!1±(0~0.5)2±(0~0.5)3±(0~0.5)t-test:P-value=0.82傳統(tǒng)兩變量關(guān)聯(lián)測(cè)度的缺陷:t測(cè)驗(yàn)R2不能反映非線性關(guān)聯(lián),不具普適性。Y=ax2+bx+cR2≈0實(shí)際Y與X為完全關(guān)聯(lián)傳統(tǒng)兩變量關(guān)聯(lián)測(cè)度的缺陷:R2兩變量關(guān)聯(lián)新測(cè)度-MIC最大信息系數(shù)Maximalinformationcoefficient(MIC)Reshelfetal,2011,Science,純方法學(xué)論文源于互信息:I∈[0,+∞]MIC∈[0,1],0完全獨(dú)立,1完全關(guān)聯(lián)MIC的普適性(1)任意形式無(wú)噪音函數(shù)(線性或非線性),得分均為1。圓等非函數(shù)關(guān)聯(lián)亦能檢測(cè)到。MIC的普適性(2)WHO:不同國(guó)家婦女肥胖程度與收入的關(guān)系原因:幾個(gè)太平洋島國(guó),婦女肥胖程度與社會(huì)地位正相關(guān)!R2≈0,不顯著。MIC=0.26,弱關(guān)聯(lián)但顯著見(jiàn)前人之所未見(jiàn)!MIC的等價(jià)性等噪音強(qiáng)度的不同函數(shù),MIC得分接近。1-R2(y’-y)MIC的簡(jiǎn)單理念:畫(huà)格子計(jì)數(shù)不等間隔離散化尋優(yōu)[頻次分布,組距相等]X<0.330.33<X<0.66X>0.66Y>0.55205Y<0.535035X<0.250.25<X<0.75X>0.75Y>0.50500Y<0.525025等間隔均分不等間隔劃分MIC實(shí)現(xiàn)算法ApproxMaxMI分多少段?如何分段?強(qiáng)力搜索,計(jì)算密集型,動(dòng)態(tài)規(guī)劃算法劃分族(clump)與超族(Superclump)最大分段數(shù)

B(n):xy<n^0.6標(biāo)準(zhǔn)化矯正:logmin(x,y)MIC的局限MIC統(tǒng)計(jì)勢(shì)低,在小樣本時(shí)易導(dǎo)致虛假關(guān)聯(lián)。MIC∈[0,1],兩個(gè)獨(dú)立變量的MIC趨于0僅在樣本無(wú)窮大時(shí)成立。n=100,兩個(gè)獨(dú)立變量的MIC約為0.24。簡(jiǎn)單情形,分段數(shù)要少;復(fù)雜情形,分段數(shù)可多!不能統(tǒng)一采用最大分段數(shù)

B(n):xy<n^0.6

MIC的改進(jìn):Chi-MICOurwork核心思想:在動(dòng)態(tài)規(guī)劃算法中每增加一個(gè)分段點(diǎn)實(shí)施一次卡方測(cè)驗(yàn),若顯著則增加該分段點(diǎn),否則劃分終止。該多則多,該少則少!Chi-MIC的優(yōu)點(diǎn)(1)對(duì)任意無(wú)噪音函數(shù)ApproxMaxMI-MIC=Chi-MIC=1。Chi-MIC同樣具普適性。小樣本n=100,最大分段數(shù)n0.6,兩個(gè)獨(dú)立變量ApproxMaxMI-MIC≈0.24Chi-MIC≈0.06Chi-MIC的優(yōu)點(diǎn)(2)對(duì)有噪函數(shù),Chi-MIC有效地控制了格點(diǎn)劃分過(guò)多。Chi-MICApproxMaxMI-MIC無(wú)噪函數(shù)Chi-MIC的優(yōu)點(diǎn)(3)Chi-MIC有更高的統(tǒng)計(jì)勢(shì),更能發(fā)現(xiàn)弱關(guān)聯(lián)。統(tǒng)計(jì)勢(shì)是特定噪音強(qiáng)度下假設(shè)測(cè)驗(yàn)正確拒絕零假設(shè)的比值。雙向控制分段后B-chiMIC的統(tǒng)計(jì)勢(shì)更高。對(duì)Chi-MIC的再改進(jìn)-未發(fā)表Chi-MIC的優(yōu)點(diǎn)(4)Chi-MIC能更合理反映不同函數(shù)隨噪音增加復(fù)雜度MCN的變化。MCN是最終劃分格子數(shù)的對(duì)數(shù)。Log24=2Log28=3Log26=2.58Chi-MIC的優(yōu)點(diǎn)(5)四個(gè)UCI實(shí)例,單變量過(guò)濾,前向選擇,SVM預(yù)測(cè),Chi-MIC可以更少的保留特征獲得更高的獨(dú)立預(yù)測(cè)精度。Chi-MIC的優(yōu)點(diǎn)(6)Chi-MIC的搜索常常提前結(jié)束,更快捷,更適用于大數(shù)據(jù)。MIC的又一局限:不能反映配對(duì)互作兩變量關(guān)聯(lián)Y=f(X)三變量關(guān)聯(lián)Y=f(X1,X2):配對(duì)互作多變量關(guān)聯(lián)Y=f(X1,X2,…,Xm’)?MICisagreatstepforward,buttherearemanymorestepstotake.Speed.ACorrelationforthe21stCentury.Science,1502(2011)334一、特征選擇(2):考慮配對(duì)互作的三變量關(guān)聯(lián)仿真數(shù)據(jù):MIC不能檢測(cè)到配對(duì)互作!真實(shí)數(shù)據(jù)中配對(duì)互作:MIC不能檢測(cè)紅色:病人綠色:健康三變量關(guān)聯(lián)的分解(信息論)Jointeffect聯(lián)合效應(yīng)Interaction互作0~+∞三變量關(guān)聯(lián)的分解(最大互信息)NormalizationJointeffect0~1NormalizationInteraction-1~1Normalizationsinglefactoreffect0~1MIC(X1;X2;Y)實(shí)現(xiàn)算法:Ourwork?MIC(X1;X2;Y)實(shí)現(xiàn)算法MIC(X1X2;Y)的普適性(1)X1、X2

均與

Y無(wú)關(guān)。樣本大小

n=200,500次重復(fù)互作期望值:MIC(X1;X2;Y)=0互作計(jì)算值:MIC(X1;X2;Y)=0.0862±0.0130MIC(X1X2;Y)的普適性(2)Y完全由X1

X2的增效互作決定?;プ髌谕担篗IC(X1;X2;Y)=1互作計(jì)算值:MIC(X1;X2;Y)=1CalculatedMIC(X1;Y)

=0.0379CalculatedMIC(X2;Y)=0.0533Y

是X1

X2的無(wú)噪函數(shù),且X1

X2完全冗余。

如:互作期望值:MIC(X1;X2;Y)=-1互作計(jì)算值:MIC(X1;X2;Y)=-1CalculatedMIC(X1;Y)

=MIC(X2;Y)=1MIC(X1X2;Y)的普適性(3)Y

是X1

與X2

的無(wú)噪函數(shù)聯(lián)合效應(yīng)期望值:MIC(X1;X2;Y)+MIC(X1;Y)+MIC(X2;Y)=110個(gè)無(wú)噪音二元函數(shù)

Y=f(X1,X2)MIC(X1X2;Y)的普適性(4)MIC(X1X2;Y)的普適性(5)10個(gè)無(wú)噪二元函數(shù)的聯(lián)合效應(yīng)均接近于1MIC(X1X2;Y)的等價(jià)性等噪音強(qiáng)度的不同Y=f(X1,X2)函數(shù),

聯(lián)合效應(yīng)MIC(X1X2;Y)得分接近;近似滿足等價(jià)性。MIC(X1;X2;Y)發(fā)現(xiàn)增效基因:真實(shí)數(shù)據(jù)OverlapsamongMIC(X;Y),mRMR,SVM-RFEandTSGOverlapsamongMIC(X;Y),mRMR,SVM-RFEandTSGOverlapsamongMIC(X;Y),mRMR,SVM-RFEandTSGLittleoverlapsbetweenMIC(X1;X2;Y)andtheothersLungDLBCLProstate俺能找到他們找不到的!增效基因驗(yàn)證-預(yù)測(cè)表現(xiàn)MIC(X1;X2;Y)選取的增效基因具有與單效應(yīng)基因可比的預(yù)測(cè)能力俺找到的也是有用的!

Prostate增效基因與單效應(yīng)基因具相同或類似的生物學(xué)功能.增效基因驗(yàn)證-GO注釋俺找到的還算可信!

12600genes,Prostate數(shù)據(jù)集200增效基因,MIC(X1;X2;Y)選擇67

增效基因與腫瘤相關(guān),Ougene數(shù)據(jù)庫(kù)18

增效基因與prostate相關(guān),PubMed文獻(xiàn)增效基因驗(yàn)證-文獻(xiàn)報(bào)道俺找到的還算可信!

————————與Dendrogram-based方法比較與Dendrogram-based方法比較

單效應(yīng)基因增效基因Dendrogram-basedMIC-basedProstate數(shù)據(jù)集,Top2基因是騾子是馬,牽出來(lái)溜溜!沃爾瑪周末啤酒與尿不濕銷量的關(guān)聯(lián)全部數(shù)據(jù):關(guān)聯(lián)不明顯周末:關(guān)聯(lián)明顯原因:年輕爸爸,周末球賽直播組合擺放,銷量增加!該三變量關(guān)聯(lián)發(fā)現(xiàn)純屬偶然,MIC(X1;X2;Y)可主動(dòng)發(fā)現(xiàn)!Chi-MIC(X;Y),可普適選擇單效應(yīng)特征MIC(X1;X2;Y),可普適選擇配對(duì)增效特征多變量關(guān)聯(lián):最優(yōu)特征子集,?特征選擇小結(jié)二、學(xué)習(xí)機(jī)器選擇線性:多元線性回歸MLR非線性:人工神經(jīng)網(wǎng)絡(luò)ANN歸納演繹:歸納(特殊—一般),演繹(一般—特殊)轉(zhuǎn)導(dǎo)推理:特殊—特殊,支持向量機(jī)SVM都需要訓(xùn)練!MLR:Y=a+b1*x1+b2*x2,求參過(guò)程即訓(xùn)練ANN:權(quán)重調(diào)整過(guò)程即訓(xùn)練SVM:核函數(shù)參數(shù)C、g、p優(yōu)化過(guò)程即訓(xùn)練二、學(xué)習(xí)機(jī)器選擇需要訓(xùn)練:MLR、ANN、SVM不需要訓(xùn)練:直接推理?直接分類器1:TSG直接分類器2:TSG的改進(jìn)版,χ2-IRG-DC直接分類器3:相對(duì)簡(jiǎn)單度,RS-basedDC直接分類器決策過(guò)程示例YX1<3且X2<5X1<3且X2>5X1>3且X2<5X1>3且X2>5+25224(→25)3-0231(→2)22訓(xùn)練集n=100,保留特征為X1和X2某待測(cè)樣本(X1,X2)=(4,4)先假定其屬于正類,則24→25,得卡方值Chi+;再假定其屬于負(fù)類,則1→2,得卡方值Chi-;如Chi+>Chi-,則待測(cè)樣本屬于正類,反之屬于負(fù)類。多分類類推。過(guò)程中無(wú)任何參數(shù)需要調(diào)整尋優(yōu)。mRMR-SVM模型SVM-RFE-SVM模型17.2212.76需要訓(xùn)練分類器泛化性能過(guò)擬合!5.063.08直接分類:HC-KTSP模型直接分類:TSG模型直接分類器泛化性能有效控制過(guò)擬合!3.67直接分類:RS-basedDC模型直接分類器泛化性能有效控制過(guò)擬合!需要訓(xùn)練是多數(shù)分類器產(chǎn)生過(guò)擬合的主要原因。直接分類無(wú)任何參數(shù)需要優(yōu)化,可有效控制過(guò)擬合!三、樣本選擇預(yù)測(cè)某個(gè)待測(cè)樣本需要所有的訓(xùn)練樣本嗎?三峽大壩建或不建?全國(guó)人民投票,費(fèi)時(shí)費(fèi)力,未必準(zhǔn)確水利部長(zhǎng)一人說(shuō)了算,最近鄰,1NN;不穩(wěn)健若干不同領(lǐng)域?qū)<遥ㄋ?、發(fā)電、國(guó)防、生態(tài)、移民、泥沙沉積等)決策,K近鄰,KNN。K=?K值選擇難題如何從全國(guó)15億人口中找出這K1個(gè)專家?換一個(gè)待測(cè)樣本,葛洲壩水電站,

K2=K1?個(gè)性化預(yù)測(cè)(個(gè)性化醫(yī)療)基于地統(tǒng)計(jì)學(xué)GS的個(gè)性化預(yù)測(cè)隨機(jī)變量:經(jīng)典統(tǒng)計(jì)學(xué)區(qū)域化隨機(jī)變量:地統(tǒng)計(jì)學(xué)a變程C基臺(tái)C0

塊金變程以內(nèi)的樣本被認(rèn)為是相關(guān)的!特征加權(quán):MIC(Y;Xi)高維空間:加權(quán)明氏距離變程a待測(cè)樣本K1=14K2=10K3=8待測(cè)樣本——————————————————————————20126篇[1]Zhang,H.Y.,Wang,H.Y.,Dai,Z.J.,Chen,M.S.,&Yuan,Z.M.*(2012).Improvingaccuracyforcancerclassificationwithanewalgorithmforgenesselection.BMCBioinformatics,13(1),298.(Highlyaccessed)(SCI,IF=3.02)[2]Zhou,W.,Dai,Z.J.,Chen,Y.,Wang,H.Y.,&Yuan,Z.M.*(2012).High-dimensionaldescriptorselectionandcomputationalQSARmodelingforantitumoractivityofarc-111analoguesbasedonsupportvectorregression(SVR).Internationaljournalofmolecularsciences,13(1),1161-1172.(SCI,IF=2.6)[3]Li,J.L.,Wang,L.F.,Wang,H.Y.,Bai,L.Y.,&Yuan,Z.M.*(2012).High-accuracysplicesitespredictionbasedonsequencecomponentandpositionfeatures.GeneticsandMolecularResearch,11(3),3432-3451.(SCI)[4]Qian,G.,Wang,H.Y.,Yuan,Z.M.*(2012).UsinghomologyinformationfromPDBtoimprovetheaccuracyofproteinβ-turnpredictionbyNetTurnP.ProgressinBiochemistryandBiophysics,39(5),472-482.(SCI)[5]Wang,L.F.,Tan,X.S.,Bai,L.Y.,&Yuan,Z.M.*(2012).EstablishinganinterpretabilitysystemforsupportvectorregressionanditsapplicationinQSARoforganophosphorusinsecticide.

AsianJournalofChemistry,

24(4),1575-1578.(SCI)[6]Su,M.,Wang,L.F.,Dai,Z.J.,Yuan,Z.M.*,Bai,L.Y.(2012).

PrimarystructuralcharacterizationsofpolypeptideandantimicrobialpeptidesQSAMmodeling.ChemicalJournalOfChineseUniversities,33(11),2526-2531.(SCI)近5年論文20136篇[1]Wang,H.Y.,Zhang,H.Y.,Dai,Z.J.,Chen,M.S.,&Yuan,Z.M.*(2013).TSG:anewalgorithmforbinaryandmulti-classcancerclassificationandinformativegenesselection.BMCmedicalgenomics,6(Suppl1),S3.(SCI,IF=3.47)[2]WANG,Z.M.,HAN,N.,Yuan,Z.M.*,&WU,Z.H.(2013).Featureselectionforhigh-dimensionaldatabasedonridgeregressionandSVManditsapplicationinpeptideQSARmodeling.

ActaPhysico-ChimicaSinica,

29(3),498-507.(SCI)[3]Zhou,W.,Dai,Z.J.,Chen,Y.,&Yuan,Z.M.*(2013).ComputationalQSARmodelswithhigh-dimensionaldescriptorselectionimproveantitumoractivitydesignofARC-111analogues.

MedicinalChemistryResearch,

22(1),278-286.(SCI)[4]Wang,L.F.,Tan,X.S.,Yuan,Z.M.*,&Bai,L.Y.(2013).NovelQSARcombinationforecastmodelforinsectrepellentcouplingsupportvectorregressionandK-nearest-neighbor.JournaloftheChemicalSocietyofPakistan,35(4),1075-1080.(SCI)[5]Han,N.,Yuan,Z.M.*,Chen,Y.,Dai,Z.J.,&Wang,Z.M.(2013).PredictionofHLA-A*0201restrictedcytotoxicTlymphocyteepitopesbasedonhigh-dimensionaldescriptornonlinearscreening.

ActaPhysico-ChimicaSinica,

29(9),1945-1953.(SCI)[6]Xie,Y.G.,Zhang,H.Y.,Wang,H.Y.,Wang,L.F.,Yuan,Z.M.*(2013).PredictionofmultidimensionaltimeseriesbasedonGS-RSR-SVRanditsapplicationinagriculturaleconomy.BulgarianJournalofAgriculturalScience,19(No6),1327-1336.(SCI)20145篇[1]Dai,Z.J.,Wang,L.F.,Chen,Y.,Wang,H.Y.,Bai,L.Y.,&Yuan,Z.M.*(2014).ApipelineforimprovedQSARanalysisofpeptides:physiochemicalpropertyparameterselectionviaBMSF,near-neighborsampleselectionviasemivariogram,andweightedSVRregressionandprediction.Aminoacids,46:1105-1119.(SCI,IF=3.65)[2]Wang,L.F.,Dai,Z.J.,Zhang,H.Y.,Bai,L.Y.,&Yuan,Z.M.*(2014).QSAMAnalysisofOligopeptidesCouplinganImprovedHigh‐DimensionFeatureSelectionMethodwithSupportVectorRegression.ChemicalBiology&DrugDesign,83:379-391.(SCI,IF=2.469)[3]ZhangHY,LiLZ,LuoC,SunCW,ChenY,DaiZJ,YuanZM*.(2014).Informativegeneselectionanddirectclassificationoftumorbasedonchi-squaretestofpairwisegeneinteractions.BioMedResearchInternational,/10.1155/2014/589290.(SCI,IF=2.706)[4]LiY,ZhouW,DaiZJ,ChenY,WangZM,YuanZM*.(2014).Predictingtheproteinfoldingratebasedonsequencefeaturescreeningandsupportvectorregression.ActaPhysico-ChimicaSinica,30(6):1091-1098(SCI)[5]KaiWang,Li-FengWang,Zhi-JunDai,Lian-YangBai,Zhe-MingYuan*.(2014).QSARmodelingofE.colipromoterswithparametersselectedbybinarymatrixshufflingfilter.J.IndianChem.Soc.,91:2247-2253(SCI)20154篇[1]ZhouW.,WuS.B.,DaiZ.J.,ChenY.,XiangY.,ChenJ.R.,SunC.Y.,ZhouQ.M.,YuanZ.M.*(2015).NonlinearQSARmodelswithhigh-dimensionaldescriptorselectionandSVRimprovetoxicitypredictionandevaluationofphenolsonphotobacteriumphosphoreum.ChemometricsandIntelligentLabor

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論