一種多標簽半監(jiān)督學習方法_第1頁
一種多標簽半監(jiān)督學習方法_第2頁
一種多標簽半監(jiān)督學習方法_第3頁
一種多標簽半監(jiān)督學習方法_第4頁
一種多標簽半監(jiān)督學習方法_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

一種多標簽半監(jiān)督學習方法

近年來,半監(jiān)測學習方法是機械學習領域的研究重點。先后設計了模型、合作培訓、半監(jiān)測圖像和直推支持向量機的方法。區(qū)別于有監(jiān)督和無監(jiān)督學習方法,半監(jiān)督學習同時從已標簽數(shù)據(jù)和無標簽數(shù)據(jù)中學習,使得最終的目標函數(shù)在全部數(shù)據(jù)(包括已標簽和無標簽數(shù)據(jù))上滿足流形或者聚類等假設。多數(shù)情況下,如果無標簽數(shù)據(jù)有助于對數(shù)據(jù)分布或者結構的學習,半監(jiān)督學習方法比純粹的有監(jiān)督或無監(jiān)督學習方法有更好的學習效果,因此在已標簽數(shù)據(jù)獲得困難,且又存在大量無標簽數(shù)據(jù)的應用中,半監(jiān)督學習方法的作用顯得尤其重要。多標簽學習(multi-labellearning)是目前機器學習領域中的一個熱點問題。傳統(tǒng)的分類學習包括多類學習(multi-classlearning)問題,每個樣本只屬于一個類別。然而在很多實際問題中,一個樣本可能同時屬于多個類別。例如,一篇文檔可能屬于多個預定義的主題;一張圖片可能同時具有多個語義;一個基因可能具有多種功能。至今,研究者們已經提出了多種多標簽學習方法,大致可以分為問題轉換方法,包括ClassifierChains、Randomk-labelsets,以及算法改進方法,包括MLKNN(multi-labelk-nearestneighbor)多標簽圖半監(jiān)督學習方法。MLKNN作為近鄰法在多標簽情況下的推廣,在多篇報道中的多個數(shù)據(jù)集上都有略好于其他方法的表現(xiàn),是多標簽學習中最好的方法之一。與以往的所有半監(jiān)督學習方法相比,筆者提出的最大化依賴性多標簽半監(jiān)督學習方法以最大化所有樣本特征集(包括已標簽和未標簽樣本)和標簽集之間的依賴程度作為學習的假設前提和目標,與傳統(tǒng)半監(jiān)督學習方法將聚類假設或流形假設等作為利用無標簽樣本的方式不同。樣本特征集和標簽集之間的依賴性可以采用CCA(canonicalcorrelationanalysis)、KCC(KernelConstrainedCovariance)以及HSIC(Hilbert-SchmidtIndependenceCriterion)。HSCI對再生核希爾伯特空間(RKHS)上的希爾伯特-施密特算子進行統(tǒng)計估計,提出的依賴性經驗估計值在理論上具有收斂速度快和計算簡單等特點。因此,筆者選用HSIC作為樣本特征集和標簽集之間依賴程度的度量和優(yōu)化目標,并在添加樣本已有標簽作為約束的情況下,將DMMS轉換為線性系統(tǒng)求解問題,具有實現(xiàn)簡單、無參的特點。本質上,無論樣本點有多少個標簽,DMMS總是將其所有的標簽看成一個點映射至標簽集所在的再生核希爾伯特空間。類似地,每個樣本的樣本值也映射至樣本集所在的再生核希爾伯特空間,進而通過最大化該兩個空間的互協(xié)方差(cross-covariance)算子對應統(tǒng)計量的估計值得到未標簽樣本所有可能的標簽。因此,DMMS不僅是一個半監(jiān)督學習方法,而且不需做任何改進,本身就是多標簽學習方法。筆者在多個真實多標簽數(shù)據(jù)庫對比了DMMS、MLKNN和同樣適用于多標簽學習的圖半監(jiān)督學習方法,實驗結果表明,DMMS作為一種新的多標簽半監(jiān)督學習方法是可行的。1hsic的基本原理HSIC是一種基于核的獨立性度量方法。該類方法總的原則是在再生核希爾伯特空間上定義互協(xié)方差算子,進而從這些算子中推導出適合度量獨立性的統(tǒng)計量來決定獨立性的大小。HSIC采用的是Hilbert-Schmidt互協(xié)方差算子,通過對該算子范數(shù)的經驗估計得到獨立性判斷準則。假設M和N都是可分度量空間。令F為M的再生核希爾伯特空間,F中元素f是M到R的函數(shù)。M到F上的映射記為Φ:M→F,于是核函數(shù)可以寫為式中,〈·,·〉F表示空間F上的內積。類似地,將N的再生核希爾伯特空間記為G,有N到G的映射Ψ:N→G,相應的核函數(shù)為假設PrX×Y是(M×N,?!力?上的聯(lián)合分布,Γ和Λ分別是M和N的Borel集。相應的邊緣分布分別記為PrX和PrY,互協(xié)方差算子Cxy:G→F定義為式中,μx和μy分別表示Φ(x)和Ψ(y)的期望,ue3c1表示張量積,對任意f∈F和g∈G,有fue3c1g:G→F為Cxy可以看成Hilbert-Schmidt算子,而所謂的HSIC即定義為Cxy的Hilbert-Schmidt算子范數(shù),也即在觀察得到數(shù)據(jù)Z=((x1,y1),(x2,y2),…,(xn,yn))的基礎上,可以給出HSIC的經驗估計值為式中,H,K,L∈Rn×n,H=I-(1/n)eeT,I為單位矩陣,e是元素值全為1的列向量,K和L分別是核k和l關于Z觀測值的Gram矩陣,即Kij=k(xi,xj)以及Lij=l(yi,yj)。HSIC的經驗估計值在理論上已經被證明具有收斂速度快以及計算簡單等優(yōu)點,其值越大說明M和N的關聯(lián)性越強,等于0時說明M和N相互獨立。2學習目標與方法考慮到樣本特征與其標簽具有一定聯(lián)系的基本假設,本文利用HSIC量化樣本特征集與標簽集之間的關聯(lián)程度,并通過最大化HSIC為無標簽樣本打上標簽。給定已標簽數(shù)據(jù)集和未標簽數(shù)據(jù)集分別為:式中,M和N分別是樣本特征集和標簽集所在空間。假設樣本可能的類別總數(shù)為m,則已標簽樣本xi(i=1,2,…,l)的標簽yi是一個m維列向量,且:假設無標簽數(shù)據(jù)xj(j=v+1,v+2,…,v+u)的標簽yj∈Rm已知(與已標簽樣本的標簽表示方法類似,yj也是m維列向量,只是其中元素是實數(shù),可以看成是樣本的“軟標簽”,本文目標即是求得這些“軟標簽”),記:給定M和N上的核函數(shù)分別為k(x,x′)(x,x′∈M)和l(y,y′)(y,y′∈N),則可得到它們關于X和Y的Gram矩陣K和L,從而有式中,F和G分別是M和N的再生核希爾伯特空間,H的定義同式(6),n=v+u表示樣本總數(shù)。簡單起見,標簽集上的核函數(shù)取為線性核,即l(y,y′)=y′Ty(y,y′∈N),重寫式(9)的跡,有DMMS方法的目標就是求解Y,使得樣本特征集和標簽集的關聯(lián)性即式(10)的值最大。然而,因為K是一個半正定的Gram矩陣,而H又是對稱矩陣,因此HKH同樣是個半正定矩陣,如果沒有其他的限制條件,式(10)事實上沒有最大值。針對該問題,常見的方法是對Y進行限制,比如限制YTY=I,但可能會對求解帶來一些麻煩。本文的方法是添加正則項,修改式(10)為優(yōu)化目標:式中,D是對角矩陣,且。顯然,H(K+D)H是半負定矩陣,因此式(11)有最大值。注意到Y對應于已標簽樣本部分是已知的,本文將已知標簽作為邊界條件。記YV為Y中對應于已標簽樣本部分,并令DMMS最終寫為以下優(yōu)化問題:顯然,DMMS的學習效果取決于對依賴性進行估計的準確程度。從式(3)和(5)可知,依賴性取決于對互協(xié)方差算子的估計,而互協(xié)方差算子是張量積的期望和μx的和。大量無標簽樣本的加入對于該兩項的估計無疑都有幫助。因此,可以期望DMMS能夠利用無標簽樣本提高對依賴性估計的準確程度,從而提高學習準確率。此外,從式(7)可知DMMS對于標簽集中元素的維數(shù)和值并沒有限制,且無論樣本的標簽是多少維和值是多少,都只能將其看Y中一個點映射至再生核希爾伯特空間,因此DMMS同時也是一種多標簽學習方法。3解析解求解為了求解具有邊界條件的最優(yōu)化問題式(13),將A按照已標簽和無標簽樣本的劃分分成4部分,有式中,AV和AU分別對應已標簽和未標簽樣本,ATUV=AVU。類似地有于是有YV=[y1,y2,…,yv]是固定值,優(yōu)化問題進一步轉換為由式(12)和(14)可知,AU是半負定矩陣,因此式(17)存在解析解。令可得求解上述線性方程組可以得到無標簽樣本的“軟標簽”YU?!败洏撕灐笨梢哉J為是給出了無標簽樣本屬于某類的置信值,比如Yij是第j個樣本屬于第i類的置信值,其值越大就越有理由相信其是屬于第i類。此外,從DMMS的求解步驟來看,DMMS具有實現(xiàn)簡單以及無參的特點,求解主要可分成兩步:1)根據(jù)指定的核函數(shù)求出樣本特征集的Gram矩陣以及相應的A矩陣;2)求解線性方程組式(20)。4反k折交叉驗證為了凸顯無標簽樣本對學習效果的影響,實驗評測采取本文提出的反k折交叉驗證(reversek-foldcrossvalidation)的方式。所謂反k折交叉驗證指樣本集被分成k組,每一組輪流當訓練集,剩下的k-1組作為測試集,與k折交叉驗證正好相反。通過反k折交叉驗證,本文對比了DMMS、MLKNN和圖半監(jiān)督學習方法在多標簽學習問題方面的學習效果。4.1基于近鄰圖的監(jiān)督學習方法DMMS在樣本特征集上的核函數(shù)選為常用的高斯核,即另外,MLKNN和圖半監(jiān)督學習方法均需要構建近鄰圖。設近鄰數(shù)目統(tǒng)一為15,并將式(21)作為構圖過程中任意兩個樣本特征之間的相似度(距離)計算公式。最后,取定MLKNN中的平滑參數(shù)值為1。4.2清體現(xiàn)代機械系統(tǒng)實驗所用的數(shù)據(jù)集可以從開源項目mulan下載得到。這些數(shù)據(jù)集被廣泛用于多標簽學習中[6,7,8,9,10,11,12,13],如表1所示。4.3單標記類預測結果傳統(tǒng)的單標簽分類問題中的評測指標包括的準確率、查準率、查全率和F-measure等都不適用于多標簽學習問題。多標簽學習問題中的評測要比單標簽學習的評測復雜很多。文獻定義了目前多標記學習中的5種常用評價指標,具體公式可參見原文。簡介如下:1)漢明損失:指定閾值后,可以通過樣本類屬置信值預測得到任意未標簽樣本的類屬,比如yji大于閾值,則認為第i個樣本屬于第j類。漢明損失可衡量預測結果與樣本實際類屬之間的不一致程度,即樣本屬于某類但未被識別出,或不屬于某類卻被誤判的可能性。2)1-錯誤率:描述對任一樣本類屬置信值最高的類屬不是其實際類別的平均可能性,在單標記學習中,演化成普通的分類錯誤率。3)覆蓋率:將任意樣本對應的類屬置信值降序排序,覆蓋率衡量從置信值最高的類別開始,平均需要跨越多少個類屬才能覆蓋樣本所屬的全部類別。4)排序損失:表明預測結果里真實所屬類別的置信值低于非所屬類別置信值的可能性。5)平均精度:平均精度反映置信值大于真實類別置信值的類屬全是樣本所屬真實類別的可能性。5項指標值中,只有平均精度是越大越好(最大為1),其他指標都是越小說明學習方法越有效。4.4dmms和gsl在sc環(huán)境保護基本參數(shù)下的差異本文在Emotions、Yeast、Scene三個真實數(shù)據(jù)庫上對比了圖半監(jiān)督學習(GSL)、MLKNN和DMMS三種方法的分類效果。實驗分為兩組:第一組實驗是反5折交叉驗證,即已標簽數(shù)據(jù)占總數(shù)據(jù)的1/5,實驗結果分別如表2、3和4所示,分別是Emotions,Yeast和Scene三個數(shù)據(jù)庫上的結果;第二組實驗是反10折交叉驗證,已標簽數(shù)據(jù)只占總數(shù)據(jù)的1/10,類似地,實驗結果分別如表5、6和7所示。表中的黑體表示在某指標里表現(xiàn)最好的值。從第一組的實驗結果可以看到,DMMS在Scene數(shù)據(jù)集中的各項指標都要好于其他兩個方法,Emotions數(shù)據(jù)集上DMMS方法要好于MLKNN方法,略差于GSL方法。Yeast數(shù)據(jù)集是DMMS表現(xiàn)最差的一個數(shù)據(jù)集,盡管如此,DMMS在該數(shù)據(jù)集的one-error指標上依然得到了一個最小值,說明如果只返回一個類屬,則DMMS的結果最可信。MLKNN的結果在Emotions數(shù)據(jù)集上的效果不理想,可能的原因是在反5折交叉驗證實驗里,該數(shù)據(jù)集用于實驗的已標簽樣本只有一百多個,對MLKNN影響很大,而對屬于半監(jiān)督學習方法的GSL和DMMS的影響則小很多。類似的結果可以從第二組實驗看到,DMMS在Scene數(shù)據(jù)集上的各項指標值依然都要略好于其他兩個方法,并且在Yeast數(shù)據(jù)集的hammingloss指標上取得了略好于其他方法的結果,由原來的第二位上升到了第一位。此外,因為第二組實驗中已標簽數(shù)據(jù)的數(shù)目下降為原來的一半,所有方法在各個指標上的值都略為變差。DMMS和GSL作為半監(jiān)督學習方法,相較于MLKNN受該方面的影響比較輕微。比如,對比DMMS方法在Scene數(shù)據(jù)集上兩次的實驗結果,基本上沒有很大變化,平均精度都維持在了0.83上??傊?上述實驗說明DMMS作為多標簽半監(jiān)督學習方法可以有效地從無標簽樣本中學習,并且適用于多標簽學習問題。5最大化依賴多標簽半監(jiān)督學習方法的局限性在希爾伯特-施密特獨立性(Hilbert-Schmidtindependencecriterion,HSIC)的基礎上提出了最大化依賴性多標簽半監(jiān)督學習方法。該方法是一種多標簽半監(jiān)督學習方法,具有實現(xiàn)簡單且無參等特點。在Scene等真實數(shù)據(jù)庫上的實驗表明,最大化依賴性多標簽半監(jiān)督學習方法具有類似于其他多標簽方法的學習效果,甚至有可能在已標簽樣本稀少的情況下略

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論