版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 計(jì)算機(jī)視覺中的學(xué)習(xí):幾點(diǎn)想法Maria PetrouCommunications and Signal Processing Group,Electrical and Electronic Engineering Department,Imperial College,London SW7 2AZ, UK摘要:歸納的能力是學(xué)習(xí)的最重要的品質(zhì),并且歸納總結(jié)可以通過(guò)模型識(shí)別系統(tǒng)了解知識(shí)的規(guī)律而不是它的表面,一個(gè)叫知識(shí)庫(kù)的東西已經(jīng)被提上日程了,通過(guò)它所有的知識(shí)都能過(guò)被組織起來(lái),一個(gè)通過(guò)使用這個(gè)知識(shí)庫(kù)和效用理論方面的知識(shí)的翻譯場(chǎng)景系統(tǒng)也被提上日程了,同時(shí)有人認(rèn)為,全部一致的標(biāo)簽解決方案是一個(gè)人造認(rèn)知
2、體系既不可能,也不可取。1 引言通常“學(xué)習(xí)”這個(gè)詞在現(xiàn)代社會(huì)有很多種解釋,特別是從計(jì)算機(jī)語(yǔ)言來(lái)看。它已經(jīng)被用來(lái)解釋很多事物,從傳輸數(shù)據(jù)到怎樣去識(shí)別視覺結(jié)構(gòu),這些領(lǐng)域最有價(jià)值參數(shù)的定義都將可以得到解釋。所以,我們應(yīng)該試著去理解這個(gè)世界的現(xiàn)象,就像它出現(xiàn)在認(rèn)知領(lǐng)域相關(guān)數(shù)學(xué)方程式中的問(wèn)題一樣。在下面的部分,我們首先要從電腦視角去了解學(xué)習(xí)的意義,同時(shí)去探究這個(gè)世界的兩種定義之間的可能聯(lián)系。2 學(xué)習(xí)的主要特征和認(rèn)知任務(wù)有關(guān)的第一算法的部分內(nèi)容已經(jīng)被提上日程,它們的主要內(nèi)容主要是有關(guān)的神經(jīng)網(wǎng)絡(luò)的。神經(jīng)網(wǎng)絡(luò)的支持者們經(jīng)常評(píng)論他們所開發(fā)的神經(jīng)網(wǎng)絡(luò)的歸納能力。歸納是學(xué)習(xí)的主要特點(diǎn)之一。事實(shí)上,我們?cè)诮涛覀兊暮⒆?/p>
3、時(shí)常常用童話故事和比喻,通常假定他們有能力把它們推廣到實(shí)際情況中去。為了能確保我們能夠教會(huì)我們的孩子,我們時(shí)常希望把生活中可能遇到的情況都交給他們,我想這種情形是十分可笑的。因此我們可以肯定推斷歸納總結(jié)的能力是學(xué)習(xí)中最重要的能力。L. Rueda, D. Mery, and J. Kittler (Eds.): CIARP 2007, LNCS 4756, pp. 112,2007.c Springer-Verlag Berlin Heidelberg 2007 這意味著這種利用訓(xùn)練樣本區(qū)間跨越特征空間的經(jīng)典模型識(shí)別方法并不是這個(gè)世界認(rèn)知意識(shí)的真正的學(xué)習(xí)方法。為了能夠更好的推廣,這種建立在規(guī)律
4、上的神經(jīng)網(wǎng)絡(luò)通常在很大程度上依賴于有足夠的訓(xùn)練樣本才能填充足夠的特征空間。神經(jīng)網(wǎng)絡(luò)的這種訓(xùn)練方法通常被用來(lái)去靠近與分段線性部分特征空間中的類邊界。當(dāng)一個(gè)未知的模式到來(lái)時(shí),它能夠和已經(jīng)確定的填充空間聯(lián)系起來(lái),從而能夠把模型出現(xiàn)的地方填充起來(lái)。一些舊的和一些最近剛開發(fā)的方法是通過(guò)選擇在類邊界中其主要作用的模型實(shí)現(xiàn)的,而不是使用高一級(jí)的歸納能力,這些方法都是一些簡(jiǎn)單可行的方法。所以,神經(jīng)網(wǎng)絡(luò)和模式識(shí)別方法并不是這個(gè)世界認(rèn)知意識(shí)上的學(xué)習(xí)方法。問(wèn)題在于:是這種被認(rèn)知科學(xué)家和心理學(xué)家理解意義上的學(xué)習(xí)就是算法 ,還是某種超越目前掌握的數(shù)學(xué)形式?反對(duì)學(xué)習(xí)就是算法的證據(jù)是人類的學(xué)習(xí)能力來(lái)自于一些簡(jiǎn)單的例子。同樣
5、相反的觀點(diǎn)是人類花大量的時(shí)間去學(xué)習(xí) ,我們所見證的是一個(gè)簡(jiǎn)單的學(xué)習(xí)是這些新方法的應(yīng)用的表現(xiàn),比如一些通用的規(guī)則, 元知識(shí)一直慢慢刻畫在潛意識(shí)里了。我要澄清一下,“學(xué)習(xí)”在這里不是指取得一個(gè)大學(xué)學(xué)位。這的確是一個(gè)很漫長(zhǎng)的過(guò)程,這是需要大約三分之一的壽命的一個(gè)人。學(xué)習(xí)這里喻指生存技能,操作技能在日常生活中。由于人類成長(zhǎng)期在大約 12 - 15 歲之間,我們可以假定自然認(rèn)為人類兒童已經(jīng)準(zhǔn)備好怎樣面對(duì)生活在那個(gè)階段。所以 ,我們可以說(shuō),人類作為獨(dú)立的實(shí)體生命“學(xué)習(xí)”他們要學(xué)習(xí)的東西要經(jīng)過(guò) 12 - 15 年的時(shí)間,這將是他們生命中很長(zhǎng)的一段時(shí)間。所以,人類似乎是一個(gè)很慢的學(xué)習(xí)者。他們花很多時(shí)間去了解元
6、知識(shí)的規(guī)則。正是這些被人們從數(shù)學(xué)算法的角度掌握的規(guī)則使人們能夠很快的掌握知識(shí),這就是我們經(jīng)常的見到的例子。我們也許會(huì)從以上的觀點(diǎn)得出以下結(jié)論:- 歸納總結(jié)的一個(gè)重要特征是學(xué)習(xí);- 在算法學(xué)習(xí)中,概括必須得到足夠的訓(xùn)練,從而能夠填充整個(gè)類空間部分,或者是類邊界的部分地方;- 我們都有真實(shí)的歸納命題能力 ,只有當(dāng)由訓(xùn)練的例子學(xué)會(huì)知識(shí)變成如何間接地提取物體的身份而不是對(duì)象的類。如果這樣的學(xué)習(xí)發(fā)生,完全未知的東西可能會(huì)得到正確的解釋,即使在沒有先前的例子的情況下。這個(gè)結(jié)論意味著我們必須教導(dǎo)計(jì)算機(jī)怎樣去做,為的是建造一個(gè)認(rèn)知系統(tǒng),這是關(guān)系,而不是事實(shí)。例如,背字典的一種語(yǔ)言,沒有教一個(gè)人的語(yǔ)言。這個(gè)人必
7、須去學(xué)習(xí)單詞之間的關(guān)系,以掌握這門語(yǔ)言。這是同意溫斯頓的創(chuàng)新實(shí)驗(yàn)教計(jì)算機(jī) 認(rèn)識(shí)拱門,但不給計(jì)算機(jī)所有它可能遇到拱門。他把這個(gè)例子和柜臺(tái)拱的例子教給它,教它識(shí)別組件之間的關(guān)系,如“支持”和“被支持”之間的關(guān)系。3 知識(shí)和元知識(shí)至少有 50 個(gè)學(xué)習(xí)方面的理論的已經(jīng)被認(rèn)知科學(xué)家寫出來(lái)了。在計(jì)算機(jī)科學(xué)中,我們往往會(huì)區(qū)分兩種形式的學(xué)習(xí): 試驗(yàn)式的學(xué)習(xí)和證明式的學(xué)習(xí)。歸納學(xué)習(xí)也被計(jì)算機(jī)科學(xué)家使用了,但是我們不應(yīng)該像那樣去處理,因?yàn)樗馕吨鴮W(xué)習(xí)者已經(jīng)學(xué)會(huì)了邏輯法則。所以,歸納學(xué)習(xí)可能被認(rèn)為是已學(xué)中的應(yīng)用元知識(shí)規(guī)則實(shí)驗(yàn)的能力,學(xué)習(xí)意味著嘗試和給出結(jié)果,并從中得出結(jié)論。它最簡(jiǎn)單的形式就像全自動(dòng)的過(guò)程一樣。全自動(dòng)
8、分割算法,例如,將工作如下:進(jìn)行分割,評(píng)估結(jié)果質(zhì)量,調(diào)整參數(shù),然后再試一次。直接的結(jié)論是:實(shí)驗(yàn)式的學(xué)習(xí)需要反饋回路。還要求一個(gè)可用的標(biāo)準(zhǔn)進(jìn)行系統(tǒng)工作怎樣的一個(gè)判斷依據(jù)。這個(gè)標(biāo)準(zhǔn)的成為獨(dú)立知識(shí)或信息用于進(jìn)行信息分段,是非常重要的,否則結(jié)果將是一個(gè)預(yù)言式的幻想而已。在半自動(dòng)系統(tǒng),則是由人來(lái)決定。報(bào)告的結(jié)果則包括文學(xué)的聲明類型:“最好的閾值是通過(guò)嘗試與錯(cuò)誤發(fā)現(xiàn)的?!斑@種方法是一種非常合理的學(xué)習(xí)方式。就像一個(gè)受到監(jiān)督式學(xué)習(xí)的雨傘,它對(duì)于幫助人類學(xué)習(xí)來(lái)說(shuō)就像一個(gè)教師。飛往完全自動(dòng)化的方法是相當(dāng)于假設(shè)計(jì)算機(jī)可能通過(guò)學(xué)習(xí)元知識(shí)階段,需要構(gòu)建規(guī)則,現(xiàn)在學(xué)習(xí)收益很快,利用這些元規(guī)則。例如,如果我們知道農(nóng)業(yè)等行業(yè)
9、傾向于有直的邊界,可以分辨部分輸出捕捉到的圖像的好與壞 ,它是通過(guò)空氣傳播的傳感器捕捉到的,根據(jù)它是否產(chǎn)生了地區(qū)邊界直。那個(gè)領(lǐng)域的知識(shí)是一個(gè)元知識(shí)是直的邊界。部分可能操作只使用紋理和邊緣信息。邊界推斷何以直,可用于作為標(biāo)準(zhǔn)來(lái)驅(qū)動(dòng)系統(tǒng)使用其反饋回路,以制定出一個(gè)更好的分割。問(wèn)題于是變?yōu)?系統(tǒng)如何獲得這元知識(shí)?早些時(shí)候,那一定是元知識(shí)必須要由人類的孩子 (或計(jì)算機(jī)學(xué)習(xí)者 )痛苦地緩慢掌握通過(guò)大量觀察農(nóng)業(yè)領(lǐng)域的例子。雖然沒有發(fā)現(xiàn)可以將這些元知識(shí)移植到人類孩子的大腦中的有效方法。從老師的大腦中,計(jì)算機(jī)的優(yōu)勢(shì)在這里:更像一個(gè)老師,就是我們?nèi)祟?我們可插入把元知識(shí)進(jìn)入系統(tǒng)當(dāng)正在進(jìn)行的標(biāo)準(zhǔn)算法的自我評(píng)估。從
10、這個(gè)的論點(diǎn),我們得出結(jié)論:- 可能在出現(xiàn)時(shí)不僅有未注冊(cè)的關(guān)系,而且特點(diǎn),類對(duì)象都有。- 在交互系統(tǒng)中,元知識(shí)被人類老師人為地插入到計(jì)算機(jī)學(xué)習(xí)者大腦中。- 在自動(dòng)化系統(tǒng), 元知識(shí)被用來(lái)對(duì)計(jì)算機(jī)的學(xué)習(xí)者提供人類的老師績(jī)效考核的標(biāo)準(zhǔn)的形式。出現(xiàn)了兩個(gè)問(wèn)題是: - 什么把知識(shí)和元知識(shí)連接起來(lái)?- 開始的時(shí)候如何學(xué)習(xí)元知識(shí)?4 論證式學(xué)習(xí)為了回答上述問(wèn)題,我們得到了一個(gè)從我們前面提到的第二種類型學(xué)習(xí)的機(jī)會(huì),即通過(guò)示范學(xué)習(xí)線索。這里的示范者是老師。接下來(lái)是一個(gè)故事,我從我奶奶聽到。請(qǐng)記住,兒童的傳統(tǒng)的教學(xué)方式一直被通過(guò)故事和比喻。這個(gè)故事提供的線索,是我們正在尋找的內(nèi)容?!昂芫靡郧坝幸粋€(gè)陶工,他得到一個(gè)學(xué)
11、徒并且可以讓他有學(xué)習(xí)陶藝技術(shù)的機(jī)會(huì)。陶工把他的陶壺放在烤箱里。兩個(gè)小時(shí)后,他把火滅了坐下來(lái)休息,抽起煙來(lái),就像他是一個(gè)老人一樣。然后,他把盆拿出烤箱。它們看上去真是太完美了。學(xué)徒后來(lái)決定做自己的盆。他讓他們拿出粘土,放在烤箱里。兩個(gè)小時(shí)之后,他也把他們拿出來(lái)。但是這些壺都?jí)牧?。他重?fù)同樣的工作但卻得到同樣的結(jié)果。他找到那個(gè)陶工并問(wèn)他說(shuō):“你沒真正的教我。這樣事情不可能發(fā)生如果你真的教我的話。”“難道你停止吸煙后,您關(guān)掉火了?”“不,我不吸煙?!薄澳鞘且?yàn)槟隳贸隽丝鞠渑璩龅锰缌恕!蔽蚁嘈胚@個(gè)故事是有關(guān)我為了教我們要注意細(xì)節(jié)而講的。事實(shí)上,如果陶工的徒弟看了陶工來(lái)回幾十次表演的時(shí)候注意一些輕微變
12、化,而且始終與前稍作停,他可能學(xué)到做陶盤至關(guān)重要的過(guò)程。另一方面,如果老師給出了明確的信息的話,那么這個(gè)老師可能就是一個(gè)更好的老師了。所以,這個(gè)故事告訴我們,我們學(xué)習(xí)新知識(shí)是從很少的例子當(dāng)中獲得的,如果想快速獲得的話只有當(dāng)有人向我們解釋他么不是怎樣做到的才行。一個(gè)孩子一直問(wèn)“為什么”,這才是一個(gè)孩子如何才能學(xué)習(xí)好的辦法。這告訴我們“我們不能撇清學(xué)習(xí)認(rèn)識(shí)到每個(gè)對(duì)象的學(xué)習(xí),為什么它是這樣的”。有人可能會(huì)想到下面的老師和學(xué)生之間的交流和學(xué)習(xí):“這是什么?”“這是一個(gè)窗口。”“為什么?”“因?yàn)樗尮膺M(jìn)來(lái),并允許人們看到了?!薄澳窃鯓幼瞿??”“通過(guò)具有一個(gè)寬闊的視野?!薄斑@是是真的嗎?”這種學(xué)習(xí)順序如圖
13、 1 所示。這個(gè)數(shù)字建議在我們的大腦,知識(shí)是由一個(gè)網(wǎng)絡(luò),形成一系列 復(fù)雜的結(jié)構(gòu),我稱之為知識(shí)之塔。名詞的網(wǎng)絡(luò)是一個(gè)對(duì)象名稱,標(biāo)簽網(wǎng)絡(luò),例如: 窗口,煙囪,門等動(dòng)詞或行動(dòng)網(wǎng)絡(luò),是網(wǎng)絡(luò)功能,例如:看出來(lái),進(jìn)入,退出等表象網(wǎng)絡(luò)是一個(gè)功能所需的基本形狀網(wǎng)絡(luò)實(shí)現(xiàn),如: “這是人類以自己的視野對(duì)外認(rèn)識(shí)的水平?!币虼?,知識(shí)的洪流是上面那段談話內(nèi)容一樣。當(dāng)系統(tǒng)循環(huán)結(jié)束時(shí),我們可以證明,我們正在研究的對(duì)象其功能用途的特點(diǎn)可以實(shí)現(xiàn)這項(xiàng)任務(wù),因此,對(duì)于人工視覺科學(xué)家來(lái)說(shuō),他們的任務(wù)是去建立網(wǎng)絡(luò)及其相互連接層之間的模型。我們有我們所掌握的各種工具:馬爾可夫隨機(jī)域,推理規(guī)則,貝葉斯網(wǎng)絡(luò),模糊推理等我從一開始就排除任何確
14、定性的辦法,或者是因?yàn)槭虑槭钦嬲S機(jī)的性質(zhì)(或至少有一個(gè)顯著的隨機(jī)成分),或者當(dāng)為制定清晰的決策規(guī)則和決定時(shí)因?yàn)槲覀兊哪J胶臀覀兊闹R(shí)是太粗糙和不完美而不能勝任。5 馬爾可夫隨機(jī)場(chǎng)最近的一些工作發(fā)現(xiàn)的證據(jù)表明,網(wǎng)絡(luò)名詞(最貼切的說(shuō)法是“思想”,如果從網(wǎng)絡(luò)心理加以描述)是一個(gè)隨機(jī)網(wǎng)絡(luò)拓?fù)?,而由一些想法組成的關(guān)系網(wǎng)絡(luò),它們是拓?fù)錈o(wú)尺度的。例如,像“叉刀”,“門窗口”比“門”或“窗口”出現(xiàn)地更加頻繁。這表明,這些網(wǎng)絡(luò)相互之間的連接總是不斷變化的,而且實(shí)際上并不總是對(duì)稱的。例如,想法“門”的可能引發(fā)的“窗口”的想法比“窗口”引發(fā)的想法“門”的想法更加頻繁。這種不對(duì)稱的相互作用表明馬爾可夫隨機(jī)場(chǎng)(馬爾科
15、夫場(chǎng))不適用于它們?cè)趫D像處理應(yīng)用上的一貫的形式。一個(gè)在網(wǎng)格上定義的馬爾可夫隨機(jī)場(chǎng)鄰里之間的相互作用的例子如下圖 2b 所示。馬爾可夫隨機(jī)場(chǎng)以及它提供給鄰近的相互作用的重力,不能由吉布斯聯(lián)合概率密度函數(shù)來(lái)表示。例如,在中心的細(xì)胞被頂部左鄰重力-1 影響,而他自己,作為頂部左下角的單元格的右邊的鄰居,通過(guò)重力-1 來(lái)影響它。當(dāng)一個(gè)試圖釋放這樣一個(gè)隨機(jī)場(chǎng)時(shí),這種不對(duì)稱會(huì)導(dǎo)致系統(tǒng)的不穩(wěn)定,因?yàn)閯?chuàng)建的本地模式不是全部一致的(不是全可由吉布斯分布可表達(dá)出來(lái)的)。這種馬爾可夫隨機(jī)場(chǎng)的一些發(fā)散是不收斂的,而是在一些可能的狀態(tài)之間搖擺。 (最佳化的吉布斯分布偶爾會(huì)收斂到正確的解釋,但更多的往往不是這樣,他們幻想
16、他們得到了錯(cuò)誤解釋。)因此,通過(guò)使用一個(gè)非吉卜賽中期馬爾科夫場(chǎng),在每一個(gè)知識(shí)水平的人們都可以來(lái)建立網(wǎng)絡(luò)模型,如圖表 1 所示。層與層之間的相互依賴性,也可能通過(guò)這樣的網(wǎng)絡(luò)來(lái)建立模型,但也許使用貝葉斯模型比較適合,因?yàn)閷优c層之間的相關(guān)性是因果關(guān)系或診斷關(guān)系, 而不是點(diǎn)對(duì)點(diǎn)對(duì)等關(guān)系。然而問(wèn)題是:“我們?nèi)ツ膬旱玫竭@些知識(shí)來(lái)構(gòu)建網(wǎng)絡(luò)?”母親教她的孩子從哪里得來(lái)?孩子的母親沒有最簡(jiǎn)單的真理或普遍的知識(shí)可以教給她的孩子:她明白一些東西,然后才告訴他的孩子,然后她想起別的東西,根據(jù)她自己的想法,這些想法是相互交織的并且由她自己的感覺來(lái)組織的,她會(huì)再次給孩子講講。因此,所有的母親(老師)的作用是傳授給孩子她自
17、己關(guān)于這些想法和概念之間的聯(lián)系。如果母親告訴孩子:“這是一支鉛筆,那是一個(gè)橡膠。鉛筆幫助我們而橡皮幫助我們抹去我們寫的東西?!焙⒆訒?huì)在自己的大腦中會(huì)有像他的母親同樣的反應(yīng)。鉛筆橡皮現(xiàn)象將在孩子的大腦中產(chǎn)生一個(gè)關(guān)于名詞的網(wǎng)絡(luò)很強(qiáng)的記憶,就像在孩子的動(dòng)詞網(wǎng)絡(luò)。所以,有一件事情我們可以做的是建立屬于我們自己關(guān)于這些想法和功能之間聯(lián)系的模型。然后讓孩子或計(jì)算機(jī)提出正確的問(wèn)題。對(duì)于每一個(gè)答案,相應(yīng)的連接強(qiáng)度會(huì)提高。我們可能會(huì)把這些優(yōu)勢(shì)變成概率。然后,一個(gè)全新的場(chǎng)景可能會(huì)顯示到計(jì)算機(jī)上。該兒童或計(jì)算機(jī)必須能夠使用他已經(jīng)學(xué)會(huì)的這些連接去解釋這種新的景象。實(shí)際上,這是通過(guò)使用手動(dòng)標(biāo)注的圖像實(shí)現(xiàn)的。 數(shù)學(xué)家 H
18、eesch 和彼得魯做這些是去解釋建筑物室外的場(chǎng)景:他們使用了數(shù)百?gòu)埖孛娴膱D像學(xué)習(xí)區(qū)域配置的馬氏相依理論,確定了居委會(huì)是一個(gè)地區(qū)被分成六個(gè)地區(qū),這些地區(qū)履行下列幾何約束中的一個(gè):它在上面,下面,向左邊,向右邊,它被裝載,或把這個(gè)區(qū)域考慮在內(nèi)。一個(gè)未知的場(chǎng)面被貼上標(biāo)簽,通過(guò)使用一個(gè)初級(jí)的,建立在個(gè)人工具基礎(chǔ)上的一個(gè)標(biāo)簽來(lái)完成,這個(gè)個(gè)人工具由各個(gè)區(qū)域和組成,以及放寬對(duì)分割區(qū)域定義的馬爾科夫場(chǎng),用圖的著色與繪圖按各當(dāng)?shù)貤l件概率地區(qū)的標(biāo)簽標(biāo)記,這個(gè)標(biāo)簽是建立在當(dāng)前周圍標(biāo)簽之上的。全部一致是不存在的,當(dāng)標(biāo)簽之間的相互依存是不對(duì)稱的時(shí)候。我們可以直觀地理解為在室外環(huán)境中物體之間的相互作用太弱而不可能對(duì)一個(gè)
19、區(qū)域的影響產(chǎn)生顯著效果。例如,如果屬于該房子的該區(qū)域是 一個(gè)門, 這一區(qū)域就在圖 1 的另一端。雙頭箭頭代表上下文交互。連續(xù)的細(xì)箭頭表示查詢。虛線箭頭代表的答案,即信息的傳遞。在認(rèn)知視覺工作中興趣的水平就是名詞的水平,在這里我們要把標(biāo)簽分配到每個(gè)對(duì)象。與名詞網(wǎng)絡(luò)上下文內(nèi)涵有關(guān)的例子有“門”,“窗口”,“陽(yáng)臺(tái)”。與語(yǔ)境網(wǎng)絡(luò)的功能內(nèi)涵節(jié)點(diǎn)有關(guān)的例子是“讓空氣進(jìn)來(lái)”,“讓光進(jìn)來(lái)”,“允許一人進(jìn)入”。與描述網(wǎng)絡(luò)上下文內(nèi)涵節(jié)點(diǎn)有關(guān)的例子是“有一個(gè)玻璃面板”,“在水平面”,“有一個(gè)把手來(lái)打開它”。視野可能是汽車,灌木,一個(gè)窗口,房子,或一棵樹。從可能性的角度來(lái)看這些選擇的差別是很小的:標(biāo)簽之間的相關(guān)函數(shù),
20、指在一定距離之外的物體,變得平坦而且不能提供有用的信息。所以,沒有一個(gè)模型是相關(guān)的或有用的。6貝葉斯推理貝葉斯方法迄今為止已被用在兩個(gè)方面:要么是在概率松弛的形式( PR)方面或在推理珍珠貝氏網(wǎng)絡(luò)的形式。概率松弛起源于華爾茲寫的關(guān)于約束傳播著作,他用簡(jiǎn)潔的制約條件 和一勞永逸地方法解決所有的不符和條件的標(biāo)號(hào),這些標(biāo)號(hào)導(dǎo)致其他不可能的問(wèn)題。通過(guò)考慮每一個(gè)對(duì)象的環(huán)境信息,概率松弛不斷更新單個(gè)物體的各種標(biāo)簽的概率。由于該上下文信息是有效對(duì)等的,概率松弛對(duì)于建立因果關(guān)系的方面的模型不是一個(gè)好的工具。對(duì)于馬科夫場(chǎng)來(lái)說(shuō)它是一個(gè)替代的工具,在上一節(jié)討論了在同一層建模的影響。概率松弛,像馬爾科夫松弛一樣,是不
21、能保證得到一個(gè)獨(dú)特的全方位的解決方案,除非有特殊條件。我們?cè)懻撨^(guò),雖然這是一個(gè)不現(xiàn)實(shí)的問(wèn)題,那就是:場(chǎng)景標(biāo)號(hào)不必是全部一致的,但在本地要一致。這項(xiàng)聲明似乎與以前的聲明是矛盾德,概率松弛是華爾茲的算法,這個(gè)算法可以在 60 秒之內(nèi)解決標(biāo)號(hào)不一致的問(wèn)題。這一矛盾,然而,只是表面的。在 60 年代標(biāo)號(hào)不符的問(wèn)題,是指單固體物體的標(biāo)號(hào),通過(guò)在子部分上貼上標(biāo)簽,而不是包含許多不同對(duì)象的場(chǎng)景,在這些對(duì)象之間的約束是遠(yuǎn)遠(yuǎn)弱于其他相同的固態(tài)物體內(nèi)的子模塊之間的限制。貝葉斯方法的第二種形式是推理珍珠貝氏網(wǎng)絡(luò)。這里的關(guān)系可能是因果關(guān)系,因此這些網(wǎng)絡(luò)對(duì)中間層推論來(lái)說(shuō)是合適的。貝葉斯方法依賴于條件概率。如何為這種方
22、法選擇一個(gè)條件概率一直是一個(gè)問(wèn)題。條件概率可能要通過(guò)數(shù)百個(gè)例子才能慢慢地被我們掌握。Stassopoulou等人通過(guò)繪制類邊界的圖來(lái)解決了條件概率的學(xué)習(xí)問(wèn)題,這個(gè)類邊界通過(guò)從這個(gè)網(wǎng)絡(luò)到另一個(gè)網(wǎng)絡(luò)來(lái)表達(dá),通常這種網(wǎng)絡(luò)被用來(lái)作為學(xué)習(xí)條件概率的一種方法。另外,有的條件概率可能會(huì)從其他已經(jīng)受過(guò)訓(xùn)練的網(wǎng)絡(luò)轉(zhuǎn)移過(guò)來(lái):老師的網(wǎng)絡(luò)。這種轉(zhuǎn)移相當(dāng)于讓他們具備一些來(lái)自其他參數(shù)的一些參數(shù)(如高斯)。形式和參數(shù)的任意選擇通常導(dǎo)致對(duì)臨時(shí)或不合理的做法的批評(píng)。現(xiàn)在情況是,老師只是將自己的獲得的知識(shí)的轉(zhuǎn)移到學(xué)生(或電腦)身上。這種做法使我們獲得了新的理論,例如像所謂的“效用理論”。效用理論是一種決策理論。在圖像對(duì)象中向物體
23、分配標(biāo)簽就是一個(gè)決定。在貝葉斯框架內(nèi),在 Bayesian的結(jié)構(gòu)理論中,我們做出這個(gè)決定是通過(guò)最大限度地把我們所獲得信息全部輸入到這個(gè)標(biāo)簽中。在效用理論中,這種可能性函數(shù)被叫做“效用函數(shù)”,這表示主觀偏好或每個(gè)標(biāo)簽可能帶來(lái)的后果。效用函數(shù)乘以每個(gè)標(biāo)簽的貝葉斯概率再加上上面所有可能性,這就導(dǎo)致只有一個(gè)可以傳遞到最后的標(biāo)簽。所以,這種方法避免了馬爾科夫場(chǎng)和PR 的迭代。效用函數(shù)可用來(lái)鑒定一些人對(duì)這個(gè)世界已經(jīng)獲得的元知識(shí)。就是這樣的知識(shí),可以通過(guò)演算和從很多例子中學(xué)到,但現(xiàn)在通過(guò)我們現(xiàn)有的工具基礎(chǔ),它們是不能通過(guò)條件和偏見這些形式來(lái)表達(dá)的。就是這樣的知識(shí)告訴我們,當(dāng)我們想要從一個(gè)經(jīng)常推遲約定的人手中
24、購(gòu)買一輛車時(shí)要慎重,那樣就不會(huì)立即產(chǎn)生維修記錄。沒有人使用“實(shí)用功能” 這個(gè)術(shù)語(yǔ)的這種想法已經(jīng)有一段時(shí)間了。例如,在九十年代中期,心理學(xué)家都在談?wù)撍^的 P map 和 m map。P map 主要是關(guān)于在我們生活中我們可能遇到情況的一些知識(shí)。一個(gè) P -map 可以或多或少的幫助我們抽樣調(diào)查一個(gè)場(chǎng)景,無(wú)論這些地方重不重要,我們做一個(gè) m-map 都是很特別的。人們可能會(huì)把 p-map 看作是今天的實(shí)用功能而 m-map 主要是建立在我們已有的工具之上的,這里的 m-map 是指標(biāo)簽的貝葉斯部分。在計(jì)算機(jī)視覺方面,實(shí)用的理論已被 Marengoni 用于選擇本應(yīng)被應(yīng)用于空間圖像方面的特色功能。
25、此外,人們可以把米勒等人的工作當(dāng)作是用一個(gè)可以給那些不尋常的轉(zhuǎn)換設(shè)置障礙的實(shí)用功能,這些轉(zhuǎn)換必須和電腦認(rèn)為的轉(zhuǎn)換一致。在假定轉(zhuǎn)換和標(biāo)簽測(cè)量都是獨(dú)立的情況下,通過(guò)最大限度的尋找所觀察到的形式的概率密度函數(shù)和標(biāo)簽以及所觀察到事物的密度方程之間的可能性,作者有效地提取了一些樣本。7 建立“為什么”和“怎樣”模型來(lái)回答“是什么”讓我們來(lái)考慮一下在圖 1 中提到的知識(shí)塔。為了在以后的情景中能夠識(shí)別物體我們首先要給學(xué)習(xí)的問(wèn)題建立一個(gè)方程,在這個(gè)場(chǎng)景中可以使用分層表述形式來(lái)說(shuō)明知識(shí)和效用理論。讓我們假定我們可以最大可能的把標(biāo)簽分到每一個(gè)場(chǎng)景中,在通常情況下標(biāo)簽 lj 以及它的可能性 pij 將被分配給 oi
26、 ,表達(dá)式如下:pij = p(lj |mi)p(mi) = p(mi|lj)p(lj)(1)這里mi代表我們?cè)趏i基礎(chǔ)上所制造的所有工具,p(mi)和p(lj)分別是測(cè)量和標(biāo)簽之間的先驗(yàn)概率。概率松弛理論將根據(jù)來(lái)自鄰近地區(qū)的上下文收到的資料來(lái)更新這些概率。在這里我們可以不遵守那些規(guī)則。相反,我們將使用來(lái)從其他層知識(shí)的信息來(lái)平衡這個(gè)公式。我們?cè)O(shè)定圖一中的在“動(dòng)詞”水平線上的單位用fk來(lái)表示,而在描述水平線上的單元用dl表示,而后我們lji把給oi,表達(dá)式如下: j arg max ujk v c p( )2ikl il ijjkl;其中 ujk 表示對(duì)帶標(biāo)簽 lj 的物體的重要程度,lj 用來(lái)
27、滿足 fk vkl 表示特征量 dl 對(duì)于一個(gè)物體有滿足 fk 可能性的重要性,cik 是指 dl 適用于 oi。假定效用函數(shù)的值表示我們手中的證據(jù),區(qū)域 oi 可以滿足作為區(qū)域 lj 的角色的特征,例如,分給 oi 的標(biāo)簽是一個(gè)“陽(yáng)臺(tái)”,效用函數(shù)必須能夠表示出是否這個(gè)陽(yáng)臺(tái)有足夠大空間以至于可以站下一個(gè)人,是否靠近墻,是否有個(gè)門面對(duì)它。所有這些因素在一起就容許一個(gè)物體來(lái)扮演陽(yáng)臺(tái)的角色。一個(gè)學(xué)習(xí)計(jì)劃要能夠?qū)W到 ujk 和 vkl 的值,要么是通過(guò)一些例子(這個(gè)過(guò)程表較緩慢的并且有點(diǎn)痛苦),要么選擇相信一個(gè)已經(jīng)親身經(jīng)歷過(guò)這個(gè)過(guò)程而且 了解那些值的老師,這樣就可以把他們直接輸入電腦處理器中。電腦處理
28、器必須有一個(gè)輸入處理系統(tǒng)的裝置來(lái)計(jì)算出 cil的值。圖 2(a)中,在邊線上相鄰的點(diǎn)和馬爾科夫參數(shù)都是一致的,如果這個(gè)區(qū)域被釋放,將會(huì)出現(xiàn)和上下不一樣的彼此相似的標(biāo)簽水平帶,在圖像處理中它會(huì)導(dǎo)致水平方向的紋理圖案。圖(b), 在邊線上相鄰的點(diǎn)和馬爾科夫參數(shù)是不一致的:左邊的和中間的是不一樣的。中間的看作是頂部左面的右底角鄰居,它們是相似的。8總結(jié)我認(rèn)為學(xué)習(xí)是一種歸納總結(jié)能力的體現(xiàn),如果要學(xué)的東西并不是可以看到的物體的表面而是被分配標(biāo)簽的內(nèi)部規(guī)律,那么學(xué)習(xí)就可以學(xué)好。我也認(rèn)為元知識(shí)可能被老師輸送給他的老師,方式可以是一些規(guī)則,或是最簡(jiǎn)單的方法,這些都是人類通過(guò)自己的經(jīng)驗(yàn)和體會(huì)應(yīng)用算術(shù)參數(shù)完成的。
29、這使我和社會(huì)上大多數(shù)審稿人一樣都很排斥論文,理由是這些參數(shù)已經(jīng)被選過(guò)了:這就是老師把他們潛心學(xué)到的知識(shí)傳授給他的學(xué)生的例子。另一種方法是學(xué)習(xí)者從大量的示例中慢慢地琢磨然后才學(xué)到他們要學(xué)的知識(shí)。我同時(shí)認(rèn)為我們不需要全部一致的場(chǎng)景標(biāo)簽。通過(guò)瑪格麗特畫的場(chǎng)景,我們可以得出全部一致的標(biāo)簽從來(lái)不會(huì)讓我們建立一個(gè)合適的關(guān)于一輛火車從大火中沖出來(lái)的場(chǎng)景,這是因?yàn)榛疖嚥皇莵?lái)自于有火災(zāi)的地方。我永遠(yuǎn)不會(huì)讓電腦來(lái)識(shí)別一個(gè)五條腿的馬,但是我們?nèi)丝梢?。因此我們需要的是現(xiàn)實(shí)和知識(shí)的碎片。從電腦的視角,拋棄全部一致的方案的想法現(xiàn)在已經(jīng)成熟了。這并不和其他科學(xué)相左。戰(zhàn)略分析家們會(huì)談?wù)搶W(xué)習(xí)行動(dòng)的結(jié)構(gòu),甚至是數(shù)學(xué)家們很早以前就
30、應(yīng)經(jīng)拋棄了關(guān)于全部一致的數(shù)學(xué)科學(xué)的想法。當(dāng)奧爾德的證明出版的時(shí)候,數(shù)學(xué)家羅素不得不拋棄建立在一部分公理上全部一致算法的理念。自然地系統(tǒng)都不是全部一致的:他們?cè)谝恍顟B(tài)之間搖擺,而我們必須戰(zhàn)勝這個(gè)動(dòng)態(tài)的全部不一致的而且含糊不清的世界才能生存。一個(gè)機(jī)器人系統(tǒng)也必須能做到這些,或許那樣做成功的方法是去自己構(gòu)造,這樣才能和一些有限的理 解力相符。Learning in Computer Vision: Some ThoughtsMaria PetrouCommunications and Signal Processing Group,Electrical and Electronic Enginee
31、ring Department,Imperial College,London SW7 2AZ, UKAbstract. It is argued that the ability to generalise is the most important characteristic of learningand that generalisation may be achieved only if pattern recognition systems learn the rules ofmeta-knowledge rather than the labels of objects. A s
32、tructure, called “tower of knowledge”,according to which knowledge may be organised, is proposed. A scheme of interpreting scenesusing the tower of knowledge and aspects of utility theory is also proposed. Finally, it is arguedthat globally consistent solutions of labellings are neither possible, no
33、r desirable for an artificialcognitive system.1 IntroductionThe word “l(fā)earning” has many interpretations among the pattern recognition community ingeneral, and the computer vision community in particular. It has been used to loosely meananything between the identification of the best value of a para
34、meter from training data, to learninghow to recognise visual structures. So, perhaps we should try to distinguish the interpretation ofthe word as it appears in the mathematical formulation of problems, from its interpretation as itappears in cognition related tasks. In the sections that follow, we
35、shall try to understand thesignificance of learning in the context of computer vision and identify a possible relationshipbetween these two interpretations of the word. 2 The Main Characteristic of LearningSome of the first learning algorithms in relation to cognitive tasks, that have been proposed
36、in thepast, are the various types of neural network. Proponents of neural networks often comment onthe generalisation capabilities of the networks they develop. Generalisation is one of thecharacteristics of learning. Indeed, we, humans, teach our children often with fairy tales andparables, assumin
37、g that they have the ability to generalise to real situations. It is preposterous toexpect that we shall have to teach our children about all individual possible situations they mayencounter in life, in order to make sure that we have taught them well. We may safely conclude,therefore, that the abil
38、ity to generalise is the most important characteristic of learning.L. Rueda, D. Mery, and J. Kittler (Eds.): CIARP 2007, LNCS 4756, pp. 112, 2007._cSpringer-Verlag Berlin Heidelberg 2007This implies that classical pattern recognition methods, that use training examples to span thefeature space, are
39、not really learning methods in the cognitive sense of the word. Even neuralnetwork based methods, in order to generalise well, rely heavily on the availability of enoughtraining samples to populate adequately the feature space. The training patterns are used by theneural networks to approximate the
40、class boundaries in the feature space with piece-wise linearsegments. When an unknown pattern arrives, it can be associated with the class that has beenidentified to populate the part of the feature space where the pattern appears. Some old 3 andsome more recently developed methods 1, that can work
41、with fewer training patterns thanstraightforward methods, do so by selecting the patterns that matter most in defining the classboundaries, rather than by using some higher level generalisation abilities of the classifier 23.So, neural networks and pattern classification methods are not learning met
42、hods in the cognitivesense of the word.The question then that arises is: is learning, as understood by cognitive scientists andpsychologists, algorithmic, or is it something beyond the current grasp of mathematical formalismEvidence against learning being algorithmic is the ability of humans to lear
43、n even from singleexamples. A counter-argument is that humans take a lot of time to learn, and it is possible thatwhat we witness as super-fast learning is simply a manifestation of the application of somemeta-knowledge, some generic rules that have been slowly and painfully learnt subconsciously. I
44、would like to clarify that “l(fā)earning” here does not refer to getting a University degree. This isindeed a very long process and it takes almost one third of the life span of a person. Learning hererefers to survival skills, to skills needed to operate in everyday life. Given that a human becomesrepr
45、oductive roughly between the ages of 1215, we may assume that nature considers the humanchild becoming ready for life at that stage. So, we may say that humans “l(fā)earn” what they have tolearn, to be ready for life as independent entities, over a period of 12 15 years, which is still asignificant frac
46、tion of their life span. Therefore, humans seem to be slow learners after all. Theytake a lot of time to work out the rules of meta-knowledge. It is these rules, that have possiblybeen learnt in an algorithmic way, that allow then the human to learn in the super-fast, almostmagical, way that we ofte
47、n witness. We may conclude from the above arguments that: generalisation is an important characteristic of learning; generalisation in algorithmic learning may only be achieved by having enough trainingexamples to populate all parts of the class space, or at least the parts that form the borders bet
48、ween classes;we have true generalisation capabilities, only when what is learnt by training examples are ruleson how to extract the identity of objects and not the classes of objects directly. If such learninghas taken place, totally unknown objects may be interpreted correctly, even in the absence
49、of anypreviously seen examples.This conclusion implies that what we have to teach the computer, in order to construct acognitive system, are relations rather than facts. For example,memorising the dictionary of alanguage, does not teach a person the language. The person has to learn the relations be
50、tweenwords in order to master the language. This is in agreement with Winstones pioneeringexperiments on teaching the computer to recognise arches. He did not show to the computer allpossible types of arch it may encounter. He showed it examples and counter examples of archesand taught it to recogni
51、se relations between components, such as “supports” or “is supported by”26.3 Knowledge and Meta-knowledgeThere are at least 50 theories of learning developed by cognitive scientists 28. In computerscience, we tend to distinguish two forms of learning: learning by experimentation and learningby demon
52、stration. Inductive learning is also used by computer scientists, but we shall not dealwith that here, because it implies that the learner has already learnt the rules of logic. So,inductive learning may be thought of as a way of applying the already learnt rules ofmeta-knowledge 22.Learning by expe
53、rimentation implies the ability to try, reason about the results and drawconclusions. In its simplest form, this is what fully automatic programs do. A fully automaticsegmentation algorithm, for example, will work as follows: perform segmentation, assess thequality of the result, adjust the paramete
54、rs and try again. The immediate conclusion is thatlearning by experimentation requires the presence of a feed-back loop. It also requires theavailability of a criterion that says how well the system has performed each time. It is importantfor this criterion to be independent of the knowledge or info
55、rmation used to perform thesegmentation in the first place, otherwise the result will be a self-fulfilling prophecy. Insemi-automatic systems, the criterion is provided by the human. The reported results in theliterature then include a statement of the type: “the best threshold was found by trial an
56、d error.”This method is a perfectly legitimate method of learning. It comes under the umbrella ofsupervisedlearning and it corresponds to human learning with the help of a teacher.Proceeding to fully automated methods is equivalent to assuming that the computer hassomehow passed that stage of learni
57、ng the meta-knowledge, necessary to construct rules, and nowlearning proceeds very fast, making use of these meta-rules. For example, if we know thatagricultural fields tend to have straight borders, we may judge the output of a segmenter of animage, captured by an airborne sensor, as good or bad, a
58、ccording to whether it produced regionswith straight borders or not. The knowledge that fields have straight boundaries is ameta-knowledge. The segmenter might have operated using only texture and edge information.The straightness of the inferred borders may be used as a criterion to drive the syste
59、m to use itsfeed-back loop to work out a better segmentation. The question then is: how did the system acquire this meta-knowledge? As argued earlier, it must be the meta-knowledge that hadto belearnt by the human child (or the computer learner) painfully slowly by seeing lots of examples ofagricult
60、ural fields. And although no method has been found yet to transplant this meta-knowledgeto the brain of the human child from the brain of the teacher, computers have an advantage here:the teacher, i.e. the human, may insert the meta-knowledge into the system while developing thecriterion of self ass
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- TAS2940-生命科學(xué)試劑-MCE-8412
- Ocifisertib-hydrochloride-CFI-400945-hydrochloride-生命科學(xué)試劑-MCE-6463
- Dehydrocannabifuran-6-Methyl-9-isopropenyl-3-pentyldibenzofuran-1-ol-生命科學(xué)試劑-MCE-8289
- 7-Methoxy-9-methylfuro-2-3-b-quinoline-4-5-8-9H-trione-生命科學(xué)試劑-MCE-1580
- 3-Methyl-L-tyrosine-生命科學(xué)試劑-MCE-8000
- 二零二五年度虛擬股員工持股計(jì)劃協(xié)議
- 二零二五年度煤礦開采權(quán)轉(zhuǎn)讓合同
- 2025年度順豐速運(yùn)高端物流服務(wù)合同模板
- 施工單位施工合同管理要點(diǎn)
- 疫情下教育變革的啟示-學(xué)校與醫(yī)院合作的必要性與優(yōu)勢(shì)分析
- 2025版茅臺(tái)酒出口業(yè)務(wù)代理及銷售合同模板4篇
- 2025年N1叉車司機(jī)考試試題(附答案)
- 《醫(yī)院財(cái)務(wù)分析報(bào)告》課件
- 2024年考研政治試題及答案
- 2024-2025學(xué)年人教版數(shù)學(xué)六年級(jí)上冊(cè) 期末綜合卷(含答案)
- 天津市部分區(qū)2023-2024學(xué)年高二上學(xué)期期末考試 物理 含解析
- 2025年初級(jí)社會(huì)工作者綜合能力全國(guó)考試題庫(kù)(含答案)
- 2024年濰坊護(hù)理職業(yè)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)附答案
- 《鉗工基本知識(shí)》課件
- 制冷操作證培訓(xùn)教材-制冷與空調(diào)設(shè)備運(yùn)行操作作業(yè)培課件
- 中交與機(jī)械竣工區(qū)別
評(píng)論
0/150
提交評(píng)論