版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
機(jī)器學(xué)習(xí)綜述曹曉敏摘要:機(jī)器學(xué)習(xí)是計(jì)算機(jī)領(lǐng)域最活潑,最有潛力的方向之一。本文概述了機(jī)器學(xué)習(xí)當(dāng)前研究的幾個(gè)方向:符號(hào)機(jī)器學(xué)習(xí)、集成機(jī)器學(xué)習(xí)、增強(qiáng)機(jī)器學(xué)習(xí)、統(tǒng)計(jì)機(jī)器學(xué)習(xí),梳理了各自的理論根底。在此根底上,以統(tǒng)計(jì)機(jī)器學(xué)習(xí)為重點(diǎn),就其一致性、收斂性、推廣性以及構(gòu)造算法的原那么四個(gè)核心方面進(jìn)行了綜述,最后提出幾點(diǎn)思考和建議。引言計(jì)算機(jī)相比人腦而言在存儲(chǔ)、計(jì)算方面具有無與倫比的優(yōu)勢(shì),然而,其是否可以具備一定智能,一直以來是科學(xué)家們、科幻小說家們致力研究、探索和想象的一片非常廣闊的領(lǐng)域。計(jì)算機(jī)智能化的起步階段包含兩方面工作:一方面是將人類已有的知識(shí)或經(jīng)驗(yàn)“教”會(huì)計(jì)算機(jī),從而使計(jì)算機(jī)成為某個(gè)領(lǐng)域的專家,其焦點(diǎn)在于知識(shí)庫和推理機(jī)兩方面,已經(jīng)有比擬成功的案例;另一方面是從大量的數(shù)據(jù)、現(xiàn)象中,學(xué)習(xí)產(chǎn)生新的知識(shí)或經(jīng)驗(yàn),這就是機(jī)器學(xué)習(xí)過程。后者比前者難,前者開展到一定程度會(huì)面臨同樣的問題。目前,機(jī)器學(xué)習(xí)已經(jīng)成為計(jì)算機(jī)領(lǐng)域最活潑,最有潛力的研究方向之一,受到了廣泛的關(guān)注。機(jī)器學(xué)習(xí)概述機(jī)器學(xué)習(xí)的經(jīng)典定義是1997年TomM.Mitchell在“MachineLearning”一書中提出的“計(jì)算機(jī)利用經(jīng)驗(yàn)改善系統(tǒng)自身性能的行為?!边@是一個(gè)相當(dāng)寬泛的說明,將“機(jī)器”限定在“計(jì)算機(jī)”,而對(duì)學(xué)習(xí)的定義那么過于寬泛以致不便理解。人們通常所說的“學(xué)習(xí)”是指通過對(duì)事實(shí)的分析、歸納、演繹,形成新的知識(shí),其目的在于對(duì)未知的事實(shí)能做出比擬符合實(shí)際的判斷、指導(dǎo)和預(yù)測(cè)。其中有四個(gè)關(guān)鍵要素:事實(shí)、學(xué)習(xí)方法、新的知識(shí)、預(yù)判未來。其關(guān)系如REF_Ref264796613\h圖1所示。得到得到知識(shí)事實(shí)新的事實(shí)學(xué)習(xí)方法指導(dǎo)未來圖SEQ圖\*ARABIC1學(xué)習(xí)過程對(duì)應(yīng)于REF_Ref264796613\h圖1,在機(jī)器學(xué)習(xí)領(lǐng)域,事實(shí)對(duì)應(yīng)于“樣本空間”,需要預(yù)判的新的事實(shí)對(duì)應(yīng)于“問題空間”,所得到的知識(shí)對(duì)應(yīng)于“構(gòu)建的模型”。由此,機(jī)器學(xué)習(xí)可以描述為[3]:令W是問題空間,(x,y)∈W稱為樣本,其中,x是一個(gè)n維矢量,y是類別域中的一個(gè)值。由于觀察能力的限制,我們只能獲得W的一個(gè)真子集,記為Q?W,稱為樣本集合。根據(jù)Q建立模型M,并期望M對(duì)W中的所有樣本預(yù)測(cè)的正確率大于一個(gè)給定的常數(shù)θ。M對(duì)W的預(yù)測(cè)正確率,稱為M對(duì)W的泛化能力或推廣能力。機(jī)器學(xué)習(xí)的本質(zhì)和目的就是要使得M盡可能接近真實(shí),也就是其泛化〔推廣〕能力盡可能強(qiáng)。然而,機(jī)器學(xué)習(xí)面臨的第一個(gè)問題就是其問題空間如何表示?即數(shù)據(jù)描述問題。對(duì)于計(jì)算機(jī)而言,最本質(zhì)的特征是量化表示以及對(duì)數(shù)值的處理;對(duì)于人類而言,其思考、表達(dá)的過程往往借助于語言或圖像,而不是數(shù)值。由此,誕生了兩類不同方向的機(jī)器學(xué)習(xí)領(lǐng)域:基于符號(hào)的機(jī)器學(xué)習(xí),基于數(shù)值的機(jī)器學(xué)習(xí)。1989年,Carbonell指出機(jī)器學(xué)習(xí)有4個(gè)研究方向:符號(hào)機(jī)器學(xué)習(xí)、連接機(jī)器學(xué)習(xí)、遺傳機(jī)器學(xué)習(xí)與分析機(jī)器學(xué)習(xí)。十年過去后,1999年,Dietterich提出了另外4個(gè)新的研究方向:符號(hào)機(jī)器學(xué)習(xí)、統(tǒng)計(jì)機(jī)器學(xué)習(xí)、集成機(jī)器學(xué)習(xí)、增強(qiáng)機(jī)器學(xué)習(xí)。其關(guān)系如表1所示[4]。表SEQ表\*ARABIC1機(jī)器學(xué)習(xí)研究方向變遷Carbonell,1989Dietterich,1999注解符號(hào)機(jī)器學(xué)習(xí)符號(hào)機(jī)器學(xué)習(xí)保存:發(fā)生本質(zhì)變化,轉(zhuǎn)變成符號(hào)數(shù)據(jù)分析連接機(jī)器學(xué)習(xí)統(tǒng)計(jì)機(jī)器學(xué)習(xí)分為:基于Barlow提出的功能單細(xì)胞假設(shè)為依據(jù)集成機(jī)器學(xué)習(xí)分為:基于Hebb提出的神經(jīng)集合體假設(shè)為依據(jù)遺傳機(jī)器學(xué)習(xí)增強(qiáng)機(jī)器學(xué)習(xí)擴(kuò)展:強(qiáng)調(diào)反應(yīng)的作用,以及動(dòng)態(tài)規(guī)劃的解決方案分析機(jī)器學(xué)習(xí)——放棄:?jiǎn)栴}過于復(fù)雜其中,符號(hào)機(jī)器學(xué)習(xí)方法最初由于其建立的模型是確定的,不具備泛化能力而被認(rèn)為不具備競(jìng)爭(zhēng)能力,然而隨著海量信息的出現(xiàn)以及對(duì)簡(jiǎn)潔閱讀的要求,符號(hào)機(jī)器學(xué)習(xí)重新獲得生命力。隨著統(tǒng)計(jì)機(jī)器學(xué)習(xí)理論和技術(shù)的完善,連接機(jī)器學(xué)習(xí)漸漸演變?yōu)榻y(tǒng)計(jì)機(jī)器學(xué)習(xí)和集成機(jī)器學(xué)習(xí)。遺傳機(jī)器學(xué)習(xí)那么因?yàn)槔碚摵图夹g(shù)上進(jìn)展緩慢而讓位給增強(qiáng)機(jī)器學(xué)習(xí)。分析機(jī)器學(xué)習(xí)那么由于至今未能找到理論根底,以及一些當(dāng)前在理論與技術(shù)上暫時(shí)無法克服的困難,已根本處于停滯狀態(tài)。本文在簡(jiǎn)略介紹符號(hào)機(jī)器學(xué)習(xí)、集成機(jī)器學(xué)習(xí)、增強(qiáng)機(jī)器學(xué)習(xí)的根底上,重點(diǎn)介紹統(tǒng)計(jì)機(jī)器學(xué)習(xí)。符號(hào)機(jī)器學(xué)習(xí)最早的符號(hào)機(jī)器學(xué)習(xí)源于1959年Solomonoff關(guān)于文法歸納的研究,給定一組語句實(shí)例,求出有關(guān)文法。傳統(tǒng)意義下,這類機(jī)器學(xué)習(xí)也以泛化能力作為主要指標(biāo)。然而事實(shí)上,這類建模方法不建立在統(tǒng)計(jì)根底上,不具備泛化能力。1967年,Gold證明了這類學(xué)習(xí)在理論上存在不可逾越的障礙。隨著海量信息的出現(xiàn),人們對(duì)簡(jiǎn)約閱讀的需求增長(zhǎng),Samuel將這類機(jī)器學(xué)習(xí)演變?yōu)橐活惢诜?hào)數(shù)據(jù)集合的約簡(jiǎn)過程,將其賦予了新的含義。這類方法可以將數(shù)據(jù)集合在可解釋的條件下變換為更為簡(jiǎn)潔的表示,與近幾年數(shù)據(jù)挖掘的任務(wù)一致,已成為這類機(jī)器學(xué)習(xí)方法的主要應(yīng)用領(lǐng)域。兩類最重要的符號(hào)機(jī)器學(xué)習(xí)算法包括:覆蓋算法與分治算法。覆蓋算法有上世紀(jì)70年代末Michalski提出的AQ11算法;分治算法以Quinlan提出的決策樹算法ID3,及其后繼C4.5算法為代表,后者在前者的根底上嵌入了統(tǒng)計(jì)方法以增強(qiáng)其泛化能力,大多數(shù)已開發(fā)的決策樹學(xué)習(xí)算法都是這兩種核心算法的變體。集成機(jī)器學(xué)習(xí)集成機(jī)器學(xué)習(xí)的依據(jù)是Hebb提出的神經(jīng)集合體假設(shè),即集成多個(gè)分類器,使不同模型補(bǔ)充一個(gè)模型的缺乏。也就是設(shè)計(jì)一組分類器,其中每個(gè)分類器的設(shè)計(jì)更為簡(jiǎn)單,而其組合可以獲得與單個(gè)分類器相同或者更好的泛化能力;另外,對(duì)于大多數(shù)情況,樣本集合很難滿足同分布的一致性條件,可以考慮設(shè)計(jì)多個(gè)分類器作為單個(gè)分類器的補(bǔ)充,增加其泛化能力。1960年Widrow提出Madline可以視為集成機(jī)器學(xué)習(xí)的最早雛形,1984年Valiant提出PAC模型〔Probablyapproximatelycorrectmodel〕,1990年Schapire提出了弱學(xué)習(xí)定理,1995年Freund和Schapire提出了AdaBoost算法,在上述研究成果的根底上,逐漸形成了泛化理論。增強(qiáng)機(jī)器學(xué)習(xí)增強(qiáng)機(jī)器學(xué)習(xí)(reinforcementlearning)的本質(zhì)是對(duì)變化的環(huán)境相適應(yīng)。最早的思想表達(dá)在1948年Wiener著作的“控制論”中,逐漸開展成一類重要的研究課題——自適應(yīng)控制。將自適應(yīng)控制的原理應(yīng)用于機(jī)器學(xué)習(xí)領(lǐng)域就是:設(shè)計(jì)一組規(guī)那么,使用這組規(guī)那么求解問題,如果能夠解決當(dāng)前環(huán)境所提出的問題,支持獲得這個(gè)解答的所有規(guī)那么就被增強(qiáng),否那么被減弱。這個(gè)過程在分類器系統(tǒng)中稱為桶隊(duì)算法。如果所有規(guī)那么均不能解決環(huán)境所提出的問題,就使用遺傳算法進(jìn)行學(xué)習(xí),產(chǎn)生新的規(guī)那么,直到可以適應(yīng)環(huán)境。也就是說,其規(guī)那么集是動(dòng)態(tài)變化的,使用遺傳算法求解問題的同時(shí)改變規(guī)那么集。目前,這個(gè)研究路線進(jìn)展緩慢,主要是改良桶隊(duì)算法中利益均分的策略。如果將這種利益變換為對(duì)狀態(tài)的評(píng)價(jià),這個(gè)問題那么變換為一個(gè)Markov過程。20世紀(jì)90年代初,Sutton將這類機(jī)器學(xué)習(xí)建立在Markov過程上,稱為增強(qiáng)機(jī)器學(xué)習(xí)方法。理論根底歷史上,機(jī)器學(xué)習(xí)根本是在經(jīng)驗(yàn)范疇內(nèi)進(jìn)行研究的,隨意性非常大。Internet的普及帶來海量數(shù)據(jù)現(xiàn)象,如何從大量數(shù)據(jù)中提取有用的信息和知識(shí)面臨巨大的需求空間,有力地推動(dòng)了機(jī)器學(xué)習(xí)研究。20世紀(jì)80年代奠定了統(tǒng)計(jì)學(xué)習(xí)理論、Roughset理論、適應(yīng)性理論等理論根底,在機(jī)器學(xué)習(xí)的研究和應(yīng)用中起著重要的指導(dǎo)作用。Roughset理論和統(tǒng)計(jì)學(xué)習(xí)理論可以在不增加計(jì)算復(fù)雜性的條件下,分別描述符號(hào)機(jī)器學(xué)習(xí)和統(tǒng)計(jì)機(jī)器學(xué)習(xí)〔集成機(jī)器學(xué)習(xí)可以理解為統(tǒng)計(jì)機(jī)器學(xué)習(xí)在技術(shù)上的變種〕。這兩個(gè)理論有堅(jiān)實(shí)的數(shù)學(xué)根底,因此大大減少了算法設(shè)計(jì)的隨意性,并且使比擬已有的各種機(jī)器學(xué)習(xí)算法有了理論根底。增強(qiáng)機(jī)器學(xué)習(xí)理論研究還存在很大困難。本文重點(diǎn)關(guān)注以統(tǒng)計(jì)學(xué)習(xí)理論為根底的統(tǒng)計(jì)機(jī)器學(xué)習(xí)。統(tǒng)計(jì)機(jī)器學(xué)習(xí)獲得一組問題空間的觀測(cè)數(shù)據(jù)之后,如果不能或者沒必要對(duì)其建立嚴(yán)格的物理模型,從這組數(shù)據(jù)推算問題空間的數(shù)學(xué)模型,在輸入輸出之間的關(guān)系上反映問題空間的實(shí)際,而不需要對(duì)問題世界做物理解釋,這是“黑箱”原理。統(tǒng)計(jì)學(xué)習(xí)理論本質(zhì)上是“黑箱”原理的延續(xù),其中數(shù)學(xué)方法是研究的焦點(diǎn)。傳統(tǒng)的統(tǒng)計(jì)學(xué)要求樣本數(shù)據(jù)數(shù)目趨于無窮大,這實(shí)際上是一種不可到達(dá)的假設(shè),現(xiàn)實(shí)世界中,可以獲取的樣本數(shù)目總是有限的。統(tǒng)計(jì)學(xué)系理論就是一種專門研究小樣本情況下機(jī)器學(xué)習(xí)規(guī)律的理論?;貞?.2小節(jié)所描述的機(jī)器學(xué)習(xí)過程,其描述隱含了三個(gè)方面的內(nèi)容:1、一致。問題空間W必須和樣本空間Q性質(zhì)相同,才可以根據(jù)Q對(duì)W進(jìn)行推測(cè)和預(yù)判,表達(dá)在統(tǒng)計(jì)學(xué)意義上就是W中的元素滿足同分布的一致性條件。2、劃分。正確預(yù)判的前提是正確地劃分,將Q放到n維空間,要尋找一個(gè)定義在這個(gè)空間上的決策分界面〔等價(jià)關(guān)系〕,使得問題決定的不同對(duì)象分在不相交的區(qū)域。3、泛化。判斷模型M的好壞不僅僅在于對(duì)樣本空間Q有好的判斷效果,更重要的是要對(duì)問題空間W有盡量準(zhǔn)確的預(yù)測(cè)效果,即好的推廣能力。一般地說,機(jī)器學(xué)習(xí)的統(tǒng)計(jì)根底是經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原那么〔EmpiricalRiskMinimization,ERM〕。令期望風(fēng)險(xiǎn)為:R經(jīng)驗(yàn)風(fēng)險(xiǎn)為:R其中,xi獨(dú)立同分布于概率密度函數(shù)P(x,y)。根據(jù)統(tǒng)計(jì)學(xué)中的大數(shù)定律,樣本個(gè)數(shù)l趨于無窮大時(shí),經(jīng)驗(yàn)風(fēng)險(xiǎn)Rempf依概率收斂于期望風(fēng)險(xiǎn)Rf,所以傳統(tǒng)的機(jī)器學(xué)習(xí)算法一般以經(jīng)驗(yàn)風(fēng)險(xiǎn)Rempf最小作為目標(biāo)函數(shù)。1971年,Vapnik指出經(jīng)驗(yàn)風(fēng)險(xiǎn)Rempf的下界未必依概率收斂于期望風(fēng)險(xiǎn)Rf的下界,也就是說將Rempf作為目標(biāo)函數(shù)是不合理的。Vapnik進(jìn)一步證明了經(jīng)驗(yàn)風(fēng)險(xiǎn)Rempf的下界依概率收斂于期望風(fēng)險(xiǎn)Rf的下界當(dāng)且僅當(dāng)經(jīng)驗(yàn)風(fēng)險(xiǎn)Rempf其核心概念是VC維,它是描述函數(shù)集或?qū)W習(xí)機(jī)器的復(fù)雜性或?qū)W習(xí)能力的一個(gè)重要指標(biāo),在此概念根底上開展出一系列關(guān)于統(tǒng)計(jì)學(xué)習(xí)的一致性、收斂性、推廣性能等重要結(jié)論。概括地說,統(tǒng)計(jì)學(xué)習(xí)理論的主要研究?jī)?nèi)容包括:統(tǒng)計(jì)學(xué)習(xí)過程的一致性理論學(xué)習(xí)過程收斂速度的非漸進(jìn)理論控制學(xué)習(xí)過程的推廣能力的理論構(gòu)造學(xué)習(xí)算法的理論VC維模式識(shí)別方法中VC維的直觀定義是:對(duì)一個(gè)指示函數(shù)集,如果存在h個(gè)樣本能夠被函數(shù)集中的函數(shù)按所有可能的2h種形式分開,那么稱函數(shù)集能夠把h個(gè)樣本打散;函數(shù)集的VC維就是它能打散的最大樣本數(shù)目h。假設(shè)對(duì)任意數(shù)目的樣本都有函數(shù)能將它們打散,那么函數(shù)集的VC維是無窮大。有界實(shí)函數(shù)的VC維可以通過用一定的閾值將它轉(zhuǎn)化成指示函數(shù)來定義。一致性、收斂性、推廣性在學(xué)習(xí)過程的一致性、收斂性研究中,還涉及到三個(gè)重要概念:VC熵,退火的VC熵,生長(zhǎng)函數(shù)。這里均以模式識(shí)別問題的指示函數(shù)為例進(jìn)行說明,實(shí)函數(shù)集的情況是指示函數(shù)集情況的推廣。設(shè)Q(z,α),α∈?是一個(gè)指示函數(shù)集,考慮樣本z1,z2,……VC熵:H退火的VC熵:H生長(zhǎng)函數(shù):G1968年,Vapnik和Chervonenkis證明了在Q(z,α),α∈?可測(cè)性的一定條件下,一致雙邊收斂的充分必要條件是下述等式〔1〕liml→∞H∧1981年,Vapnik和Chervonenkis將該充要條件推廣到有界實(shí)函數(shù)集。1989年,得到學(xué)習(xí)理論的關(guān)鍵定理,將ERM方法一致性的問題轉(zhuǎn)化為了一致性收斂的問題。從而得出學(xué)習(xí)理論的第一個(gè)里程碑:最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)的充分條件是滿足等式〔1〕。然而,這個(gè)條件并沒有對(duì)收斂速度給出證明。接下來,Vapnik和Chervonenkis找到了收斂速度快的充分條件,如下式〔2〕。liml→∞Hann這一等式是學(xué)習(xí)理論的第二個(gè)里程碑:保證了收斂有快的漸近速度。至此,式1和式2對(duì)一致性以及收斂速度有了理論保證,然而這些都是和給定分布相關(guān)的。如何保證對(duì)于任意的分布,ERM原那么是一致的,且同時(shí)有快的收斂速度?下式〔3〕給出了任意分布下一致且快速收斂的充分必要條件:liml→∞G∧這就是學(xué)習(xí)理論中的第三個(gè)里程碑,從理論上證明了對(duì)任意分布ERM原那么滿足一致性且能保證快速收斂的充分必要條件。值得一提的是在1968年,Vapnik和Chervonenkis發(fā)現(xiàn)了VC維的概念與生長(zhǎng)函數(shù)之間的重要聯(lián)系:任意生長(zhǎng)函數(shù)要么是線性的,此時(shí)指示函數(shù)集的VC維無窮大;要么就是以一個(gè)參數(shù)為h的對(duì)數(shù)函數(shù)為上界,此時(shí)指示函數(shù)集的VC維是有限的且等于h。至此,函數(shù)集的VC維有限成了ERM原那么下滿足一致性、收斂速度快,且不依賴于測(cè)度分布的充分條件。接下來,在1968,1971以及1979,1996年間,Vapnik和Chervonenkis找到了兩個(gè)重要的不等式,形成了統(tǒng)計(jì)學(xué)習(xí)理論中關(guān)于界的理論,如下式〔4〕。Rf≤R式4中,h是學(xué)習(xí)機(jī)器函數(shù)集的VC維,l是樣本數(shù)。該不等式帶來的推論就是推廣能力的界是可以控制的,那么,基于什么原那么可以使得所構(gòu)造的算法其推廣能力最正確?這是統(tǒng)計(jì)學(xué)習(xí)理論中的另外一個(gè)重要原那么:結(jié)構(gòu)風(fēng)險(xiǎn)最小化〔StructuralRiskMinimization,SRM〕歸納原那么。結(jié)構(gòu)風(fēng)險(xiǎn)最小化原那么式4說明,實(shí)際風(fēng)險(xiǎn)由兩局部組成:Rempf是經(jīng)驗(yàn)風(fēng)險(xiǎn);Φ(hl)是置信范圍,它和學(xué)習(xí)機(jī)器的VC維和樣本數(shù)有關(guān),VC維越大,那么學(xué)習(xí)機(jī)器的復(fù)雜性越高,置信范圍越大,導(dǎo)致真實(shí)風(fēng)險(xiǎn)與經(jīng)驗(yàn)風(fēng)險(xiǎn)之間可能的差異也越大。結(jié)構(gòu)風(fēng)險(xiǎn)最小化原那么的核心是通過最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍的和來最小化風(fēng)險(xiǎn)泛函,其本質(zhì)是在對(duì)給定樣本逼近的精度和逼近函數(shù)的復(fù)雜性之間取得一種折衷,如REF_Ref264975756\h圖2圖SEQ圖\*ARABIC2結(jié)構(gòu)風(fēng)險(xiǎn)最小化原那么示意在REF_Ref264975756\h圖2中,隨著函數(shù)子集的序號(hào)增加,經(jīng)驗(yàn)風(fēng)險(xiǎn)的最小值減小,而置信范圍卻增加。SRM原那么通過選擇子集S2將二者都考慮在內(nèi),選擇S2使得在這個(gè)子集中最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)會(huì)得到實(shí)際風(fēng)險(xiǎn)的最好的界。至此,統(tǒng)計(jì)學(xué)習(xí)理論根本成熟,具備了堅(jiān)實(shí)的數(shù)學(xué)根底。幾點(diǎn)思考機(jī)器學(xué)習(xí)的前提機(jī)器學(xué)習(xí)的根本目的是讓機(jī)器具備一定的智能,如何理解智能?這里,需要區(qū)分一下智慧和知識(shí),擁有知識(shí)不等于擁有智慧。人類智慧的根底是基于規(guī)那么的知識(shí),還是基于直接感悟真理的修養(yǎng)?這是幾千年來沒有答案的一個(gè)年輕的哲學(xué)問題。目前機(jī)器學(xué)習(xí)研究只能限定在通過明晰推導(dǎo)過程所能獲得的知識(shí)領(lǐng)域。Vapnik提出在有限數(shù)量信息的前提下推導(dǎo)知識(shí)的根本原那么是:在解決一個(gè)給定的問題時(shí),要設(shè)法防止把解決一個(gè)更一般的問題作為其中間步驟。這一原那么是顯然的,但是遵循到什么程度并非易事。統(tǒng)計(jì)學(xué)理論很大程度上遵循了這一原那么,不需要建立物理模型而是直接通過數(shù)學(xué)模型尋找輸入輸出之間的“黑箱”關(guān)系;不需要先估計(jì)密度而是直接尋找待求的函數(shù)。那么,如果問題是“根據(jù)樣本尋找規(guī)律”,這一原那么得到了很好地執(zhí)行;如果問題是“根據(jù)樣本尋找特定點(diǎn)上的取值”,那么這一過程實(shí)際上還是先轉(zhuǎn)變成了一個(gè)更一般的“尋找待求函數(shù)”這一中間問題。如果不通過這一中間步驟,意味著通過“直覺”直接推導(dǎo)。然而,在上世紀(jì)30年代,K.Popper提出了區(qū)分真理論和假理論的準(zhǔn)那么,一個(gè)理論可以被證實(shí)的必要條件是它存在被證偽的可能性。而通過感性的直覺方法所得出的理論“應(yīng)該”是不可證偽的,也就不能稱為一種科學(xué)理論。目前的機(jī)器學(xué)習(xí)問題大多轉(zhuǎn)化成尋找待求函數(shù)的問題〔符號(hào)機(jī)器學(xué)習(xí)除外〕,也就是說將所有問題轉(zhuǎn)化為數(shù)學(xué)問題進(jìn)行推導(dǎo)。機(jī)器學(xué)習(xí)研究的是轉(zhuǎn)化成數(shù)學(xué)問題之后的理論和算法,而第一步的物理世界到數(shù)學(xué)世界的轉(zhuǎn)化是否嚴(yán)格可信?至此,本文梳理了機(jī)器學(xué)習(xí)的幾個(gè)大前提,質(zhì)疑這些前提那么可能開展出來另一片廣闊的研究領(lǐng)域。事實(shí)上,統(tǒng)計(jì)學(xué)習(xí)理論就是質(zhì)疑“樣本數(shù)目趨于無窮大”這一前提開展起來的。1、智能研究考慮的是知識(shí),而非智慧。如果智慧基于感悟,現(xiàn)有的計(jì)算機(jī)硬件根底和軟件結(jié)構(gòu)是否將面臨挑戰(zhàn)?生物計(jì)算機(jī)是否將成為下一代智能計(jì)算機(jī)的主體?2、知識(shí)依賴于明晰的推導(dǎo)過程,而非感悟。如果通過直覺推導(dǎo)知識(shí),如何防止不可證偽的問題?是否可以開展另一套關(guān)于科學(xué)或者哲學(xué)的理論?3、基于數(shù)值的機(jī)器學(xué)習(xí)是將物理世界的問題轉(zhuǎn)換成數(shù)學(xué)問題再進(jìn)行研究,這個(gè)轉(zhuǎn)換過程如何保證不喪失關(guān)鍵信息?是否可以開展一套理論研究轉(zhuǎn)換以及其可信度保證問題?4、是否存在并不適合轉(zhuǎn)換成數(shù)學(xué)問題研究的物理問題?符號(hào)機(jī)器學(xué)習(xí)是否有更廣闊的開展空間?筆者認(rèn)為挑戰(zhàn)以上這些問題可能更適合東方或者中國人的思維方式,而且可以改變?cè)谖鞣疥幱跋乱嗖揭嘹叺默F(xiàn)象。不得不成認(rèn)的是,目前各種主客觀環(huán)境不利于這種挑戰(zhàn)。那么,研究人員在當(dāng)前環(huán)境下的努力方向是什么?研究人員的努力方向從當(dāng)前機(jī)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《計(jì)算機(jī)公共基礎(chǔ)》課件
- 2025年度南京辦公室裝修項(xiàng)目造價(jià)咨詢合同3篇
- 2025年度燃?xì)庑袠I(yè)員工離職經(jīng)濟(jì)補(bǔ)償及爭(zhēng)議處理合同-@-1
- 課題申報(bào)參考:逆向跨國并購后企業(yè)內(nèi)部控制合規(guī)管理模式構(gòu)建研究
- 二零二五年度國際能源資源合作合同4篇
- 課題申報(bào)參考:面向社交網(wǎng)絡(luò)大數(shù)據(jù)的沂蒙精神傳播態(tài)勢(shì)及優(yōu)化路徑研究
- 2025版精密機(jī)床購置及售后服務(wù)合同2篇
- 二零二五年度醫(yī)療健康商標(biāo)轉(zhuǎn)讓與知識(shí)產(chǎn)權(quán)合同
- 2025年度個(gè)人與公司間技術(shù)秘密保護(hù)協(xié)議
- 2025版內(nèi)衣品牌跨界合作營銷合同4篇
- 如何提高售后服務(wù)的快速響應(yīng)能力
- 北師大版 2024-2025學(xué)年四年級(jí)數(shù)學(xué)上冊(cè)典型例題系列第三單元:行程問題“拓展型”專項(xiàng)練習(xí)(原卷版+解析)
- 2023年譯林版英語五年級(jí)下冊(cè)Units-1-2單元測(cè)試卷-含答案
- Unit-3-Reading-and-thinking課文詳解課件-高中英語人教版必修第二冊(cè)
- 施工管理中的文檔管理方法與要求
- DL∕T 547-2020 電力系統(tǒng)光纖通信運(yùn)行管理規(guī)程
- 種子輪投資協(xié)議
- 員工工資條模板
- 執(zhí)行依據(jù)主文范文(通用4篇)
- 浙教版七年級(jí)數(shù)學(xué)下冊(cè)全冊(cè)課件
- 華為攜手深圳國際會(huì)展中心創(chuàng)建世界一流展館
評(píng)論
0/150
提交評(píng)論