蘇州科技大學(xué)-機(jī)器學(xué)習(xí)復(fù)習(xí)JU-JI自整_第1頁
蘇州科技大學(xué)-機(jī)器學(xué)習(xí)復(fù)習(xí)JU-JI自整_第2頁
蘇州科技大學(xué)-機(jī)器學(xué)習(xí)復(fù)習(xí)JU-JI自整_第3頁
蘇州科技大學(xué)-機(jī)器學(xué)習(xí)復(fù)習(xí)JU-JI自整_第4頁
蘇州科技大學(xué)-機(jī)器學(xué)習(xí)復(fù)習(xí)JU-JI自整_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

考試題型選擇題 20題 共40分名詞解釋題 10題 共10分簡答題 3題 共30分計算題 1題 共20分(4小問)考試知識點整理人工智能ArtificialIntelligence,簡記為AI,是當(dāng)前科學(xué)技術(shù)迅速發(fā)展及新思想、新理論、新技術(shù)不斷涌現(xiàn)的形勢下產(chǎn)生的一個學(xué)科,也是一門涉及數(shù)學(xué)、計算機(jī)科學(xué)、哲學(xué)、認(rèn)知心理學(xué)和心理學(xué)、信息論、控制論等學(xué)科的交叉和邊緣學(xué)科。智能的定義智能是知識和智力的總和,知識是一切智能行為的基礎(chǔ),智力是獲取知識并運(yùn)用知識求解問題的能力。智能特征感知能力記憶和思維能力學(xué)習(xí)和自適應(yīng)能力行為能力機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)(MachineLearning,ML)是機(jī)器獲取知識的根本途徑,也是機(jī)器具有智能的重要標(biāo)志,是人工智能研究的核心問題之一。機(jī)器學(xué)習(xí)是使計算機(jī)無需明確編程就能學(xué)習(xí)的研究領(lǐng)域。人工智能的主要學(xué)派符號主義連接主義行為主義人工智能的主要研究內(nèi)容知識表示:實際上是對知識的一種描述,或者是一組約定,是機(jī)器可以接受的用于描述知識的數(shù)據(jù)結(jié)構(gòu)。推理:指按照某種策略,從已知事實出發(fā),利用知識推出所需結(jié)論的過程。搜索與規(guī)劃:搜索是指為了達(dá)到某個目標(biāo),不斷尋找推理路線,以引導(dǎo)和控制推理,使問題得以解決的過程。規(guī)劃是一種重要的問題求解技術(shù),是從某個特定問題狀態(tài)出發(fā),尋找并建立一個操作序列,直到求得目標(biāo)狀態(tài)為止的一個行動過程的描述。機(jī)器學(xué)習(xí):是機(jī)器獲取知識的根本途徑,也是機(jī)器具有智能的重要標(biāo)志,是人工智能研究的核心問題之一。機(jī)器學(xué)習(xí)分類監(jiān)督式學(xué)習(xí)無監(jiān)督學(xué)習(xí)強(qiáng)化學(xué)習(xí)監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí)區(qū)別原理不同:監(jiān)督學(xué)習(xí)是指利用一組已知類別的樣本調(diào)整分類器的參數(shù),使其達(dá)到所要求性能的過程。無監(jiān)督學(xué)習(xí)指根據(jù)類別未知(沒有被標(biāo)記)的訓(xùn)練樣本解決模式識別中的各種問題的過程。算法不同:監(jiān)督學(xué)習(xí)的算法是通過分析已知類別的訓(xùn)練數(shù)據(jù)產(chǎn)生的。無監(jiān)督學(xué)習(xí)的算法主要有主成分分析方法、等距映射方法、局部線性嵌入方法、拉普拉斯特征映射方法、黑塞局部線性嵌入方法和局部切空間排列方法等。適用條件不同:監(jiān)督學(xué)習(xí)適用于樣本數(shù)據(jù)已知的情況。非監(jiān)督學(xué)習(xí)適用于無類別信息的情況。監(jiān)督學(xué)習(xí)與強(qiáng)化學(xué)習(xí)區(qū)別監(jiān)督學(xué)習(xí)有兩個主要任務(wù),即回歸和分類,而強(qiáng)化學(xué)習(xí)則具有不同的任務(wù),例如開發(fā)或探索,馬爾可夫的決策過程,政策學(xué)習(xí),深度學(xué)習(xí)和價值學(xué)習(xí)。在監(jiān)督學(xué)習(xí)中,存在各種數(shù)量的算法,它們的優(yōu)缺點適合于系統(tǒng)要求。在強(qiáng)化學(xué)習(xí)中,馬爾可夫的決策過程為建模和決策情況提供了數(shù)學(xué)框架。監(jiān)督學(xué)習(xí)意味著名稱本身就表示它是高度監(jiān)督的,而強(qiáng)化學(xué)習(xí)則受到較少的監(jiān)督,并且依賴學(xué)習(xí)代理來通過確定不同的可能方式來確定輸出解決方案,以實現(xiàn)最佳解決方案。過擬合與欠擬合過擬合:當(dāng)學(xué)習(xí)器把訓(xùn)練樣本學(xué)得太好了的時候,很可能已經(jīng)把訓(xùn)練樣本自身的一些特點當(dāng)作了所有潛在樣本都會具有的一般性質(zhì),這樣就會導(dǎo)致泛化性能下降。欠擬合:指對訓(xùn)練樣本的一般性質(zhì)尚未學(xué)好。模型評估的關(guān)鍵在于如何獲得測試集,且測試集應(yīng)該與訓(xùn)練集互斥。常見的模型評估方法留出法保持?jǐn)?shù)據(jù)分布一致性(舉例:分層采樣)多次重復(fù)劃分(舉例:100次隨機(jī)劃分)測試集不能太大也不能太小(舉例:1/5~1/3)交叉驗證法自助法調(diào)參與最終模型算法參數(shù)由人工設(shè)定,模型參數(shù)由學(xué)習(xí)確定調(diào)參過程相似:先產(chǎn)生若干模型,然后基于某種評估方法進(jìn)行選擇算法參數(shù)選定后,要用“訓(xùn)練集+驗證集”重新訓(xùn)練最終模型

性能度量是衡量模型泛化能力的評價標(biāo)準(zhǔn),反映了任務(wù)需求,使用不同的性能度量往往會導(dǎo)致不同的評判結(jié)果,回歸任務(wù)最常用的性能度量是均方誤差。常用的性能度量錯誤率與精度查準(zhǔn)率、查全率與F1ROC與AUC代價敏感錯誤率與代價曲線比較檢驗(在某種度量下取得評估結(jié)果后,是否可以直接比較以評判優(yōu)劣?)在某種度量下取得評估結(jié)果后,不可以直接比較以評判優(yōu)劣,因為測試性能不等于泛化性能,測試性能會隨著測試集的變化而變化,并且很多機(jī)器學(xué)習(xí)算法本身有一定的隨機(jī)性。比較檢驗的常用方法假設(shè)檢驗交叉驗證t檢驗McNemar檢驗Friedman檢驗與Nemenyi后續(xù)檢驗偏差-方差分解泛化性能是由學(xué)習(xí)算法的能力、數(shù)據(jù)的充分性以及學(xué)習(xí)任務(wù)本身的難度共同決定,偏差-方差分解是解釋學(xué)習(xí)算法泛化性能的一種重要工具。偏差-方差窘境訓(xùn)練不足時,學(xué)習(xí)器擬合能力不強(qiáng),偏差主導(dǎo)隨著訓(xùn)練程度加深,學(xué)習(xí)器擬合能力逐漸增強(qiáng),方差逐漸主導(dǎo)訓(xùn)練充足后,學(xué)習(xí)器的擬合能力很強(qiáng),方差主導(dǎo)參數(shù)與超參數(shù)參數(shù):從模型中學(xué)習(xí)得到的變量。超參數(shù):在開始學(xué)習(xí)過程之前設(shè)置其值的參數(shù),而不是通過訓(xùn)練獲得的參數(shù)數(shù)據(jù)。參數(shù)與超參數(shù)區(qū)別獲取信息的方式不同通過模型訓(xùn)練獲得參數(shù)。超參數(shù)是手動設(shè)置的。不同的影響因素超參數(shù)來自人類經(jīng)驗,并將受到硬件的限制。參數(shù)主要受模型的影響。不同模型的訓(xùn)練效果不同。不同的影響因素超參數(shù)是人工設(shè)定的,具有很高的可控性。參數(shù)與模型相關(guān),結(jié)果有時達(dá)不到預(yù)期,可控性差。

強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)問題可以描述為一個智能體從與環(huán)境的交互中不斷學(xué)習(xí)以完成特定目標(biāo)(比如取得最大獎勵值)。強(qiáng)化學(xué)習(xí)就是智能體不斷與環(huán)境進(jìn)行交互,并根據(jù)經(jīng)驗調(diào)整其策略來最大化其長遠(yuǎn)的所有獎勵的累積值。智能體(Agent):感知外界環(huán)境的狀態(tài)(State)和獎勵反饋(Reward),并進(jìn)行學(xué)習(xí)和決策。智能體的決策功能是指根據(jù)外界環(huán)境的狀態(tài)來做出不同的動作(Action),而學(xué)習(xí)功能是指根據(jù)外界環(huán)境的獎勵來調(diào)整策略。環(huán)境(Environment):智能體外部的所有事物,并受智能體動作的影響而改變其狀態(tài),并反饋給智能體相應(yīng)的獎勵。強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí)的區(qū)別強(qiáng)化學(xué)習(xí)是試錯學(xué)習(xí),由于沒有直接的指導(dǎo)信息,智能體要以不斷與環(huán)境進(jìn)行交互,通過試錯的方式來獲得最佳策略。延遲回報,強(qiáng)化學(xué)習(xí)的指導(dǎo)信息很少,而且往往是在事后才給出的,這就導(dǎo)致了一個問題,就是獲得正回報或者負(fù)回報以后,如何將回報分配給前面的狀態(tài)。馬爾科夫決策過程(MDP)MDP組成一組狀態(tài)s動作a一個過渡分布期待下一次獎勵r決策許多隨機(jī)過程可以在MDP框架內(nèi)建模。這個過程是通過在每個狀態(tài)下選擇行動來控制的,試圖獲得最大的長期回報。如何找到最優(yōu)策略

示例(回收機(jī)器人)

強(qiáng)化學(xué)習(xí)基本方法動態(tài)規(guī)劃:發(fā)展良好,但需要完整準(zhǔn)確的環(huán)境模型;蒙特卡羅方法:不需要模型,概念上非常簡單,但不適合逐步增量計算;時差學(xué)習(xí):時差法不需要模型,而且是完全增量的,但分析起來更復(fù)雜;Q-Learning動態(tài)規(guī)劃(DP)可以用來計算最優(yōu)策略的一組算法給出了一個完美的環(huán)境模型。(例如MDP)動態(tài)規(guī)劃是理解其他方法的必要基礎(chǔ)。其他方法試圖實現(xiàn)與DP幾乎相同的效果,只是計算量較少,并且沒有假設(shè)環(huán)境的完美模型。動態(tài)規(guī)劃方法政策評估政策改進(jìn)策略迭代價值迭代異步DP異步DP不使用掃描,它是重復(fù)此步驟,直到滿足收斂條件然后隨機(jī)選擇一個狀態(tài)并應(yīng)用適當(dāng)?shù)膫浞莓惒紻P仍然需要大量計算,但不會陷入無望的長掃描蒙特卡羅方法(隨機(jī)搜索法)蒙特卡羅方法是求解基于平均樣本收益的強(qiáng)化學(xué)習(xí)問題的方法。為了確保定義良好的返回是可用的,我們只對情景任務(wù)定義蒙特卡羅方法。蒙特卡羅(MC)方法與動態(tài)規(guī)劃(DP)之間的區(qū)別和聯(lián)系MC可以直接從與環(huán)境的交互中學(xué)習(xí);MC不需要完整的模型;MC違規(guī)造成的傷害較??;MC方法提供了另一種策略評估過程;與DP相反,MC沒有引導(dǎo)。時差學(xué)習(xí)(TD)結(jié)合了MC和DP的思想。與MC一樣,TD方法可以直接從原始經(jīng)驗中學(xué)習(xí),而無需環(huán)境動力學(xué)模型。與DP一樣,TD方法在一定程度上基于其他學(xué)習(xí)到的估計值來更新估計值,而無需等待最終結(jié)果。

為什么TD更擅長在批量更新中推廣MC易受不良狀態(tài)采樣和怪異事件的影響;TD較少受到怪異事件和抽樣的影響,因為與其他狀態(tài)相關(guān)的估計可能會得到更好的抽樣;對于環(huán)境的最大似然模型,TD收斂于修正值函數(shù)。SarsaQ-Learning

公式策略的狀態(tài)值函數(shù)V的貝爾曼方程s:狀態(tài)a:行為r:獎勵γ:折扣因子貝爾曼最優(yōu)方程Q蒙特卡羅方法(MC)動態(tài)規(guī)劃(DP)時差學(xué)習(xí)(TD)

計算題1考慮以下帶有折扣因子的馬爾可夫決策過程(MDP),大寫字母A、B、C代表狀態(tài),弧代表狀態(tài)轉(zhuǎn)換,小寫字母ab,ba,bc,ca,cb代表動作,有符號整數(shù)代表獎勵,分?jǐn)?shù)代表轉(zhuǎn)移概率。定義折扣MDP的狀態(tài)值函數(shù)Vπ(s)【回答】寫出狀態(tài)值函數(shù)的貝爾曼期望方程【答案】考慮統(tǒng)一隨機(jī)策略π1(s,a),它以相等的概率從狀態(tài)s采取所有行動。從初始值函數(shù)V1(A)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論