




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第二章第二章 智能智能AgentAgent內(nèi)容提要 Agents和環(huán)境 理性Agent 環(huán)境的性質(zhì) Agent的類型與結(jié)構(gòu) Agent通過感知器感知環(huán)境并通過執(zhí)行器對所處的環(huán)境產(chǎn)生影響 人類Agent 眼睛,耳朵為感知器 手,腳,聲道為執(zhí)行器 機器人Agent 攝像頭,紅外距測儀為感知器 馬達為執(zhí)行器Agent函數(shù)將任何感知歷史數(shù)據(jù)映射為行為:Agent程序通過在物理系統(tǒng)上運行來實現(xiàn)Agent函數(shù)Agent = 體系結(jié)構(gòu) + 程序感知器:地點和內(nèi)容(eg. A,Dirty)行為:向左,向右,洗塵,無操作理性agent:對于每一可能的感知數(shù)據(jù)序列,一個理性的agent應(yīng)該采取一個行為以達到最大的
2、性能。理性判斷的4個因素性能度量先驗知識可以完成的行動截至到此刻的感知序列一個Agent應(yīng)該根據(jù)它感知的信息和它能夠進行的行為而做正確的事情正確的行為將使得Agent能夠取得最大的成功性能度量:一個客觀的標準來評價Agent的行為的成功性Eg.真空器agent的性能度量可以是它清洗區(qū)域的數(shù)量,花費的時間,消耗的能量,產(chǎn)生的噪音等等Eg.真空洗塵器8個小時內(nèi)清理的灰塵總量來度量性能?以行為來度量性能不如以結(jié)果來度量性能全知:明確知道它的行動產(chǎn)生的實際結(jié)果并且作出相應(yīng)的動作理性不等同于全知(已知的知識都是有限的)理性不等于完美:理性是使期望的性能最大化完美是使實際的性能最大化理性agent能夠進行
3、信息收集。理性的agent應(yīng)該具有自主性,能夠進行學(xué)習(xí)從環(huán)境的感知信息中根據(jù)歷史經(jīng)驗來學(xué)習(xí)任務(wù)環(huán)境:包括性能(Performance),環(huán)境(Environment),agent的執(zhí)行器(Actuators)和傳感器(Sensors),英文縮寫為PEAS對于每一個智能agent,必須說明其PEAS參數(shù)Eg.自動駕駛出租車性能度量環(huán)境執(zhí)行器傳感器Eg.自動駕駛出租車性能度量:安全性,快速性,交通違規(guī),舒適度,利潤環(huán)境:馬路,其他交通工具,行人,乘客執(zhí)行器:方向盤,加速油門,剎車,語音合成器傳感器:攝像頭,紅外或聲納,速度表,GPS,鍵盤,麥克風Eg.醫(yī)療診斷系統(tǒng)性能度量:病人的健康性,病人花費環(huán)
4、境:病人,醫(yī)院,工作人員執(zhí)行器:顯示屏(詢問,測試,診斷,治療方案)傳感器:鍵盤(輸入癥狀,現(xiàn)場檢測,病人的回答)Eg.挑揀零件機器人性能度量:正確挑揀的零件所占的百分比環(huán)境:零件傳送帶,容器執(zhí)行器:機器人手臂和手傳感器:攝像頭,關(guān)節(jié)感知器Eg.交互式英語教學(xué)者性能度量:最大化學(xué)生成績環(huán)境:學(xué)生執(zhí)行器:顯示屏(練習(xí)題,建議,正確答案)傳感器:鍵盤完全可觀察的完全可觀察的 vs.vs.部分可觀察的部分可觀察的一個agent的傳感器在每個時間點上都能獲取環(huán)境的完整狀態(tài)一個agent的傳感器在每個時間點上都能獲取環(huán)境的部分狀態(tài)真空洗塵器?自動駕駛汽車?單單agent vs.agent vs.多多ag
5、entagent單agent獨自運行 eg.字謎游戲多agent同時運行 eg.國際象棋國際象棋 vs. 駕駛出租車?確定的確定的 vs. vs.隨機的隨機的環(huán)境的下一個狀態(tài)完全取決于當前狀態(tài)和agent執(zhí)行的動作部分可觀察?出租車駕駛?真空吸塵器?片段式的片段式的 vs. vs. 延續(xù)式的延續(xù)式的agent的經(jīng)歷被分成一個個原子片段,在每個片段中agent感知信息并完成單個行動,下一個片段不依賴于以前的片段檢查次品零件的機器人?國際象棋?靜態(tài)的靜態(tài)的 vs. vs. 動態(tài)的動態(tài)的環(huán)境在agent計算的時候不會變化(vs.會變化)半動態(tài)的:環(huán)境本身不變化但agent的性能評價隨時間變化出租車,
6、國際象棋,填字游戲?離散的離散的 vs. vs.連續(xù)的連續(xù)的環(huán)境的狀態(tài),時間的處理方式以及agent的感知信息和行動都有離散/連續(xù)之分國際象棋,出租車駕駛?環(huán)境的性質(zhì)決定了agent的設(shè)計最難處理的情況:部分可觀察的,隨機的,連續(xù)的,動態(tài)的,延續(xù)式的,多agent的一個agent用agent函數(shù)來表示agent函數(shù)將感知數(shù)據(jù)序列映射為行為 Agent程序以傳感器得到的當前感知信息為輸入以執(zhí)行器的行動為輸出僅僅以當前感知為輸入而不是以整個歷史感知為輸入缺點表太大創(chuàng)建表時間長非自主性,需人工填寫即使能夠?qū)W習(xí),也需要很長的時間四種基本的類型簡單反射agent基于模型的反射agent基于目標的agent基于效用的agent基于當前的感知選擇行動,不關(guān)注感知歷史環(huán)境是完全可觀察的還是部分可觀察的?Eg. 真空吸塵器問題,剎車問題Agent根據(jù)感知歷史維持內(nèi)部狀態(tài)Agent隨時更新內(nèi)部狀態(tài)信息除了根據(jù)感知信息之外,還要根據(jù)目標信息來選擇行動效率比較低,需要推理搜索和規(guī)劃算法當達到目標的行為有很多種的時候,需要考慮效率環(huán)境是部分可觀察的和隨機的,不確定下的決策過程可以通過基于效用的agent來實現(xiàn)。效用的作用多目標相沖突時多目標在不確定環(huán)境中一個目標有多種行為可以達到時4個組件性能
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 專題2.10 函數(shù)的綜合應(yīng)用(解析版)-2024年高考數(shù)學(xué)一輪復(fù)習(xí)精講精練寶典(新高考專用)
- 車間地基施工方案
- 景觀塔施工方案
- 互聯(lián)網(wǎng)電商知識培訓(xùn)課件
- 印刷制作設(shè)計合同范例
- 吉首售房合同范例
- 2025年英語 英語五官標準課件
- 壓手續(xù)不押車合同范例
- 腦疝的護理診斷及護理問題
- 豐富多樣的幼兒園節(jié)日慶典計劃
- 路虎衛(wèi)士說明書
- S7-1200使用SCL語言編程實現(xiàn)數(shù)控G代碼指令編程控制
- 教學(xué)課件:《新時代新征程》
- 交通事故授權(quán)委托書樣本(通用)正規(guī)范本(通用版)
- 2022年福建省公務(wù)員錄用考試《行測》題
- (新湘科版)六年級下冊科學(xué)知識點
- 文言文閱讀訓(xùn)練:蘇軾《刑賞忠厚之至論》(附答案解析與譯文)
- 人際關(guān)系與溝通技巧-職場中的平行溝通與同事溝通
- 教師系列高、中級職稱申報人員民意測評表
- 文件定期審核記錄
- 社會穩(wěn)定風險評估報告-穩(wěn)評報告
評論
0/150
提交評論