大語言模型基礎(chǔ)微課版課件第9章大模型智能體

上傳人：q*** IP屬地：山東上傳時間：2024-12-17 格式：PPTX 頁數(shù)：86 大?。?.49MB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩81頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

浙江省普通本科高?！笆奈濉敝攸c教材建設(shè)成果之一大語言模型基礎(chǔ)大語言模型基礎(chǔ)周蘇教授QQ：81505050第9章大模型智能體隨著計算能力的提升和大數(shù)據(jù)的出現(xiàn)，人工智能有了顯著的發(fā)展，深度學習和機器學習技術(shù)的突破使人工智能在視覺識別、語言處理等領(lǐng)域取得驚人的成就，隨之興起的智能體標志著人工智能從單純的任務(wù)執(zhí)行者轉(zhuǎn)變?yōu)槟軌虼砘騾f(xié)助人類做出決策的智能實體，它們在理解和預測人類意圖、提高決策質(zhì)量等方面發(fā)揮著越來越重要的作用。智能體是人工智能領(lǐng)域中的一個重要概念，它指的是一個能自主活動的軟件或者硬件實體。任何獨立的能夠思考并可以與環(huán)境交互的實體都可以抽象為智能體。第9章大模型智能體大模型在人工智能應(yīng)用領(lǐng)域的重大突破，給智能體帶來了新的發(fā)展機會。像ChatGPT這樣的基于Transformer架構(gòu)的大模型，成為為智能體裝備的擁有廣泛任務(wù)能力的“大腦”，從推理、規(guī)劃和決策到行動都使智能體展現(xiàn)出前所未有的能力?；诖竽Ｐ偷闹悄荏w將廣泛深刻地影響人們生活工作的方式，由于可以更好地理解和應(yīng)對復雜多變的現(xiàn)實世界場景，具備更強的智能和自適應(yīng)能力。因此，智能體被認為是通往通用人工智能（AGI）的必經(jīng)之路。第9章大模型智能體01智能體和環(huán)境02智能體的良好行為03環(huán)境的本質(zhì)04智能體的結(jié)構(gòu)目錄/CONTENTS05構(gòu)建大模型智能體06AIGCPART01智能體和環(huán)境智能體通過傳感器感知環(huán)境并通過執(zhí)行器作用于該環(huán)境的事物。我們從檢查智能體、環(huán)境以及它們之間的耦合，觀察到某些智能體比其他智能體表現(xiàn)得更好，自然引出了理性智能體的概念，即行為盡可能好。智能體的行為取決于環(huán)境的性質(zhì)，環(huán)境可以是一切，甚至是整個宇宙。實際上，設(shè)計智能體時關(guān)心的只是宇宙中影響智能體感知以及受智能體動作影響的某一部分的狀態(tài)。

圖9-2智能體通過傳感器和執(zhí)行器與環(huán)境交互9.1智能體和環(huán)境一個人類智能體以眼睛、耳朵和其他器官作為傳感器，以手、腿、聲道等作為執(zhí)行器。而機器人智能體可能以攝像頭和紅外測距儀作為傳感器，各種電動機作為執(zhí)行器。軟件智能體接收文件內(nèi)容、網(wǎng)絡(luò)數(shù)據(jù)包和人工輸入（鍵盤/鼠標/觸摸屏/語音）作為傳感輸入，并通過寫入文件、發(fā)送網(wǎng)絡(luò)數(shù)據(jù)包、顯示信息或生成聲音對環(huán)境進行操作。9.1智能體和環(huán)境術(shù)語“感知”用來表示智能體的傳感器知覺的內(nèi)容。一般而言，一個智能體在任何給定時刻的動作選擇，可能取決于其內(nèi)置知識和迄今為止觀察到的整個感知序列，而不是它未感知到的任何事物。從數(shù)學上講，智能體的行為由智能體函數(shù)描述，該函數(shù)將任意給定的感知序列映射到一個動作。9.1智能體和環(huán)境可以想象，將描述任何給定智能體的智能體函數(shù)制成表格，對大多數(shù)智能體來說這個表格會非常大，事實上是無限的（除非限制所考慮的感知序列的長度），當然，該表只是該智能體的外部特征。在內(nèi)部，人工智能體的智能體函數(shù)由智能體程序?qū)崿F(xiàn)。智能體函數(shù)是一種抽象的數(shù)學描述，而智能體程序是一個可以在某些物理系統(tǒng)中運行的具體實現(xiàn)。9.1智能體和環(huán)境我們來看一個簡單的例子——真空吸塵器。在一個由方格組成的世界中，包含一個機器人真空吸塵器智能體，其中的方格可能是臟的，也可能是干凈的?？紤]只有兩個方格——方格A和方格B——的情況。真空吸塵器智能體可以感知它在哪個方格中，以及方格中是否干凈。從方格A開始，智能體可選的操作包括向右移動、向左移動、吸塵或什么都不做（其實，真正的機器人不太可能會有“向右移動”和“向左移動”這樣的動作，而是采用“向前旋轉(zhuǎn)輪子”和“向后旋轉(zhuǎn)輪子”這樣的動作）。一個非常簡單的智能體函數(shù)如下：如果當前方格是臟的，就吸塵；否則，移動到另一個方格。9.1智能體和環(huán)境PART02智能體的良好行為人工智能通常通過結(jié)果來評估智能體的行為。當智能體進入環(huán)境時，它會根據(jù)接受的感知產(chǎn)生一個動作序列，這會導致環(huán)境經(jīng)歷一系列的狀態(tài)。如果序列是理想的，則智能體表現(xiàn)良好，這個概念由性能度量描述，評估任何給定環(huán)境狀態(tài)的序列。9.2智能體的良好行為人類有適用于自身的理性概念，它與成功選擇產(chǎn)生環(huán)境狀態(tài)序列的行動有關(guān)，而這些環(huán)境狀態(tài)序列從人類的角度來看是可取的。但是，機器沒有自己的欲望和偏好，至少在最初，性能度量是在機器設(shè)計者或者機器受眾的頭腦中。一些智能體設(shè)計具有性能度量的顯式表示，但它也可能是完全隱式的。智能體盡管會做正確的事情，但它并不知道這是為什么。9.2.1性能度量有時，正確地制定性能度量可能非常困難。例如，考慮真空吸塵器智能體，我們可能會用單個8小時班次中清理的灰塵量來度量其性能。然而，一個理性的智能體可以通過清理灰塵，然后將其全部傾倒在地板上，然后再次清理，如此反復，從而最大化這一性能度量值。更合適的性能度量是獎勵擁有干凈地板的智能體。例如，在每個時間步中，每個干凈方格可以獲得1分（可能會對耗電和產(chǎn)生的噪聲進行懲罰）。作為一般規(guī)則，更好的做法是根據(jù)一個人在環(huán)境中真正想要實現(xiàn)的目標，而不是根據(jù)一個人認為智能體應(yīng)該如何表現(xiàn)來設(shè)計性能度量。9.2.1性能度量即使避免了明顯的缺陷，一些棘手的問題仍然存在。例如，“干凈地板”的概念是基于一段時間內(nèi)的平均整潔度。然而，兩個不同的智能體可以達到相同的平均整潔度，其中一個智能體工作始終保持一般水平，而另一個智能體短時間工作效率很高，但需要長時間的休息。哪種工作方式更可取，這似乎是保潔工作的好課題，而實際上還是一個具有深遠影響的哲學問題。9.2.1性能度量通常，理性取決于以下4個方面：（1）定義成功標準的性能度量；（2）智能體對環(huán)境的先驗知識；（3）智能體可以執(zhí)行的動作；（4）智能體到目前為止的感知序列。于是，對理性智能體的定義是：對于每個可能的感知序列，給定感知序列提供的證據(jù)和智能體所擁有的任何先驗知識，理性智能體應(yīng)該選擇一個期望最大化其性能度量的動作。9.2.2理性考慮一個簡單的真空吸塵器智能體，如果一個方格是臟的就清理它，如果不臟就移動到另一個方格，它是理性智能體嗎？假設(shè)：·在1000個時間步的生命周期內(nèi)，性能度量在每個時間步為每個干凈的方格獎勵1分；·環(huán)境的“地理信息”是先驗的，但灰塵的分布和智能體的初始位置不是先驗的，干凈的方格會繼續(xù)保持干凈，吸塵動作會清理當前方格，向左或向右的動作使智能體移動一個方格，如果該動作會讓智能體移動到環(huán)境之外，智能體將保持在原來的位置；9.2.2理性·可用的動作僅有向右、向左和吸塵；·智能體能夠正確感知其位置以及該位置是否有灰塵。在這種情況下，智能體確實是理性的，它的預期性能至少與任何其他智能體一樣。9.2.2理性顯然，同一個智能體在不同情況下可能會變得不理性。例如，在清除所有灰塵后，該智能體會毫無必要地反復來回；如果考慮對每個動作罰1分，那么智能體的表現(xiàn)就會很差。在確定所有方格都干凈的情況下，一個好的智能體不會做任何事情。如果干凈的方格再次變臟，智能體應(yīng)該偶爾檢查，并在必要時重新清理。如果環(huán)境地理信息是未知的，智能體則需要對其進行探索。9.2.2理性全知的智能體能預知其行動的實際結(jié)果，并據(jù)此采取行動，但在現(xiàn)實中，全知是不可能的。理性不等同于完美。理性使期望性能最大化，而完美使實際性能最大化。不要求完美不僅僅是對智能體公平的問題，關(guān)鍵是，如果期望一個智能體做事后證明是最好的行動，就不可能設(shè)計一個符合規(guī)范的智能體。因此，對理性的定義并不需要全知，因為理性決策只取決于迄今為止的感知序列，我們還必須確保沒有無意中允許智能體進行低智的行動。9.2.2理性理性智能體不僅要收集信息，還要盡可能多地從它所感知到的東西中學習。智能體的初始配置可以反映對環(huán)境的一些先驗知識，但隨著智能體獲得經(jīng)驗，這可能會被修改和增強。在一些極端情況下，環(huán)境完全是先驗已知的和完全可預測的，這種情況下，智能體不需要感知或?qū)W習，只需正確地運行。當然，這樣的智能體是脆弱的。如果在某種程度上，智能體依賴于其設(shè)計者的先驗知識，而不是其自身的感知和學習過程，就說該智能體缺乏自主性。一個理性的智能體應(yīng)該是自主的，它應(yīng)該學習如何彌補部分或不正確的先驗知識。9.2.2理性PART03環(huán)境的本質(zhì)構(gòu)建理性智能體還必須考慮任務(wù)環(huán)境，它本質(zhì)上是“問題”，而理性智能體是“解決方案”。首先指定任務(wù)環(huán)境，然后展示任務(wù)環(huán)境的多種形式。任務(wù)環(huán)境的性質(zhì)直接影響到智能體程序的恰當設(shè)計。9.3環(huán)境的本質(zhì)在討論簡單真空吸塵器智能體的理性時，必須為其指定性能度量、環(huán)境以及智能體的執(zhí)行器和傳感器（即PEAS）描述，這些都在任務(wù)環(huán)境的范疇下。設(shè)計智能體時，第一步始終是盡可能完整地指定任務(wù)環(huán)境。我們來考慮一個更復雜的問題：自動駕駛出租車的任務(wù)環(huán)境PEAS描述（見表9-1）。9.3.1指定任務(wù)環(huán)境表9-1自動駕駛出租車司機任務(wù)環(huán)境的PEAS描述9.3.1指定任務(wù)環(huán)境首先，對于自動駕駛追求的性能度量，理想的標準包括到達正確的目的地，盡量減少油耗和磨損，盡量減少行程時間或成本，盡量減少違反交通法規(guī)和對其他駕駛員的干擾，最大限度地提高安全性和乘客舒適度，最大化利潤。顯然，其中有一些目標是相互沖突的，需要權(quán)衡。9.3.1指定任務(wù)環(huán)境接著，出租車將面臨什么樣的駕駛環(huán)境？如司機必須能夠在鄉(xiāng)村車道、城市小巷以及多個車道的高速公路的各種道路上行駛。道路上有其他交通工具、行人、流浪動物、道路工程、警車、水坑和坑洼。出租車還必須與潛在以及實際的乘客互動。另外，還有一些可選項。出租車可以選擇在很少下雪的南方或者經(jīng)常下雪的北方運營。顯然，環(huán)境越受限，設(shè)計問題就越容易解決。9.3.1指定任務(wù)環(huán)境自動駕駛出租車的執(zhí)行器包括可供人類駕駛員使用的器件，例如通過加速器控制發(fā)動機以及控制轉(zhuǎn)向和制動。此外，它還需要輸出到顯示屏或語音合成器，以便與駕駛員以及乘客進行對話，或許還需要某種方式與其他車輛進行禮貌的或其他方式的溝通。9.3.1指定任務(wù)環(huán)境出租車的基本傳感器包括一個或多個攝像頭以便觀察，以及激光雷達和超聲波傳感器以便檢測其他車輛和障礙物的距離。為了避免超速罰單，出租車應(yīng)該有一個速度表，而為了正確控制車輛（特別是在彎道上），它應(yīng)該有一個加速度表。要確定車輛的機械狀態(tài)，需要發(fā)動機、燃油和電氣系統(tǒng)的傳感器常規(guī)陣列。像許多人類駕駛者一樣，它可能需要獲取北斗導航信號，這樣就不會迷路。最后，乘客需要觸摸屏或語音輸入才能說明目的地。9.3.1指定任務(wù)環(huán)境表9-2中簡要列舉了一些其他智能體類型的基本PEAS元素。這些示例包括物理環(huán)境和虛擬環(huán)境。注意，虛擬任務(wù)環(huán)境可能與“真實”世界一樣復雜。例如，在拍賣和轉(zhuǎn)售網(wǎng)站上進行交易的軟件智能體，它為數(shù)百萬其他用戶和數(shù)十億對象提供交易業(yè)務(wù)。9.3.1指定任務(wù)環(huán)境表9-2智能體類型及其PEAS描述的示例9.3.1指定任務(wù)環(huán)境人工智能中可能出現(xiàn)的任務(wù)環(huán)境范圍非常廣泛，但可以確定少量的維度，并根據(jù)這些維度對任務(wù)環(huán)境進行分類。這些維度在很大程度上決定了恰當?shù)闹悄荏w設(shè)計以及智能體實現(xiàn)的主要技術(shù)系列的適用性。首先列出維度，然后分析任務(wù)環(huán)境，闡明思路。9.3.2任務(wù)環(huán)境的屬性完全可觀測與部分可觀測：如果能讓智能體的傳感器在每個時間點都能訪問環(huán)境的完整狀態(tài)，那么就說任務(wù)環(huán)境是完全可觀測的。如果傳感器檢測到與動作選擇相關(guān)的所有方面，那么任務(wù)環(huán)境就是有效的完全可觀測的，而這里的“相關(guān)”又取決于性能度量標準。完全可觀測的環(huán)境容易處理，因為智能體不需要維護任何內(nèi)部狀態(tài)來追蹤世界。由于傳感器噪聲大且不準確，或者由于傳感器數(shù)據(jù)中缺少部分狀態(tài)，環(huán)境可能部分可觀測。9.3.2任務(wù)環(huán)境的屬性例如，只有一個局部灰塵傳感器的真空吸塵器無法判斷其他方格是否有灰塵，或者自動駕駛出租車無法感知其他司機的想法。如果智能體根本沒有傳感器，那么環(huán)境是不可觀測的。在這種情況下，智能體的困境可能是無解的，但智能體的目標仍然可能實現(xiàn)。9.3.2任務(wù)環(huán)境的屬性單智能體與多智能體：單智能體和多智能體環(huán)境之間的區(qū)別似乎足夠簡單。例如，獨自解決縱橫字謎的智能體顯然處于單智能體環(huán)境中，而下國際象棋的智能體則處于二智能體環(huán)境中。然而，這里也有一些微妙的問題，例如我們已經(jīng)描述了如何將一個實體視為智能體，但沒有解釋哪些實體必須視為智能體。智能體A（例如出租車司機）是否必須將對象B（另一輛車）視為智能體，還是可以僅將其視為根據(jù)物理定律運行的對象，類似于海灘上的波浪或隨風飄動的樹葉？9.3.2任務(wù)環(huán)境的屬性多智能體設(shè)計問題與單智能體有較大差異。例如，在多智能體環(huán)境中，通信通常作為一種理性行為出現(xiàn)：在某些競爭環(huán)境中，隨機行為是理性的，因為它避免了一些可預測性的陷阱。確定性與非確定性：如果環(huán)境的下一個狀態(tài)完全由當前狀態(tài)和智能體執(zhí)行的動作決定，那么就說環(huán)境是確定性的，否則是非確定性的。原則上，在完全可觀測的確定性環(huán)境中，智能體不需要擔心不確定性。然而，如果環(huán)境是部分可觀測的，那么它可能是非確定性的。9.3.2任務(wù)環(huán)境的屬性大多數(shù)真實情況非常復雜，以至于不可能追蹤所有未觀測到的方面，實際上必須將其視為非確定性的。出租車駕駛顯然是非確定性的，因為無法準確地預測交通行為，例如輪胎可能會意外爆胎，發(fā)動機可能會在沒有警告的情況下失靈等。雖然所描述的真空吸塵器世界是確定性的，但可能存在非確定性因素，如隨機出現(xiàn)的灰塵和不可靠的吸力機制等。注意到“隨機”與“非確定性”不同。如果環(huán)境模型顯式地處理概率（例如“明天的降雨可能性為25％”），那么它是隨機的；如果可能性沒有被量化，那么它是“非確定性的”（例如“明天有可能下雨”）。9.3.2任務(wù)環(huán)境的屬性回合式與序貫：許多分類任務(wù)是回合式的。例如，在裝配流水線上檢測缺陷零件的智能體，它需要根據(jù)當前零件做出每個決策，而無須考慮以前的決策，而且當前的決策并不影響下一個零件是否有缺陷。在回合式任務(wù)環(huán)境中，智能體的經(jīng)驗被劃分為原子式回合，每接收一個感知執(zhí)行單個動作。重要的是，下一回合并不依賴于前幾回合采取的動作。但是，在序貫環(huán)境中，當前決策可能會影響未來所有決策。國際象棋和出租車駕駛是序貫的：在這兩種情況下，短期行為可能會產(chǎn)生長期影響?；睾鲜江h(huán)境下的智能體不需要提前思考，所以要比序貫環(huán)境簡單很多。9.3.2任務(wù)環(huán)境的屬性靜態(tài)與動態(tài)：如果環(huán)境在智能體思考時發(fā)生了變化，就說該智能體的環(huán)境是動態(tài)的，否則是靜態(tài)的。靜態(tài)環(huán)境容易處理，因為智能體在決定某個操作時不需要一直關(guān)注世界，也不需要擔心時間的流逝。但是，動態(tài)環(huán)境會不斷地詢問智能體想要采取什么行動，如果它還沒有決定，那就什么都不做。如果環(huán)境本身不會隨著時間的推移而改變，但智能體的性能分數(shù)會改變，就說環(huán)境是半動態(tài)的。駕駛出租車顯然是動態(tài)的，因為駕駛算法在計劃下一步該做什么時，其他車輛和出租車本身在不斷移動。在用時鐘計時的情況下國際象棋是半動態(tài)的，而填字游戲是靜態(tài)的。9.3.2任務(wù)環(huán)境的屬性離散與連續(xù)：這之間的區(qū)別適用于環(huán)境的狀態(tài)、處理時間的方式以及智能體的感知和動作。例如，國際象棋環(huán)境具有有限數(shù)量的不同狀態(tài)（不包括時鐘），國際象棋也有一組離散的感知和動作。駕駛出租車是一個連續(xù)狀態(tài)和連續(xù)時間的問題，出租車和其他車輛的速度和位置是一系列連續(xù)的值，并隨著時間平穩(wěn)地變化。出租車的駕駛動作也是連續(xù)的（轉(zhuǎn)向角等）。嚴格來說，來自數(shù)字照相機的輸入是離散的，但通常被視為表示連續(xù)變化的強度和位置。9.3.2任務(wù)環(huán)境的屬性已知與未知：這種區(qū)別是指智能體（或設(shè)計者）對環(huán)境“物理定律”的認知狀態(tài)。在已知環(huán)境中，所有行動的結(jié)果（如果環(huán)境是非確定性的，則對應(yīng)結(jié)果的概率）都是既定的。顯然，如果環(huán)境未知，智能體將不得不了解它是如何工作的，才能做出正確的決策。9.3.2任務(wù)環(huán)境的屬性最困難的情況是部分可觀測、多智能體、非確定性、序貫、動態(tài)、連續(xù)且未知的。表9-3列出許多熟悉環(huán)境的可變化屬性。例如，將患者的患病過程作為智能體建模并不適合，所以我們將醫(yī)療診斷任務(wù)列為單智能體，但是醫(yī)療診斷系統(tǒng)還可能會應(yīng)對頑固的病人和多疑的工作人員，因此環(huán)境具有多智能體方面。此外，如果將任務(wù)設(shè)想為根據(jù)癥狀列表進行診斷，那么醫(yī)療診斷是回合式的；如果任務(wù)包括一系列測試、評估治療進展、處理多個患者等，那就是序貫的。9.3.2任務(wù)環(huán)境的屬性表9-3任務(wù)環(huán)境的例子及其特征9.3.2任務(wù)環(huán)境的屬性PART04智能體的結(jié)構(gòu)人工智能的工作是設(shè)計一個智能體程序?qū)崿F(xiàn)智能體函數(shù)，即從感知到動作的映射。假設(shè)該程序?qū)⑦\行在某種具有物理傳感器和執(zhí)行器的計算設(shè)備上，稱之為智能體架構(gòu)。智能體＝架構(gòu)＋程序9.4智能體的結(jié)構(gòu)智能體的關(guān)鍵組成如下圖所示。顯然，選擇的程序必須適合相應(yīng)的架構(gòu)。如果程序打算推薦步行這樣的動作，那么對應(yīng)的架構(gòu)最好有腿。架構(gòu)可能只是一臺普通PC，也可能是一輛帶有多臺車載計算機、攝像頭和其他傳感器的機器人汽車。通常，架構(gòu)使程序可以使用來自傳感器的感知，然后運行程序，并將程序生成的動作選擇反饋給執(zhí)行器。圖9-3智能體的關(guān)鍵組成9.4智能體的結(jié)構(gòu)我們考慮的智能體程序都有相同的框架：將當前感知作為傳感器的輸入，并將動作返回給執(zhí)行器。而智能體程序框架還有其他選擇，例如可以讓智能體程序作為與環(huán)境異步運行的協(xié)程。每個這樣的協(xié)程都有一個輸入和輸出端口，并由一個循環(huán)組成，該循環(huán)讀取輸入端口的感知，并將動作寫到輸出端口。注意智能體程序（將當前感知作為輸入）和智能體函數(shù)（可能依賴整個感知歷史）之間的差異。因為環(huán)境中沒有其他可用信息，所以智能體程序別無選擇，只能將當前感知作為輸入。如果智能體的動作需要依賴于整個感知序列，那么智能體必須記住歷史感知。9.4.1智能體程序人工智能面臨的關(guān)鍵挑戰(zhàn)是找出編寫程序的方法，盡可能從一個小程序而不是從一個大表中產(chǎn)生理性行為。有4種基本的智能體程序，它們體現(xiàn)了幾乎所有智能系統(tǒng)的基本原理，每種智能體程序以特定的方式組合特定的組件來產(chǎn)生動作。（1）簡單反射型智能體。最簡單的智能體，根據(jù)當前感知選擇動作，忽略感知歷史的其余部分。9.4.1智能體程序（2）基于模型的反射型智能體。處理部分可觀測性的最有效方法是讓智能體追蹤它現(xiàn)在觀測不到的部分世界。也就是說，智能體應(yīng)該維護某種依賴于感知歷史的內(nèi)部狀態(tài)，從而反映當前狀態(tài)的一些未觀測到的方面。例如剎車問題，內(nèi)部狀態(tài)范圍不僅限于攝像頭拍攝圖像的前一幀，要讓智能體能夠檢測車輛邊緣的兩個紅燈何時同時亮起或熄滅。對于其他駕駛?cè)蝿?wù)，如變道，如果智能體無法同時看到其他車輛，則需要追蹤它們的位置。9.4.1智能體程序隨著時間的推移，更新這些內(nèi)部狀態(tài)信息需要在智能體程序中以某種形式編碼兩種知識。首先，需要一些關(guān)于世界如何隨時間變化的信息，這些信息大致可以分為兩部分：智能體行為的影響和世界如何獨立于智能體而發(fā)展。例如，當智能體順時針轉(zhuǎn)動方向盤時汽車會右轉(zhuǎn)；而下雨時汽車的攝像頭會被淋濕。這種關(guān)于“世界如何運轉(zhuǎn)”的知識（無論是在簡單的布爾電路中還是在完整的科學理論中實現(xiàn)）被稱為世界的轉(zhuǎn)移模型。9.4.1智能體程序其次，需要一些關(guān)于世界狀態(tài)如何反映在智能體感知中的信息。例如，當前面的汽車開始剎車時，前向攝像頭的圖像中會出現(xiàn)一個或多個亮起的紅色區(qū)域；當攝像頭被淋濕時，圖像中會出現(xiàn)水滴狀物體并部分遮擋道路。這種知識稱為傳感器模型。轉(zhuǎn)移模型和傳感器模型結(jié)合在一起讓智能體能夠在傳感器受限的情況下盡可能地跟蹤世界的狀態(tài)。使用此類模型的智能體稱為基于模型的智能體。9.4.1智能體程序（3）基于目標的智能體。即使了解了環(huán)境的現(xiàn)狀也并不總是能決定做什么。例如，在一個路口，出租車可以左轉(zhuǎn)、右轉(zhuǎn)或直行。正確的決定還取決于出租車要去哪里。換句話說，除了當前狀態(tài)的描述之外，智能體還需要某種描述理想情況的目標信息，例如設(shè)定目的地。智能體程序可以將其與模型相結(jié)合，并選擇實現(xiàn)目標的動作。9.4.1智能體程序（4）基于效用的智能體。在大多數(shù)環(huán)境中，僅靠目標并不足以產(chǎn)生高質(zhì)量的行為。例如，許多動作序列都能使出租車到達目的地，但有些動作序列比其他動作序列更快、更安全、更可靠或者更便宜。這個時候，目標只是在“快樂”和“不快樂”狀態(tài)之間提供了一個粗略的二元區(qū)別。更一般的性能度量應(yīng)該允許根據(jù)不同世界狀態(tài)的“快樂”程度來對智能體進行比較。經(jīng)濟學家和計算機科學家通常用效用這個詞來代替“快樂”。9.4.1智能體程序我們已經(jīng)看到，性能度量會給任何給定的環(huán)境狀態(tài)序列打分，因此它可以很容易地區(qū)分到達出租車目的地所采取的更可取和更不可取的方式。智能體的效用函數(shù)本質(zhì)上是性能度量的內(nèi)部化。如果內(nèi)部效用函數(shù)和外部性能度量一致，那么根據(jù)外部性能度量選擇動作，以使其效用最大化的智能體是理性的。9.4.1智能體程序在圖靈早期的著名論文中，曾經(jīng)考慮了手動編程實現(xiàn)智能機器的想法。他估計了這可能需要多少工作量，并得出結(jié)論，“似乎需要一些更快捷的方法”。他提出的方法是構(gòu)造學習型機器，然后教它們。在人工智能的許多領(lǐng)域，這是目前創(chuàng)建最先進系統(tǒng)的首選方法。任何類型的智能體（基于模型、基于目標、基于效用等）都可以構(gòu)建（或不構(gòu)建）成學習型智能體。9.4.2學習型智能體學習還有另一個優(yōu)勢：它讓智能體能夠在最初未知的環(huán)境中運作，并變得比其最初的能力更強。學習型智能體可分為4個概念組件，其中，“性能元素”框表示我們之前認為的整個智能體程序，“學習元素”框可以修改該程序以提升其性能。最重要的區(qū)別在于負責提升的學習元素和負責選擇外部行動的性能元素。性能元素接受感知并決定動作，學習元素使用來自評估者對智能體表現(xiàn)的反饋，并以此確定應(yīng)該如何修改性能元素以在未來做得更好。圖9-4通用學習型智能體9.4.2學習型智能體學習元素的設(shè)計在很大程度上取決于性能元素的設(shè)計。當設(shè)計者試圖設(shè)計一個學習某種能力的智能體時，第一個問題是“一旦智能體學會了如何做，它將使用什么樣的性能元素？”給定性能元素的設(shè)計，可以構(gòu)造學習機制來改進智能體的每個部分。9.4.2學習型智能體評估者告訴學習元素：智能體在固定性能標準方面的表現(xiàn)如何。評估者是必要的，因為感知本身并不會指示智能體是否成功。例如，國際象棋程序可能會收到一個感知，提示它已將死對手，但它需要一個性能標準來知道這是一件好事。從概念上講，應(yīng)該把性能標準看作完全在智能體之外，智能體不能修改性能標準以適應(yīng)自己的行為。9.4.2學習型智能體學習型智能體的最后一個組件是問題生成器。它負責建議動作，這些動作將獲得全新和信息豐富的經(jīng)驗。如果性能元素完全根據(jù)自己的方式，它會繼續(xù)選擇已知最好的動作。但如果智能體愿意進行一些探索，并在短期內(nèi)做一些可能不太理想的動作，那么從長遠來看，它可能會發(fā)現(xiàn)更好的動作。問題生成器的工作是建議這些探索性行動。這就是科學家在進行實驗時所做的。伽利略并不認為從比薩斜塔頂端扔石頭本身有價值。他并不是想要打碎石頭或改造不幸的行人的大腦。他的目的是通過確定更好的物體運動理論來改造自己的大腦。9.4.2學習型智能體學習元素可以對智能體圖中顯示的任何“知識”組件進行更改。最簡單的情況是直接從感知序列學習。觀察成對相繼的環(huán)境狀態(tài)可以讓智能體了解“我的動作做了什么”以及“世界如何演變”以響應(yīng)其動作。例如，如果自動駕駛出租車在濕滑路面上行駛時進行一定程度的剎車，那么它很快就會發(fā)現(xiàn)實際減速多少，以及它是否滑出路面。問題生成器可能會識別出模型中需要改進的某些部分，并建議進行實驗，例如在不同條件下的不同路面上嘗試剎車。無論外部性能標準如何，改進基于模型的智能體的組件，使其更好地符合現(xiàn)實幾乎總是一個好主意。9.4.2學習型智能體從計算的角度來看，在某些情況下簡單但稍微不準確的模型比完美但極其復雜的模型更好。當智能體試圖學習反射組件或效用函數(shù)時，需要外部標準的信息。從某種意義上說，性能標準將傳入感知的一部分區(qū)分為獎勵或懲罰，以提供對智能體行為質(zhì)量的直接反饋。更一般地說，人類的選擇可以提供有關(guān)人類偏好的信息。例如，假設(shè)出租車不知道人們通常不喜歡噪聲，于是決定不停地按揚聲器以確保行人知道它即將到來。隨之而來的人類行為，如蓋住耳朵、說臟話甚至可能剪斷喇揚聲器上的電線，將為智能體提供更新其效用函數(shù)的證據(jù)。9.4.2學習型智能體總之，智能體有各種組件，這些組件可以在智能體程序中以多種方式表示，因此學習方法之間似乎存在很大差異。然而，主題仍然是統(tǒng)一的：智能體中的學習可以概括為對智能體的各個組件進行修改的過程，使各組件與可用的反饋信息更接近，從而提升智能體的整體性能。9.4.2學習型智能體智能體程序由各種組件組成，組件表示了智能體所處環(huán)境的各種處理方式。我們通過一個復雜性和表達能力不斷增加的方式來描述，即原子表示、因子化表示和結(jié)構(gòu)化表示。例如，我們來考慮一個特定的智能體組件，處理“我的動作會導致什么”。這個組件描述了采取動作的結(jié)果可能在環(huán)境中引起的變化。

圖9-5表示狀態(tài)及其轉(zhuǎn)移的3種方法9.4.3智能體組件的工作圖9-5（a）中，原子表示一個狀態(tài)（如B或C）是沒有內(nèi)部結(jié)構(gòu)的黑盒；圖9-5（b）中因子化表示狀態(tài)由屬性值向量組成，值可以是布爾值、實值或一組固定符號中的一個；圖9-5（c）中結(jié)構(gòu)化表示狀態(tài)包括對象，每個對象可能有自己的屬性以及與其他對象的關(guān)系。9.4.3智能體組件的工作在原子表示中，世界的每一個狀態(tài)都是不可分割的，它沒有內(nèi)部結(jié)構(gòu)。考慮這樣一個任務(wù)：通過城市序列找到一條從某個國家的一端到另一端的行車路線。為了解決這個問題，將世界狀態(tài)簡化為所處城市的名稱就足夠了，這就是單一知識原子，也是一個“黑盒”，唯一可分辨的屬性是與另一個黑盒相同或不同。搜索和博弈中的標準算法、隱馬爾可夫模型以及馬爾可夫決策過程都基于原子表示。9.4.3智能體組件的工作因子化表示將每個狀態(tài)拆分為一組固定的變量或?qū)傩裕總€變量或?qū)傩远伎梢杂幸粋€值。考慮同一個駕駛問題，即我們需要關(guān)注的不僅僅是一個城市或另一個城市的原子位置，可能還需要關(guān)注油箱中的汽油量、當前的北斗導航坐標、油量警示燈是否工作、通行費、收音機頻道等。兩個不同的原子狀態(tài)沒有任何共同點（只是不同的黑盒），但兩個不同的因子化狀態(tài)可以共享某些屬性（如位于某個導航位置），而其他屬性不同（如有大量汽油或沒有汽油），這使得研究如何將一種狀態(tài)轉(zhuǎn)換為另一種狀態(tài)變得更加容易。9.4.3智能體組件的工作人工智能的許多重要領(lǐng)域都基于因子化表示，包括約束滿足算法、命題邏輯、規(guī)劃、貝葉斯網(wǎng)絡(luò)以及各種機器學習算法。此外，我們還需要將世界理解為存在著相互關(guān)聯(lián)的事物，而不僅僅是具有值的變量。例如，我們可能注意到前面有一輛卡車正在倒車進入一個奶牛場的車道，但一頭奶牛擋住了卡車的路。這時就需要一個結(jié)構(gòu)化表示，可以明確描述諸如奶牛和卡車之類的對象及其各種不同的關(guān)系。結(jié)構(gòu)化表示是關(guān)系數(shù)據(jù)庫和一階邏輯、一階概率模型和大部分自然語言理解的基礎(chǔ)。事實上，人類用自然語言表達的大部分內(nèi)容都與對象及其關(guān)系有關(guān)。9.4.3智能體組件的工作PART05構(gòu)建大模型智能體盡管能力出色，但大模型還只是被動的工具，它們依賴簡單的執(zhí)行過程，無法直接當智能體使用。智能體機制具有主動性，特別是在與環(huán)境的交互、主動決策和執(zhí)行各種任務(wù)方面。另外，智能體通過挖掘大模型的潛在優(yōu)勢，可以進一步增強決策制定。特別是使用人工、環(huán)境或模型來提供反饋，使得智能體可以具備更深思熟慮和自適應(yīng)的問題解決機制，超越大模型現(xiàn)有技術(shù)的局限。可以說，智能體是真正釋放大模型潛能的關(guān)鍵，它能為大模型核心提供強大的行動能力；而另一方面，大模型能提供智能體所需要的強大引擎?？梢哉f，大模型和智能體可以互補而相互成就。9.5構(gòu)建大模型智能體智能體根據(jù)設(shè)定的目標，確定好需要履行特定角色，自主觀測感知環(huán)境，根據(jù)獲得的環(huán)境狀態(tài)信息，檢索歷史記憶以及相關(guān)知識，通過推理規(guī)劃分解任務(wù)并確定行動策略，并反饋作用于環(huán)境，以達成目標。在這個過程中，智能體持續(xù)學習，以像人類一樣不斷進化?；诖竽Ｐ蛠順?gòu)建一個智能體，能充分地利用大模型的各種能力，驅(qū)動不同的組成單元。圖9-6基于大模型的智能體應(yīng)用9.5構(gòu)建大模型智能體智能體本身包括觀測感知模塊、記憶檢索、推理規(guī)劃和行動執(zhí)行等模塊。它呈現(xiàn)強大能力的關(guān)鍵在于系統(tǒng)形成反饋閉環(huán)，使智能體可以持續(xù)地迭代學習，不斷地獲得新知識和能力。反饋除了來自環(huán)境外，還可以來自人類和語言模型。智能體不斷積累必要的經(jīng)驗來增強改進自己，以顯著提高規(guī)劃能力并產(chǎn)生新的行為，以越來越適應(yīng)環(huán)境并符合常識，更加完滿地完成任務(wù)。在執(zhí)行任務(wù)過程中的不同階段，基于大模型的智能體通過提示等方式與大模型交互獲得必要的資源和相關(guān)結(jié)果。9.5構(gòu)建大模型智能體PART06人工智能生成內(nèi)容AIGC就是由人工智能技術(shù)來自動創(chuàng)作生成內(nèi)容，比如生成圖形圖像、視頻、音樂、文字（文章、短篇小說、報告）等。AIGC就像一支神奇的畫筆，擁有無限的創(chuàng)造力。這支畫筆的特別之處在于它是由人工智能打造的。利用人工智能的理解力、想象力和創(chuàng)作力，根據(jù)指定的需求和風格，創(chuàng)作出各種內(nèi)容。AIGC的出現(xiàn)，打開了一個全新的創(chuàng)作世界，為人們提供了無數(shù)的可能性。9.6人工智能生成內(nèi)容（AIGC）從用戶生成內(nèi)容（UGC），到專業(yè)生成內(nèi)容（PGC），再到現(xiàn)在的人工智能生成內(nèi)容（AIGC），我們看到了內(nèi)容創(chuàng)作方式的巨大變革和進步。例如，AIGC是人工智能大模型，特別是自然語言處理模型的一種重要應(yīng)用，而ChatGPT是AIGC在聊天對話場景的一個具體應(yīng)用?？梢园袮IGC看作是一個大的范疇，而ChatGPT是其中一個類別的應(yīng)用。9.6人工智能生成內(nèi)容（AIGC）智能數(shù)字內(nèi)容孿生主要分為內(nèi)容的增強與轉(zhuǎn)譯。增強即對數(shù)字內(nèi)容修復、去噪、細節(jié)增強等。轉(zhuǎn)譯即對數(shù)字內(nèi)容轉(zhuǎn)換如翻譯等。該技術(shù)旨在將現(xiàn)實世界中的內(nèi)容進行智能增強與智能轉(zhuǎn)譯，更好的完成現(xiàn)實世界到數(shù)字世界映射。例如，我們拍攝了一張低分辨率的圖片，通過智能增強中的圖像超分可對低分辨率進行放大，同時增強圖像的細節(jié)信息，生成高清圖。再比如，對于老照片中的像素缺失部分，可通過智能增強技術(shù)進行內(nèi)容復原。而智能轉(zhuǎn)譯則更關(guān)注不同模態(tài)之間的相互轉(zhuǎn)換。9.6.1內(nèi)容孿生比如，錄制一段音頻，可通過智能轉(zhuǎn)譯技術(shù)自動生成字幕；再比如，輸入一段文字可以自動生成語音，兩個例子均為模態(tài)間智能轉(zhuǎn)譯應(yīng)用。內(nèi)容孿生的應(yīng)用主要有語音轉(zhuǎn)字幕、文字轉(zhuǎn)語音、圖像超分等。其中，圖像超分辨率是指利用光學及其相關(guān)光學知識，根據(jù)已知圖像信息恢復圖像細節(jié)和其他數(shù)據(jù)信息的過程，簡單來說就是增大圖像的分辨率，防止其圖像質(zhì)量下降。9.6.1內(nèi)容孿生智能數(shù)字內(nèi)容編輯是通過對內(nèi)容的理解以及屬性控制，進而實現(xiàn)對內(nèi)容的修改。如在計算機視覺領(lǐng)域，通過對視頻內(nèi)容的理解實現(xiàn)不同場景視頻片段的剪輯。通過人體部位檢測以及目標衣服的變形控制與截斷處理，將目標衣服覆蓋至人體部位，實現(xiàn)虛擬試衣。在語音信號處理領(lǐng)域，通過對音頻信號分析，實現(xiàn)人聲與背景聲分離。以上例子都

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大語言模型基礎(chǔ)微課版課件第9章大模型智能體

文檔簡介

溫馨提示

最新文檔

評論

大語言模型基礎(chǔ)微課版課件 第9章 大模型智能體

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

大語言模型基礎(chǔ)微課版課件第9章大模型智能體