MDP及PROLOG在自動駕駛中的應(yīng)用

上傳人：s*** IP屬地：天津上傳時間：2022-12-11 格式：DOCX 頁數(shù)：6 大?。?7.19KB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩1頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

MDP及PROLOG在自動駕駛中的應(yīng)用班兵;楊志剛;楊航【期刊名稱】《《汽車實用技術(shù)》》【年(卷)，期】2019(000)024【總頁數(shù)】4頁(P37-40)【關(guān)鍵詞】行為決策;感興趣區(qū)域;馬爾科夫決策過程【作者】班兵;楊志剛;楊航【作者單位】陜西重型汽車有限公司陜西西安710200【正文語種】中文【中圖分類】U469.7自動駕駛汽車是一種通過電腦系統(tǒng)實現(xiàn)無人駕駛的智能汽車，它的行駛模式更加節(jié)能高效，可以為國家節(jié)省數(shù)千億的交通擁堵成本、交通事故成本以及運輸過程中的人力成本。無人駕駛系統(tǒng)整體框架一般由感知、決策、控制三部分組成。其中決策模塊在無人駕駛系統(tǒng)中有著非常重要的作用，不僅保障行車安全，也為路徑規(guī)劃提供指導(dǎo)和限制信息。目前，無人駕駛系統(tǒng)設(shè)計常用的三類決策算法為基于有限狀態(tài)機FSM［1］或決策樹［2］的規(guī)則決策算法、馬爾科夫決策和強化學(xué)習(xí)算法、端對端深度神經(jīng)網(wǎng)絡(luò)決策算法［3］。規(guī)則決策算法可以將交通規(guī)則知識和駕駛經(jīng)驗知識編輯成規(guī)則條例，從而實現(xiàn)行車過程中駕駛動作的匹配選擇，其邏輯推理性較強，但卻不能很好地處理駕駛環(huán)境中的不確定因素。馬爾科夫決策將不確定環(huán)境下的駕駛行為決策問題轉(zhuǎn)化成可量化的回報值計算，從而選取最優(yōu)動作，但其邏輯推理性較弱，且因狀態(tài)空間過大而導(dǎo)致其實時性變差，難以滿足在線行為決策系統(tǒng)的需求。因此本文在場景理解的基礎(chǔ)上，基于交通規(guī)則和駕駛經(jīng)驗，利用基于規(guī)則的推理機制得到感興趣區(qū)域，從而使得駕駛動作遵守交通規(guī)則的同時減少馬爾科夫決策過程中概率推理計算的運算量，即保證決策結(jié)果合理性的同時提升了系統(tǒng)的實時性。人類駕駛員行車過程中對周圍環(huán)境的注意力分配具有目標(biāo)驅(qū)動性，一般情況下，受目標(biāo)地點和全局路徑規(guī)劃的影響，駕駛員的視覺注意力會選擇性地集中在局部目標(biāo)區(qū)域附近，從而僅提取和理解小范圍區(qū)域內(nèi)的環(huán)境動態(tài)信息，而在一定程度上忽略其它區(qū)域的信息。在結(jié)構(gòu)化特征明顯的城市道路工況下，此種目標(biāo)驅(qū)動性根據(jù)不同的駕駛?cè)蝿?wù)可以細化到具體的道路實體上。如駕駛員在交叉路口進行左轉(zhuǎn)彎行駛時，駕駛員會將注意力集中在當(dāng)前路段、交叉路口和左轉(zhuǎn)彎目標(biāo)路段，依據(jù)感興趣區(qū)域內(nèi)的實時交通動態(tài)信息決定下一步的駕駛動作。駕駛行為決策系統(tǒng)中駕駛動作的生成是建立在對駕駛場景充分理解的基礎(chǔ)上的，而駕駛場景本體模型是場景描述的依據(jù)，因此在考慮駕駛場景信息層次性和關(guān)聯(lián)性的基礎(chǔ)上，建立無人駕駛車輛的本體概念模型。本體模型包括實體類別定義及屬性描述。在給定駕駛場景相關(guān)實體類別的定義之后，實體的狀態(tài)信息及與其它實體的聯(lián)系通過數(shù)據(jù)屬性和關(guān)系屬性來描述。根據(jù)上述駕駛場景本體模型，可實現(xiàn)對自動駕駛車輛周圍環(huán)境中靜態(tài)實體、動態(tài)實體的狀態(tài)信息和相互間關(guān)系的充分描述，從而為進一步的邏輯推理做好準(zhǔn)備。感興趣區(qū)域生成規(guī)則中，車輛在路上狀態(tài)下(非路口區(qū)域)行駛，當(dāng)前車道為最右側(cè)車道時的規(guī)則可描述為：eoi(V,L):-egoVehicle(V),currentRoadState(V,"onRoad"),isOnLane(V,X),isRightMost(X,ture),findLeftLane(V,Y),append([X],[Y],L).車輛V當(dāng)前道路狀態(tài)為在路上，車輛V在車道X上，車道X是最右側(cè)車道，車道X的左側(cè)車道為車道Y，因此車輛V的感興趣區(qū)域為當(dāng)前車道和左側(cè)車道。Prolog是一種基于謂詞演算的高效率聲明式程序設(shè)計語言，是面向非數(shù)值計算的描述性語言，在符號處理和推理方面具有極大的優(yōu)勢，Prolog推理的基礎(chǔ)是由一系列事實和事先編輯好的規(guī)則構(gòu)成的數(shù)據(jù)庫。對于提出的問題，推理機基于數(shù)據(jù)庫自動進行逆向演繹推理，并得出結(jié)果。駕駛行為決策系統(tǒng)具體實現(xiàn)時，主體框架由C++編程實現(xiàn)，推理系統(tǒng)由Prolog動態(tài)鏈接庫進行調(diào)用，從而實現(xiàn)雙方信息交互［4］。在求解當(dāng)前行駛狀態(tài)下的感興趣區(qū)域時，首先將描述當(dāng)前場景的事實及事先離線編輯好的規(guī)則通過輸入函數(shù)輸入到數(shù)據(jù)庫，然后通過推理機得到問題求解答案。馬爾科夫決策過程（MDP）是描述智能體（Agent）與環(huán)境之間相互作用的一種模型，可以看作是一個受控的馬爾科夫過程，用來處理動態(tài)環(huán)境下不確定的序列式?jīng)Q策問題［5］。其基本決策過程如下：首先，遍歷動作集合中的所有動作，每一個動作在當(dāng)前狀態(tài)下通過轉(zhuǎn)移函數(shù)計算得到下一刻狀態(tài)，由每一個動作及其對應(yīng)的下一個狀態(tài)通過回報函數(shù)的計算得到一個立即回報值，計算動作值函數(shù)。然后將下一個狀態(tài)當(dāng)做當(dāng)前狀態(tài)，重復(fù)迭代上述步驟，更新動作值函數(shù)，直到到達一定的迭代次數(shù)或到達局部目標(biāo)點，最后通過最優(yōu)動作值函數(shù)推算出最優(yōu)動作，并輸出給局部路徑規(guī)劃。（1）狀態(tài)空間狀態(tài)空間包括自動駕駛車輛感興趣區(qū)域內(nèi)動態(tài)實體的所有可能描述信息，本文將狀態(tài)空間定義為無人車及周圍其它車輛的空間存在狀態(tài)：其中N為它車個數(shù)。對于自動駕駛車輛自身，主要關(guān)注其在感興趣區(qū)域中的位置坐標(biāo)（xego,yego）、速度vego和航向角0ego,而對于周圍車輛，除了關(guān)注其位置、速度和航向角之外，還要關(guān)注其駕駛意圖bi:駕駛行為決策過程中，迭代過程的結(jié)束需要一個終止?fàn)顟B(tài)sterm來判斷，本文選取下述兩種情況作為結(jié)束標(biāo)志：無人車與靜、動態(tài)障礙物發(fā)生碰撞或無人車到達目標(biāo)位置。當(dāng)?shù)竭_終止?fàn)顟B(tài)時，馬爾科夫過程不再進行迭代，當(dāng)前感興趣區(qū)域內(nèi)的決策過程結(jié)束，等待感興趣區(qū)域的更新。（2）動作空間動作空間主要用于定義無人車所有可能選擇的駕駛動作，包括橫向和縱向駕駛動作指令。為方便車輛底盤控制系統(tǒng)理解上層駕駛指令，動作空間需對抽象動作指令進行參數(shù)化表示，保證車輛狀態(tài)按照決策輸出進行調(diào)整響應(yīng)。（3）轉(zhuǎn)移函數(shù)狀態(tài)轉(zhuǎn)移函數(shù)用StateTransition表示，是對輸入的狀態(tài)Si和動作a進行計算，得到At后的下一時刻自動駕駛車輛所在的狀態(tài)Si+1。對于無人駕駛車輛，認為無人駕駛車輛的自身狀態(tài)信息是準(zhǔn)確的，進而其轉(zhuǎn)移模型由下面車輛運動學(xué)模型唯一確定：對于ROI內(nèi)其它車輛，根據(jù)駕駛意圖預(yù)測得到的預(yù)測軌跡進行計算。（4）回報函數(shù)回報函數(shù)用getReward表示，是對自主駕駛?cè)蝿?wù)完成程度的定量評估，通常根據(jù)安全性、舒適度、任務(wù)完成度和任務(wù)完成效率多個目標(biāo)屬性進行定義，從而得到此狀態(tài)和動作的評價，即：其中，安全性是無人車關(guān)注的第一要素，必須保證無人車不和周圍車輛發(fā)生碰撞事故。若駕駛動作a執(zhí)行后發(fā)生碰撞則得到負的回報值，用來懲罰動作a，否則回報值為正，認為執(zhí)行動作a后的狀態(tài)安全。駕駛行為決策結(jié)果還需保證行車過程中的穩(wěn)定性，避免車輛控制動作頻繁的切換，以保證乘坐時的舒適性，當(dāng)有橫向動作或縱向加減速時得到負的回報值。任務(wù)完成度評價是為了使無人駕駛車輛行駛趨向目標(biāo)點，使其能夠完成駕駛?cè)蝿?wù)。執(zhí)行動作后，若抵達當(dāng)前感興趣區(qū)域內(nèi)的局部目標(biāo)點時，給予正的回報值，以引導(dǎo)車輛向目標(biāo)位置行駛。任務(wù)完成效率評價是為了使無人駕駛車輛能夠以更高效的速度到達任務(wù)目標(biāo)點，也就是速度越大，相應(yīng)的獎賞回報值也是越大的。但同時需要遵守交通規(guī)則，也就是行駛速度需在當(dāng)前ROI內(nèi)公路規(guī)定的最高限速vmax以內(nèi)，當(dāng)條件允許，無人駕駛車輛會以vmax的速度行駛。（5）動作值函數(shù)動作值函數(shù)是一個遞歸函數(shù)，用Qstar表示，首先檢測當(dāng)前狀態(tài)是否到達終止?fàn)顟B(tài)send，若到達則結(jié)束遞歸，然后判斷當(dāng)前迭代次數(shù)是否到達T，若到達則結(jié)束遞歸，否則對所有可能的動作a進行循環(huán)計算。在輸入狀態(tài)Si和動作a下，通過轉(zhuǎn)移函數(shù)StateTransition計算出自動駕駛車輛下一刻會轉(zhuǎn)移到狀態(tài)Si+1，判斷狀態(tài)Si+1是否超出ROIbound范圍，若超出范圍進行剪枝的操作，即直接返回，不進行值函數(shù)的計算，也不計入可執(zhí)行動作的數(shù)目，不超出則通過getReward函數(shù)計算狀態(tài)Si+1的即時回報值Reward。接著通過下式計算所有動作A的動作值函數(shù)Q（s,a），其中Q（s',a'）通過Qstar函數(shù)進行遞歸迭代計算。其中，Y為折扣因子，并且0<Y<1，折扣因子保證了總收益的收斂性；R為回報函數(shù)。（6）MDP函數(shù)MDP決策算法函數(shù)根據(jù)輸入的狀態(tài)S、感興趣區(qū)域ROI信息進行迭代計算，生成最優(yōu)動作。首先對輸入的ROI信息進行處理變?yōu)镽OIbound限制，包括ROI位置坐標(biāo)（乂,：/）的邊界、ROI所在車道的限速vmax，航向角0的范圍限制（取決于自動駕駛車輛的轉(zhuǎn)向性能）。然后檢測當(dāng)前狀態(tài)是否到達終止?fàn)顟B(tài)sterm,若到達，則終止循環(huán)，等待感興趣區(qū)域更新，否則對所有可能的動作a進行動作值函數(shù)計算。最后通過下式可以求得最優(yōu)狀態(tài)值函數(shù)V*,也就獲得最優(yōu)動作a*并作為決策動作返回。在自動駕駛系統(tǒng)輸入行駛?cè)蝿?wù)后，根據(jù)邏輯推理機、感知系統(tǒng)、它車駕駛意圖預(yù)測模塊實時傳回的數(shù)據(jù)信息，初始化感興趣區(qū)域和當(dāng)前狀態(tài)。感興趣區(qū)域信息包括ROI區(qū)域坐標(biāo)、ROI區(qū)域內(nèi)車道數(shù)量、ROI區(qū)域內(nèi)的車速限制和ROI內(nèi)的局部目標(biāo)點sobj，當(dāng)前狀態(tài)包括自動駕駛車輛和ROI內(nèi)它車的位置(x，y)、速度v和航向角成然后開始并每隔At調(diào)用一次MDP決策生成函數(shù)進行最優(yōu)駕駛動作的生成，并輸出到局部路徑規(guī)劃，直到到達終止?fàn)顟B(tài)sterm。在每一次MDP決策之前，需要根據(jù)屬性ROIat對在ROI內(nèi)可能的動作進行篩選，以減少不必要的迭代計算時間。即當(dāng)ROIat為在路口，橫向動作只可能是轉(zhuǎn)向動作：左轉(zhuǎn)、直行、右轉(zhuǎn)；當(dāng)為在路上，橫向動作只可能是換道動作：左換道、車道保持、右換道。在每一次MDP決策之后，執(zhí)行生成的駕駛動作a*之后，根據(jù)邏輯推理機和感知系統(tǒng)實時的信息反饋，更新ROI信息和狀態(tài)S,作為下一次動作生成的輸入?yún)?shù)。仿真場景設(shè)置為：當(dāng)前路段為同向3車道，本車處于最右側(cè)車道。本車前方存在—緩慢行駛的它車。根據(jù)離線設(shè)置的規(guī)則庫進行邏輯推理，生成當(dāng)前的感興趣區(qū)域及其屬性信息。然后通過馬爾科夫決策過程生成駕駛動作指令，由圖4、圖5可知，橫向動作為左換道后車道保持，縱向動作依次為為加速、勻速、停車，實現(xiàn)了簡單場景的決策。通過感興趣區(qū)域推理和馬爾科夫決策的有機協(xié)作可實現(xiàn)簡單交通場景下駕駛動作的生成。在復(fù)雜交通場景決策中，本文決策算法的實時性仍有改進提升的空間，構(gòu)建高效快速的MDP計算模型或結(jié)合自動駕駛的任務(wù)特點對決策算法進行改進將是非常有價值的研究課題。【相關(guān)文獻】熊光明，李勇，王詩源.基于有限狀態(tài)機的智能車輛交叉口行為預(yù)測與控制[J].北京理工大學(xué)學(xué)報,2015,35(1):34-38.杜明博.基于人類駕駛行為的無人駕駛車輛行為決策與運動規(guī)劃方法研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2016.熊璐，康宇宸等.無人駕駛車輛行為決策系統(tǒng)研究[J].汽車

人人文庫> 全部分類> 行業(yè)資料 > 機電工程

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

MDP及PROLOG在自動駕駛中的應(yīng)用

文檔簡介

溫馨提示

最新文檔

評論

MDP及PROLOG在自動駕駛中的應(yīng)用

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔