MDP及PROLOG在自動駕駛中的應(yīng)用_第1頁
MDP及PROLOG在自動駕駛中的應(yīng)用_第2頁
MDP及PROLOG在自動駕駛中的應(yīng)用_第3頁
MDP及PROLOG在自動駕駛中的應(yīng)用_第4頁
MDP及PROLOG在自動駕駛中的應(yīng)用_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

MDP及PROLOG在自動駕駛中的應(yīng)用班兵;楊志剛;楊航【期刊名稱】《《汽車實用技術(shù)》》【年(卷),期】2019(000)024【總頁數(shù)】4頁(P37-40)【關(guān)鍵詞】行為決策;感興趣區(qū)域;馬爾科夫決策過程【作者】班兵;楊志剛;楊航【作者單位】陜西重型汽車有限公司陜西西安710200【正文語種】中文【中圖分類】U469.7自動駕駛汽車是一種通過電腦系統(tǒng)實現(xiàn)無人駕駛的智能汽車,它的行駛模式更加節(jié)能高效,可以為國家節(jié)省數(shù)千億的交通擁堵成本、交通事故成本以及運輸過程中的人力成本。無人駕駛系統(tǒng)整體框架一般由感知、決策、控制三部分組成。其中決策模塊在無人駕駛系統(tǒng)中有著非常重要的作用,不僅保障行車安全,也為路徑規(guī)劃提供指導(dǎo)和限制信息。目前,無人駕駛系統(tǒng)設(shè)計常用的三類決策算法為基于有限狀態(tài)機FSM[1]或決策樹[2]的規(guī)則決策算法、馬爾科夫決策和強化學(xué)習(xí)算法、端對端深度神經(jīng)網(wǎng)絡(luò)決策算法[3]。規(guī)則決策算法可以將交通規(guī)則知識和駕駛經(jīng)驗知識編輯成規(guī)則條例,從而實現(xiàn)行車過程中駕駛動作的匹配選擇,其邏輯推理性較強,但卻不能很好地處理駕駛環(huán)境中的不確定因素。馬爾科夫決策將不確定環(huán)境下的駕駛行為決策問題轉(zhuǎn)化成可量化的回報值計算,從而選取最優(yōu)動作,但其邏輯推理性較弱,且因狀態(tài)空間過大而導(dǎo)致其實時性變差,難以滿足在線行為決策系統(tǒng)的需求。因此本文在場景理解的基礎(chǔ)上,基于交通規(guī)則和駕駛經(jīng)驗,利用基于規(guī)則的推理機制得到感興趣區(qū)域,從而使得駕駛動作遵守交通規(guī)則的同時減少馬爾科夫決策過程中概率推理計算的運算量,即保證決策結(jié)果合理性的同時提升了系統(tǒng)的實時性。人類駕駛員行車過程中對周圍環(huán)境的注意力分配具有目標(biāo)驅(qū)動性,一般情況下,受目標(biāo)地點和全局路徑規(guī)劃的影響,駕駛員的視覺注意力會選擇性地集中在局部目標(biāo)區(qū)域附近,從而僅提取和理解小范圍區(qū)域內(nèi)的環(huán)境動態(tài)信息,而在一定程度上忽略其它區(qū)域的信息。在結(jié)構(gòu)化特征明顯的城市道路工況下,此種目標(biāo)驅(qū)動性根據(jù)不同的駕駛?cè)蝿?wù)可以細(xì)化到具體的道路實體上。如駕駛員在交叉路口進行左轉(zhuǎn)彎行駛時,駕駛員會將注意力集中在當(dāng)前路段、交叉路口和左轉(zhuǎn)彎目標(biāo)路段,依據(jù)感興趣區(qū)域內(nèi)的實時交通動態(tài)信息決定下一步的駕駛動作。駕駛行為決策系統(tǒng)中駕駛動作的生成是建立在對駕駛場景充分理解的基礎(chǔ)上的,而駕駛場景本體模型是場景描述的依據(jù),因此在考慮駕駛場景信息層次性和關(guān)聯(lián)性的基礎(chǔ)上,建立無人駕駛車輛的本體概念模型。本體模型包括實體類別定義及屬性描述。在給定駕駛場景相關(guān)實體類別的定義之后,實體的狀態(tài)信息及與其它實體的聯(lián)系通過數(shù)據(jù)屬性和關(guān)系屬性來描述。根據(jù)上述駕駛場景本體模型,可實現(xiàn)對自動駕駛車輛周圍環(huán)境中靜態(tài)實體、動態(tài)實體的狀態(tài)信息和相互間關(guān)系的充分描述,從而為進一步的邏輯推理做好準(zhǔn)備。感興趣區(qū)域生成規(guī)則中,車輛在路上狀態(tài)下(非路口區(qū)域)行駛,當(dāng)前車道為最右側(cè)車道時的規(guī)則可描述為:eoi(V,L):-egoVehicle(V),currentRoadState(V,"onRoad"),isOnLane(V,X),isRightMost(X,ture),findLeftLane(V,Y),append([X],[Y],L).車輛V當(dāng)前道路狀態(tài)為在路上,車輛V在車道X上,車道X是最右側(cè)車道,車道X的左側(cè)車道為車道Y,因此車輛V的感興趣區(qū)域為當(dāng)前車道和左側(cè)車道。Prolog是一種基于謂詞演算的高效率聲明式程序設(shè)計語言,是面向非數(shù)值計算的描述性語言,在符號處理和推理方面具有極大的優(yōu)勢,Prolog推理的基礎(chǔ)是由一系列事實和事先編輯好的規(guī)則構(gòu)成的數(shù)據(jù)庫。對于提出的問題,推理機基于數(shù)據(jù)庫自動進行逆向演繹推理,并得出結(jié)果。駕駛行為決策系統(tǒng)具體實現(xiàn)時,主體框架由C++編程實現(xiàn),推理系統(tǒng)由Prolog動態(tài)鏈接庫進行調(diào)用,從而實現(xiàn)雙方信息交互[4]。在求解當(dāng)前行駛狀態(tài)下的感興趣區(qū)域時,首先將描述當(dāng)前場景的事實及事先離線編輯好的規(guī)則通過輸入函數(shù)輸入到數(shù)據(jù)庫,然后通過推理機得到問題求解答案。馬爾科夫決策過程(MDP)是描述智能體(Agent)與環(huán)境之間相互作用的一種模型,可以看作是一個受控的馬爾科夫過程,用來處理動態(tài)環(huán)境下不確定的序列式?jīng)Q策問題[5]。其基本決策過程如下:首先,遍歷動作集合中的所有動作,每一個動作在當(dāng)前狀態(tài)下通過轉(zhuǎn)移函數(shù)計算得到下一刻狀態(tài),由每一個動作及其對應(yīng)的下一個狀態(tài)通過回報函數(shù)的計算得到一個立即回報值,計算動作值函數(shù)。然后將下一個狀態(tài)當(dāng)做當(dāng)前狀態(tài),重復(fù)迭代上述步驟,更新動作值函數(shù),直到到達(dá)一定的迭代次數(shù)或到達(dá)局部目標(biāo)點,最后通過最優(yōu)動作值函數(shù)推算出最優(yōu)動作,并輸出給局部路徑規(guī)劃。(1)狀態(tài)空間狀態(tài)空間包括自動駕駛車輛感興趣區(qū)域內(nèi)動態(tài)實體的所有可能描述信息,本文將狀態(tài)空間定義為無人車及周圍其它車輛的空間存在狀態(tài):其中N為它車個數(shù)。對于自動駕駛車輛自身,主要關(guān)注其在感興趣區(qū)域中的位置坐標(biāo)(xego,yego)、速度vego和航向角0ego,而對于周圍車輛,除了關(guān)注其位置、速度和航向角之外,還要關(guān)注其駕駛意圖bi:駕駛行為決策過程中,迭代過程的結(jié)束需要一個終止?fàn)顟B(tài)sterm來判斷,本文選取下述兩種情況作為結(jié)束標(biāo)志:無人車與靜、動態(tài)障礙物發(fā)生碰撞或無人車到達(dá)目標(biāo)位置。當(dāng)?shù)竭_(dá)終止?fàn)顟B(tài)時,馬爾科夫過程不再進行迭代,當(dāng)前感興趣區(qū)域內(nèi)的決策過程結(jié)束,等待感興趣區(qū)域的更新。(2)動作空間動作空間主要用于定義無人車所有可能選擇的駕駛動作,包括橫向和縱向駕駛動作指令。為方便車輛底盤控制系統(tǒng)理解上層駕駛指令,動作空間需對抽象動作指令進行參數(shù)化表示,保證車輛狀態(tài)按照決策輸出進行調(diào)整響應(yīng)。(3)轉(zhuǎn)移函數(shù)狀態(tài)轉(zhuǎn)移函數(shù)用StateTransition表示,是對輸入的狀態(tài)Si和動作a進行計算,得到At后的下一時刻自動駕駛車輛所在的狀態(tài)Si+1。對于無人駕駛車輛,認(rèn)為無人駕駛車輛的自身狀態(tài)信息是準(zhǔn)確的,進而其轉(zhuǎn)移模型由下面車輛運動學(xué)模型唯一確定:對于ROI內(nèi)其它車輛,根據(jù)駕駛意圖預(yù)測得到的預(yù)測軌跡進行計算。(4)回報函數(shù)回報函數(shù)用getReward表示,是對自主駕駛?cè)蝿?wù)完成程度的定量評估,通常根據(jù)安全性、舒適度、任務(wù)完成度和任務(wù)完成效率多個目標(biāo)屬性進行定義,從而得到此狀態(tài)和動作的評價,即:其中,安全性是無人車關(guān)注的第一要素,必須保證無人車不和周圍車輛發(fā)生碰撞事故。若駕駛動作a執(zhí)行后發(fā)生碰撞則得到負(fù)的回報值,用來懲罰動作a,否則回報值為正,認(rèn)為執(zhí)行動作a后的狀態(tài)安全。駕駛行為決策結(jié)果還需保證行車過程中的穩(wěn)定性,避免車輛控制動作頻繁的切換,以保證乘坐時的舒適性,當(dāng)有橫向動作或縱向加減速時得到負(fù)的回報值。任務(wù)完成度評價是為了使無人駕駛車輛行駛趨向目標(biāo)點,使其能夠完成駕駛?cè)蝿?wù)。執(zhí)行動作后,若抵達(dá)當(dāng)前感興趣區(qū)域內(nèi)的局部目標(biāo)點時,給予正的回報值,以引導(dǎo)車輛向目標(biāo)位置行駛。任務(wù)完成效率評價是為了使無人駕駛車輛能夠以更高效的速度到達(dá)任務(wù)目標(biāo)點,也就是速度越大,相應(yīng)的獎賞回報值也是越大的。但同時需要遵守交通規(guī)則,也就是行駛速度需在當(dāng)前ROI內(nèi)公路規(guī)定的最高限速vmax以內(nèi),當(dāng)條件允許,無人駕駛車輛會以vmax的速度行駛。(5)動作值函數(shù)動作值函數(shù)是一個遞歸函數(shù),用Qstar表示,首先檢測當(dāng)前狀態(tài)是否到達(dá)終止?fàn)顟B(tài)send,若到達(dá)則結(jié)束遞歸,然后判斷當(dāng)前迭代次數(shù)是否到達(dá)T,若到達(dá)則結(jié)束遞歸,否則對所有可能的動作a進行循環(huán)計算。在輸入狀態(tài)Si和動作a下,通過轉(zhuǎn)移函數(shù)StateTransition計算出自動駕駛車輛下一刻會轉(zhuǎn)移到狀態(tài)Si+1,判斷狀態(tài)Si+1是否超出ROIbound范圍,若超出范圍進行剪枝的操作,即直接返回,不進行值函數(shù)的計算,也不計入可執(zhí)行動作的數(shù)目,不超出則通過getReward函數(shù)計算狀態(tài)Si+1的即時回報值Reward。接著通過下式計算所有動作A的動作值函數(shù)Q(s,a),其中Q(s',a')通過Qstar函數(shù)進行遞歸迭代計算。其中,Y為折扣因子,并且0<Y<1,折扣因子保證了總收益的收斂性;R為回報函數(shù)。(6)MDP函數(shù)MDP決策算法函數(shù)根據(jù)輸入的狀態(tài)S、感興趣區(qū)域ROI信息進行迭代計算,生成最優(yōu)動作。首先對輸入的ROI信息進行處理變?yōu)镽OIbound限制,包括ROI位置坐標(biāo)(乂,:/)的邊界、ROI所在車道的限速vmax,航向角0的范圍限制(取決于自動駕駛車輛的轉(zhuǎn)向性能)。然后檢測當(dāng)前狀態(tài)是否到達(dá)終止?fàn)顟B(tài)sterm,若到達(dá),則終止循環(huán),等待感興趣區(qū)域更新,否則對所有可能的動作a進行動作值函數(shù)計算。最后通過下式可以求得最優(yōu)狀態(tài)值函數(shù)V*,也就獲得最優(yōu)動作a*并作為決策動作返回。在自動駕駛系統(tǒng)輸入行駛?cè)蝿?wù)后,根據(jù)邏輯推理機、感知系統(tǒng)、它車駕駛意圖預(yù)測模塊實時傳回的數(shù)據(jù)信息,初始化感興趣區(qū)域和當(dāng)前狀態(tài)。感興趣區(qū)域信息包括ROI區(qū)域坐標(biāo)、ROI區(qū)域內(nèi)車道數(shù)量、ROI區(qū)域內(nèi)的車速限制和ROI內(nèi)的局部目標(biāo)點sobj,當(dāng)前狀態(tài)包括自動駕駛車輛和ROI內(nèi)它車的位置(x,y)、速度v和航向角成然后開始并每隔At調(diào)用一次MDP決策生成函數(shù)進行最優(yōu)駕駛動作的生成,并輸出到局部路徑規(guī)劃,直到到達(dá)終止?fàn)顟B(tài)sterm。在每一次MDP決策之前,需要根據(jù)屬性ROIat對在ROI內(nèi)可能的動作進行篩選,以減少不必要的迭代計算時間。即當(dāng)ROIat為在路口,橫向動作只可能是轉(zhuǎn)向動作:左轉(zhuǎn)、直行、右轉(zhuǎn);當(dāng)為在路上,橫向動作只可能是換道動作:左換道、車道保持、右換道。在每一次MDP決策之后,執(zhí)行生成的駕駛動作a*之后,根據(jù)邏輯推理機和感知系統(tǒng)實時的信息反饋,更新ROI信息和狀態(tài)S,作為下一次動作生成的輸入?yún)?shù)。仿真場景設(shè)置為:當(dāng)前路段為同向3車道,本車處于最右側(cè)車道。本車前方存在—緩慢行駛的它車。根據(jù)離線設(shè)置的規(guī)則庫進行邏輯推理,生成當(dāng)前的感興趣區(qū)域及其屬性信息。然后通過馬爾科夫決策過程生成駕駛動作指令,由圖4、圖5可知,橫向動作為左換道后車道保持,縱向動作依次為為加速、勻速、停車,實現(xiàn)了簡單場景的決策。通過感興趣區(qū)域推理和馬爾科夫決策的有機協(xié)作可實現(xiàn)簡單交通場景下駕駛動作的生成。在復(fù)雜交通場景決策中,本文決策算法的實時性仍有改進提升的空間,構(gòu)建高效快速的MDP計算模型或結(jié)合自動駕駛的任務(wù)特點對決策算法進行改進將是非常有價值的研究課題?!鞠嚓P(guān)文獻(xiàn)】熊光明,李勇,王詩源.基于有限狀態(tài)機的智能車輛交叉口行為預(yù)測與控制[J].北京理工大學(xué)學(xué)報,2015,35(1):34-38.杜明博.基于人類駕駛行為的無人駕駛車輛行為決策與運動規(guī)劃方法研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2016.熊璐,康宇宸等.無人駕駛車輛行為決策系統(tǒng)研究[J].汽車

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論