![新能源汽車與智能網(wǎng)聯(lián)技術(shù) 課件 第5章 決策規(guī)劃_第1頁](http://file4.renrendoc.com/view12/M05/2A/2F/wKhkGWdb-0aAOUtiAAFDXrPZSEI246.jpg)
![新能源汽車與智能網(wǎng)聯(lián)技術(shù) 課件 第5章 決策規(guī)劃_第2頁](http://file4.renrendoc.com/view12/M05/2A/2F/wKhkGWdb-0aAOUtiAAFDXrPZSEI2462.jpg)
![新能源汽車與智能網(wǎng)聯(lián)技術(shù) 課件 第5章 決策規(guī)劃_第3頁](http://file4.renrendoc.com/view12/M05/2A/2F/wKhkGWdb-0aAOUtiAAFDXrPZSEI2463.jpg)
![新能源汽車與智能網(wǎng)聯(lián)技術(shù) 課件 第5章 決策規(guī)劃_第4頁](http://file4.renrendoc.com/view12/M05/2A/2F/wKhkGWdb-0aAOUtiAAFDXrPZSEI2464.jpg)
![新能源汽車與智能網(wǎng)聯(lián)技術(shù) 課件 第5章 決策規(guī)劃_第5頁](http://file4.renrendoc.com/view12/M05/2A/2F/wKhkGWdb-0aAOUtiAAFDXrPZSEI2465.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
新能源汽車與智能網(wǎng)聯(lián)技術(shù)第5章
決策規(guī)劃“十四五”時(shí)期國家重點(diǎn)出版物出版專項(xiàng)規(guī)劃項(xiàng)目新能源與智能網(wǎng)聯(lián)汽車新技術(shù)系列叢書中國機(jī)械工業(yè)教育協(xié)會“十四五”普通高等教育規(guī)劃教材課程負(fù)責(zé)人:靳文瑞譚理剛黃晉wrjin@本章內(nèi)容5.1決策方法概述5.2全局軌跡規(guī)劃5.3局部軌跡規(guī)劃5.4車輛運(yùn)動(dòng)軌跡本章內(nèi)容5.1決策方法概述5.2全局軌跡規(guī)劃5.3局部軌跡規(guī)劃5.4車輛運(yùn)動(dòng)軌跡5.1決策方法概述自動(dòng)駕駛高精地圖概述正確的決策方法是智能汽車行駛安全性及合理性的重要保障,其目的是接收最新的本車狀態(tài)信息以及環(huán)境感知信息,結(jié)合交通規(guī)則,決策產(chǎn)生一個(gè)能夠完成駕駛?cè)蝿?wù)的行駛行為,作為下層軌跡規(guī)劃的目標(biāo)。典型的行駛行為包括與道路相關(guān)的交叉口行駛、換道,以及與其他車輛相關(guān)的跟隨、超車、避讓等。顯然,行為決策一方面取決于當(dāng)前客觀環(huán)境信息以及相應(yīng)交通規(guī)則的潛在影響,另一方面,如果想要在動(dòng)態(tài)交通環(huán)境中安全、高效地行駛,其他交通參與物對智能汽車的影響也是必須考慮的。同時(shí),因?yàn)樾枰鶕?jù)實(shí)時(shí)獲得的傳感信息決策出合理的行駛行為,智能汽車行為決策模塊需要具備較高的實(shí)時(shí)性。決策方法分類目前的自動(dòng)駕駛決策規(guī)劃技術(shù)方案主要分為兩類,即分解式?jīng)Q策方案和集中式?jīng)Q策方案。兩種方案的決策過程不同,優(yōu)缺點(diǎn)各異,都有著各自的研究方法和實(shí)車應(yīng)用5.1決策方法概述表1兩類自動(dòng)駕駛決策規(guī)劃技術(shù)方案比較分解式?jīng)Q策方案將決策過程分解為相互獨(dú)立的子過程,一般分為交通情景理解、參與者運(yùn)動(dòng)預(yù)測、駕駛行為選擇、駕駛軌跡規(guī)劃4個(gè)部分。分解式?jīng)Q策方案各子過程獨(dú)立求解,因而決策代碼開發(fā)的可控性好。集中式?jīng)Q策方案采用類似人類的駕駛決策過程,以環(huán)境感知結(jié)果為輸入,直接以期望路徑或執(zhí)行器控制命令為輸出,將決策過程視作一個(gè)不可分解的黑箱,體系框架相對簡潔明了。5.1決策方法概述決策方法常用的智能汽車行為決策方法包括有限狀態(tài)機(jī)法、層次狀態(tài)機(jī)法、博弈論法和概率圖模型法等。有限狀態(tài)機(jī)(FiniteStateMachine,FSM)是一種描述特定對象的數(shù)學(xué)模型,它是由有限狀態(tài)組成的,決策過程根據(jù)當(dāng)前狀態(tài)以及接收事件產(chǎn)生相應(yīng)的動(dòng)作從而引起狀態(tài)的變換,適用于具有復(fù)雜控制邏輯系統(tǒng)(即事件響應(yīng)系統(tǒng))的建模。有限狀態(tài)機(jī)的基本組成元素包括事件、狀態(tài)、轉(zhuǎn)換和動(dòng)作:①事件是引起狀態(tài)機(jī)狀態(tài)變更的輸入條件,通常由系統(tǒng)的定性或定量數(shù)據(jù)輸入轉(zhuǎn)換而來;②狀態(tài)是對象的一種形態(tài),可以由其屬性值、執(zhí)行特定的動(dòng)作或等待特定的事件來確定;③轉(zhuǎn)換表示狀態(tài)之間可能存在的路徑,在某個(gè)特定事件發(fā)生或者完成既定動(dòng)作后,轉(zhuǎn)移至對象的其他狀態(tài);④動(dòng)作表示有限狀態(tài)機(jī)中的一些基本“原子操作”,即在操作過程中不能被中斷的操作。按照結(jié)構(gòu)可將有限狀態(tài)機(jī)分為串聯(lián)式、并聯(lián)式和混聯(lián)式3種。5.1決策方法概述應(yīng)用有限狀態(tài)機(jī)解決智能汽車的行為決策問題時(shí),可將自動(dòng)駕駛過程分解為幾種基本的駕駛行為模式,例如可以分為以下幾種:1)車道保持行為(A):自動(dòng)駕駛系統(tǒng)的默認(rèn)模式,是指智能汽車始終沿所在車道行駛的行為,按照所在的車道可分為主車道車道保持行為“A(主)”和超車道車道保持行為“A(超)”。2)車輛跟隨行為(B):是指智能汽車按照當(dāng)前車道前車行駛狀態(tài)自適應(yīng)調(diào)節(jié)自身行駛狀態(tài),使其以安全車距跟蹤前方車輛。3)車道變換行為(C):是指智能汽車當(dāng)前車道不具備通行條件或相鄰車道具有更高的通行效率時(shí),從當(dāng)前車道切換至相鄰車道行駛的過程。按照目標(biāo)車道的不同,車道變換行為可分為從主車道切換至超車道行為“C(主)”和從超車道切換至主車道行為“C(超)”。4)制動(dòng)避障行為(D):當(dāng)智能汽車前方出現(xiàn)緊急情況或意外危險(xiǎn)且不具備換道條件時(shí),智能汽車只能通過緊急制動(dòng)降低車速或停車,以避免與前方車輛或障礙物發(fā)生碰撞。智能汽車的各種駕駛行為之間是相互關(guān)聯(lián)的,通過設(shè)置合理的駕駛行為觸發(fā)和轉(zhuǎn)化條件,能夠在簡單的結(jié)構(gòu)化道路上實(shí)現(xiàn)自動(dòng)駕駛功能。5.1決策方法概述現(xiàn)階段,基于有限狀態(tài)機(jī)的智能汽車行為決策已經(jīng)在實(shí)車應(yīng)用中得到了驗(yàn)證,是基于機(jī)理和規(guī)則的代表性方法。但是該方法在實(shí)現(xiàn)功能復(fù)雜度和應(yīng)用場景復(fù)雜度上的上限較低,功能越復(fù)雜,意味著對應(yīng)的駕駛行為即狀態(tài)集合越龐大,且對于城市道路這種具有復(fù)雜、隨機(jī)、不確定性約束的場景,建立應(yīng)對所有工況的駕駛行為集合以及與其對應(yīng)的完備的觸發(fā)條件和狀態(tài)轉(zhuǎn)移函數(shù)是十分困難的,極易引起“狀態(tài)機(jī)爆炸”問題,給設(shè)計(jì)者帶來很大的不便。此外,基于有限狀態(tài)機(jī)的決策方法在劃分駕駛行為即狀態(tài)時(shí)需要有明顯的劃分邊界,但實(shí)際駕駛過程中,駕駛行為之間存在某些“灰色地帶”,即同一場景下可能有一個(gè)以上合理的行為選擇,使駕駛狀態(tài)存在沖突。對于決策系統(tǒng)而言,一方面要避免沖突狀態(tài)強(qiáng)行劃分而造成智能汽車行為不連貫,另一方面要能夠判斷處于“灰色地帶”的智能汽車不同行為的最優(yōu)性。通過在決策系統(tǒng)中引入其他決策理論,如決策仲裁機(jī)制、博弈論法、狀態(tài)機(jī)與學(xué)習(xí)算法結(jié)合等方法可幫助解決該問題。本章內(nèi)容5.1決策方法概述5.2全局軌跡規(guī)劃5.3局部軌跡規(guī)劃5.4車輛運(yùn)動(dòng)軌跡5.2全局軌跡規(guī)劃全局軌跡規(guī)劃是指在全局地圖指導(dǎo)下,根據(jù)駕駛?cè)蝿?wù)等先驗(yàn)信息,基于車輛起點(diǎn)、終點(diǎn)及其他全局約束條件,在全局地圖上規(guī)劃出從起點(diǎn)到終點(diǎn)的路徑,無關(guān)時(shí)間序列和車輛動(dòng)力學(xué)。全局軌跡規(guī)劃主要是對局部路徑規(guī)劃起到導(dǎo)向和約束作用,使車輛沿著導(dǎo)航系統(tǒng)提供的一系列期望局部目標(biāo)點(diǎn)行駛。全局軌跡規(guī)劃在規(guī)劃時(shí)沒有考慮環(huán)境的現(xiàn)場約束,例如障礙物的形狀位置、道路的寬度、道路的曲率半徑等。根據(jù)算法原理的不同,全局軌跡規(guī)劃方法包括路徑搜索算法、智能仿生算法等。路徑搜索算法路徑搜索算法是一類重要的規(guī)劃和決策方法。常見的搜索算法有寬度優(yōu)先搜索(BreadthFirstSearch,BFS)、深度優(yōu)先搜索(DepthFirstSearch,DFS)、代價(jià)一致搜索、貪婪最佳優(yōu)先搜索、A?搜索、Dijkstra算法等。5.2全局軌跡規(guī)劃路徑搜索的評價(jià)特性主要有:1)完備性:當(dāng)問題有解時(shí),該算法是否能保證找到解。2)最優(yōu)解:搜索策略能否找到最優(yōu)解。3)時(shí)間復(fù)雜度T(n):找到解需要花費(fèi)多長時(shí)間。4)空間復(fù)雜度S(n):在執(zhí)行搜索的過程中需要多少內(nèi)存。對于時(shí)間復(fù)雜度,通常取一個(gè)算法需要進(jìn)行乘法的次數(shù),因?yàn)樵谟?jì)算機(jī)中,乘法運(yùn)行的時(shí)間明顯大于加法運(yùn)行的時(shí)間,記作T(n)=O(f(n)),其中O(f(n))代表最壞情況的復(fù)雜度,可以理解為復(fù)雜度的上限。對于空間復(fù)雜度,通常取算法運(yùn)行過程中臨時(shí)占用儲存空間的大小,記作S(n)=O(f(n))。搜索策略分為無信息搜索策略和有信息搜索策略,其差別在于是否使用了搜索問題以外的信息。5.2全局軌跡規(guī)劃寬度優(yōu)先搜索寬度優(yōu)先搜索屬于無信息搜索策略,其搜索順序是遍歷完淺層的節(jié)點(diǎn)以后再遍歷深層的節(jié)點(diǎn)。該搜索策略因其枚舉法特性具有完備性,不具有最優(yōu)解特性,其空間復(fù)雜度和時(shí)間復(fù)雜度均為O(bd)。深度優(yōu)先搜索深度優(yōu)先搜索與寬度優(yōu)先搜索相反,從一個(gè)節(jié)點(diǎn)開始往深層遍歷,直到找到目標(biāo)節(jié)點(diǎn)或者沒有子節(jié)點(diǎn)的節(jié)點(diǎn)。使用該搜索策略,若不加以相關(guān)限制,極有可能陷入死循環(huán),即該算法沒有完備性,與寬度優(yōu)先搜索類似,因?yàn)闆]有使用任何信息,因此所得到的解也不是最優(yōu)解。代價(jià)一致搜索評估函數(shù)是用來評估研究對象整體以及局部性能的數(shù)學(xué)函數(shù)模型。在搜索策略中,評估函數(shù)起到為下一個(gè)節(jié)點(diǎn)選取提供擴(kuò)展依據(jù)的作用。5.2全局軌跡規(guī)劃圖1節(jié)點(diǎn)擴(kuò)展在搜索策略中,評估函數(shù)起到為下一個(gè)節(jié)點(diǎn)選取提供擴(kuò)展依據(jù)的作用。如圖1所示,當(dāng)擴(kuò)展到黑色節(jié)點(diǎn)時(shí),根據(jù)兩個(gè)評估函數(shù)的大小,選取最佳節(jié)點(diǎn)。代價(jià)一致搜索策略仍然屬于無信息搜索,但這并不代表它與寬度優(yōu)先搜索或者深度優(yōu)先搜索一樣不使用任何信息,它使用了每次遍歷后的節(jié)點(diǎn)的代價(jià)作為評估函數(shù),f(n)=g(n)。代價(jià)一致搜索每次遍歷到黑色節(jié)點(diǎn)之后,都會比較之后可以遍歷的節(jié)點(diǎn)已消耗的總代價(jià),從而遍歷最小代價(jià)消耗的節(jié)點(diǎn)。貪婪最佳優(yōu)先搜索有信息搜索指的是搜索策略會使用問題以外的信息。貪婪最佳優(yōu)先搜索和Dijkstra算法搜索等用到了啟發(fā)式函數(shù),即預(yù)測終點(diǎn)到當(dāng)前節(jié)點(diǎn)所需要的代價(jià)。啟發(fā)式函數(shù)是一種用來估算當(dāng)前狀態(tài)和目標(biāo)狀態(tài)之間距離的函數(shù),用于路徑?jīng)Q策。該函數(shù)直接決定了尋找路徑的快慢和準(zhǔn)確度。5.2全局軌跡規(guī)劃A?搜索A?搜索的評估函數(shù)結(jié)合了代價(jià)一致搜索與貪婪最佳優(yōu)先搜索,其評估函數(shù)由一致路徑耗散代價(jià)和啟發(fā)式函數(shù)組成,f(n)=g(n)+h(n),A?搜索算法具有貪婪最佳優(yōu)先搜索的快速性,也具有代價(jià)一致搜索的完備性與最優(yōu)解特性。若啟發(fā)式函數(shù)計(jì)算得當(dāng),A?搜索算法為最佳搜索算法。表2各類算法優(yōu)缺點(diǎn)各算法優(yōu)缺點(diǎn)對比見下表。5.2全局軌跡規(guī)劃Dijkstra算法Dijkstra算法由荷蘭數(shù)學(xué)家迪杰斯特拉(Dijkstra)于1959年提出,適用于非負(fù)權(quán)值網(wǎng)絡(luò)的單源最短路徑搜索,是目前求解最短路徑問題理論上最完備的方法。Dijkstra算法以起始點(diǎn)為中心向外層擴(kuò)展,直至擴(kuò)展到終點(diǎn)為止,其本質(zhì)上屬于貪心算法,即在選出最優(yōu)量度標(biāo)準(zhǔn)的情況下,根據(jù)最優(yōu)量度標(biāo)準(zhǔn)做出在當(dāng)前看來最好的選擇,但不是從整體角度得出最優(yōu)解,因此其產(chǎn)生的結(jié)果不一定達(dá)到全局最優(yōu)。Dijkstra算法的核心思想是,設(shè)置兩個(gè)點(diǎn)的集合S和U。集合S中存放已找到最短路徑的節(jié)點(diǎn),U集合中存放當(dāng)前還未找到最短路徑的節(jié)點(diǎn)。初始狀態(tài)時(shí),集合S中只包含起始點(diǎn),然后不斷從集合中選擇到起始點(diǎn)路徑長度最短的節(jié)點(diǎn)加入集合S中。5.2全局軌跡規(guī)劃集合S中每加入一個(gè)新的節(jié)點(diǎn),都要修改從起始點(diǎn)到集合U中剩余節(jié)點(diǎn)的當(dāng)前最短路徑長度值,集合S中各節(jié)點(diǎn)新的當(dāng)前最短路徑長度值為原來最短路徑長度值與從起始點(diǎn)過新加入節(jié)點(diǎn)到該節(jié)點(diǎn)的路徑長度中的較小值。不斷重復(fù)上述過程,直至集合U中所有節(jié)點(diǎn)全部加入集合S為止。Dijkstra算法的時(shí)間復(fù)雜度為O(n2),其時(shí)間復(fù)雜度與節(jié)點(diǎn)數(shù)目相關(guān),當(dāng)節(jié)點(diǎn)數(shù)目較大時(shí),Dijkstra算法的時(shí)間復(fù)雜度將急劇增加。因此在較大、較復(fù)雜的城市交通路網(wǎng)中,直接應(yīng)用Dijkstra算法進(jìn)行最短路徑規(guī)劃并不是十分合理的選擇,其計(jì)算效率、實(shí)時(shí)性、準(zhǔn)確性都很難得到保證。智能仿生算法各種模擬自然界生物行為規(guī)律的智能仿生算法也可以應(yīng)用于智能汽車的路徑規(guī)劃。智能仿生算法具有自學(xué)習(xí)、自決定功能,典型的智能仿生算法包括蟻群優(yōu)化(AntColonyOptimization,ACO)算法等。本章內(nèi)容5.1決策方法概述5.2全局軌跡規(guī)劃5.3局部軌跡規(guī)劃5.4車輛運(yùn)動(dòng)軌跡5.3局部軌跡規(guī)劃局部軌跡規(guī)劃是在全局路徑的基礎(chǔ)上,結(jié)合環(huán)境感知系統(tǒng)獲取的信息(道路及障礙物信息)計(jì)算出在換道、轉(zhuǎn)彎、躲避障礙物等情況下,局部范圍內(nèi)安全、平順、精確的行駛軌跡。局部軌跡規(guī)劃不僅要考慮空間,還要考慮時(shí)間序列。局部軌跡規(guī)劃要求算法具有較高的實(shí)時(shí)性,以應(yīng)對實(shí)時(shí)變化的環(huán)境信息,這對傳感器、算法的效率和處理器的運(yùn)算能力都是極大的挑戰(zhàn)。局部軌跡規(guī)劃方法可分為基于機(jī)理與規(guī)則的方法和基于數(shù)據(jù)驅(qū)動(dòng)的方法等?;跈C(jī)理與規(guī)則的方法基于機(jī)理與規(guī)則的軌跡規(guī)劃算法原理簡單、參數(shù)少、易實(shí)現(xiàn),具有較強(qiáng)的魯棒性,并已得到廣泛應(yīng)用,主要包括曲線插值法、人工勢場法等。曲線插值法通過事先給定一系列先驗(yàn)路點(diǎn),擬合出一條滿足可行性、舒適性、車輛動(dòng)力學(xué)及其他約束條件的路徑,常用的軌跡規(guī)劃采用的曲線包括多項(xiàng)式曲線、B樣條曲線、回轉(zhuǎn)曲線等。5.3局部軌跡規(guī)劃多項(xiàng)式曲線主要通過起點(diǎn)與終點(diǎn)的位置、速度和加速度信息以及最小轉(zhuǎn)彎半徑、障礙物尺寸等約束,來確定擬合曲線的參數(shù)。在上述約束條件下,構(gòu)建一個(gè)n階多項(xiàng)式,在擬合曲線的各個(gè)節(jié)點(diǎn)上滿足對車輛位姿的要求,同時(shí)在指定時(shí)間間隔內(nèi)保證狀態(tài)信息的連續(xù)性。多項(xiàng)式曲線構(gòu)建流程一般根據(jù)已知信息求解n階多項(xiàng)式方程中的未知量。通過聯(lián)立方程組的形式得到未知量,也就是說,如果汽車想要依次通過起點(diǎn)、終點(diǎn)以及某個(gè)中間點(diǎn),那么每一段末端求解出的邊界位姿信息都可以作為下一階段行駛的初始條件。多項(xiàng)式擬合的階數(shù)一般為3~6階,擬合階數(shù)越高,算法復(fù)雜度越高,收斂速度越慢,并且容易出現(xiàn)過擬合的情況。通常認(rèn)為,光滑的軌跡更符合車輛實(shí)際運(yùn)動(dòng)狀態(tài)。為確保軌跡的光滑程度,需要軌跡至少具有連續(xù)的速度和加速度,因此軌跡通常至少由時(shí)間的3次多項(xiàng)式函數(shù)定義。5.3局部軌跡規(guī)劃然而,在實(shí)際中經(jīng)常使用高階多項(xiàng)式,尤其是5次多項(xiàng)式來獲得平滑的軌跡,主要因?yàn)?次多項(xiàng)式能夠解決3次多項(xiàng)式的速度變化不平滑和加速度跳變的情況,而且可以指定軌跡兩端位置、速度和加速度,提高車輛的機(jī)動(dòng)性與行車安全性。5次多項(xiàng)式軌跡規(guī)劃示意圖如圖2所示。將車輛起始點(diǎn)作為坐標(biāo)原點(diǎn),建立直角坐標(biāo)系OXY,其縱向前進(jìn)方向作為X軸正向,Y軸表示車輛的橫向運(yùn)動(dòng)。圖25次多項(xiàng)式軌跡規(guī)劃示意圖5.3局部軌跡規(guī)劃B樣條曲線是一種廣泛應(yīng)用于建模和設(shè)計(jì)等領(lǐng)域的曲線。高次B樣條曲線在滿足曲率連續(xù)要求的同時(shí)還具備局部性,即單個(gè)控制點(diǎn)的變化僅影響局部曲線的形狀,因此非常適合用作軌跡曲線??衫?次B樣條曲線進(jìn)行換道軌進(jìn)規(guī)劃。車輛換道過程可以劃為扭角、靠攏、收角和調(diào)整4個(gè)階段。其中在扭角和收角階段內(nèi),駕駛?cè)送ㄟ^轉(zhuǎn)動(dòng)轉(zhuǎn)向盤調(diào)整,而在靠攏階段內(nèi),車輛前輪轉(zhuǎn)角幾乎為0。人工勢場法是一種虛擬力法,通過模仿引力、斥力下的物體運(yùn)動(dòng)來規(guī)劃路徑。地點(diǎn)與運(yùn)動(dòng)物體之間的作用假設(shè)為引力,障礙物與運(yùn)動(dòng)物體之間的作用假設(shè)為斥力,那么物體被力場作用向目標(biāo)地點(diǎn)運(yùn)動(dòng),并通過建立引力場和斥力場的勢場函數(shù)來進(jìn)行路徑的尋優(yōu)。5.3局部軌跡規(guī)劃基于數(shù)據(jù)驅(qū)動(dòng)的方法隨著人工智能技術(shù)的不斷發(fā)展,機(jī)器學(xué)習(xí)算法越來越多地應(yīng)用到智能汽車研究領(lǐng)域中,監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)在解決智能汽車決策規(guī)劃的某些問題上展現(xiàn)出了比基于機(jī)理和規(guī)則的傳統(tǒng)軌跡規(guī)則方法更優(yōu)異的性能。該類方法普遍采用端到端(EndtoEnd)架構(gòu),基于訓(xùn)練數(shù)據(jù)建立從狀態(tài)到動(dòng)作的映射模型,極大地簡化了智能汽車決策規(guī)劃架構(gòu),且在駕駛場景深度遍歷上具有良好的性能,在處理復(fù)雜場景和高級別自動(dòng)駕駛?cè)蝿?wù)上頗具潛力。從數(shù)據(jù)驅(qū)動(dòng)方法原理角度,可大體將該方法分為基于強(qiáng)化學(xué)習(xí)的方法和基于監(jiān)督學(xué)習(xí)的方法?;趶?qiáng)化學(xué)習(xí)的方法智能汽車的局部路徑規(guī)劃本質(zhì)上是一種復(fù)雜、隨機(jī)、不確定性約束下的動(dòng)態(tài)多目標(biāo)協(xié)同優(yōu)化問題,強(qiáng)化學(xué)習(xí)(ReinforcementLearning,RL)作為一種自學(xué)習(xí)算法在處理該類問題上具有原理性優(yōu)勢。5.3局部軌跡規(guī)劃強(qiáng)化學(xué)習(xí)方法建立在馬爾可夫決策過程(MarkovDecision
Process,MDP)的基礎(chǔ)上,其框架如圖3所示,算法從真實(shí)駕駛環(huán)境或者模擬駕駛數(shù)值調(diào)整強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的參數(shù),從而不斷收斂得到最優(yōu)策略。環(huán)境中獲得狀態(tài)觀測量,輸出一個(gè)決策量或控制量。根據(jù)算法輸出的結(jié)果,可以從環(huán)境中獲得一個(gè)獎(jiǎng)勵(lì)(或者懲罰)值。在訓(xùn)練的過程中,可以根據(jù)獎(jiǎng)懲函數(shù)值調(diào)整強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的參數(shù),從而不斷收斂得到的最優(yōu)策略。圖3強(qiáng)化學(xué)習(xí)框架5.3局部軌跡規(guī)劃強(qiáng)化學(xué)習(xí)作為一種端到端的車輛控制方法,可以同時(shí)對感知、決策、規(guī)劃、控制部分進(jìn)行優(yōu)化,即可以完成綜合駕駛場景的特征表征、良好的時(shí)機(jī)判斷和決策輸出、精確的軌跡規(guī)劃和穩(wěn)定的控制。強(qiáng)化學(xué)習(xí)算法按照其求解最優(yōu)策略的方式可分為值函數(shù)近似法、策略優(yōu)化法、策略梯度法等。在智能汽車決策規(guī)劃中,常用的值函數(shù)近似法包括Sarsa算法、Q學(xué)習(xí)(Q-Learning)、深度Q學(xué)習(xí)網(wǎng)絡(luò)(DeepQ-LearningNetwork,DQN)算法等;常用的策略優(yōu)化法包括置信域策略優(yōu)化(TrustRegionPolicyOptimization,TRPO)算法等;常用的策略梯度法包括深度確定性策略梯度(DeepDeterministicPolicyGradient,DDPC)、近端策略優(yōu)化(ProximalPolicyOptimization,PPO)算法等。5.3局部軌跡規(guī)劃基于監(jiān)督學(xué)習(xí)的方法監(jiān)督學(xué)習(xí)需要通過大量帶有標(biāo)簽(Labe)的訓(xùn)練數(shù)據(jù)訓(xùn)練監(jiān)督學(xué)習(xí)模型,從而建立從指定輸入到輸出的黑箱映射模型。在智能汽車決策規(guī)劃領(lǐng)域,常用的監(jiān)督學(xué)習(xí)方法包括模仿學(xué)習(xí)(ImitationLearning,IL)和深度神經(jīng)網(wǎng)絡(luò)(DeepNeuralNetwork,DNN)等。模仿學(xué)習(xí)又稱為示教學(xué)習(xí)(LearningFromDemonstrations),可以分為直接模仿學(xué)習(xí)和間接模仿學(xué)習(xí)。直接模仿學(xué)習(xí)相比于間接模仿學(xué)習(xí)邏輯較為簡單,本質(zhì)上是采用監(jiān)督學(xué)習(xí)的方式學(xué)習(xí)人類駕駛?cè)嘶蚱渌麄鹘y(tǒng)機(jī)理規(guī)則算法的專家示教軌跡,從而得到狀態(tài)-動(dòng)作映射模型。間接模仿學(xué)習(xí)通常定義為逆向優(yōu)化控制(InverseOptimalControl,IOC)問題,通常與強(qiáng)化學(xué)習(xí)結(jié)合轉(zhuǎn)化為逆強(qiáng)化學(xué)習(xí)(InverseReinforcementLearning,IRL)問題。5.3局部軌跡規(guī)劃神經(jīng)網(wǎng)絡(luò)模型是監(jiān)督學(xué)習(xí)(SupervisedLearning)中的重要內(nèi)容。通過建立一定結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型,基于人類駕駛?cè)藬?shù)據(jù)或傳統(tǒng)規(guī)劃算法產(chǎn)生的數(shù)據(jù)通過誤差反向傳播(BackPropagation,BP)和梯度下降(GradientDescent)等方法訓(xùn)練神經(jīng)網(wǎng)絡(luò)參數(shù),從而實(shí)現(xiàn)根據(jù)當(dāng)前交通態(tài)勢和車輛狀態(tài)進(jìn)行車輛軌跡規(guī)劃與預(yù)測,且基于人類駕駛?cè)藬?shù)據(jù)訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)模型具有較好的擬人性,便于在決策規(guī)劃架構(gòu)中嵌入駕駛?cè)藗€(gè)性化風(fēng)格,提升智能汽車的駕駛習(xí)性適應(yīng)度。智能汽車軌跡規(guī)劃中常用的神經(jīng)網(wǎng)絡(luò)模型包括BP神經(jīng)網(wǎng)絡(luò)模型、循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)模型等。本章內(nèi)容5.1決策方法概述5.2全局軌跡規(guī)劃5.3局部軌跡規(guī)劃5.4車輛運(yùn)動(dòng)軌跡5.4車輛運(yùn)動(dòng)規(guī)劃動(dòng)態(tài)規(guī)劃算法動(dòng)態(tài)規(guī)劃(DynamicProgramming,DP)算法是運(yùn)籌學(xué)的一個(gè)分支,是求解多階段決策過程最優(yōu)化問題的數(shù)學(xué)方法。各個(gè)階段決策的選取是任意確定的,它依賴于當(dāng)前面臨的狀態(tài),又影響以后的發(fā)展。當(dāng)各個(gè)階段的決策確定后,它們組成一個(gè)決策序列,也就決定了整個(gè)過程的一條活動(dòng)路線,這樣一個(gè)前后關(guān)聯(lián)、具有鏈狀結(jié)構(gòu)的多階段過程稱為多階段決策問題。動(dòng)態(tài)規(guī)劃在車輛工程技術(shù)領(lǐng)域有著廣泛的應(yīng)用,如“兩檔變速器最優(yōu)換檔規(guī)律”“混合動(dòng)力汽車最優(yōu)能量管理策略”“柵格地圖最優(yōu)路徑搜索”等。其搜索策略主要是將
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年企業(yè)機(jī)器質(zhì)押借款合同
- 2025年勞動(dòng)解除合同標(biāo)準(zhǔn)條款
- 2025年抗瘧藥項(xiàng)目申請報(bào)告模范
- 2025年貨車租賃與運(yùn)輸服務(wù)合同樣本
- 2025年國際貨物買賣合同與慣例
- 2025年專業(yè)清潔人員派遣協(xié)議
- 2025年二手車購買合同范本
- 2025年三板市場股權(quán)買賣協(xié)議
- 2025年伙伴開設(shè)教育機(jī)構(gòu)合作協(xié)議書模板
- 2025年繼電器研發(fā)策劃技術(shù)協(xié)議書范本
- 小報(bào):人工智能科技科學(xué)小報(bào)手抄報(bào)電子小報(bào)word小報(bào)
- GB/T 41509-2022綠色制造干式切削工藝性能評價(jià)規(guī)范
- 全面介紹現(xiàn)貨中遠(yuǎn)期交易
- 公安系防暴安全03安檢
- 孫權(quán)勸學(xué)教案全國一等獎(jiǎng)教學(xué)設(shè)計(jì)
- 企業(yè)生產(chǎn)現(xiàn)場6S管理知識培訓(xùn)課件
- 五年級下冊數(shù)學(xué)課件 第10課時(shí) 練習(xí)課 蘇教版(共11張PPT)
- 電梯口包邊施工方案正式
- 三年級道德與法治下冊我是獨(dú)特的
- 青年卒中 幻燈
- 典型倒閘操作票
評論
0/150
提交評論