基于兵棋推演的空戰(zhàn)編組對(duì)抗智能決策方法_第1頁
基于兵棋推演的空戰(zhàn)編組對(duì)抗智能決策方法_第2頁
基于兵棋推演的空戰(zhàn)編組對(duì)抗智能決策方法_第3頁
基于兵棋推演的空戰(zhàn)編組對(duì)抗智能決策方法_第4頁
基于兵棋推演的空戰(zhàn)編組對(duì)抗智能決策方法_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2024年4月JOURNALOFCOMMANDANDCONTROLApril,2024基于兵棋推演的空戰(zhàn)編組對(duì)抗智能決策方法1111(1.國(guó)防科技大學(xué)系統(tǒng)工程學(xué)院,長(zhǎng)沙410072;2.解放軍31102部隊(duì),南京210016)摘要基于兵棋研究的空戰(zhàn)編組對(duì)抗方法主要使用規(guī)則或運(yùn)籌等手段,存在假設(shè)不夠合理、建模不準(zhǔn)確、應(yīng)變性差等缺陷。強(qiáng)化學(xué)習(xí)算法可以根據(jù)作戰(zhàn)數(shù)據(jù)自主學(xué)習(xí)編組對(duì)抗策略,以應(yīng)對(duì)復(fù)雜的戰(zhàn)場(chǎng)情況,但現(xiàn)有強(qiáng)化學(xué)習(xí)對(duì)作戰(zhàn)數(shù)據(jù)要求高,當(dāng)動(dòng)作空間過大時(shí),算法收斂慢,且對(duì)仿真平臺(tái)有較高的要求。針對(duì)上述問題,提出了一種融合知識(shí)數(shù)據(jù)和強(qiáng)化學(xué)習(xí)的空戰(zhàn)編組對(duì)抗智能決策方法,該決策方法的輸入是戰(zhàn)場(chǎng)融合態(tài)勢(shì),使用分層決策框架控制算子選擇并執(zhí)行任務(wù),上層包含使用專家知識(shí)驅(qū)動(dòng)的動(dòng)作選擇器,下層包含使用專家知識(shí)和作戰(zhàn)規(guī)則細(xì)化的避彈動(dòng)作執(zhí)行器、偵察動(dòng)作執(zhí)行器和使用強(qiáng)化學(xué)習(xí)算法控制的打擊動(dòng)作執(zhí)行器。最后基于典型作戰(zhàn)場(chǎng)景進(jìn)行實(shí)驗(yàn),驗(yàn)證了該方法的可行性和實(shí)用性,且具有建模準(zhǔn)確、訓(xùn)練高效的優(yōu)點(diǎn)。關(guān)鍵詞空戰(zhàn)編組對(duì)抗,多算子的協(xié)作與控制,多智能體深度強(qiáng)化學(xué)習(xí)算法,分層決策模型引用格式陳曉軒,馮旸赫,黃金才,等.基于兵棋推演的空戰(zhàn)編組對(duì)抗智能決策方法[J].指揮與控制學(xué)報(bào),2024,10(2213-219CHENXiaoxuan111FENGYangheHUANGJincai1LIUZhong1,*XUYue2空戰(zhàn)編組對(duì)抗戰(zhàn)術(shù)是衡量各國(guó)空中作戰(zhàn)力量的信息,合理分配對(duì)空搜索任務(wù)并執(zhí)行協(xié)同作戰(zhàn)任務(wù)爭(zhēng)日趨激烈,對(duì)空戰(zhàn)編組對(duì)抗戰(zhàn)術(shù)提出了更高的要算機(jī)仿真技術(shù),對(duì)現(xiàn)實(shí)世界軍事問題的模擬水平日收稿日期2021-06-04錄用日期2021-11-18網(wǎng)絡(luò)出版時(shí)間2021-11-26*通信作者郵箱liuzhong_nudt@126.com輔助訓(xùn)練指揮員的宏觀戰(zhàn)略決策和局部戰(zhàn)術(shù)決策的傳統(tǒng)的兵棋推演技術(shù)主要采用規(guī)劃和運(yùn)籌學(xué)知法和模糊系統(tǒng)理論構(gòu)成智能算法推理得到了陸戰(zhàn)兵214指揮與控制學(xué)報(bào)10卷燁翰等對(duì)作戰(zhàn)推演的相關(guān)理論基礎(chǔ)進(jìn)行歸納研究[6],棋類智能體阿爾法狗戰(zhàn)勝圍棋世界冠軍李世石將強(qiáng)化學(xué)習(xí)技術(shù)運(yùn)用于兵棋推演中是當(dāng)前軍事智能研究的重要方向。CIANCARINI等在軍棋中采用蒙特卡洛樹搜索的智能體架構(gòu),以較少的領(lǐng)域特定知識(shí)知識(shí)的DQN智能決策模型用于兵棋推演中的坦克動(dòng)觀測(cè)歷史學(xué)習(xí)訓(xùn)練一個(gè)決策網(wǎng)絡(luò),但是單個(gè)算子常常存在局部觀測(cè)的狀態(tài),即它只能觀測(cè)到戰(zhàn)場(chǎng)的部觀測(cè)的最優(yōu)動(dòng)作,而不能獲得對(duì)于全局而言最優(yōu)的動(dòng)作。為了研究多智能體強(qiáng)化學(xué)習(xí)問題,F(xiàn)OERSTER等提出了分布決策、集中訓(xùn)練的學(xué)習(xí)范式,并在星體與環(huán)境交互并得到大量高質(zhì)量的數(shù)據(jù)用于訓(xùn)練智能體,但是對(duì)于空戰(zhàn)編組對(duì)抗任務(wù)而言,動(dòng)作空間和狀態(tài)空間隨著算子數(shù)目的增加而快速增加,會(huì)導(dǎo)致單純的強(qiáng)化學(xué)習(xí)訓(xùn)練、收斂困難,國(guó)內(nèi)鮮有使用基于2020年的智能博弈挑戰(zhàn)賽兵棋推演平臺(tái),本文針對(duì)兵棋推演中空戰(zhàn)編組對(duì)抗這一核心問題,提出了一種融合知識(shí)數(shù)據(jù)和強(qiáng)化學(xué)習(xí)的空戰(zhàn)編組對(duì)抗智能決策方法,從構(gòu)建決策方法使用的分層決策框架開始研究,確定分層框架輸入的靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)的融合方式,設(shè)計(jì)該決策方法的核心分層決設(shè)計(jì)了強(qiáng)化學(xué)習(xí)算法的狀態(tài)空間和動(dòng)作空間,通過設(shè)計(jì)推進(jìn)函數(shù)推進(jìn)該智能決策方法不斷與環(huán)境交互本文提出了一種融合知識(shí)數(shù)據(jù)和強(qiáng)化學(xué)習(xí)的空是戰(zhàn)場(chǎng)實(shí)時(shí)態(tài)勢(shì)信息和靜態(tài)數(shù)據(jù),對(duì)輸入數(shù)據(jù)進(jìn)行化以及格式化表示后,形成融合態(tài)勢(shì)數(shù)據(jù),輸入分層決策框架的上層行動(dòng)選擇器,行動(dòng)選擇器根據(jù)內(nèi)置邏輯確定搜索動(dòng)作、避彈動(dòng)作、打擊動(dòng)作的可行性和優(yōu)先級(jí),選擇可以執(zhí)行的行動(dòng),調(diào)用下層對(duì)應(yīng)行動(dòng)的執(zhí)行器,執(zhí)行器細(xì)化行動(dòng)細(xì)節(jié),形成動(dòng)作列表,輸入兵棋推演系統(tǒng),系統(tǒng)執(zhí)行對(duì)應(yīng)動(dòng)作后可以行知識(shí)推理,可以獲取敵方的裝備數(shù)據(jù)、常見編組后,可用于行動(dòng)選擇器的邏輯設(shè)計(jì),可以用于動(dòng)作執(zhí)行器中搜索動(dòng)作和躲避動(dòng)作的邏輯設(shè)計(jì)和參數(shù)設(shè)置,也可以用于設(shè)計(jì)打擊行動(dòng)用的QMIX算法的獎(jiǎng)圖1智能決策方法圖2一種根據(jù)專家經(jīng)驗(yàn)設(shè)置的行動(dòng)選擇器2期陳曉軒等:基于兵棋推演的空戰(zhàn)編組對(duì)抗智能決策方法215察動(dòng)作,接著判斷是否需要躲避敵方導(dǎo)彈攻擊,最偵察行動(dòng)根據(jù)專家經(jīng)驗(yàn)設(shè)置,當(dāng)敵方未出現(xiàn)在同時(shí)盡可能增加融合偵察覆蓋范圍,以減小偵察盲方探測(cè)區(qū)域時(shí),我方戰(zhàn)斗機(jī)根據(jù)歷史經(jīng)驗(yàn)選擇繼續(xù)的區(qū)域位置,確定其偵察范圍,尋找我方被發(fā)現(xiàn)概率較小并且能夠偵察到敵方概率較大的偵察航線,分析態(tài)勢(shì)信息,當(dāng)我方戰(zhàn)斗機(jī)相較于敵方戰(zhàn)斗機(jī),處于不利位置,或者發(fā)現(xiàn)敵方發(fā)射導(dǎo)彈向我方方導(dǎo)彈,和敵方有威脅的戰(zhàn)斗機(jī),接著根據(jù)航向及位置信息研判其攻擊對(duì)象(我方戰(zhàn)機(jī)可能有多個(gè)單位對(duì)我方戰(zhàn)機(jī)造成威脅,戰(zhàn)機(jī)需要綜合考慮敵方的威脅程度和攻擊方式,選擇合理的躲避方式,比根據(jù)戰(zhàn)機(jī)的局部觀測(cè),判斷當(dāng)前戰(zhàn)機(jī)是否可以執(zhí)行打擊動(dòng)作,以及可以打擊的目標(biāo),接著使用QMIX算法實(shí)現(xiàn)我方飛機(jī)對(duì)敵方目標(biāo)的打擊分配關(guān)2基于QMIX算法的彈目匹配實(shí)現(xiàn)2.1DRQN算法深度強(qiáng)化學(xué)習(xí)主要研究解決的問題是序貫決策問題,為對(duì)該問題進(jìn)行有效的分析,學(xué)者們提出了作At。動(dòng)作At作用于環(huán)境,智能體會(huì)觀察圖3MDP示意圖在實(shí)際決策情況下,智能體常常無法觀測(cè)到完整的狀態(tài)信息St,這時(shí)的觀測(cè)值就從St變成了Ot,智能體的Ot序列不一定能滿足馬爾可夫性質(zhì),因此,需要使用時(shí)序網(wǎng)絡(luò)輔助深度強(qiáng)化學(xué)習(xí)來輔助智的DRQN算法。算法1基于LSTM的DRQN算法11im-E2.2QMIX算法在實(shí)際世界和實(shí)時(shí)策略游戲中,單個(gè)智能體存在局部觀測(cè)的約束,再加上智能體間的通信受限,216指揮與控制學(xué)報(bào)10卷對(duì)于每一個(gè)智能體而言,需要根據(jù)它所處的具體環(huán)散化策略所構(gòu)成的聯(lián)合動(dòng)作決策空間過大會(huì)導(dǎo)致傳一方面,集中訓(xùn)練要求智能體能夠獲得一個(gè)基有直接的方法可以轉(zhuǎn)化成每個(gè)算子可以根據(jù)單獨(dú)的因此,TABISHRASHID等提出了QMIX算法[16],包含一組DRQN網(wǎng)絡(luò)一個(gè)混合網(wǎng)絡(luò),組中的每個(gè)DRQN網(wǎng)絡(luò)對(duì)應(yīng)一個(gè)分布式執(zhí)行的策略,混合網(wǎng)絡(luò)把一組DRQN網(wǎng)絡(luò)組合輸出的一組Qa,以一種復(fù)雜持一致性。因此,QMIX算法可以以一種因子化的表示方法根據(jù)智能體的數(shù)量變化,可以有很好的伸縮性,并且允許分散化的策略在線性時(shí)間內(nèi),可以通為了保證一致性,只需要確保全局最優(yōu)是由所有算子的局部最優(yōu)所組成的就可以,算法通過約束對(duì)于每一個(gè)智能體a,都有一個(gè)DRQN網(wǎng)絡(luò)輸出單a在每一個(gè)時(shí)間步把當(dāng)前局部圖4深度循環(huán)Q網(wǎng)絡(luò)圖2.3基于QMIX算法的彈目匹配技術(shù)在空戰(zhàn)編組對(duì)抗中,合理且有效的武器分配方案是提升我方飛機(jī)的導(dǎo)彈打擊成功率,保證對(duì)抗勝利的前提條件之一,針對(duì)當(dāng)前空戰(zhàn)形勢(shì)下敵我交戰(zhàn)統(tǒng)籌協(xié)調(diào)不高和資源浪費(fèi)的情況,希望使用QMIX空戰(zhàn)編組的武器目標(biāo)分配策略收斂到最優(yōu),提升智基于QMIX算法的彈目匹配技術(shù)如圖5所示,n架戰(zhàn)斗機(jī)將局部觀測(cè)分別輸入DRQN網(wǎng)絡(luò),輸出Q圖5彈目匹配技術(shù)示意圖賽平臺(tái),基于該平臺(tái),設(shè)計(jì)了紅藍(lán)方多機(jī)空戰(zhàn)對(duì)抗巡邏任務(wù),在空中遭遇執(zhí)行攔截任務(wù)的藍(lán)方編隊(duì),希望紅方戰(zhàn)斗機(jī)能夠選擇最優(yōu)的決策動(dòng)作序列,以機(jī)從機(jī)場(chǎng)出發(fā)飛往目標(biāo)空域,企圖殲滅紅方戰(zhàn)斗機(jī)定中紅藍(lán)雙方飛機(jī)算子配置相等,各自包含4架戰(zhàn)識(shí)別距離為150km。表1飛機(jī)實(shí)體性能表Type900-1000km/h100km80km2期陳曉軒等:基于兵棋推演的空戰(zhàn)編組對(duì)抗智能決策方法217神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)如圖6所示,在T時(shí)刻,需視野范圍內(nèi)共有N架敵方飛機(jī)。為確定需要打擊敵觀測(cè)到的敵方的第1架飛機(jī)的狀態(tài)信息拼接以后輸入DRQN網(wǎng)絡(luò),如圖7所示。圖7狀態(tài)空間將輸入信息經(jīng)過一層MLP網(wǎng)絡(luò),處理態(tài)勢(shì)信息,并輸出一組特征向量,將特征向量和隱藏層信體當(dāng)前時(shí)間步的特征向量和上一步的隱藏層信息融合生成新的特征向量,最后將特征向量輸入MLP以獲得Q1值。同理,將第x1架飛機(jī)與觀測(cè)到的其他N-1架敵后將得到的N個(gè)Q值組成一個(gè)列表并取argmax,Q假設(shè)我方共有m架飛機(jī),依據(jù)此方法,獲得我方第x1架飛機(jī)到第xm架飛機(jī)的Q值列表,將該Q值列表作為混合網(wǎng)絡(luò)的輸入,經(jīng)過網(wǎng)絡(luò)計(jì)算后,輸出一個(gè)Qa(r,a)值。網(wǎng)絡(luò)把全局狀態(tài)s作為輸入并生成混合網(wǎng)絡(luò)的一層圖8混合網(wǎng)絡(luò)方所有飛機(jī)的信息、所有的導(dǎo)彈信息組成,如圖9圖9戰(zhàn)場(chǎng)態(tài)勢(shì)全局狀態(tài)s先經(jīng)過一層單獨(dú)的線形層,再經(jīng)過一層絕對(duì)值激活函數(shù),為了確?;旌暇W(wǎng)絡(luò)的權(quán)重是y"=r+tymax,QU(c,ui,s:0)(2)計(jì)算出目標(biāo)網(wǎng)絡(luò)對(duì)當(dāng)前狀態(tài)動(dòng)作對(duì)的估值,計(jì)算ytot和Qtot的差值從而生成損失函數(shù)并反向傳播,-是本次實(shí)驗(yàn)對(duì)QMIX算法中的神經(jīng)網(wǎng)絡(luò)進(jìn)行了4000回合的訓(xùn)練。先分析兵棋推演決策序列的累積獎(jiǎng)賞值隨訓(xùn)練時(shí)間的變化,累積獎(jiǎng)賞值R是每個(gè)序列下單步獎(jiǎng)賞值的疊加,可以反映QMIX學(xué)習(xí)到策略的好壞。在本次實(shí)驗(yàn)中,單步獎(jiǎng)賞值的定義如下,每擊落一架敵方飛機(jī)獎(jiǎng)勵(lì)值加20,我方損失一架飛機(jī)獎(jiǎng)勵(lì)值減20,我方飛機(jī)每躲避敵方一枚導(dǎo)彈218指揮與控制學(xué)報(bào)10卷圖10神經(jīng)網(wǎng)絡(luò)更新過程回合時(shí)出現(xiàn)劇烈下降的情況,這是因?yàn)橛?xùn)練初期學(xué)期間曲線也存在中小幅度的掛起與墜落。訓(xùn)練末期圖11累積獎(jiǎng)賞值隨時(shí)間變化曲線了目標(biāo)網(wǎng)絡(luò)和評(píng)估網(wǎng)絡(luò)的逼近程度。由圖12可見,損失函數(shù)基本在3000回合的時(shí)候得到較小值且相有一定的探索性、智能體訓(xùn)練過程中參數(shù)有較大的程看,損失函數(shù)呈下降趨勢(shì),從2000最終下降至對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行復(fù)盤,經(jīng)過訓(xùn)練的紅方戰(zhàn)斗機(jī)圖12損失函數(shù)訓(xùn)練曲線編組已經(jīng)展現(xiàn)出了一定的個(gè)體戰(zhàn)術(shù)與協(xié)同配合,對(duì)戰(zhàn)機(jī)兩兩組成編隊(duì),按照巡航速度,編隊(duì)1向東北方向飛行,到達(dá)預(yù)定陣位后3組編隊(duì)改變航向往正東方向飛行,此時(shí)我方戰(zhàn)機(jī)的偵察雷達(dá)全開,基本上可以覆蓋南北直徑為250km的作戰(zhàn)區(qū)域,如圖13所示,當(dāng)偵察到敵方戰(zhàn)機(jī)時(shí),我方戰(zhàn)機(jī)調(diào)用打擊行動(dòng)模塊,充分發(fā)揮武器射程優(yōu)勢(shì),使用遠(yuǎn)程空空機(jī)處于不利位置時(shí),戰(zhàn)機(jī)調(diào)用避彈模塊,執(zhí)行大角度轉(zhuǎn)彎?rùn)C(jī)動(dòng),以盡快拉開與敵方攻擊算子的位置,圖133組編隊(duì)偵察范圍示意圖針對(duì)復(fù)雜的空戰(zhàn)編組對(duì)抗問題,在兵棋推演平臺(tái)上建立了一個(gè)典型空戰(zhàn)想定用于空戰(zhàn)對(duì)抗研究,實(shí)驗(yàn)結(jié)果表明,融合知識(shí)數(shù)據(jù)和強(qiáng)化學(xué)習(xí)的空戰(zhàn)編2期陳曉軒等:基于兵棋推演的空戰(zhàn)編組對(duì)抗智能決策方法219組對(duì)抗智能決策方法控制的紅方空戰(zhàn)編組與純規(guī)則控制的藍(lán)方空戰(zhàn)編組對(duì)抗,對(duì)抗平均得分可以達(dá)到28分,在作戰(zhàn)中基本可以獲得制空權(quán),驗(yàn)證了該方策模型與不同算法控制的不同風(fēng)格的對(duì)手進(jìn)行對(duì)抗[2]胡曉峰,賀筱媛,陶九陽.AlphaGo的突破與兵棋推演的HUXF,HEXY,TAOJY.AlphaGo'sbreakthroughand2303-2311.ZHANGK,HAOWN,YUXH,etal.WargamekeypointLIUM,ZHANGHJ,HAOWN,etal.ResearchonZOUYH,FENGYH,CHENGGQ,etal.OntologyZHANGMX,CHENGGQ,LIUZ,etal.Scheduleof[8]VOLODYMYRMNIH,KORAYKAVUKCUOGLU,etal.[9]DAVIDSILVER,JULIANSCHRITTWIESER,etal.[11]SU

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論