



版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、目 錄摘要(關(guān)鍵詞)11引言1 11選題意義1 12國(guó)內(nèi)外發(fā)展?fàn)顩r1 13展望2 14目前強(qiáng)化學(xué)習(xí)遇到的問(wèn)題2 15研究方法的探索32系統(tǒng)模型及理論支持3 21馬爾科夫決策過(guò)程3 22強(qiáng)化學(xué)習(xí)3 23 Q學(xué)習(xí)4 24 Q學(xué)習(xí)的信道選擇算法5 25 Boltzmann學(xué)習(xí)規(guī)則6 26 模擬退火過(guò)程7 27 OFDM的信道接入方式7 28 系統(tǒng)模型7 29 蒙特卡洛方法83算法流程及實(shí)驗(yàn)過(guò)程8 31實(shí)驗(yàn)過(guò)程8 32算法流程8 33仿真過(guò)程104結(jié)果分析11 41數(shù)據(jù)分析11 42實(shí)驗(yàn)中存在的問(wèn)題和可行性135結(jié)束語(yǔ)136參考文獻(xiàn)137致謝14abstract(key words)15基于客戶端的學(xué)
2、習(xí)算法節(jié)能問(wèn)題【摘要】如今移動(dòng)客戶端數(shù)量日益增多,通信頻道資源漸漸難以滿足需求,本文采用一種基于Q學(xué)習(xí)的信道選擇算法,通過(guò)建立點(diǎn)對(duì)點(diǎn)用戶之間的通信信道模型,并且建立一個(gè)合理的回報(bào)函數(shù),使得智能機(jī)能夠通過(guò)總結(jié)經(jīng)驗(yàn)來(lái)改善行為決策,進(jìn)而使得最終可以得到最優(yōu)的選擇決策。由仿真結(jié)果可以得出,該算法可以有效的提高用戶接入信道的平均信道容量,由于信道的平均容量得到了提升,信息在該系統(tǒng)下的信息傳遞速率也會(huì)有一定的優(yōu)化,從而達(dá)到充分利用優(yōu)秀信道資源,節(jié)約信道資源的效果?!娟P(guān)鍵詞】信道選擇;Q學(xué)習(xí);節(jié)能問(wèn)題1引言1.1選題意義人工智能是現(xiàn)今最熱門的研究領(lǐng)域之一,其中研究人工智能的核心方法就有機(jī)器學(xué)習(xí)。最初是希望計(jì)
3、算機(jī)擁有一定的自我學(xué)習(xí)能力,從而可以自我獲取知識(shí)、提高智能性。隨著機(jī)器學(xué)習(xí)領(lǐng)域的不斷探索,將人類的學(xué)習(xí)能力賦予機(jī)器已經(jīng)不再是機(jī)器學(xué)習(xí)的主要目標(biāo)了, 研究目標(biāo)轉(zhuǎn)向了可以有效地由計(jì)算機(jī)實(shí)習(xí)數(shù)據(jù)分析技術(shù)。然而機(jī)器學(xué)習(xí)需要采集大量的環(huán)境反饋,累積獎(jiǎng)賞值,從而獲得最優(yōu)決策,這一過(guò)程需要大量的數(shù)據(jù)采集、分配和計(jì)算,對(duì)于計(jì)算機(jī)的能耗有著較大的要求。為了節(jié)約能耗,我們需要通過(guò)強(qiáng)化學(xué)習(xí),優(yōu)化算法結(jié)構(gòu)和效率,從而用更少的能耗找到最優(yōu)決策,這樣可以減少對(duì)硬件的要求,將機(jī)器學(xué)習(xí)推廣到更多領(lǐng)域中。強(qiáng)化學(xué)習(xí),是機(jī)器學(xué)習(xí)領(lǐng)域中一種重要的學(xué)習(xí)方法,強(qiáng)化學(xué)習(xí)的應(yīng)用煩惱為涵蓋了智能控制、機(jī)器人及分析預(yù)測(cè)等眾多領(lǐng)域。在無(wú)線通信領(lǐng)域
4、中,無(wú)線資源的需求日益增加,如何高效有序的將信道頻譜資源進(jìn)行分配,也是節(jié)約能耗的一個(gè)關(guān)鍵問(wèn)題。本文通過(guò)強(qiáng)化學(xué)習(xí)的方法來(lái)對(duì)頻譜接入,和信道分配進(jìn)行動(dòng)態(tài)規(guī)劃,目的是為了合理運(yùn)用現(xiàn)有資源,充分改善資源利用率,為實(shí)現(xiàn)動(dòng)態(tài)頻譜管理,和減少頻譜資源需求,提供了一定的實(shí)踐基礎(chǔ)。1.2國(guó)內(nèi)外發(fā)展?fàn)顩r國(guó)內(nèi)外對(duì)于強(qiáng)化學(xué)習(xí)都有眾多的研究成果和應(yīng)用實(shí)例,目前發(fā)展應(yīng)用較多的幾個(gè)方面有:在調(diào)度管理中的應(yīng)用:調(diào)度問(wèn)題是一種隨即優(yōu)化控制問(wèn)題的實(shí)際例子,解決這種問(wèn)題將會(huì)帶來(lái)很高的經(jīng)濟(jì)價(jià)值。比如,Crites和Barto就把強(qiáng)化學(xué)習(xí)算法應(yīng)用到樓層電梯系統(tǒng)中。通過(guò)強(qiáng)化學(xué)習(xí)算法,采集記錄乘客的位置和目標(biāo)樓層,動(dòng)態(tài)規(guī)劃電梯的行徑,其效
5、率遠(yuǎn)遠(yuǎn)超過(guò)了一般的動(dòng)態(tài)規(guī)劃。另外,強(qiáng)化學(xué)習(xí)的應(yīng)用例子還有很多,如,在蜂窩電話系統(tǒng)中動(dòng)態(tài)信道分配及機(jī)器調(diào)度問(wèn)題。在機(jī)器人技術(shù)中的應(yīng)用:機(jī)器人研究領(lǐng)域是強(qiáng)化學(xué)習(xí)最適合,也是應(yīng)用實(shí)例最多一個(gè)領(lǐng)域。近年來(lái)國(guó)際上興起了將強(qiáng)化學(xué)習(xí)應(yīng)用到智能機(jī)器人領(lǐng)域的研究熱潮。Hee RakBeem為了可以讓陸上移動(dòng)機(jī)器人導(dǎo)航系統(tǒng)可以完美避開碰撞物和達(dá)到目的地兩種行為,采用了模糊邏輯和強(qiáng)化學(xué)習(xí)的方法,使得機(jī)器人導(dǎo)航系統(tǒng)得以優(yōu)化。國(guó)內(nèi)目前的現(xiàn)狀:國(guó)內(nèi)目前處于新興發(fā)展階段,對(duì)于強(qiáng)化學(xué)習(xí)和人工智能方面逐漸趕上外國(guó)發(fā)達(dá)國(guó)家,如今已有不少的關(guān)于強(qiáng)化學(xué)習(xí)的成果,應(yīng)用于多個(gè)行業(yè)及領(lǐng)域。如基于時(shí)隙CSMA的水聲無(wú)線傳感器網(wǎng)絡(luò)節(jié)能強(qiáng)化學(xué)習(xí)
6、算法 ,為了達(dá)到以最低能源消耗傳送數(shù)據(jù)包到匯聚節(jié)點(diǎn)的目標(biāo),出了一種節(jié)能的基于時(shí)隙CSMA(載波幀聽多訪問(wèn))的強(qiáng)化學(xué)習(xí)算法。分析了時(shí)隙CSMA的強(qiáng)化學(xué)習(xí)協(xié)議的可行性。并研究了每個(gè)節(jié)點(diǎn)的平均能耗與子信道個(gè)數(shù)之間的關(guān)系,提高了傳感器的使用壽命。1.3展望在最近的研究發(fā)展來(lái)看,研究人員越來(lái)越重視強(qiáng)化學(xué)習(xí)理論和應(yīng)用,可是由于現(xiàn)實(shí)問(wèn)題的復(fù)雜度過(guò)高,強(qiáng)化學(xué)習(xí)在實(shí)際工程中的應(yīng)用依舊存在很多問(wèn)題,如環(huán)境的不完全感知;多agent分布式的問(wèn)題;分層強(qiáng)化學(xué)習(xí)的問(wèn)題等,盡管如此,強(qiáng)化學(xué)習(xí)已開始逐漸應(yīng)用于人工智能、機(jī)器人控制和工業(yè)控制等系統(tǒng),運(yùn)用強(qiáng)化學(xué)習(xí)算法來(lái)解決客戶端的學(xué)習(xí)節(jié)能問(wèn)題,可以將機(jī)器學(xué)習(xí)推廣到更多領(lǐng)域。通過(guò)
7、強(qiáng)化學(xué)習(xí)的方式,還可以動(dòng)態(tài)優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),使得機(jī)器學(xué)習(xí)能夠更高效,更有目的地處理指定問(wèn)題,縮短機(jī)器學(xué)習(xí)的學(xué)習(xí)周期,減少能耗。如果強(qiáng)化學(xué)習(xí)能夠有效利用在各行各業(yè),在調(diào)度、提高速率、合理分配資源等方面都可以得到極大優(yōu)化,前景廣闊。1.4目前強(qiáng)化學(xué)習(xí)遇到的問(wèn)題在時(shí)間信用方面存在著分配問(wèn)題,智能體所作出動(dòng)作不僅決定立即獎(jiǎng)賞,還可能會(huì)影響到下一狀態(tài)的環(huán)境。導(dǎo)致智能體不僅要考慮立即獎(jiǎng)賞,還要考慮下一狀態(tài)所帶來(lái)的獎(jiǎng)賞。獎(jiǎng)賞延遲越多,學(xué)習(xí)算法就需要進(jìn)行的嘗試次數(shù)就會(huì)越多,導(dǎo)致學(xué)習(xí)消耗額時(shí)間增加,學(xué)習(xí)時(shí)間的增加就會(huì)使得智能體運(yùn)算消耗變大,造成資源浪費(fèi)。學(xué)習(xí)過(guò)程中存在著探索和利用兩個(gè)問(wèn)題,如何對(duì)這兩個(gè)過(guò)程進(jìn)行一
8、個(gè)折衷考量也是強(qiáng)化學(xué)習(xí)中的一個(gè)關(guān)鍵問(wèn)題,通過(guò)利用已知的動(dòng)作,智能體可以得到一個(gè)穩(wěn)定獎(jiǎng)賞,但是相比于利用已知?jiǎng)幼鳙@得獎(jiǎng)賞,探索新的動(dòng)作可以獲得更高的獎(jiǎng)賞,但是過(guò)多的探索又會(huì)使得系統(tǒng)消耗更多的資源。強(qiáng)化學(xué)習(xí)是一項(xiàng)與環(huán)境緊密聯(lián)系在一起的學(xué)習(xí)算法,外界環(huán)境的復(fù)雜度與反復(fù)無(wú)常的變化都會(huì)影響智能體的學(xué)習(xí)過(guò)程,動(dòng)態(tài)地規(guī)劃學(xué)習(xí)過(guò)程中的探索和利用過(guò)程也是一個(gè)亟待解決的問(wèn)題。強(qiáng)化學(xué)習(xí)算法從優(yōu)化函數(shù)和狀態(tài)空間中獲得有用的策略,一旦系統(tǒng)復(fù)雜度變高,則要大量的參數(shù)來(lái)描述,這樣狀態(tài)到動(dòng)作的映射組合量會(huì)大量增加,學(xué)習(xí)的時(shí)間也會(huì)極大變長(zhǎng),那么得到?jīng)Q策優(yōu)化的過(guò)程將會(huì)相當(dāng)漫長(zhǎng),增加了任務(wù)的探索負(fù)擔(dān),最終影響決策優(yōu)化效率。強(qiáng)化學(xué)習(xí)
9、算法是依賴于外界環(huán)境狀態(tài)的,而學(xué)習(xí)算法最終要完成決策優(yōu)化,是需要算法具有收斂性的,一旦外界環(huán)境和系統(tǒng)變得越發(fā)復(fù)雜,那么智能體無(wú)法精確地得到所有環(huán)境狀態(tài),由此會(huì)使得學(xué)習(xí)算法無(wú)法在實(shí)際環(huán)境中得到收斂,這么一來(lái)不解決算法收斂問(wèn)題,算法的應(yīng)用就難以在復(fù)雜工程中得到應(yīng)用。1.5研究方法的探索由于信道選擇可以看作為一個(gè)概率事件,這里可以通過(guò)蒙特卡洛方法來(lái)對(duì)通信模型進(jìn)行仿真。在通信中有多種指標(biāo)可以衡量系統(tǒng)對(duì)信道的利用率,這里我們主要通過(guò)考慮信道容量這一指標(biāo)來(lái)觀察Q學(xué)習(xí)是否可以優(yōu)化改良信道的選擇問(wèn)題,信道容量還可以側(cè)面衡量出信息的傳輸速率。強(qiáng)化學(xué)習(xí)算法有一個(gè)比較關(guān)鍵的問(wèn)題,就是如何對(duì)探索過(guò)程和利用過(guò)程進(jìn)行一個(gè)
10、折衷,由于本文進(jìn)行的通信系統(tǒng)模型比較簡(jiǎn)單,我們通過(guò)模擬退火溫度的方法,來(lái)對(duì)Q學(xué)習(xí)Q值矩陣的權(quán)重進(jìn)行調(diào)整,從而一定程度上解決探索和利用的矛盾,使得Q學(xué)習(xí)最終可以收斂。2.系統(tǒng)模型及理論支持2.1馬爾科夫決策過(guò)程大部分的強(qiáng)化學(xué)習(xí)算法都是根據(jù)馬爾科夫決策過(guò)程發(fā)展過(guò)來(lái)的,所以在實(shí)用強(qiáng)化學(xué)習(xí)算法前,需要對(duì)馬爾科夫決策過(guò)程進(jìn)行了解。馬爾科夫決策過(guò)程:是通過(guò)馬爾科夫過(guò)程理論延伸出來(lái)的一種決策過(guò)程,這是一種從隨機(jī)動(dòng)態(tài)系統(tǒng)中,獲得最優(yōu)決策的過(guò)程。馬爾科夫決策過(guò)程是指在仿佛的周期循環(huán)過(guò)程中,決策者不斷地觀察隨機(jī)動(dòng)態(tài)系統(tǒng)(這個(gè)系統(tǒng)具有馬爾科夫性),然后序貫地作出決策。詳細(xì)說(shuō)明就是決策者在每一個(gè)時(shí)刻觀察到的狀態(tài),從決
11、策者可以作出的所有行動(dòng)中選擇一個(gè)行動(dòng),以此行動(dòng)作為決策,系統(tǒng)達(dá)到下一個(gè)狀態(tài)是完全隨機(jī)的,并且這個(gè)狀態(tài)轉(zhuǎn)移的概率是遵循馬爾科夫性的。決策者通過(guò)觀測(cè)到的新的狀態(tài),作出新的決策,循環(huán)反復(fù)進(jìn)行。馬爾科夫性指的是一個(gè)隨機(jī)事件,通過(guò)未來(lái)的發(fā)展,具有一定的概率規(guī)律,和歷史無(wú)關(guān)的一種性質(zhì)??偟膩?lái)說(shuō)就是一種狀態(tài)轉(zhuǎn)移概率的無(wú)后效性。2.2強(qiáng)化學(xué)習(xí) 強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,主要是通過(guò)智能機(jī)與環(huán)境交流聯(lián)系,并通過(guò)動(dòng)作對(duì)環(huán)境進(jìn)行反饋,得到的環(huán)境反饋?zhàn)鳛橹悄軝C(jī)的輸入。強(qiáng)化學(xué)習(xí)主要是利用智能體不斷與環(huán)境進(jìn)行交流和接受反饋的思路,主要利用的方法是一種試錯(cuò)的模式,然后智能體可以在狀態(tài)空間到動(dòng)作空間的映射中獲得學(xué)習(xí),改善決策
12、,并不斷累計(jì)獎(jiǎng)賞值。強(qiáng)化學(xué)習(xí)算法過(guò)程中,一般是由環(huán)境來(lái)發(fā)送信號(hào)的,這個(gè)信號(hào)主要是為了對(duì)Agent選擇決策出來(lái)的動(dòng)作進(jìn)行判斷,判斷環(huán)境帶來(lái)的獎(jiǎng)賞是正獎(jiǎng)賞還是負(fù)獎(jiǎng)賞,這個(gè)環(huán)境所反饋回來(lái)的信號(hào)是不會(huì)對(duì)智能體選擇動(dòng)作作出直接影響的。所以Agent就需要靠累計(jì)的獎(jiǎng)賞總結(jié)經(jīng)驗(yàn)進(jìn)行學(xué)習(xí)。通過(guò)這種方式,Agent可以通過(guò)獲得外界環(huán)境反饋得到的信號(hào)來(lái)優(yōu)化自己的決策過(guò)程,進(jìn)過(guò)足夠的迭代學(xué)習(xí),最終可以得到一個(gè)最優(yōu)的決策,學(xué)習(xí)過(guò)程就如圖1所示。 圖1 Agent通過(guò)環(huán)境的學(xué)習(xí)過(guò)程 強(qiáng)化學(xué)習(xí)的處理一般是通過(guò)建立馬爾科夫決策過(guò)程,簡(jiǎn)稱MDP。一個(gè)MDP一般被一個(gè)五元組S,A,P(st,at,st+1),r(st,at )
13、,Q; st,st+1 S,at A表示,當(dāng)中S表示為連續(xù)的狀態(tài)空間,A表示為連續(xù)的動(dòng)作空間,P(st,at,st+1)表示為Agent處于狀態(tài) st 時(shí),執(zhí)行動(dòng)作at之后,轉(zhuǎn)移到下一個(gè)狀態(tài)st+1的概率,r(st,at)表示在st時(shí)執(zhí)行動(dòng)作at之后得到的獎(jiǎng)賞,Q表示狀態(tài)-動(dòng)作值函數(shù)。從文獻(xiàn)8中了解到,強(qiáng)化學(xué)習(xí)算法有多種實(shí)現(xiàn)方法,也有多種算法實(shí)例,如動(dòng)態(tài)規(guī)劃(DP)、蒙特卡洛算法、瞬時(shí)差分學(xué)習(xí)算法(TD算法)、Q學(xué)習(xí)算法、Sarsa算法和Dyna學(xué)習(xí)算法,本文主要利用Q學(xué)習(xí)算法來(lái)進(jìn)行信道的選擇優(yōu)化問(wèn)題。2.3 Q學(xué)習(xí) 從文獻(xiàn)7中了解到了Q學(xué)習(xí)的主要原理和迭代算法原理,由此可以得到Q學(xué)習(xí)的一些相
14、關(guān)實(shí)現(xiàn)方式。首先要了解Q學(xué)習(xí)的概念和形式,Q學(xué)習(xí)是一種由動(dòng)態(tài)規(guī)劃理論中總結(jié)發(fā)展得出的,這是一種與模型沒有關(guān)系的延遲學(xué)習(xí)方式。Q學(xué)習(xí)算法的形式為: (1)其中是在狀態(tài)s下,智能機(jī)通過(guò)執(zhí)行動(dòng)作a,所獲得的最優(yōu)的獎(jiǎng)賞值的總和。定義為在狀態(tài)s下的最優(yōu)值函數(shù),則 (2)說(shuō)明對(duì)現(xiàn)有狀態(tài)值Q進(jìn)行反復(fù)的反應(yīng),就可以獲得該狀態(tài)下最優(yōu)的動(dòng)作決策,也就是當(dāng)前的狀態(tài)即動(dòng)作的Q值在這個(gè)數(shù)值中包含了所需信息,就可以說(shuō)明,在狀態(tài)s下,智能體選擇動(dòng)作a時(shí),智能體將會(huì)獲得累計(jì)獎(jiǎng)賞的最大值。由此可以得到Q學(xué)習(xí)的迭代公式為 (3)該算法的一個(gè)交互過(guò)程如圖2所示:圖2 智能體與環(huán)境的交互過(guò)程2.4 Q學(xué)習(xí)的信道選擇算法本文將Q學(xué)習(xí)算
15、法應(yīng)用與機(jī)會(huì)頻譜接入系統(tǒng)中的信道選擇策略中,在接入體系和信道選擇框架下,用戶通過(guò)接入策略和選擇信道方式來(lái)偵聽頻譜,探索環(huán)境中的信道是否處于空閑狀態(tài),然后進(jìn)行信道接入決策,以此獲得獎(jiǎng)賞值,完成與環(huán)境的交流和互動(dòng)。通過(guò)建立一個(gè)有限的馬爾科夫決策過(guò)程,設(shè)定狀態(tài)空間S、動(dòng)作空間A、狀態(tài)轉(zhuǎn)移函數(shù)和回報(bào)函數(shù)r,具體的體系框架如圖3所示。 圖3 信道選擇和接入體系框架狀態(tài)空間S:S是由n個(gè)狀態(tài)組成的,每次用戶所處的頻帶在Bi上時(shí),且同一時(shí)間上沒有其他用戶在這個(gè)頻帶上時(shí),就選取Si作為現(xiàn)態(tài)。動(dòng)作空間A:A是由n個(gè)行為動(dòng)作構(gòu)成的,當(dāng)動(dòng)作ai被選擇執(zhí)行時(shí),總能是狀態(tài)變?yōu)閟i,如果系統(tǒng)中存在大量頻帶個(gè)數(shù)時(shí),動(dòng)作與狀
16、態(tài)的組合量就會(huì)極大增多,使得內(nèi)存空間占用過(guò)大,不過(guò)可以通過(guò)神經(jīng)網(wǎng)絡(luò)的方式將其解決。轉(zhuǎn)移狀態(tài)函數(shù),在當(dāng)前的狀態(tài)下執(zhí)行動(dòng)作ai,使得系統(tǒng)從現(xiàn)態(tài)進(jìn)入下一狀態(tài)。回報(bào)函數(shù):通過(guò)系統(tǒng)的性能指標(biāo),系統(tǒng)在執(zhí)行動(dòng)作之后,用戶獲得了可供使用的信道,如果得到一個(gè)較大信道容量,就可以設(shè)定這次的回報(bào)為正回報(bào),剩下的情況的回報(bào)為0。從而得到回報(bào)的公式為: (4)這里的表示信道是否處于空閑狀態(tài),Td表示時(shí)隙中的數(shù)據(jù)傳輸時(shí)間,Ts表示為信道的感知時(shí)間。In表示的是接收端是否正確的接受到了信息,這里的和In都為示性函數(shù),都是表示是為1否為0.信道容量:通過(guò)信道容量可以用來(lái)描述一個(gè)信道的性能,透過(guò)信道容量可以反映出信道上所能傳輸
17、的最大信息量,信道容量的大小與信源是沒有關(guān)系的。在不同的輸入下,他們的概率分布也不一致,交互信息也一定會(huì)有最大值,這個(gè)最大值就可以被定義成為信道的容量。只要我們知道轉(zhuǎn)移的概率矩陣,我們就可以計(jì)算得出該信道的信道容量。Cn為當(dāng)前所選擇的信道的信道容量,也可以理解為信息在信道上的傳輸速率,通過(guò)香農(nóng)公式可得: (5)由此可以得出系統(tǒng)的平均信道容量為: (6)其中,m所代表的是系統(tǒng)的平均數(shù)據(jù)傳輸速率。2.5Boltzmann學(xué)習(xí)規(guī)則在智能機(jī)學(xué)習(xí)過(guò)程中,每進(jìn)行一次學(xué)習(xí)時(shí)我們并不知道是一哪一種策略動(dòng)作進(jìn)行選擇的,這種學(xué)習(xí)算法有一定問(wèn)題,假設(shè)智能體在開始學(xué)習(xí)的時(shí)候,通過(guò)迭代學(xué)習(xí)找到了比較高的Q值,動(dòng)作就會(huì)被
18、這個(gè)Q值限制,從而不會(huì)去探索更好的策略,并且Q學(xué)習(xí)最終要收斂到一個(gè)穩(wěn)定的狀態(tài),需要每一個(gè)動(dòng)作反復(fù)不斷的探索。為了可以符合Q學(xué)習(xí)的收斂特性,必須要做出探索和決策之間的折衷選擇。在閱讀了文獻(xiàn)1與文獻(xiàn)2中關(guān)于利用Q學(xué)習(xí)算法來(lái)進(jìn)行信道預(yù)測(cè)與接入的問(wèn)題中,他們采用了Boltzmann學(xué)習(xí)規(guī)則,所以我們?cè)谟懻撔诺澜尤雴?wèn)題時(shí),也想通過(guò)采用了Boltzmann學(xué)習(xí)型規(guī)則結(jié)合模擬退火過(guò)程來(lái)達(dá)到Q學(xué)習(xí)的收斂。我們根據(jù)Q值矩陣中元素的大小,對(duì)所有可能的動(dòng)作進(jìn)行概率賦值,這里有條件概率公式: (7)這個(gè)公式表示為,在狀態(tài)s下,通過(guò)動(dòng)作選擇到信道an的概率,表示模擬退火溫度,當(dāng)退火溫度值很高時(shí),Q值的影響很小,可以近似
19、看為隨機(jī)選擇,沒經(jīng)過(guò)一次學(xué)習(xí),退火溫度值減少,這樣Q值的影響逐漸增大,這時(shí)Q值中較大的部分就有更高的概率被選擇,這樣就可以從探索逐漸想利用方向變化,Q學(xué)習(xí)過(guò)程也會(huì)逐漸收斂。2.6模擬退火過(guò)程由于學(xué)習(xí)過(guò)程是一反復(fù)迭代,累計(jì)獎(jiǎng)賞的過(guò)程,也可以視為一種試錯(cuò)的算法,所以剛開時(shí)進(jìn)行學(xué)習(xí)時(shí),R值矩陣和Q值矩陣均不可能達(dá)到最優(yōu),而且在學(xué)習(xí)開始時(shí),Q值由于回報(bào)函數(shù)獲得獎(jiǎng)賞值過(guò)大,導(dǎo)致Q矩陣的數(shù)值也較大,這么一來(lái)這個(gè)過(guò)大的Q值就會(huì)影響決策,而很多新的環(huán)境狀態(tài)還沒有探索到,所以在學(xué)習(xí)初Q值所占的權(quán)重需要一個(gè)較小值,這樣才能使得在學(xué)習(xí)開始時(shí)不會(huì)由于出現(xiàn)過(guò)大的Q值而限制智能體的探索。為了處理學(xué)習(xí)過(guò)程中探索與利用的平衡
20、問(wèn)題,我們通過(guò)文獻(xiàn)10中的模擬退火算法來(lái)對(duì)參數(shù)的權(quán)重進(jìn)行適當(dāng)?shù)恼{(diào)整。通過(guò)設(shè)置初始退火溫度,以一定的參數(shù)為負(fù)指數(shù)規(guī)律遞減,一旦達(dá)到設(shè)置的最終溫度,將完成這次學(xué)習(xí),在退火溫度逐漸減少的過(guò)程中,Q值矩陣的權(quán)重逐漸增加,從而達(dá)到開始過(guò)大的Q值不會(huì)影響我們的探索過(guò)程。2.7 OFDM的信道接入方式由于我們需要建立一個(gè)通信模型來(lái)對(duì)所作的優(yōu)化進(jìn)行仿真,本文也采用了與文獻(xiàn)1中一致的通信信道接入方式OFDM信道接入方式。OFDM全稱為正交頻分復(fù)用技術(shù),OFDM技術(shù)常用于實(shí)現(xiàn)多載波傳輸方案的實(shí)現(xiàn),它的調(diào)制和解調(diào)是基于IFFT和FFt來(lái)實(shí)現(xiàn)的,OFDM是現(xiàn)階段通信方面應(yīng)用最為廣泛的多載波傳輸方案。由于一個(gè)信道一次只
21、傳輸一路的信號(hào)的話,是顯得十分奢侈的,通過(guò)采用頻分復(fù)用方式,就可以充分利用每一條信道的帶寬資源。OFDM的主要思想就是,通過(guò)把信道劃分成為多個(gè)正交的子信道,把速度高的數(shù)據(jù)信號(hào),分為許多的并行的速度低的子數(shù)據(jù)流,把這些數(shù)據(jù)流分別調(diào)制到每一個(gè)正交的子信道上進(jìn)行輸送,通過(guò)正交傳輸?shù)姆绞娇梢詼p少子信道之間的相互干擾,不僅如此,還可以通過(guò)子信道上的信號(hào)帶寬很小,可以把子信道看作平坦性衰落,來(lái)消除碼間串?dāng)_,每一個(gè)子信道的信道均衡也會(huì)變得容易。2.8系統(tǒng)模型在認(rèn)知無(wú)線電系統(tǒng)中,N個(gè)不相互干擾的OFDM載波頻段構(gòu)成授權(quán)頻譜,設(shè)定每一個(gè)信道的帶寬是Bn。S(t)=S1(t),S2(t).Sn(t)表示為信道狀態(tài)
22、,這里的Sn(t)代表著在t時(shí)刻n信道中的信道狀態(tài)。snr代表者客戶端用戶之間的信噪比。能量和硬件的限制面導(dǎo)致了用戶每一次探索,并且利用頻譜的機(jī)會(huì)都是獨(dú)立的,不考慮用戶之間的相互影響。 每一次用戶發(fā)出一個(gè)信息時(shí),接受端會(huì)根據(jù)現(xiàn)在所處的信道選擇策略,對(duì)一個(gè)信道進(jìn)行選擇偵聽,結(jié)合之前鎖觀察和經(jīng)驗(yàn),從而判決信道是否處于空閑狀態(tài)。圖4 用戶信道模型2.9蒙特卡洛方法由文獻(xiàn)8中引出的蒙特卡洛方法,我們需要了解該方法的原理,以及它的實(shí)現(xiàn)步驟。當(dāng)我們要解決的問(wèn)題是一個(gè)隨機(jī)事件出現(xiàn)的概率,通過(guò)實(shí)驗(yàn)的方法,以這種事件出現(xiàn)的頻率來(lái)估計(jì)這一隨機(jī)的概率。蒙特卡洛方法可以分為三分個(gè)步驟:(1) 構(gòu)造或描述概率過(guò)程:將本
23、身具有概率性質(zhì)的問(wèn)題通過(guò)建立正確的描述和模擬概率事件的環(huán)境,來(lái)對(duì)概率進(jìn)行求解;如果不是具有概率性質(zhì)的問(wèn)題,那就建立一個(gè)人為的概率事件環(huán)境,從中取某些適合的參數(shù)來(lái)對(duì)問(wèn)題進(jìn)行描述,從而得出問(wèn)題的答案。(2) 實(shí)現(xiàn)已知的概率分部抽樣:在構(gòu)建創(chuàng)造出一個(gè)概率模型后,幾乎所有的概率模型都可以被看作是由許多概率分布組成的,所以,構(gòu)造一個(gè)確定的概率分布的隨機(jī)變量,這就是采用蒙特卡洛方法模擬實(shí)驗(yàn)的一般方式。(3) 建立各種估計(jì)量:通常來(lái)講,經(jīng)過(guò)創(chuàng)造一個(gè)概率模型,并且可在模型中抽樣后,就是經(jīng)過(guò)模擬實(shí)驗(yàn)后,就可以從中確定一個(gè)隨機(jī)變量,作為所要求的問(wèn)題的解,我們稱它為無(wú)偏估計(jì)。透過(guò)構(gòu)建各種各樣的估計(jì)量,就可以看作是對(duì)
24、模擬實(shí)驗(yàn)結(jié)果進(jìn)行考量和記錄,最終可以從這些結(jié)果中獲得所求問(wèn)題的解。3.算法流程及實(shí)現(xiàn)過(guò)程3.1實(shí)驗(yàn)步驟首先通過(guò)建立一個(gè)通信系統(tǒng)模型,將所需參數(shù)逐一進(jìn)行設(shè)置,建立一個(gè)符合實(shí)驗(yàn)要求的客戶端之間的通信系統(tǒng)模型。在這個(gè)模型的基礎(chǔ)上,首先進(jìn)行隨機(jī)接入信道的仿真測(cè)試,通過(guò)matlab的隨機(jī)數(shù)生成函數(shù),隨機(jī)選擇決策動(dòng)作,達(dá)到隨機(jī)接入信道的效果,在通過(guò)香農(nóng)公式,計(jì)算出系統(tǒng)的平均信道容量,并繪制出通信次數(shù)和平均信道容量的曲線。完成隨機(jī)信道接入后,進(jìn)行Q學(xué)習(xí)信道選擇算法實(shí)驗(yàn)。首先要將Q迭代函數(shù)、R的回報(bào)函數(shù)與接入概率函數(shù)進(jìn)行聯(lián)系,使得學(xué)習(xí)結(jié)果可以通過(guò)回報(bào)來(lái)影響決策,從而優(yōu)化決策策略。算法的應(yīng)用上,首先要對(duì)算法的各
25、項(xiàng)參數(shù)進(jìn)行初始話,保證在實(shí)驗(yàn)開始時(shí),回報(bào)函數(shù)和Q值函數(shù)均處于初始狀態(tài),這樣才能保證一開始信道的選擇是處于隨機(jī)選擇狀態(tài),然后把回報(bào)函數(shù)與通信模型進(jìn)行聯(lián)系,這樣就可以把環(huán)境反饋與智能體聯(lián)系起來(lái),通過(guò)Q值迭代公式(3),獲得新的Q值,從而影響決策。再通過(guò)系統(tǒng)的平均信道容量來(lái)對(duì)結(jié)果進(jìn)行衡量分析,假如學(xué)習(xí)后系統(tǒng)的平均信道容量得到提升則可說(shuō)明Q學(xué)習(xí)信道選擇算法可以有效優(yōu)化信道選擇過(guò)程,假如學(xué)習(xí)后系統(tǒng)的平均信道容量和平均接入大致,甚至低于平均接入方法,則說(shuō)明實(shí)驗(yàn)存在問(wèn)題,需要考慮優(yōu)化算法或者尋找其他的解決方法。最終得出結(jié)論,討論算法的可行性和可靠性。3.2算法流程(1) 初始化:設(shè)定一個(gè)N階方陣為一個(gè)元素全
26、為0的矩陣,設(shè)置Q迭代公式中的折現(xiàn)因子(折現(xiàn)因子越大,學(xué)習(xí)越考慮對(duì)未來(lái)的獎(jiǎng)懲,立即獎(jiǎng)賞的影響會(huì)比較?。?,設(shè)置學(xué)習(xí)過(guò)程中的初始退火溫度和最終的退火溫度,通過(guò)隨機(jī)先擇一個(gè)起始動(dòng)作來(lái)選擇一個(gè)狀態(tài),作為起點(diǎn)。(2) 通過(guò)Boltzmann的學(xué)習(xí)規(guī)則,通過(guò)條件概率函數(shù)來(lái)選擇一個(gè)動(dòng)作,對(duì)信道進(jìn)行訪問(wèn),在動(dòng)作執(zhí)行時(shí),需要通過(guò)偵聽信道來(lái)判斷目標(biāo)信道是否處于空閑,若是處于空閑狀態(tài),則接入信道,若處于忙碌狀態(tài),則反饋的回報(bào)為0,重新選擇接入策略。(3) 當(dāng)接入信道后,進(jìn)行信道傳輸,如果接受端未能收到信號(hào),則回報(bào)為零,需要更新選擇策略,如果接收端成功接受到信號(hào)將會(huì)成功獲得回報(bào),通過(guò)回報(bào)函數(shù)計(jì)算獎(jiǎng)賞值。(4) 智能體
27、通過(guò)回報(bào)函數(shù)計(jì)算得到的R值記錄到值矩陣,再由Q值迭代公式,更新Q矩陣。(5) 完成Q值迭代后,對(duì)退火溫度進(jìn)行衰減操作。(6) 將求得的Q值和經(jīng)過(guò)衰減的退火溫度回代到概率函數(shù)之中,從而達(dá)到更新選擇策略的目的。(7) 進(jìn)入下一個(gè)狀態(tài),返回過(guò)程(2),直到迭代完成。 圖5 Q學(xué)習(xí)算法的算法流程以下再列出Q學(xué)習(xí)的算法描述:Initialize arbitrarily;Repeat(for each episode);Initialize s;Repeat(for each step of episode);Choose a from s using policy derived from Q(e.g.
28、,-greedy);Take action a,observe r,s;Until s is terminal.3.3仿真過(guò)程這次實(shí)驗(yàn)所做學(xué)習(xí)機(jī)制可以適用于用戶間所處的環(huán)境不明,信道條件不了解的情況,為了便于探求提出的算法是否有效可行,對(duì)于通信環(huán)境進(jìn)行了一些理想化假設(shè)。通過(guò)設(shè)定一組用戶,用戶間可供選擇的信道為7個(gè),這7個(gè)信道的負(fù)載量和信噪比如表1所示,每一個(gè)信道的信噪比通過(guò)預(yù)設(shè)來(lái)進(jìn)行確定。假設(shè)每一條信道的信道帶寬為B=1,Q迭代公式中的折現(xiàn)因子=0.9,折現(xiàn)因子的設(shè)定值較高,主要是為了學(xué)習(xí)目標(biāo)著重為未來(lái)回報(bào),減少立即回報(bào)的影響。起始退火溫度設(shè)定為,衰減速率則為折現(xiàn)因子的數(shù)值,通過(guò)指數(shù)衰減的形式
29、衰減值最終退火溫度。仿真原理利用的是蒙特卡洛方法,首先在未經(jīng)學(xué)習(xí)時(shí),用戶可以認(rèn)為是隨機(jī)接入復(fù)合條件的信道之中,這樣系統(tǒng)在這1000次通信中的平均信道容量就會(huì)趨于各條信道的平均信道容量。在完成了隨機(jī)的信道選擇過(guò)程后,進(jìn)行經(jīng)過(guò)Q學(xué)習(xí)的信道選擇。再開始學(xué)習(xí)時(shí),由于有初始退火溫度較大,動(dòng)作的決策幾乎可以看作是隨機(jī)選擇,隨著通信次數(shù)的增加,Q值矩陣的不斷迭代,還有退火溫度的減小,逐漸影響概率函數(shù),學(xué)習(xí)達(dá)到收斂時(shí),我們的系統(tǒng)平均信道容量也收斂到了最大值,這時(shí)的平均信道容量值會(huì)接近最優(yōu)信道的信道容量。由于用戶間的信道通信,具有復(fù)雜的環(huán)境干擾,和其他用戶占用信道的可能,我們目標(biāo)是為了探求Q學(xué)習(xí)指導(dǎo)信道選擇策略
30、的可行性,所以在進(jìn)行通信環(huán)境模擬的時(shí)候,將許多復(fù)雜變量都做了理想化處理,假設(shè)每一次通信只有一組發(fā)送和接受端,為了忽略其他用戶通信造成的信道占用現(xiàn)象,所以在信道偵聽的過(guò)程中,信道都是默認(rèn)處于空閑狀態(tài)。信道的信噪比也通過(guò)理想化處理,每一個(gè)信道都對(duì)應(yīng)固定的信噪比,這樣相對(duì)穩(wěn)定的環(huán)境下,學(xué)習(xí)效率會(huì)得到提高,可以更加直觀的觀察到學(xué)習(xí)所帶來(lái)的影響。信道1信道2信道3信道4信道5信道6信道7負(fù)載量0.900.880.450.440.230.430.21信噪比201213918812 表1 模擬通信環(huán)境的各信道參數(shù)4. 結(jié)果分析4.1數(shù)據(jù)分析通過(guò)matlab的模型建設(shè)和算法編寫,我們得到了如圖所示的結(jié)果。在沒
31、有通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行信道隨機(jī)選擇的過(guò)程中,系統(tǒng)經(jīng)過(guò)1000次的模擬通信,得到的平均信道容量與7條信道的平均信道容量大致相等,在前幾次的通信過(guò)程中,由于樣本數(shù)目較少,所以呈現(xiàn)出來(lái)的是無(wú)規(guī)律的散亂分部,在進(jìn)行的次數(shù)增多后,隨機(jī)接入方法的平均信道容量逐漸穩(wěn)定在了平均值,這么看來(lái)通過(guò)隨機(jī)接入方式來(lái)進(jìn)行信道選擇,無(wú)法充分有效地利用目前最有效的信道來(lái)進(jìn)行信息交流,這樣傳輸速率受到限制,從而增大了通信的能耗。在經(jīng)過(guò)Q學(xué)習(xí)機(jī)制的信道選擇策略后,可以看出,在學(xué)習(xí)剛開始時(shí),其結(jié)果與隨機(jī)接入一樣,主要呈現(xiàn)出來(lái)的是一種隨機(jī)的信道接入,造成這種結(jié)果的原因是,在學(xué)習(xí)開始時(shí)我們關(guān)注的是一個(gè)探索的過(guò)程,還不是利用回報(bào)函數(shù)進(jìn)行決
32、策優(yōu)化的過(guò)程,由于退火溫度值較大,Q學(xué)習(xí)影響信道接入概率函數(shù)的權(quán)重很小,所以智能機(jī)在作出動(dòng)作決策時(shí),還是基本可以看作是隨機(jī)選擇,故呈現(xiàn)出來(lái)隨機(jī)選擇的效果。在經(jīng)過(guò)一定次數(shù)的學(xué)習(xí)后,Q值矩陣影響越來(lái)越大,信道接入策略就會(huì)逐漸向優(yōu)化后的決策方向收斂,如圖6所示。在穩(wěn)定的通信環(huán)境下,用戶就會(huì)最優(yōu)先選擇信噪比最大的信道來(lái)進(jìn)行通信,這么一來(lái),用戶的平均信道容量就會(huì)得到提高,信息傳輸速率,吞吐率等方面也會(huì)有一定的改進(jìn),可以充分利用好的信道資源,通過(guò)實(shí)踐調(diào)度,可以更好的節(jié)約信道資源。通過(guò)信道的接入次數(shù)對(duì)比也可以發(fā)現(xiàn),在隨機(jī)接入模式下,每一條被信道被接入的機(jī)會(huì)大致相同的,如圖7所示,系統(tǒng)請(qǐng)求接入信道時(shí),并不會(huì)考
33、慮信道的信道容量,只會(huì)隨機(jī)選取信道進(jìn)行信息傳輸,這么一來(lái),多次信息傳輸后,系統(tǒng)通信的平均信道容量自然會(huì)趨于所有信道容量的平均值。相比之下,通過(guò)Q學(xué)習(xí)信道接入算法優(yōu)化后,信道接入信道容量最大的兩條的次數(shù)明顯增加,而信道容量最低的那一條信道就很少被接入,如圖8所示。這里信道1和信道5有著相近的信噪比,且都比其他信道大,所以在經(jīng)過(guò)學(xué)習(xí)后,這兩個(gè)信道有了較大的接入概率,充分的表現(xiàn)出了對(duì)信道選擇策略的優(yōu)化。這么一來(lái),極大地提高了系統(tǒng)通信的平均信道容量,使得傳輸效率和傳輸質(zhì)量得到提升,降低了能耗。圖6 兩種接入方式的平均信道容量圖7 隨機(jī)接入方式下的信道接入次數(shù)圖8 Q學(xué)習(xí)信道接入算法嚇得信道接入次數(shù)4.
34、2實(shí)驗(yàn)中存在的問(wèn)題和可行性由于本實(shí)驗(yàn)構(gòu)建的是一個(gè)比較簡(jiǎn)單的單向單個(gè)用戶的信息傳輸過(guò)程,所以建立的系統(tǒng)模型也是一個(gè)十分穩(wěn)定的通信系統(tǒng)。在實(shí)際的現(xiàn)實(shí)工程上應(yīng)用時(shí),信道的信噪比,信道的帶寬、負(fù)載量都是影響信息傳輸?shù)闹匾蛩兀@些參數(shù)沒辦法像實(shí)驗(yàn)一樣是個(gè)恒定的參數(shù),所以每次通信的外界環(huán)境都可能會(huì)有較大的變化,這么一來(lái)學(xué)習(xí)算法中探索和利用的關(guān)系就會(huì)變得更加復(fù)雜,可能通過(guò)學(xué)習(xí)改善決策后,當(dāng)前的最優(yōu)策略,由于環(huán)境變化,這個(gè)動(dòng)作所帶來(lái)的選擇已經(jīng)不再是優(yōu)秀的選擇,那么智能機(jī)又要重新探索來(lái)改善累計(jì)獎(jiǎng)賞,這么一來(lái)構(gòu)建一個(gè)動(dòng)態(tài)規(guī)劃探索和利用之間的權(quán)重就顯得尤為重要。雖然現(xiàn)實(shí)環(huán)境千變?nèi)f化,但是通過(guò)Q學(xué)習(xí)的信道接入選擇策
35、略,還是可以一定程度上優(yōu)化決策策略的,就可以通過(guò)經(jīng)驗(yàn)提前判斷接入的最優(yōu)路徑,會(huì)按照學(xué)習(xí)后的概率分部函數(shù),對(duì)接入信道進(jìn)行選擇,這么一來(lái)在環(huán)境變化不大的通信條件下,可以極大的提高傳輸速率,傳輸速率提高,客戶端所需要消耗的資源自然會(huì)得到節(jié)省。本次實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果提升效率十分明顯,是由于環(huán)境的穩(wěn)定和信道數(shù)目較少所造成的,在信道數(shù)目較多,環(huán)境變化的條件下,通過(guò)增加探索時(shí)間和改進(jìn)回報(bào)函數(shù),就可以解決單組用戶間的通信節(jié)能問(wèn)題。但在多組用戶交叉通信的問(wèn)題中,由于用戶的動(dòng)作空間與狀態(tài)空間的映射數(shù)量極大增加,學(xué)習(xí)復(fù)雜度過(guò)大,對(duì)于這次研究無(wú)法深入探索,故該方法在多用戶間的通信節(jié)能問(wèn)題還有待探究。5.結(jié)束語(yǔ)本文研究的是
36、客戶端基于學(xué)習(xí)算法的節(jié)能問(wèn)題,主要在通信信道接入方面來(lái)作出優(yōu)化。目前有通過(guò)設(shè)定玻爾茲曼機(jī)利用神經(jīng)網(wǎng)絡(luò)的方式來(lái)實(shí)現(xiàn)信道選擇的研究,我們?cè)诖朔椒ㄉ线M(jìn)行改進(jìn),利用強(qiáng)化學(xué)習(xí)算法,通過(guò)環(huán)境反饋的回報(bào)值,來(lái)優(yōu)化玻爾茲曼機(jī)中的概率函數(shù),最終改變決策策略,使得客戶端可以有效提高接入最優(yōu)的信道的概率,提升通信系統(tǒng)的平均信道容量,加大信息傳輸速率,合理運(yùn)用信道資源,達(dá)到節(jié)能的目的。通過(guò)仿真結(jié)果可以看出,客戶端可以通過(guò)與環(huán)境的不斷交互,從中獲得經(jīng)驗(yàn),進(jìn)過(guò)學(xué)習(xí)和優(yōu)化策略,可以有效提高客戶端接入信道的平均信道容量。本文還通過(guò)對(duì)Q學(xué)習(xí)算法的探究,在面對(duì)Q學(xué)習(xí)算法的探索和利用的折衷問(wèn)題時(shí),通過(guò)查閱資料,引入了模擬退火模型來(lái)
37、一定程度上解決探索和利用的問(wèn)題,不過(guò)這種方式也有一定的局限性,就是需要在相對(duì)穩(wěn)定的環(huán)境下,因?yàn)樵谶_(dá)到最終退火溫度后,學(xué)習(xí)算法就是著重于利用,探索就會(huì)有所欠缺,環(huán)境的改變是需要重新探索的,所以這個(gè)方法也受限于這一點(diǎn)。本文的研究主要針對(duì)的是單個(gè)客戶端通信過(guò)程,在面對(duì)多對(duì)多復(fù)雜通信時(shí),這種學(xué)習(xí)策略的可行性還有待研究。6.參考文獻(xiàn)1趙彪, 李鷗, 欒紅志. Q學(xué)習(xí)算法在機(jī)會(huì)頻譜接入信道選擇中的應(yīng)用J. 信號(hào)處理,2014,2張凱,李鷗,楊白薇. 基于Q-learning的機(jī)會(huì)頻譜接入信道選擇算法J. 計(jì)算機(jī)應(yīng)用研究,20133張士兵, 王惠建, 鄒麗. 基于POMDP模型的分布式機(jī)會(huì)頻譜接入算法J.
38、南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版)4彭曉東, 肖立民, 鐘曉峰, 周世東. 基于信道質(zhì)量信息的機(jī)會(huì)頻譜接入策略J. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版)5張兆城, 楊震. 基于聯(lián)盟的認(rèn)知無(wú)線電機(jī)會(huì)頻譜接入J. 南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版)6葉芝慧, 馮奇, 王健. 基于學(xué)習(xí)策略的動(dòng)態(tài)頻譜接入信道選擇及系統(tǒng)性能J. 東南大學(xué)學(xué)報(bào)(自然科學(xué)版)7劉忠, 李海紅, 劉全. 強(qiáng)化學(xué)習(xí)算法研究J. 計(jì)算機(jī)工程與設(shè)計(jì)8李瑞. 強(qiáng)化學(xué)習(xí)主要算法的研究J. 渝西學(xué)院學(xué)報(bào)(自然科學(xué)版)9王培屹. 淺析強(qiáng)化學(xué)習(xí)算法研究與應(yīng)用J. 科技信息10 陸平靜, 李寶, 張英, 易任嬌, 龐征斌. 一種基于改進(jìn)模擬退火算法的程序性能優(yōu)
39、化參數(shù)搜索算法 11KAELBLING L P, LITTMNN M L, MOORE A W. Reinforcement leurning:A surveyJ12張汝波. 提高強(qiáng)化學(xué)習(xí)速度的方法研究J. 計(jì)算機(jī)工程與應(yīng)用,200113張汝波. 強(qiáng)化學(xué)習(xí)理論及應(yīng)用M. 哈爾濱:哈爾濱工程大學(xué)出版社,2001.14童亮,陸際聯(lián),龔建偉. 一種快速?gòu)?qiáng)化學(xué)習(xí)方法研究J. 北京理工大學(xué)學(xué)報(bào),200515楊曉燕, 楊震, 劉善彬. 基于預(yù)測(cè)機(jī)制的認(rèn)知無(wú)線電機(jī)會(huì)頻譜接入J. 重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,(1):14-19.16李娜, 李鷗, 孫樂(lè), 孫武劍. 基于概率預(yù)測(cè)的動(dòng)態(tài)頻譜接入信道
40、選擇方法J. 信息工程大學(xué)學(xué)報(bào),17CICHOSZ P. Truncating temporal differences: On the efficient implementation of TD() for reinforcement learningJ18MOOR A W, ATKESON C G. Prioritized sweeping:Reinforcement learning with less data and less real timeJ.19AKYILDIZ I F, WON-YEOL L, VURAN M C. A survey on spectrum management in cognitive radio networksJ. 20REDDY Y B. Detecting primary signals for efficient utilization of spectrum using Q-learningA.7.致謝進(jìn)過(guò)大學(xué)四年的緊張學(xué)習(xí)時(shí)光,我系統(tǒng)地學(xué)習(xí)了信息工程的各方面知識(shí),十分佩服各位專業(yè)老師的學(xué)識(shí),從中我不僅學(xué)到了工程方面的理論知識(shí),
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 大竹縣竹中中考數(shù)學(xué)試卷
- 營(yíng)養(yǎng)型輸液項(xiàng)目風(fēng)險(xiǎn)識(shí)別與評(píng)估綜合報(bào)告
- 自籌經(jīng)費(fèi)措施方案
- 喀什非開挖頂管施工方案
- 智能制造與物聯(lián)網(wǎng)(IoT)應(yīng)用的策略及實(shí)施方案
- 新型城鎮(zhèn)化中的農(nóng)村振興與現(xiàn)代農(nóng)業(yè)發(fā)展的策略
- 能源結(jié)構(gòu)優(yōu)化與清潔能源轉(zhuǎn)型的策略
- 降碳減污擴(kuò)綠增長(zhǎng)的經(jīng)濟(jì)學(xué)分析
- 文化交流與一帶一路人文合作的推動(dòng)路徑
- 更大力度穩(wěn)定和擴(kuò)大就業(yè)的策略及實(shí)施路徑
- 人工挖孔樁施工危險(xiǎn)源辨識(shí)與評(píng)價(jià)及應(yīng)對(duì)措施
- 品管圈成果匯報(bào)——提高導(dǎo)管固定正確率PPT課件
- 第2講 麥克斯韋方程組
- 讀懂教材、讀懂學(xué)生、讀懂課堂,構(gòu)建和諧有效的課堂教學(xué)
- 裝飾施工進(jìn)度計(jì)劃網(wǎng)絡(luò)圖及橫道圖
- 機(jī)械畢業(yè)實(shí)習(xí)報(bào)告
- 材料科學(xué)與工程專業(yè) 畢業(yè)論文
- 糖尿病視網(wǎng)膜病變PPT課件
- 古詩(shī)分類講解五思鄉(xiāng)懷人詩(shī)
- 多極磁燃?xì)猸h(huán)保節(jié)能器-合力金科技
- 青少年心理學(xué)書籍:青少年心理學(xué)
評(píng)論
0/150
提交評(píng)論