球員個(gè)體技術(shù)的學(xué)習(xí)及實(shí)現(xiàn)_第1頁
球員個(gè)體技術(shù)的學(xué)習(xí)及實(shí)現(xiàn)_第2頁
球員個(gè)體技術(shù)的學(xué)習(xí)及實(shí)現(xiàn)_第3頁
球員個(gè)體技術(shù)的學(xué)習(xí)及實(shí)現(xiàn)_第4頁
球員個(gè)體技術(shù)的學(xué)習(xí)及實(shí)現(xiàn)_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第七章球員個(gè)體技術(shù)的學(xué)習(xí)及實(shí)現(xiàn)在Robocup機(jī)器人足球比賽中,球員的個(gè)人技術(shù)是很重要的。如果沒有很好的個(gè)體技術(shù),再完美的配合也形成不起來。所謂個(gè)體技術(shù),主要是指球場(chǎng)上球員可以執(zhí)行的一些動(dòng)作,如傳球、阻截球、帶球、射門、盯人、守門員撲球、鏟球等;當(dāng)然這些動(dòng)作有的是不能直接發(fā)送給Server的,它們是由更低級(jí)的Server可識(shí)別的原子動(dòng)作(dash、kick、turn、tackle等)組成,在發(fā)送的時(shí)候是發(fā)送這些原子動(dòng)作序列。這些個(gè)人技術(shù)依賴于球員所觀察到的世界狀態(tài),以世界狀態(tài)為基礎(chǔ),簡(jiǎn)化后提取世界狀態(tài)的特征,根據(jù)一定的算法和數(shù)學(xué)模型做出合適的行為決定。提高球員的個(gè)體技術(shù)是我們的目標(biāo),一般是通過機(jī)器學(xué)習(xí)(MachineLearning,簡(jiǎn)稱ML)、合適的數(shù)學(xué)模型進(jìn)行解析和經(jīng)驗(yàn)式來達(dá)到這一目標(biāo)的。其中數(shù)學(xué)解析的方法主要是建立各個(gè)動(dòng)作的數(shù)學(xué)模型,然后用解析幾何的方法進(jìn)行求解;這種方法是建立在對(duì)問題的深入分析的基礎(chǔ)上面的,因此它的效率較高,當(dāng)由于在比賽當(dāng)中存在噪音精確性有時(shí)達(dá)不到理想的效果,同時(shí)也不是所有問題都可以轉(zhuǎn)化成合適的、便于求解的數(shù)學(xué)模型。而經(jīng)驗(yàn)式的方法純粹是根據(jù)設(shè)計(jì)者的經(jīng)驗(yàn),通過類似if....then...的結(jié)構(gòu)來設(shè)計(jì)行為模式;這種方式的優(yōu)點(diǎn)是可以充分利用人的經(jīng)驗(yàn),但是他參數(shù)的調(diào)節(jié)比較繁瑣,并且魯棒性也不是很好。而機(jī)器學(xué)習(xí)的方法優(yōu)點(diǎn)則比較明顯,下面我們就介紹一下機(jī)器學(xué)習(xí)的方法和機(jī)器人足球中是如何應(yīng)用機(jī)器學(xué)習(xí)的。7.1機(jī)器學(xué)習(xí)簡(jiǎn)介“機(jī)器學(xué)習(xí)”一般被定義為一個(gè)系統(tǒng)自我改進(jìn)的過程。但僅僅從這個(gè)定義來理解和實(shí)現(xiàn)機(jī)器學(xué)習(xí)是困難的。從最初的基于神經(jīng)元模型以及函數(shù)逼近論的方法研究,到以符號(hào)演算為基礎(chǔ)的規(guī)則學(xué)習(xí)和決策樹學(xué)習(xí)的產(chǎn)生,之后到認(rèn)知心理學(xué)中歸納、解釋、類比等概念的引入,乃至最新的計(jì)算學(xué)習(xí)理論和統(tǒng)計(jì)方法學(xué)習(xí)(主要是指貝葉斯學(xué)習(xí)和基于馬爾可夫過程的強(qiáng)化學(xué)習(xí))的興起,機(jī)器學(xué)習(xí)一直在包括人工智能學(xué)科在內(nèi)的相關(guān)學(xué)科的實(shí)踐應(yīng)用中起著主導(dǎo)地位。然而,根據(jù)學(xué)習(xí)的條件和領(lǐng)域的不同,具體的學(xué)習(xí)理論和算法也各不相同。本節(jié)列舉了常見的機(jī)器學(xué)習(xí)理論和相關(guān)的學(xué)習(xí)算法。如:概念學(xué)習(xí)、決策樹、神經(jīng)網(wǎng)絡(luò)、貝葉斯學(xué)習(xí)、基于實(shí)例的學(xué)習(xí)、遺傳算法、規(guī)則學(xué)習(xí)、分析學(xué)習(xí)(基于解釋的學(xué)習(xí))和強(qiáng)化學(xué)習(xí)等。(1) 概念學(xué)習(xí)所謂概念學(xué)習(xí)就是指通過給定某一類別的若干正例和反例,從中得出該類別一般定義的學(xué)習(xí)方法。它是一個(gè)從許多特例歸納而形成表示一般函數(shù)的方法。所以說,概念學(xué)習(xí)可以看成是搜索預(yù)定義潛在的假設(shè)空間過程。是歸納法的一種。它的主要設(shè)計(jì)過程是從一般到特殊序然后形成假設(shè)空間的過程。這個(gè)概念最初是由Bruneretal.在1957年就提出了,在1970年Winston的博士論文[33]中將概念學(xué)習(xí)看成是包含泛化和特化操作的搜索過程。Simon和LeaW]在1973年將該學(xué)習(xí)的過程看成是一個(gè)在假設(shè)空間搜索的過程。(2) 決策樹學(xué)習(xí)決策樹學(xué)習(xí)是應(yīng)用最廣的歸納推理算法之一。它是一種逼近離散值函數(shù)的方法,一般該函數(shù)被表示成一顆樹,樹一般包含多個(gè)if-then規(guī)則。這種學(xué)習(xí)方法對(duì)噪音數(shù)據(jù)有很好的健壯性。決策樹通過把實(shí)例從根節(jié)點(diǎn)排列(sort)到某個(gè)葉子節(jié)點(diǎn)來分類實(shí)例。葉子節(jié)點(diǎn)即為所屬的分類。樹上的每個(gè)節(jié)點(diǎn)說明了對(duì)實(shí)例的某個(gè)屬性的測(cè)試,并且該節(jié)點(diǎn)的每個(gè)后繼分支對(duì)應(yīng)于該屬性的一個(gè)可能值。分類實(shí)例的方法是從這棵樹的根節(jié)點(diǎn)開始,測(cè)試這個(gè)節(jié)點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對(duì)應(yīng)的樹枝向下移動(dòng),一直遍歷到葉子。決策樹學(xué)習(xí)可以解決具有以下特征的問題:實(shí)例是由“屬性-值”對(duì)表示的;.目標(biāo)函數(shù)具有離散的輸出值;.可能需要析取的描述;.訓(xùn)練數(shù)據(jù)可以包含錯(cuò)誤;.訓(xùn)練數(shù)據(jù)可以包含缺少屬性值的實(shí)例。決策樹學(xué)習(xí)的關(guān)鍵是對(duì)決策樹的構(gòu)造,典型的構(gòu)造決策樹的方法是ID3算法和C4.5算法。這些算法是都是根據(jù)屬性的重要性來依次把各個(gè)屬性分配到相應(yīng)的結(jié)點(diǎn)上面去。人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法對(duì)于逼近實(shí)數(shù)值、離散值和向量值的目標(biāo)函數(shù)提供了一種健壯性很強(qiáng)的方法。它是通過模擬人類大腦的神經(jīng)元,形成具有輸入和輸出的單元結(jié)構(gòu)。對(duì)于某些類型的問題,如學(xué)習(xí)解釋復(fù)雜的現(xiàn)實(shí)世界的傳感器數(shù)據(jù),人工神經(jīng)網(wǎng)絡(luò)是目前最為有效的方法。具有以下特征的問題我們都可以用神經(jīng)網(wǎng)絡(luò)來解決:.實(shí)例是用很多“屬性-值”對(duì)表示的;.目標(biāo)函數(shù)的輸出可能是離散值、實(shí)數(shù)值或者由若干實(shí)數(shù)屬性或離散屬性組成的向量;.訓(xùn)練數(shù)據(jù)可能包含錯(cuò)誤;.可容忍長時(shí)間的訓(xùn)練;.在實(shí)際應(yīng)用的時(shí)候可能需要快速求出目標(biāo)函數(shù)值;.人類能否理解學(xué)到的目標(biāo)函數(shù)是不重要的。人工神經(jīng)網(wǎng)絡(luò)主要訓(xùn)練感知器以及由感知器構(gòu)成的多層網(wǎng)絡(luò)結(jié)構(gòu)(包括前向和反饋網(wǎng)絡(luò))。在神經(jīng)網(wǎng)絡(luò)里面的典型的模型有:自適應(yīng)共振、雙向聯(lián)想存儲(chǔ)器、反向傳遞、對(duì)流網(wǎng)、認(rèn)識(shí)機(jī)、感知器、自組織映射網(wǎng)等貝葉斯學(xué)習(xí)貝葉斯網(wǎng)絡(luò)的學(xué)習(xí)是貝葉斯網(wǎng)絡(luò)模型的構(gòu)建和對(duì)已存在貝葉斯網(wǎng)絡(luò)模型的優(yōu)化。由于可以利用的數(shù)據(jù)日益增加和數(shù)據(jù)越來越容易獲取,使得用數(shù)據(jù)來進(jìn)行貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)和條件概率表的學(xué)習(xí)變得十分可行,貝葉斯網(wǎng)絡(luò)的條件概率表的學(xué)習(xí)又常稱為貝葉斯網(wǎng)絡(luò)的參數(shù)學(xué)習(xí)?;诎咐膶W(xué)習(xí)前面的方法都是根據(jù)一系列的訓(xùn)練樣本,然后形成一定的目標(biāo)函數(shù)把訓(xùn)練樣本一般化。而基于實(shí)例的學(xué)習(xí)則不然?;趯?shí)例的學(xué)習(xí)方法只是簡(jiǎn)單地把訓(xùn)練樣本存儲(chǔ)起來,從這些實(shí)例中泛化的工作被推遲到必須分類出新的實(shí)例時(shí)。每當(dāng)學(xué)習(xí)器遇到一個(gè)新的查詢實(shí)例,它分析這個(gè)新的實(shí)例與以前存儲(chǔ)的實(shí)例之間的關(guān)系,并據(jù)此把一個(gè)目標(biāo)函數(shù)值賦給新的實(shí)例?;诎咐膶W(xué)習(xí)方法主要包括最近鄰法和局部加權(quán)回歸法,它們都假定實(shí)例可以表示為歐氏空間的點(diǎn)。此外,基于案例的學(xué)習(xí)方法還包括基于案例的推理,它對(duì)實(shí)例采用復(fù)雜的符rz|—*號(hào)表示。基于案例的學(xué)習(xí)方法實(shí)際上是一個(gè)消極學(xué)習(xí)方法。遺傳算法遺傳算法是一種受生物進(jìn)化過程啟發(fā)的學(xué)習(xí)算法。遺傳算法研究的問題是搜索候選假設(shè)空間并確定最佳的假設(shè),一般是通過變異和交叉重組當(dāng)前已知的最好假設(shè)來生成后續(xù)的假設(shè)。在遺傳算法中,假設(shè)一般用二進(jìn)制來表示(便于變異和交叉遺傳算子)。

遺傳算法的設(shè)計(jì)有一個(gè)共同點(diǎn):算法迭代更新一個(gè)假設(shè)池(也稱之為群體)。每一次迭代中根據(jù)適應(yīng)度函數(shù)評(píng)估群體中的所有成員,然后從當(dāng)前群體中用概率方法選取適應(yīng)度最高的個(gè)體產(chǎn)生新一代群體。在這些選取的個(gè)體中,一部分保持原樣進(jìn)入下一代群體,其他通過交叉和變異等遺傳的方法產(chǎn)生新的個(gè)體作為下一代群體的一部分。(7) 規(guī)則學(xué)習(xí)對(duì)學(xué)習(xí)得到的假設(shè),最具有表征力的和最能為人類所理解的表示方法之一為if-then規(guī)則的集合。而規(guī)則學(xué)習(xí)實(shí)際上就是學(xué)習(xí)這樣的規(guī)則。規(guī)則一般包括不含變量和含有變量的。不含變量的很容易理解和得到。最為重要的是學(xué)習(xí)含有變量的規(guī)則集合(也稱之為Horn子句集合)。由于一階Horn子句集合可以被解釋為邏輯編程語言中的程序,所以學(xué)習(xí)的過程經(jīng)常被稱之為歸納邏輯編程(InductiveLogicProgramming,簡(jiǎn)稱ILP)。(8) 分析學(xué)習(xí)(基于解釋的學(xué)習(xí))前面的方法都是歸納學(xué)習(xí)方法。這些歸納學(xué)習(xí)器在實(shí)踐中都有一個(gè)關(guān)鍵的限制就是學(xué)習(xí)實(shí)例的數(shù)據(jù)不足時(shí)性能較差(這已經(jīng)被證明,參見文獻(xiàn)[35第七章)。而分析學(xué)習(xí)使用先驗(yàn)知識(shí)和演繹推理來擴(kuò)大訓(xùn)練樣本提供的信息,因此,它不受數(shù)據(jù)不足的影響或影響較小。分析學(xué)習(xí)的典型方法是基于解釋的學(xué)習(xí)(Explanation-BasedLearning,簡(jiǎn)稱EBL)。它包括2個(gè)階段,分析階段、泛化階段。具體來說,首先使用先驗(yàn)知識(shí)來分析(或解釋)觀察到的學(xué)習(xí)樣本是如何滿足目標(biāo)概念的。得出訓(xùn)練樣本中哪些特征是相關(guān)的,哪些是無關(guān)的,然后案例(樣本)就可以基于邏輯推理進(jìn)行泛化,而不必經(jīng)過統(tǒng)計(jì)推理得出。(9) 強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)的過程實(shí)際上就是給要學(xué)習(xí)的主體-Agent一個(gè)任務(wù),Agent通過不斷感知環(huán)境,然后根據(jù)環(huán)境做出動(dòng)作的選擇;如果成功,就對(duì)相應(yīng)的動(dòng)作做出獎(jiǎng)賞,如果失敗,就對(duì)相應(yīng)的動(dòng)作做出懲罰;通過不斷的學(xué)習(xí),最后會(huì)達(dá)到一個(gè)穩(wěn)態(tài)(以后Agent在相應(yīng)的環(huán)境下一定會(huì)做相應(yīng)動(dòng)作)。強(qiáng)化學(xué)習(xí)一個(gè)最突出的優(yōu)點(diǎn)就是不要求有任何的先驗(yàn)知識(shí)。這是它跟前面的所有學(xué)習(xí)算法最根本的不同。以上提到的絕大多數(shù)算法都是可以應(yīng)用到Robocup機(jī)器人足球仿真比賽當(dāng)中,但使用不同的學(xué)習(xí)算法得到的效果是不一樣。但是如果僅僅使用其中的一種,效果可能也達(dá)不到要求,因而可能需要不同的方法交叉使用,或根據(jù)不同的情況選擇特定的方法。7.2個(gè)體技術(shù)的實(shí)現(xiàn)在Robocup中,設(shè)計(jì)球員的個(gè)體技術(shù)如帶球、傳球、截球、射門的時(shí)候一般是由更低級(jí)的動(dòng)作組成。有時(shí)候還要在這兩者之間還要加上一個(gè)中間層。就針對(duì)于這些基本動(dòng)作我們具體介紹一下它們的實(shí)現(xiàn)方法。7.2.1截球(intercept)1.問題描述截球問題可以歸納成如圖5.1的一個(gè)簡(jiǎn)單的場(chǎng)景:白圓圈代表球,黑色的圓圈代表球員,dist為球員到球的距離,a為球到球員之間的連線和球運(yùn)動(dòng)方向的夾角,speed為球的即時(shí)的運(yùn)動(dòng)速度。球的速度隨運(yùn)動(dòng)衰減。截球問題歸結(jié)為給定dist、a和speed,決策出隊(duì)員正確的截球角度8,或者是當(dāng)截到球時(shí),球運(yùn)動(dòng)的距離,并給出對(duì)截球所可能花的時(shí)間的估計(jì)。具體的運(yùn)動(dòng)模型見2.7.2.8相關(guān)的球員和球的運(yùn)動(dòng)模型。2.解決方法1) 解析法通過示意圖和前面介紹的運(yùn)動(dòng)模型我們可以通過列出關(guān)于時(shí)間的方程,然后采用Newton迭代法求出方程的根,可以求出認(rèn)為可以求出3個(gè)根,顯然第三個(gè)根的價(jià)值不是很大,目前關(guān)注的是前2個(gè)根,然后根據(jù)高層策略選擇在哪個(gè)根對(duì)應(yīng)的點(diǎn)(前點(diǎn)和后點(diǎn))進(jìn)行截球。TsinghuAeolus目前采用的就是這種方法。2) 通過機(jī)器學(xué)習(xí)的方法進(jìn)行離線學(xué)習(xí)目前這是一種簡(jiǎn)單并且通用的方法,典型的方式是通過搜集大量成功的截球樣本(反應(yīng)為一些特征變量集),在使用這些樣本通過離線學(xué)習(xí)的方法形成一個(gè)決策函數(shù)。離線學(xué)習(xí)主要采用貝葉斯網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò);其中BP網(wǎng)絡(luò)目前比較通用。CMU99和Hfut目前采用這種方法。簡(jiǎn)要介紹一下BP網(wǎng)絡(luò):BP網(wǎng)絡(luò)的特點(diǎn)是信號(hào)由輸入層單向傳輸?shù)捷敵鰧?,同一層神?jīng)元之間不傳遞信息,每個(gè)神經(jīng)元與鄰層所有神經(jīng)元相連,連結(jié)權(quán)重用①..表示,各神經(jīng)元的作用函數(shù)為Sigmoid函數(shù):/(x)=1/(1+。7)。同時(shí)它正向傳播信號(hào),反向傳播誤差。BP網(wǎng)絡(luò)如下圖。隱含層是BP網(wǎng)絡(luò)的基本特征之一,事實(shí)上如果沒有隱含層也就無所謂誤差的反向傳播了。但對(duì)隱含層節(jié)點(diǎn)個(gè)數(shù)的選擇到目前為止還沒有確定的規(guī)則,根據(jù)經(jīng)驗(yàn)公式BP網(wǎng)絡(luò)示意圖頊mXn+110(m、n表示輸入輸出節(jié)點(diǎn)的個(gè)數(shù)),由于我們這兒有3個(gè)輸入,所以我們選擇了8個(gè)節(jié)點(diǎn)。中間隱含層也是使用了1層,包括輸入和輸出總共3層。在圖4.2所示的bp網(wǎng)絡(luò)結(jié)構(gòu)中,設(shè)網(wǎng)絡(luò)輸入為氣,%,x3,輸出為>。輸入層各神經(jīng)元的激發(fā)函數(shù)選用比例系數(shù)為1的線性函數(shù),則網(wǎng)絡(luò)輸入層的輸出分別是氣,%,X3,隱層神經(jīng)元的輸入是:I=^?.尤.(i=1,2,3,...7,8,) (公式4.1),=i神經(jīng)元的輸出為:(公式4.2)O=1/(1+e-i,),(公式4.2)i",為輸出層神經(jīng)元與隱層神經(jīng)元,的連接權(quán),則網(wǎng)絡(luò)輸出為:(公式4.3)y=rvO(公式4.3)i=1在由①甘v.組成的連接權(quán)向量W初始化之后,就可以在給定一組網(wǎng)絡(luò)輸入后,由上述式子求出網(wǎng)絡(luò)的輸出y,此為正向信號(hào)傳播過程。對(duì)某樣本(叫,x,x;;),p為樣本數(shù),由正向計(jì)算得到y(tǒng),定義網(wǎng)絡(luò)輸出誤差為:1P2p3pp Pdp=tp—yp (公式4.4)誤差函數(shù)為ep=1/2Xdp2 (公式4.5)一般的,W值隨機(jī)給出,求得>后,誤差值較大,網(wǎng)絡(luò)計(jì)算精度不高。在確定網(wǎng)絡(luò)P中隱層神經(jīng)元數(shù)目m的情況下,通過調(diào)整W的值,逐步降低誤差dp,以提高計(jì)算精度。在反向計(jì)算中,沿著誤差函數(shù)為e隨"變化的負(fù)梯度方向?qū)進(jìn)行修正。設(shè)W的修正值為iw: pde(公式4.6)UW=—n——pdW(公式4.6)n為學(xué)習(xí)率,取0-1間的數(shù)。該修正方法的弱點(diǎn)是收斂速度慢,并存在能量函數(shù)局部最小值,在此對(duì)其增加附加動(dòng)量項(xiàng)進(jìn)行修正,即?。篸e(公式4.7)AW(n)=-n—+OAW(n-1)dW(公式4.7)AW(n)為第n次迭代計(jì)算時(shí)連接權(quán)的修正值,1W(n-1)為前一次迭代計(jì)算時(shí)所得的連接權(quán)的修正值,口為動(dòng)量因子。將公式4.4、4.5公式4.7,并加以推導(dǎo),求得對(duì)于樣本p時(shí),AW中各元素為:dyAv(n)=nd~~v+以Av(n-1)=ndO+以Av(n-1) (公式4.8)idyAw(n)=nd——l+aw(n-1)=ndvO(1-O)X+aAw(n-1)

ij pdw ij piipipjp ij(公式4.9)最后采用迭代式即+AW-W對(duì)原W進(jìn)行修正計(jì)算,得到新的連接權(quán)向量即。對(duì)于所有的學(xué)習(xí)樣本,均按照樣本排列順序進(jìn)行上述的計(jì)算過程,從而求出學(xué)習(xí)樣本的能量函數(shù)值:E」epPT利用E值對(duì)網(wǎng)絡(luò)計(jì)算精度進(jìn)行評(píng)價(jià),當(dāng)E值滿足E<0.00001時(shí),停止迭代計(jì)算,否則,進(jìn)行新一輪的迭代計(jì)算。訓(xùn)練時(shí),我們構(gòu)造出各種情況的截球場(chǎng)景(傳球隊(duì)員固定位置,離散傳球速度和傳球隊(duì)員和截球隊(duì)員之間的相對(duì)坐標(biāo)x,y),截球隊(duì)員使用各種角度截球,當(dāng)成功的截球時(shí),就將成功的數(shù)據(jù)記下。采集到的成功的數(shù)據(jù)送入神經(jīng)網(wǎng)絡(luò)用BP算法進(jìn)行訓(xùn)練。神經(jīng)網(wǎng)絡(luò)作為一個(gè)記憶的載體記錄下這些成功的例子,能夠進(jìn)行實(shí)際各種場(chǎng)景的截球決策。3)強(qiáng)化學(xué)習(xí)的方法進(jìn)行在線學(xué)習(xí)在使用強(qiáng)化學(xué)習(xí)的時(shí)候關(guān)鍵是確定狀態(tài)空間、動(dòng)作空間、目標(biāo)狀態(tài)、策略函數(shù)(代價(jià)函數(shù))以及價(jià)值函數(shù)。首先是確定狀態(tài)空間(s),也就是worldstate,一般狀態(tài)空間都很大,在計(jì)算和存儲(chǔ)方面就存在很多困難,這也是目前強(qiáng)化學(xué)習(xí)往機(jī)器人足球中應(yīng)用的難點(diǎn)地方;這就需要進(jìn)行簡(jiǎn)化和處理。然后就是確定動(dòng)作集,一般把原子動(dòng)作作為動(dòng)作集。目標(biāo)狀態(tài)是停止學(xué)習(xí)的終止條件,在學(xué)習(xí)的時(shí)候一般把得到球作為目標(biāo)狀態(tài)。所謂策略函數(shù)就是在當(dāng)前的狀態(tài)在選擇動(dòng)作的函數(shù),這樣的函數(shù)學(xué)要自己去設(shè)計(jì),原則是能夠把代價(jià)最小、利益最大的動(dòng)作選擇出來。而價(jià)值函數(shù)是在選擇一個(gè)特定動(dòng)作以后,是成功還是失敗,相應(yīng)的對(duì)這個(gè)狀態(tài)下的這個(gè)動(dòng)作的代價(jià)(利益)進(jìn)行相應(yīng)的修正,一般是加上(成功)、減去(失?。┮粋€(gè)值,經(jīng)過足夠長的時(shí)間的學(xué)習(xí)就能達(dá)到一個(gè)穩(wěn)態(tài)(也就是價(jià)值函數(shù)的性能較好)。7.2.2傳球(pass)問題描述相對(duì)截球而言,傳球更加復(fù)雜的一種動(dòng)作,主要原因是在傳球的時(shí)候?qū)嶋H上已經(jīng)引入2個(gè)球員進(jìn)行協(xié)作的問題了。在設(shè)計(jì)時(shí)一般考慮2種方式進(jìn)行傳球:傳給某一特定的人和傳到某一點(diǎn)。對(duì)傳球進(jìn)行描述的時(shí)候,可以采用這種方式:描述傳球隊(duì)員的周圍環(huán)境,用狀態(tài)S表示周圍的環(huán)境或提取環(huán)境的一些特征屬性向量A(a1,a2,…,an)。根據(jù)這些S或A來選擇合適的傳球方向和出球速度。解決方法根據(jù)上面對(duì)傳球的描述,我們可以使用決策樹學(xué)習(xí)算法,也可以使用基于神經(jīng)網(wǎng)絡(luò)的計(jì)算學(xué)習(xí)方法。(1).決策樹學(xué)習(xí)算法:CMU使用的就是這種學(xué)習(xí)算法,具體使用了C4.5算法,在選擇下面的特征屬性:.傳球球員到接球者的距離和方向(2個(gè))。.傳球隊(duì)員到其他隊(duì)友(不包括接球隊(duì)員)的距離和方向(20個(gè))。.球球隊(duì)員到對(duì)手的隊(duì)員的距離和方向(22個(gè))。.經(jīng)排序(按距離)以后的接球隊(duì)員到隊(duì)友的距離和方向(20個(gè))。.經(jīng)排序(按距離)以后的接球隊(duì)員到對(duì)手的距離和方向(22個(gè))。

.從傳球隊(duì)員到接球隊(duì)員之間的一些分布統(tǒng)計(jì)屬性(90個(gè))。如以傳球隊(duì)員為中心,由接球隊(duì)員以及其他隊(duì)友構(gòu)成的扇形區(qū)域內(nèi)對(duì)方球員的數(shù)量等等。.球員所在的區(qū)域特性(44個(gè))。訓(xùn)練的時(shí)候,首先設(shè)定傳球隊(duì)員的位置,隨機(jī)設(shè)置接球和其他隊(duì)員的位置;傳球隊(duì)員確認(rèn)要傳球;其他隊(duì)員進(jìn)行跑位;傳球隊(duì)員根據(jù)決策樹確定接球隊(duì)員。接球隊(duì)員和其他隊(duì)員(指對(duì)手球員)都采用已經(jīng)訓(xùn)練好的截球動(dòng)作去獲得控球權(quán)。接球隊(duì)員獲得控球權(quán)就認(rèn)為是一次成功的傳球,否則,就認(rèn)為失敗。(2)基于神經(jīng)網(wǎng)絡(luò)的計(jì)算學(xué)習(xí)計(jì)算學(xué)習(xí)一直是機(jī)器學(xué)習(xí)的重要研究內(nèi)容,它主要是通過計(jì)算的方法將那些錯(cuò)的很離譜的假設(shè)排除出去形成,通過計(jì)算機(jī)的快速計(jì)算能力得出最有可能的假設(shè)并把該假設(shè)認(rèn)為是可能近似正確(probablyapproximatelycorrect,PAC)。另一方面,神經(jīng)網(wǎng)絡(luò)集成作為一種新興的神經(jīng)計(jì)算方法,具有比單一神經(jīng)網(wǎng)絡(luò)系統(tǒng)更強(qiáng)的泛化能力,因此,如果將神經(jīng)網(wǎng)絡(luò)集成與計(jì)算學(xué)習(xí)相結(jié)合,將可望獲得更好的效果。在這一思想的基礎(chǔ)上,提出了一種基于神經(jīng)網(wǎng)絡(luò)集成的計(jì)算學(xué)習(xí)算法,以神經(jīng)網(wǎng)絡(luò)集成作為計(jì)算學(xué)習(xí)的前端,首先利用其產(chǎn)生計(jì)算學(xué)習(xí)所用的數(shù)據(jù)集,在產(chǎn)生數(shù)據(jù)集時(shí),采用能夠較好地反映神經(jīng)網(wǎng)絡(luò)集成性能的數(shù)據(jù)生成方式,使得用于計(jì)算學(xué)習(xí)的示例能夠受益于神經(jīng)網(wǎng)絡(luò)集成的強(qiáng)泛化能力,以最終獲得較高的預(yù)測(cè)精度。在使用計(jì)算學(xué)習(xí)來進(jìn)行傳球訓(xùn)練的時(shí)候,首先是確定在特定傳球路線上的傳球速度的選擇。我們參考了清華[23的對(duì)傳球時(shí)穿越速度的概念。如圖4.4,假設(shè)白圓圈表示的1號(hào)隊(duì)員要把球傳給用黑圓圈表示的2號(hào)隊(duì)員,X表示對(duì)手。線L為對(duì)手和截球隊(duì)員的垂直平分線。顯然對(duì)于垂直平分線與球軌跡的交點(diǎn)p以內(nèi)的點(diǎn),對(duì)方隊(duì)員能比我方隊(duì)員能先跑到;反之,交點(diǎn)以外的點(diǎn),我方隊(duì)員先跑到。如果傳球隊(duì)員踢出速度大小合適的球,使得對(duì)手在交點(diǎn)以內(nèi)都無法截到球,那么我方隊(duì)員就必然可以比對(duì)方先截到球。如果以此速度踢出球,此隊(duì)員不能在該點(diǎn)以前截到球,而且以小于此速度的任何速度踢出球,對(duì)手都可能在該點(diǎn)以內(nèi)截到球,那么這個(gè)速度稱為對(duì)于某個(gè)隊(duì)員穿越在球運(yùn)動(dòng)軌跡上的某一點(diǎn)的穿越速度。也就是說,我們只要而且必須要以大于穿越速度的速度傳球,球就能傳到隊(duì)友腳下。注意到這個(gè)分析基于圖4.4隊(duì)友在對(duì)手后面的情況。如果反過來,隊(duì)友在對(duì)手前,則傳球者應(yīng)該以小于隊(duì)友的穿越速度的速度傳球,以保證隊(duì)友在交點(diǎn)以前截到球。對(duì)圖4.4的情景,我們把p點(diǎn)以前的區(qū)域稱為對(duì)手的接球區(qū)域,p點(diǎn)以后的稱為隊(duì)友的接球區(qū)域。對(duì)于隊(duì)友,穿越對(duì)手的穿越速度為傳球給他的速度的下限。如果考慮隊(duì)友后面可能有一個(gè)對(duì)手,則給他一個(gè)傳球速度上限的限制。圖4.4考慮了一個(gè)隊(duì)友和一個(gè)對(duì)手的簡(jiǎn)單傳球場(chǎng)景,多個(gè)對(duì)手和隊(duì)友的場(chǎng)景也有類似的分析。在一條傳球線路上,每個(gè)隊(duì)員(包括對(duì)手和隊(duì)友)或者沒有接球區(qū)域,或者有一個(gè)接球的區(qū)域和一個(gè)傳球速度的上、下限。首先,我們利用人工神經(jīng)網(wǎng)絡(luò)中的BP網(wǎng)絡(luò),訓(xùn)練得到在特定傳球路線上面?zhèn)鹘o每個(gè)球員的穿越速度。第一步,采集樣本。確定傳球隊(duì)員的位置和隨機(jī)置接球隊(duì)員的初始位置。在訓(xùn)練中傳球者從一個(gè)較小的速度開始,沿傳球線路傳球,接球者利用訓(xùn)練好的截球技能進(jìn)行截球,如果截球點(diǎn)在圖4.4的p點(diǎn)以前,則傳球者提高速度,繼續(xù)嘗試;否則,穿越速度為該次訓(xùn)練的傳球速度。如此這樣收集傳球隊(duì)員和接球之間不同的距離和角度情況下的穿越速度。第二

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論