球員個(gè)體技術(shù)的學(xué)習(xí)及實(shí)現(xiàn)

上傳人：d*** IP屬地：天津上傳時(shí)間：2023-10-15 格式：DOCX 頁數(shù)：9 大?。?9.38KB 積分：15 舉報(bào) 版權(quán)申訴

球員個(gè)體技術(shù)的學(xué)習(xí)及實(shí)現(xiàn)_第2頁

球員個(gè)體技術(shù)的學(xué)習(xí)及實(shí)現(xiàn)_第3頁

球員個(gè)體技術(shù)的學(xué)習(xí)及實(shí)現(xiàn)_第4頁

球員個(gè)體技術(shù)的學(xué)習(xí)及實(shí)現(xiàn)_第5頁

已閱讀5頁，還剩4頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第七章球員個(gè)體技術(shù)的學(xué)習(xí)及實(shí)現(xiàn)在Robocup機(jī)器人足球比賽中，球員的個(gè)人技術(shù)是很重要的。如果沒有很好的個(gè)體技術(shù)，再完美的配合也形成不起來。所謂個(gè)體技術(shù)，主要是指球場(chǎng)上球員可以執(zhí)行的一些動(dòng)作，如傳球、阻截球、帶球、射門、盯人、守門員撲球、鏟球等；當(dāng)然這些動(dòng)作有的是不能直接發(fā)送給Server的，它們是由更低級(jí)的Server可識(shí)別的原子動(dòng)作（dash、kick、turn、tackle等）組成，在發(fā)送的時(shí)候是發(fā)送這些原子動(dòng)作序列。這些個(gè)人技術(shù)依賴于球員所觀察到的世界狀態(tài)，以世界狀態(tài)為基礎(chǔ)，簡(jiǎn)化后提取世界狀態(tài)的特征，根據(jù)一定的算法和數(shù)學(xué)模型做出合適的行為決定。提高球員的個(gè)體技術(shù)是我們的目標(biāo)，一般是通過機(jī)器學(xué)習(xí)（MachineLearning，簡(jiǎn)稱ML）、合適的數(shù)學(xué)模型進(jìn)行解析和經(jīng)驗(yàn)式來達(dá)到這一目標(biāo)的。其中數(shù)學(xué)解析的方法主要是建立各個(gè)動(dòng)作的數(shù)學(xué)模型，然后用解析幾何的方法進(jìn)行求解；這種方法是建立在對(duì)問題的深入分析的基礎(chǔ)上面的，因此它的效率較高，當(dāng)由于在比賽當(dāng)中存在噪音精確性有時(shí)達(dá)不到理想的效果，同時(shí)也不是所有問題都可以轉(zhuǎn)化成合適的、便于求解的數(shù)學(xué)模型。而經(jīng)驗(yàn)式的方法純粹是根據(jù)設(shè)計(jì)者的經(jīng)驗(yàn)，通過類似if....then...的結(jié)構(gòu)來設(shè)計(jì)行為模式；這種方式的優(yōu)點(diǎn)是可以充分利用人的經(jīng)驗(yàn)，但是他參數(shù)的調(diào)節(jié)比較繁瑣，并且魯棒性也不是很好。而機(jī)器學(xué)習(xí)的方法優(yōu)點(diǎn)則比較明顯，下面我們就介紹一下機(jī)器學(xué)習(xí)的方法和機(jī)器人足球中是如何應(yīng)用機(jī)器學(xué)習(xí)的。7.1機(jī)器學(xué)習(xí)簡(jiǎn)介“機(jī)器學(xué)習(xí)”一般被定義為一個(gè)系統(tǒng)自我改進(jìn)的過程。但僅僅從這個(gè)定義來理解和實(shí)現(xiàn)機(jī)器學(xué)習(xí)是困難的。從最初的基于神經(jīng)元模型以及函數(shù)逼近論的方法研究，到以符號(hào)演算為基礎(chǔ)的規(guī)則學(xué)習(xí)和決策樹學(xué)習(xí)的產(chǎn)生，之后到認(rèn)知心理學(xué)中歸納、解釋、類比等概念的引入，乃至最新的計(jì)算學(xué)習(xí)理論和統(tǒng)計(jì)方法學(xué)習(xí)（主要是指貝葉斯學(xué)習(xí)和基于馬爾可夫過程的強(qiáng)化學(xué)習(xí)）的興起，機(jī)器學(xué)習(xí)一直在包括人工智能學(xué)科在內(nèi)的相關(guān)學(xué)科的實(shí)踐應(yīng)用中起著主導(dǎo)地位。然而，根據(jù)學(xué)習(xí)的條件和領(lǐng)域的不同，具體的學(xué)習(xí)理論和算法也各不相同。本節(jié)列舉了常見的機(jī)器學(xué)習(xí)理論和相關(guān)的學(xué)習(xí)算法。如：概念學(xué)習(xí)、決策樹、神經(jīng)網(wǎng)絡(luò)、貝葉斯學(xué)習(xí)、基于實(shí)例的學(xué)習(xí)、遺傳算法、規(guī)則學(xué)習(xí)、分析學(xué)習(xí)（基于解釋的學(xué)習(xí)）和強(qiáng)化學(xué)習(xí)等。（1）概念學(xué)習(xí)所謂概念學(xué)習(xí)就是指通過給定某一類別的若干正例和反例，從中得出該類別一般定義的學(xué)習(xí)方法。它是一個(gè)從許多特例歸納而形成表示一般函數(shù)的方法。所以說，概念學(xué)習(xí)可以看成是搜索預(yù)定義潛在的假設(shè)空間過程。是歸納法的一種。它的主要設(shè)計(jì)過程是從一般到特殊序然后形成假設(shè)空間的過程。這個(gè)概念最初是由Bruneretal.在1957年就提出了，在1970年Winston的博士論文［33］中將概念學(xué)習(xí)看成是包含泛化和特化操作的搜索過程。Simon和LeaW］在1973年將該學(xué)習(xí)的過程看成是一個(gè)在假設(shè)空間搜索的過程。（2）決策樹學(xué)習(xí)決策樹學(xué)習(xí)是應(yīng)用最廣的歸納推理算法之一。它是一種逼近離散值函數(shù)的方法，一般該函數(shù)被表示成一顆樹，樹一般包含多個(gè)if-then規(guī)則。這種學(xué)習(xí)方法對(duì)噪音數(shù)據(jù)有很好的健壯性。決策樹通過把實(shí)例從根節(jié)點(diǎn)排列（sort）到某個(gè)葉子節(jié)點(diǎn)來分類實(shí)例。葉子節(jié)點(diǎn)即為所屬的分類。樹上的每個(gè)節(jié)點(diǎn)說明了對(duì)實(shí)例的某個(gè)屬性的測(cè)試，并且該節(jié)點(diǎn)的每個(gè)后繼分支對(duì)應(yīng)于該屬性的一個(gè)可能值。分類實(shí)例的方法是從這棵樹的根節(jié)點(diǎn)開始，測(cè)試這個(gè)節(jié)點(diǎn)指定的屬性，然后按照給定實(shí)例的該屬性值對(duì)應(yīng)的樹枝向下移動(dòng)，一直遍歷到葉子。決策樹學(xué)習(xí)可以解決具有以下特征的問題：實(shí)例是由“屬性-值”對(duì)表示的；.目標(biāo)函數(shù)具有離散的輸出值；.可能需要析取的描述；.訓(xùn)練數(shù)據(jù)可以包含錯(cuò)誤；.訓(xùn)練數(shù)據(jù)可以包含缺少屬性值的實(shí)例。決策樹學(xué)習(xí)的關(guān)鍵是對(duì)決策樹的構(gòu)造，典型的構(gòu)造決策樹的方法是ID3算法和C4.5算法。這些算法是都是根據(jù)屬性的重要性來依次把各個(gè)屬性分配到相應(yīng)的結(jié)點(diǎn)上面去。人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法對(duì)于逼近實(shí)數(shù)值、離散值和向量值的目標(biāo)函數(shù)提供了一種健壯性很強(qiáng)的方法。它是通過模擬人類大腦的神經(jīng)元，形成具有輸入和輸出的單元結(jié)構(gòu)。對(duì)于某些類型的問題，如學(xué)習(xí)解釋復(fù)雜的現(xiàn)實(shí)世界的傳感器數(shù)據(jù)，人工神經(jīng)網(wǎng)絡(luò)是目前最為有效的方法。具有以下特征的問題我們都可以用神經(jīng)網(wǎng)絡(luò)來解決：.實(shí)例是用很多“屬性-值”對(duì)表示的；.目標(biāo)函數(shù)的輸出可能是離散值、實(shí)數(shù)值或者由若干實(shí)數(shù)屬性或離散屬性組成的向量；.訓(xùn)練數(shù)據(jù)可能包含錯(cuò)誤；.可容忍長時(shí)間的訓(xùn)練；.在實(shí)際應(yīng)用的時(shí)候可能需要快速求出目標(biāo)函數(shù)值；.人類能否理解學(xué)到的目標(biāo)函數(shù)是不重要的。人工神經(jīng)網(wǎng)絡(luò)主要訓(xùn)練感知器以及由感知器構(gòu)成的多層網(wǎng)絡(luò)結(jié)構(gòu)(包括前向和反饋網(wǎng)絡(luò))。在神經(jīng)網(wǎng)絡(luò)里面的典型的模型有：自適應(yīng)共振、雙向聯(lián)想存儲(chǔ)器、反向傳遞、對(duì)流網(wǎng)、認(rèn)識(shí)機(jī)、感知器、自組織映射網(wǎng)等貝葉斯學(xué)習(xí)貝葉斯網(wǎng)絡(luò)的學(xué)習(xí)是貝葉斯網(wǎng)絡(luò)模型的構(gòu)建和對(duì)已存在貝葉斯網(wǎng)絡(luò)模型的優(yōu)化。由于可以利用的數(shù)據(jù)日益增加和數(shù)據(jù)越來越容易獲取，使得用數(shù)據(jù)來進(jìn)行貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)和條件概率表的學(xué)習(xí)變得十分可行，貝葉斯網(wǎng)絡(luò)的條件概率表的學(xué)習(xí)又常稱為貝葉斯網(wǎng)絡(luò)的參數(shù)學(xué)習(xí)?；诎咐膶W(xué)習(xí)前面的方法都是根據(jù)一系列的訓(xùn)練樣本，然后形成一定的目標(biāo)函數(shù)把訓(xùn)練樣本一般化。而基于實(shí)例的學(xué)習(xí)則不然?；趯?shí)例的學(xué)習(xí)方法只是簡(jiǎn)單地把訓(xùn)練樣本存儲(chǔ)起來，從這些實(shí)例中泛化的工作被推遲到必須分類出新的實(shí)例時(shí)。每當(dāng)學(xué)習(xí)器遇到一個(gè)新的查詢實(shí)例，它分析這個(gè)新的實(shí)例與以前存儲(chǔ)的實(shí)例之間的關(guān)系，并據(jù)此把一個(gè)目標(biāo)函數(shù)值賦給新的實(shí)例?；诎咐膶W(xué)習(xí)方法主要包括最近鄰法和局部加權(quán)回歸法，它們都假定實(shí)例可以表示為歐氏空間的點(diǎn)。此外，基于案例的學(xué)習(xí)方法還包括基于案例的推理，它對(duì)實(shí)例采用復(fù)雜的符rz|—*號(hào)表示。基于案例的學(xué)習(xí)方法實(shí)際上是一個(gè)消極學(xué)習(xí)方法。遺傳算法遺傳算法是一種受生物進(jìn)化過程啟發(fā)的學(xué)習(xí)算法。遺傳算法研究的問題是搜索候選假設(shè)空間并確定最佳的假設(shè)，一般是通過變異和交叉重組當(dāng)前已知的最好假設(shè)來生成后續(xù)的假設(shè)。在遺傳算法中，假設(shè)一般用二進(jìn)制來表示(便于變異和交叉遺傳算子)。

遺傳算法的設(shè)計(jì)有一個(gè)共同點(diǎn)：算法迭代更新一個(gè)假設(shè)池（也稱之為群體）。每一次迭代中根據(jù)適應(yīng)度函數(shù)評(píng)估群體中的所有成員，然后從當(dāng)前群體中用概率方法選取適應(yīng)度最高的個(gè)體產(chǎn)生新一代群體。在這些選取的個(gè)體中，一部分保持原樣進(jìn)入下一代群體，其他通過交叉和變異等遺傳的方法產(chǎn)生新的個(gè)體作為下一代群體的一部分。（7）規(guī)則學(xué)習(xí)對(duì)學(xué)習(xí)得到的假設(shè)，最具有表征力的和最能為人類所理解的表示方法之一為if-then規(guī)則的集合。而規(guī)則學(xué)習(xí)實(shí)際上就是學(xué)習(xí)這樣的規(guī)則。規(guī)則一般包括不含變量和含有變量的。不含變量的很容易理解和得到。最為重要的是學(xué)習(xí)含有變量的規(guī)則集合（也稱之為Horn子句集合）。由于一階Horn子句集合可以被解釋為邏輯編程語言中的程序，所以學(xué)習(xí)的過程經(jīng)常被稱之為歸納邏輯編程（InductiveLogicProgramming，簡(jiǎn)稱ILP）。（8）分析學(xué)習(xí)（基于解釋的學(xué)習(xí)）前面的方法都是歸納學(xué)習(xí)方法。這些歸納學(xué)習(xí)器在實(shí)踐中都有一個(gè)關(guān)鍵的限制就是學(xué)習(xí)實(shí)例的數(shù)據(jù)不足時(shí)性能較差（這已經(jīng)被證明，參見文獻(xiàn)［35第七章）。而分析學(xué)習(xí)使用先驗(yàn)知識(shí)和演繹推理來擴(kuò)大訓(xùn)練樣本提供的信息，因此，它不受數(shù)據(jù)不足的影響或影響較小。分析學(xué)習(xí)的典型方法是基于解釋的學(xué)習(xí)（Explanation-BasedLearning，簡(jiǎn)稱EBL）。它包括2個(gè)階段，分析階段、泛化階段。具體來說，首先使用先驗(yàn)知識(shí)來分析（或解釋）觀察到的學(xué)習(xí)樣本是如何滿足目標(biāo)概念的。得出訓(xùn)練樣本中哪些特征是相關(guān)的，哪些是無關(guān)的，然后案例（樣本）就可以基于邏輯推理進(jìn)行泛化，而不必經(jīng)過統(tǒng)計(jì)推理得出。（9）強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)的過程實(shí)際上就是給要學(xué)習(xí)的主體-Agent一個(gè)任務(wù)，Agent通過不斷感知環(huán)境，然后根據(jù)環(huán)境做出動(dòng)作的選擇；如果成功，就對(duì)相應(yīng)的動(dòng)作做出獎(jiǎng)賞，如果失敗，就對(duì)相應(yīng)的動(dòng)作做出懲罰；通過不斷的學(xué)習(xí)，最后會(huì)達(dá)到一個(gè)穩(wěn)態(tài)（以后Agent在相應(yīng)的環(huán)境下一定會(huì)做相應(yīng)動(dòng)作）。強(qiáng)化學(xué)習(xí)一個(gè)最突出的優(yōu)點(diǎn)就是不要求有任何的先驗(yàn)知識(shí)。這是它跟前面的所有學(xué)習(xí)算法最根本的不同。以上提到的絕大多數(shù)算法都是可以應(yīng)用到Robocup機(jī)器人足球仿真比賽當(dāng)中，但使用不同的學(xué)習(xí)算法得到的效果是不一樣。但是如果僅僅使用其中的一種，效果可能也達(dá)不到要求，因而可能需要不同的方法交叉使用，或根據(jù)不同的情況選擇特定的方法。7.2個(gè)體技術(shù)的實(shí)現(xiàn)在Robocup中，設(shè)計(jì)球員的個(gè)體技術(shù)如帶球、傳球、截球、射門的時(shí)候一般是由更低級(jí)的動(dòng)作組成。有時(shí)候還要在這兩者之間還要加上一個(gè)中間層。就針對(duì)于這些基本動(dòng)作我們具體介紹一下它們的實(shí)現(xiàn)方法。7.2.1截球（intercept）1.問題描述截球問題可以歸納成如圖5.1的一個(gè)簡(jiǎn)單的場(chǎng)景：白圓圈代表球，黑色的圓圈代表球員，dist為球員到球的距離，a為球到球員之間的連線和球運(yùn)動(dòng)方向的夾角，speed為球的即時(shí)的運(yùn)動(dòng)速度。球的速度隨運(yùn)動(dòng)衰減。截球問題歸結(jié)為給定dist、a和speed，決策出隊(duì)員正確的截球角度8，或者是當(dāng)截到球時(shí)，球運(yùn)動(dòng)的距離，并給出對(duì)截球所可能花的時(shí)間的估計(jì)。具體的運(yùn)動(dòng)模型見2.7.2.8相關(guān)的球員和球的運(yùn)動(dòng)模型。2.解決方法1）解析法通過示意圖和前面介紹的運(yùn)動(dòng)模型我們可以通過列出關(guān)于時(shí)間的方程，然后采用Newton迭代法求出方程的根，可以求出認(rèn)為可以求出3個(gè)根，顯然第三個(gè)根的價(jià)值不是很大，目前關(guān)注的是前2個(gè)根，然后根據(jù)高層策略選擇在哪個(gè)根對(duì)應(yīng)的點(diǎn)（前點(diǎn)和后點(diǎn)）進(jìn)行截球。TsinghuAeolus目前采用的就是這種方法。2）通過機(jī)器學(xué)習(xí)的方法進(jìn)行離線學(xué)習(xí)目前這是一種簡(jiǎn)單并且通用的方法，典型的方式是通過搜集大量成功的截球樣本（反應(yīng)為一些特征變量集），在使用這些樣本通過離線學(xué)習(xí)的方法形成一個(gè)決策函數(shù)。離線學(xué)習(xí)主要采用貝葉斯網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)；其中BP網(wǎng)絡(luò)目前比較通用。CMU99和Hfut目前采用這種方法。簡(jiǎn)要介紹一下BP網(wǎng)絡(luò)：BP網(wǎng)絡(luò)的特點(diǎn)是信號(hào)由輸入層單向傳輸?shù)捷敵鰧?，同一層神?jīng)元之間不傳遞信息，每個(gè)神經(jīng)元與鄰層所有神經(jīng)元相連，連結(jié)權(quán)重用①..表示，各神經(jīng)元的作用函數(shù)為Sigmoid函數(shù)：/（x）=1/（1+。7）。同時(shí)它正向傳播信號(hào)，反向傳播誤差。BP網(wǎng)絡(luò)如下圖。隱含層是BP網(wǎng)絡(luò)的基本特征之一，事實(shí)上如果沒有隱含層也就無所謂誤差的反向傳播了。但對(duì)隱含層節(jié)點(diǎn)個(gè)數(shù)的選擇到目前為止還沒有確定的規(guī)則，根據(jù)經(jīng)驗(yàn)公式BP網(wǎng)絡(luò)示意圖頊mXn+110（m、n表示輸入輸出節(jié)點(diǎn)的個(gè)數(shù)），由于我們這兒有3個(gè)輸入，所以我們選擇了8個(gè)節(jié)點(diǎn)。中間隱含層也是使用了1層，包括輸入和輸出總共3層。在圖4.2所示的bp網(wǎng)絡(luò)結(jié)構(gòu)中，設(shè)網(wǎng)絡(luò)輸入為氣,%，x3，輸出為＞。輸入層各神經(jīng)元的激發(fā)函數(shù)選用比例系數(shù)為1的線性函數(shù)，則網(wǎng)絡(luò)輸入層的輸出分別是氣,%，X3，隱層神經(jīng)元的輸入是：I=^?.尤.（i=1,2,3,...7,8,）（公式4.1），=i神經(jīng)元的輸出為：（公式4.2）O=1/(1+e-i,),（公式4.2）i",為輸出層神經(jīng)元與隱層神經(jīng)元，的連接權(quán)，則網(wǎng)絡(luò)輸出為:（公式4.3）y=rvO（公式4.3）i=1在由①甘v.組成的連接權(quán)向量W初始化之后，就可以在給定一組網(wǎng)絡(luò)輸入后，由上述式子求出網(wǎng)絡(luò)的輸出y，此為正向信號(hào)傳播過程。對(duì)某樣本(叫，x,x；;)，p為樣本數(shù)，由正向計(jì)算得到y(tǒng)，定義網(wǎng)絡(luò)輸出誤差為:1P2p3pp Pdp=tp—yp (公式4.4)誤差函數(shù)為ep=1/2Xdp2 (公式4.5)一般的，W值隨機(jī)給出，求得>后，誤差值較大，網(wǎng)絡(luò)計(jì)算精度不高。在確定網(wǎng)絡(luò)P中隱層神經(jīng)元數(shù)目m的情況下，通過調(diào)整W的值，逐步降低誤差dp，以提高計(jì)算精度。在反向計(jì)算中，沿著誤差函數(shù)為e隨"變化的負(fù)梯度方向?qū)進(jìn)行修正。設(shè)W的修正值為iw: pde（公式4.6）UW=—n——pdW（公式4.6）n為學(xué)習(xí)率，取0-1間的數(shù)。該修正方法的弱點(diǎn)是收斂速度慢，并存在能量函數(shù)局部最小值，在此對(duì)其增加附加動(dòng)量項(xiàng)進(jìn)行修正，即?。篸e（公式4.7）AW(n)=-n—+OAW(n-1)dW（公式4.7）AW(n)為第n次迭代計(jì)算時(shí)連接權(quán)的修正值，1W(n-1)為前一次迭代計(jì)算時(shí)所得的連接權(quán)的修正值，口為動(dòng)量因子。將公式4.4、4.5公式4.7，并加以推導(dǎo)，求得對(duì)于樣本p時(shí)，AW中各元素為：dyAv(n)=nd~~v+以Av(n-1)=ndO+以Av(n-1) (公式4.8)idyAw(n)=nd——l+aw(n-1)=ndvO(1-O)X+aAw(n-1)

ij pdw ij piipipjp ij(公式4.9)最后采用迭代式即+AW-W對(duì)原W進(jìn)行修正計(jì)算，得到新的連接權(quán)向量即。對(duì)于所有的學(xué)習(xí)樣本，均按照樣本排列順序進(jìn)行上述的計(jì)算過程，從而求出學(xué)習(xí)樣本的能量函數(shù)值:E」epPT利用E值對(duì)網(wǎng)絡(luò)計(jì)算精度進(jìn)行評(píng)價(jià)，當(dāng)E值滿足E<0.00001時(shí)，停止迭代計(jì)算，否則，進(jìn)行新一輪的迭代計(jì)算。訓(xùn)練時(shí)，我們構(gòu)造出各種情況的截球場(chǎng)景（傳球隊(duì)員固定位置，離散傳球速度和傳球隊(duì)員和截球隊(duì)員之間的相對(duì)坐標(biāo)x,y），截球隊(duì)員使用各種角度截球，當(dāng)成功的截球時(shí)，就將成功的數(shù)據(jù)記下。采集到的成功的數(shù)據(jù)送入神經(jīng)網(wǎng)絡(luò)用BP算法進(jìn)行訓(xùn)練。神經(jīng)網(wǎng)絡(luò)作為一個(gè)記憶的載體記錄下這些成功的例子，能夠進(jìn)行實(shí)際各種場(chǎng)景的截球決策。3）強(qiáng)化學(xué)習(xí)的方法進(jìn)行在線學(xué)習(xí)在使用強(qiáng)化學(xué)習(xí)的時(shí)候關(guān)鍵是確定狀態(tài)空間、動(dòng)作空間、目標(biāo)狀態(tài)、策略函數(shù)（代價(jià)函數(shù)）以及價(jià)值函數(shù)。首先是確定狀態(tài)空間（s），也就是worldstate，一般狀態(tài)空間都很大，在計(jì)算和存儲(chǔ)方面就存在很多困難，這也是目前強(qiáng)化學(xué)習(xí)往機(jī)器人足球中應(yīng)用的難點(diǎn)地方；這就需要進(jìn)行簡(jiǎn)化和處理。然后就是確定動(dòng)作集，一般把原子動(dòng)作作為動(dòng)作集。目標(biāo)狀態(tài)是停止學(xué)習(xí)的終止條件，在學(xué)習(xí)的時(shí)候一般把得到球作為目標(biāo)狀態(tài)。所謂策略函數(shù)就是在當(dāng)前的狀態(tài)在選擇動(dòng)作的函數(shù)，這樣的函數(shù)學(xué)要自己去設(shè)計(jì)，原則是能夠把代價(jià)最小、利益最大的動(dòng)作選擇出來。而價(jià)值函數(shù)是在選擇一個(gè)特定動(dòng)作以后，是成功還是失敗，相應(yīng)的對(duì)這個(gè)狀態(tài)下的這個(gè)動(dòng)作的代價(jià)（利益）進(jìn)行相應(yīng)的修正，一般是加上（成功）、減去（失?。┮粋€(gè)值，經(jīng)過足夠長的時(shí)間的學(xué)習(xí)就能達(dá)到一個(gè)穩(wěn)態(tài)（也就是價(jià)值函數(shù)的性能較好）。7.2.2傳球（pass）問題描述相對(duì)截球而言，傳球更加復(fù)雜的一種動(dòng)作，主要原因是在傳球的時(shí)候?qū)嶋H上已經(jīng)引入2個(gè)球員進(jìn)行協(xié)作的問題了。在設(shè)計(jì)時(shí)一般考慮2種方式進(jìn)行傳球：傳給某一特定的人和傳到某一點(diǎn)。對(duì)傳球進(jìn)行描述的時(shí)候，可以采用這種方式：描述傳球隊(duì)員的周圍環(huán)境，用狀態(tài)S表示周圍的環(huán)境或提取環(huán)境的一些特征屬性向量A（a1,a2,…,an）。根據(jù)這些S或A來選擇合適的傳球方向和出球速度。解決方法根據(jù)上面對(duì)傳球的描述，我們可以使用決策樹學(xué)習(xí)算法，也可以使用基于神經(jīng)網(wǎng)絡(luò)的計(jì)算學(xué)習(xí)方法。（1）.決策樹學(xué)習(xí)算法：CMU使用的就是這種學(xué)習(xí)算法，具體使用了C4.5算法，在選擇下面的特征屬性：.傳球球員到接球者的距離和方向（2個(gè)）。.傳球隊(duì)員到其他隊(duì)友（不包括接球隊(duì)員）的距離和方向（20個(gè)）。.球球隊(duì)員到對(duì)手的隊(duì)員的距離和方向（22個(gè)）。.經(jīng)排序（按距離）以后的接球隊(duì)員到隊(duì)友的距離和方向（20個(gè)）。.經(jīng)排序（按距離）以后的接球隊(duì)員到對(duì)手的距離和方向（22個(gè)）。

.從傳球隊(duì)員到接球隊(duì)員之間的一些分布統(tǒng)計(jì)屬性（90個(gè)）。如以傳球隊(duì)員為中心，由接球隊(duì)員以及其他隊(duì)友構(gòu)成的扇形區(qū)域內(nèi)對(duì)方球員的數(shù)量等等。.球員所在的區(qū)域特性（44個(gè)）。訓(xùn)練的時(shí)候，首先設(shè)定傳球隊(duì)員的位置，隨機(jī)設(shè)置接球和其他隊(duì)員的位置；傳球隊(duì)員確認(rèn)要傳球；其他隊(duì)員進(jìn)行跑位;傳球隊(duì)員根據(jù)決策樹確定接球隊(duì)員。接球隊(duì)員和其他隊(duì)員（指對(duì)手球員）都采用已經(jīng)訓(xùn)練好的截球動(dòng)作去獲得控球權(quán)。接球隊(duì)員獲得控球權(quán)就認(rèn)為是一次成功的傳球，否則，就認(rèn)為失敗。（2）基于神經(jīng)網(wǎng)絡(luò)的計(jì)算學(xué)習(xí)計(jì)算學(xué)習(xí)一直是機(jī)器學(xué)習(xí)的重要研究內(nèi)容，它主要是通過計(jì)算的方法將那些錯(cuò)的很離譜的假設(shè)排除出去形成，通過計(jì)算機(jī)的快速計(jì)算能力得出最有可能的假設(shè)并把該假設(shè)認(rèn)為是可能近似正確（probablyapproximatelycorrect，PAC）。另一方面，神經(jīng)網(wǎng)絡(luò)集成作為一種新興的神經(jīng)計(jì)算方法，具有比單一神經(jīng)網(wǎng)絡(luò)系統(tǒng)更強(qiáng)的泛化能力，因此，如果將神經(jīng)網(wǎng)絡(luò)集成與計(jì)算學(xué)習(xí)相結(jié)合，將可望獲得更好的效果。在這一思想的基礎(chǔ)上，提出了一種基于神經(jīng)網(wǎng)絡(luò)集成的計(jì)算學(xué)習(xí)算法，以神經(jīng)網(wǎng)絡(luò)集成作為計(jì)算學(xué)習(xí)的前端，首先利用其產(chǎn)生計(jì)算學(xué)習(xí)所用的數(shù)據(jù)集，在產(chǎn)生數(shù)據(jù)集時(shí)，采用能夠較好地反映神經(jīng)網(wǎng)絡(luò)集成性能的數(shù)據(jù)生成方式，使得用于計(jì)算學(xué)習(xí)的示例能夠受益于神經(jīng)網(wǎng)絡(luò)集成的強(qiáng)泛化能力，以最終獲得較高的預(yù)測(cè)精度。在使用計(jì)算學(xué)習(xí)來進(jìn)行傳球訓(xùn)練的時(shí)候，首先是確定在特定傳球路線上的傳球速度的選擇。我們參考了清華［23的對(duì)傳球時(shí)穿越速度的概念。如圖4.4,假設(shè)白圓圈表示的1號(hào)隊(duì)員要把球傳給用黑圓圈表示的2號(hào)隊(duì)員，X表示對(duì)手。線L為對(duì)手和截球隊(duì)員的垂直平分線。顯然對(duì)于垂直平分線與球軌跡的交點(diǎn)p以內(nèi)的點(diǎn)，對(duì)方隊(duì)員能比我方隊(duì)員能先跑到；反之，交點(diǎn)以外的點(diǎn)，我方隊(duì)員先跑到。如果傳球隊(duì)員踢出速度大小合適的球，使得對(duì)手在交點(diǎn)以內(nèi)都無法截到球，那么我方隊(duì)員就必然可以比對(duì)方先截到球。如果以此速度踢出球，此隊(duì)員不能在該點(diǎn)以前截到球，而且以小于此速度的任何速度踢出球，對(duì)手都可能在該點(diǎn)以內(nèi)截到球,那么這個(gè)速度稱為對(duì)于某個(gè)隊(duì)員穿越在球運(yùn)動(dòng)軌跡上的某一點(diǎn)的穿越速度。也就是說，我們只要而且必須要以大于穿越速度的速度傳球，球就能傳到隊(duì)友腳下。注意到這個(gè)分析基于圖4.4隊(duì)友在對(duì)手后面的情況。如果反過來，隊(duì)友在對(duì)手前，則傳球者應(yīng)該以小于隊(duì)友的穿越速度的速度傳球，以保證隊(duì)友在交點(diǎn)以前截到球。對(duì)圖4.4的情景，我們把p點(diǎn)以前的區(qū)域稱為對(duì)手的接球區(qū)域，p點(diǎn)以后的稱為隊(duì)友的接球區(qū)域。對(duì)于隊(duì)友，穿越對(duì)手的穿越速度為傳球給他的速度的下限。如果考慮隊(duì)友后面可能有一個(gè)對(duì)手，則給他一個(gè)傳球速度上限的限制。圖4.4考慮了一個(gè)隊(duì)友和一個(gè)對(duì)手的簡(jiǎn)單傳球場(chǎng)景，多個(gè)對(duì)手和隊(duì)友的場(chǎng)景也有類似的分析。在一條傳球線路上，每個(gè)隊(duì)員（包括對(duì)手和隊(duì)友）或者沒有接球區(qū)域，或者有一個(gè)接球的區(qū)域和一個(gè)傳球速度的上、下限。首先，我們利用人工神經(jīng)網(wǎng)絡(luò)中的BP網(wǎng)絡(luò)，訓(xùn)練得到在特定傳球路線上面?zhèn)鹘o每個(gè)球員的穿越速度。第一步，采集樣本。確定傳球隊(duì)員的位置和隨機(jī)置接球隊(duì)員的初始位置。在訓(xùn)練中傳球者從一個(gè)較小的速度開始，沿傳球線路傳球，接球者利用訓(xùn)練好的截球技能進(jìn)行截球，如果截球點(diǎn)在圖4.4的p點(diǎn)以前，則傳球者提高速度，繼續(xù)嘗試；否則，穿越速度為該次訓(xùn)練的傳球速度。如此這樣收集傳球隊(duì)員和接球之間不同的距離和角度情況下的穿越速度。第二

人人文庫> 全部分類> 圖紙下載 > 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

球員個(gè)體技術(shù)的學(xué)習(xí)及實(shí)現(xiàn)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

球員個(gè)體技術(shù)的學(xué)習(xí)及實(shí)現(xiàn)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔