![決策策略選擇_第1頁](http://file4.renrendoc.com/view/246944cdb15106bff490dadac9fe2687/246944cdb15106bff490dadac9fe26871.gif)
![決策策略選擇_第2頁](http://file4.renrendoc.com/view/246944cdb15106bff490dadac9fe2687/246944cdb15106bff490dadac9fe26872.gif)
![決策策略選擇_第3頁](http://file4.renrendoc.com/view/246944cdb15106bff490dadac9fe2687/246944cdb15106bff490dadac9fe26873.gif)
![決策策略選擇_第4頁](http://file4.renrendoc.com/view/246944cdb15106bff490dadac9fe2687/246944cdb15106bff490dadac9fe26874.gif)
![決策策略選擇_第5頁](http://file4.renrendoc.com/view/246944cdb15106bff490dadac9fe2687/246944cdb15106bff490dadac9fe26875.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
決策策略選擇科學方法01基于貝葉斯決策的比賽中基于馬爾科夫決策的囚徒困境下的目錄030204基本信息廣義的決策策略選擇則包含判斷與決策兩個部分。狹義的決策策略選擇是一個動態(tài)過程,是個體運用感知覺、記憶、思維等認知能力,對情境做出選擇,確定策略的過程?;隈R爾科夫決策策略選擇方法,解決具有復雜目標間關(guān)聯(lián)的多階段目標選擇問題。使用與或樹描述目標體系各層狀態(tài)間的影響關(guān)聯(lián),并以目標體系整體失效為求解目的,建立了基于離散時間MDP的多階段打擊目標選擇模型?;谪惾~斯決策的基于貝葉斯的多目標的Web選擇策略總結(jié)和展望模型的評價基于貝葉斯決策的基于貝葉斯的多目標的Web選擇策略不同的用戶眼中的最優(yōu)Web服務(wù)是不同的,有的用戶更在乎執(zhí)行時間,有的用戶更在乎費用,有的用戶更在乎服務(wù)的用戶滿意度。但對于同一個用戶來說,它的興趣一定遵循同一概率分布的。用戶曾經(jīng)選擇的Web服務(wù)及當時對該服務(wù)是否滿意的集合,即“經(jīng)驗庫”中隱含著自己的偏好信息?;谪惾~斯決策的多QoS目標的Web服務(wù)選擇策略,利用貝葉斯決策理論,在用戶自己的經(jīng)驗庫中進行學習,進而做出更可能讓用戶滿意的選擇。2.1貝葉斯理論介紹貝葉斯理論是一種運用概率手段來進行推理的方法,被廣泛用于機器學習領(lǐng)域。它基于如下的假定,即待考查的量遵循某概率分布,且可根據(jù)這些概率及已觀察到的數(shù)據(jù)進行推理,以作出最優(yōu)的決策。它通過對已知分類數(shù)據(jù)的學習,來預測訓練數(shù)據(jù)的分類。作為一種基于概率的統(tǒng)計學習和決策理論框架內(nèi)的基礎(chǔ)方法,貝葉斯理論已得到了廣泛的應用。2.2模型的建立該方法以消費者的歷史經(jīng)驗為基礎(chǔ),通過概率統(tǒng)計的手段,計算出消費者并未使用過的Web服務(wù)能讓自己的滿意程度?;谪惾~斯決策的多QoS目標的Web服務(wù)選擇策略的過程主要分為以下幾部分。模型的評價首先,該模型基于機器學習領(lǐng)域的經(jīng)典方法:貝葉斯理論。該方法有嚴密的推導和證明,已被廣泛的應用于多個領(lǐng)域。所以該模型的理論基礎(chǔ)是非常堅實的。其次,選擇Web服務(wù)時,不需要用戶的介入。需要用戶做的工作僅僅是在Web服務(wù)執(zhí)行完了以后,作出評價(“滿意”或“不滿意”)。所以該模型更具有智能性。最后,該模型是一個動態(tài)的模型,隨著時間的推移,如果用戶的偏好慢慢發(fā)生變化,該模型所做出的抉擇也會根據(jù)用戶經(jīng)驗庫的更新慢慢偏移??偨Y(jié)和展望面對眾多功能相同,但在非功能屬性上仍然存在差別的Web服務(wù),如何進行合理的選擇,對成功地構(gòu)建面向服務(wù)應用具有非常重要的意義。本文在總結(jié)了當前基于多QoS目標的Web服務(wù)選擇策略發(fā)展現(xiàn)狀的基礎(chǔ)上,介紹了一種基于貝葉斯的多QoS目標的Web服務(wù)選擇策略。該方法具有理論基礎(chǔ)堅實、智能性、動態(tài)性的優(yōu)點。
基于馬爾科夫決策的1目標選擇問題描述3求解算法2目標選擇過程建?;隈R爾科夫決策的1目標選擇問題描述為分析目標選擇問題,需分析打擊目標對目標體系狀態(tài)的影響。與或樹使用圖形化能將復雜問題分解為多個簡單子問題,因此使用與或樹描述體系中狀態(tài)間的影響關(guān)系。目標體系的狀態(tài)包括三類要素狀態(tài):目標單元狀態(tài)GT、目標系統(tǒng)能力狀態(tài)GN和目標體系能力狀態(tài)GS。目標單元是目標體系中最基礎(chǔ)的要素,能被直接摧毀,如單部雷達,其狀態(tài)用葉節(jié)點集GT={gTi}(1≤i≤I)描述,I為目標單元數(shù)量,單元毀傷,gTi=1;單元正常,gTi=0。目標系統(tǒng)是多個目標單元或子系統(tǒng)的集合,之間相互關(guān)聯(lián),顯現(xiàn)某種作戰(zhàn)能力,如預警能力。其狀態(tài)用非終端節(jié)點集GN={gNj}(1≤j≤J)描述,J為目標系統(tǒng)數(shù)量,系統(tǒng)能完成任務(wù),gNj=1;不能完成任務(wù),gNj=0。其包含的目標單元和子系統(tǒng)能力狀態(tài)作為其在與或樹中子節(jié)點,通過邏輯與、或關(guān)系,對系統(tǒng)能力狀態(tài)產(chǎn)生影響。目標體系是多個目標系統(tǒng)的集合,體現(xiàn)出支持某個使命的能力,如防空使命能力。體系能力狀態(tài)使用根節(jié)點GS描述,體系能達成使命,GS=1;不能達成,GS=0。其包含的各目標系統(tǒng)能力作為其子節(jié)點,通過邏輯與、或關(guān)系對體系能力狀態(tài)產(chǎn)生影響。2目標選擇過程建模2.1問題假設(shè)(1)打擊目標體系過程分為若干個作戰(zhàn)階段,使用有限資源,目的是使體系失效;(2)目標體系狀態(tài)為進攻方完全感知,目標選擇決策僅與當前階段狀態(tài)有關(guān),在當前狀態(tài)被觀察后,進攻方選擇打擊目標;(3)打擊每個目標具有一定成功概率,消耗一定資源,每個階段打擊多個目標,使得目標體系狀態(tài)在下一階段發(fā)生概率遷移。2.2目標選擇決策模型在符合以上假設(shè)時,打擊過程中目標體系狀態(tài)的變化可認為是一個離散時間隨機過程,其變化過程的狀態(tài)轉(zhuǎn)移概率由打擊目標行動所控制,因此目標選擇決策成為一個離散時間馬爾科夫決策過程,其最優(yōu)決策就是每階段要選擇打擊哪些目標,使目標體系失效的概率最大化。本文使用DTMDP模型描述打擊目標體系的目標選擇決策過程,即以下多元組:S是有限狀態(tài)集,S={(t,R,G)},t指當前第t階段,R=(R1,…,Rk,…,RK)描述資源的狀態(tài)向量,Rk為第k類資源數(shù)量,G=(g1T,…,gTI,g1N,…,gNJ,GS),表示體系的狀態(tài)向量。S0是初始狀態(tài)。ST是終止狀態(tài)集,對應于資源、時間消耗完畢,或目標體系失效的狀態(tài),在此狀態(tài)下打擊過程結(jié)束。3求解算法3.1求解框架本問題狀態(tài)空間巨大,并且只求解從目標體系初始狀態(tài)到達終止狀態(tài)的行動策略,而MDP值迭代或策略迭代方法需對全狀態(tài)空間進行遍歷,因此求解效率較低,這就需要使用啟發(fā)式搜索算法來求解。RTDP(RealTimeDynamicProgramming)的改進算法LRTDP(LabeledRTDP)方法要比其他如LAO等求解MDP的啟發(fā)式搜索算法要更有效率因此本文使用LRTDP方法求解該模型。RTDP是基于試驗(trials-based)的方法,每次試驗從初始狀態(tài)開始,基于當前狀態(tài)值的啟發(fā)式,根據(jù)貪婪策略選擇行動,然后根據(jù)行動的概率結(jié)果隨機創(chuàng)建后續(xù)狀態(tài),直至到達目的狀態(tài),然后進行反向值迭代。3.2啟發(fā)式設(shè)計了基于行動成功概率、行動執(zhí)行時間和資源邊界的啟發(fā)式提供對V0(S)的最佳估計值,使得對所有狀態(tài)s,V0(S)V(S),以促進LRTDP中算法的收斂,但由于打擊目標體系過程中的目標選擇模型和傳統(tǒng)規(guī)劃模型在狀態(tài)空間、遷移函數(shù)上的區(qū)別,該啟發(fā)式不能直接應用于前者。針對打擊目標體系過程特點,分別設(shè)計新的啟發(fā)式來計算從目標體系當前狀態(tài)S到達目標體系失效狀態(tài)的最小失敗概率minV(S,fail)和最小資源消耗需求minV(S,resource),并進行加權(quán)組合,以得到對V0(S)的最佳估計值。比賽中1決策系統(tǒng)的設(shè)計3實驗結(jié)果2決策策略的動態(tài)選擇算法比賽中1決策系統(tǒng)的設(shè)計1.1決策系統(tǒng)的分析足球機器人的決策子系統(tǒng)扮演著教練員和運動員的職責。在真實的綠茵場上,作為教練員要根據(jù)球場上的實際情況來部署球員,同時也根據(jù)不同的對手,選擇不同的隊形。足球機器人賽場上,決策者也應該根據(jù)不同的球隊采取不同的策略,對于錯綜復雜的球場形勢,運用靈活的策略。一個好的決策系統(tǒng)不可能一勞永逸地一次性開發(fā)完成,是一個不斷完善的過程,因此,構(gòu)建一個可持續(xù)開發(fā)、合理的決策框架就顯得尤為重要。分層遞進控制方式對決策思路進行邏輯上的分層。一般來說,決策思路是先確定機器人之間的協(xié)作關(guān)系,然后根據(jù)配合的要求確定每個機器人的運動方式。分層的具體方式可以有一定的不同。比賽時,視覺子系統(tǒng)每40ms左右將球場上各機器人的位姿和球的信息傳入計算機,決策子系統(tǒng)根據(jù)傳入的視覺信息分析球場上的情況,做出相應的決策,轉(zhuǎn)化為每個機器人的左右輪速,通過通信子系統(tǒng)發(fā)送給每個機器人。當決策子系統(tǒng)收到視覺輸入信息后,對其進行預處理,根據(jù)球和本方機器人的位置對場上攻防形勢進行分析,并將所作的決策分解為各個任務(wù)———這是決策的第一層。根據(jù)分解完的任務(wù)從隊形庫中為本方機器人確定一個隊形———這是決策的第二層。根據(jù)隊形所需的角色以及我方機器人的位置,將每個角色分配給具體的機器人———這是決策的第三層。之后將左右輪速發(fā)送給對應的每個機器人。1.2決策策略的動態(tài)選擇算法實力對比函數(shù)的提出由于決策系統(tǒng)所能得到的信息僅是由視覺系統(tǒng)傳遞來的球的位置以及本方球員的位置和方向信息,因此如何判斷對方球隊的情況則變成了是一個不容易解決的問題。如果不對對方球隊情況進行判斷,無論場上形式如何變化我方總是采用一成不變的策略則會降低整個球隊的智能性,本系統(tǒng)通過實力對比函數(shù)來判斷場上情況的變化,并根據(jù)不同的情況做出不同的策略選擇,從而提高了系統(tǒng)的智能性。3實驗結(jié)果在MiroSot足球機器人系統(tǒng)中對本文提出的決策策略動態(tài)選擇算法進行了驗證,其中Team1在進行決策策略選擇的時候采用傳統(tǒng)的決策策略選擇方法。Team2,Team3,Team4也采用傳統(tǒng)的決策策略選擇方法,并且3支球隊的實力一個比一個強(通過實驗得出球隊的強弱)。比賽結(jié)果如下表1所示:表1比賽結(jié)果(選用本文算法之前)在選用的決策策略動態(tài)選擇算法之后,Team1分別對Team2,Team3,Team4的比賽結(jié)果如表2所示:從實驗的比賽結(jié)果可以看出,在采用了決策策略動態(tài)選擇算法之后同樣一支球隊在和比它實力弱球隊的比賽時會加強進攻從而可以大比分的戰(zhàn)勝對手,在和它實力相當?shù)那蜿牨荣悤r會適當?shù)姆峙溥M攻和防守的比重,從而有機會戰(zhàn)勝對手,在和比自己實力強的球隊比賽時會加強防守在不輸球的情況下適時進攻。而實現(xiàn)的,先進技術(shù)手段的引入可能而且應該給企業(yè)帶來效率和效益。信息化是企業(yè)發(fā)展的必然,是重大的機遇和挑戰(zhàn),我們要抓住信息化帶來的機遇,在“信息化帶動工業(yè)化”的國家戰(zhàn)略指導下,加強對國民經(jīng)濟與社會信息化的組織領(lǐng)導,加快制定并實施國家信息化的總體規(guī)劃,推動經(jīng)濟與社會各個領(lǐng)域信息化的進程。通過信息化不斷提高企業(yè)核心競爭力,強化綜合國力的微觀基礎(chǔ),這正是我國加入世貿(mào)組織、應對經(jīng)濟全球化挑戰(zhàn)的關(guān)鍵所在。
囚徒困境下的囚徒困境簡介及其傳統(tǒng)策略現(xiàn)實生活中的“囚徒困境”及其應對策略囚徒困境中彰顯的人性特點和理性信任觀囚徒困境下的囚徒困境簡介及其傳統(tǒng)策略囚徒困境也稱社會兩難情境,是博弈論中的經(jīng)典案例,指兩個嫌疑犯被警察抓到,但警方?jīng)]有掌握確切的證據(jù),警察就分別找他們談話:“如果你們都不認罪的話,我們將讓你們都入獄一年;如果一個認罪,另一個不認罪的話,那么我們將判不認罪的那個十年的徒刑,認罪的將無罪釋放;如果兩人都認罪的話,我們將基于你們的誠實把每個人的徒刑降為五年,請你們各自權(quán)衡?!痹谶@種情形下,兩個疑犯都將面臨著一個具有決定意義的兩難選擇。亞當·斯密(AdamSmith)曾提出了理性經(jīng)濟人的假設(shè),一是經(jīng)濟人是自私自利的;二是經(jīng)濟人的行為是理性的,即他們根據(jù)處境來判斷自身的利益,追求個人利益盡可能最大化。在一個標準的囚徒困境中,可以用下面這個矩陣來表示:兩個囚犯面臨同樣的選擇——無論同伙選擇什么,他們最好都選擇認罪。因為,如果同伙不認罪,那么他們就無罪釋放,否則,他們起碼會被判十年徒刑。在一般情況下,假定每個囚徒都是理性的,他們的選擇通常會出現(xiàn)以下兩種可能情形:以A為例,第一種可能是:B認罪,這時如果A也認罪,那么他們都要入獄5年;如果A不認罪,則A將被判十年,B無罪釋放,兩相比較下,對于A來說,認罪顯然是最優(yōu)策略。第二種是:B不認罪,這時如果A認罪,那么B將被判十年,A將無罪釋放,如果A也不認罪,那么他們都將被判一年,這種情形下,A的最優(yōu)策略也是認罪。由此可見,對雙方而言,每一個囚犯從個人利益出發(fā),不考慮他人,他們都將選擇認罪。但如果雙方都不認罪,那么等待他們的將是一年的牢獄之苦。也就是說,對個人最有利的認罪策略,卻不是集體(A和B)的最佳策略。囚徒困境中彰顯的人性特點和理性信任觀囚徒困境中個人的理性選擇卻是集體的非理性選擇,從人性的角度來看,就會發(fā)現(xiàn)其中包含著人性惡的傾向。如果A是善的,那么會出現(xiàn)兩種情況,第一種情況是A堅持不認罪也不供出B,B同樣也是堅持不認罪也不供出A;第二種情況是,A堅持不認罪,B認罪。如果A是惡的,那么也會出現(xiàn)兩種情況,第一種情況是A認罪也供出B,而B不認罪.第二種情況是A認罪也供出B,B也認罪且也供出A。從善的角度考慮問題,可能得到最好的(1年)和最糟的(10年)的處罰結(jié)果;從惡的角度考慮,可能得到最好的(0年)和最糟的(5年)的處罰結(jié)果。A、B雙方都從自己的利益考慮,選擇惡的可能性會更大些。由此從囚徒困境中看到了人性惡的傾向。在很多情況下,人面對的是一種集體條件下的困境,即博弈的雙方可能是兩大集團或更多的人,相同的博弈者可能會不斷地重復面對相似的困境,“有條件的合作策略”將可能是理性經(jīng)濟人的最優(yōu)策略。重復為博弈產(chǎn)生了新的動力結(jié)構(gòu)。通過重復,博弈者就可能按對手以往的選擇而決定當前的選擇。例如,存在一種所謂的“一觸即發(fā)”策略,即“只要你背叛,我隨后將永遠背叛”,當雙方保持背叛的狀態(tài)時,就失去了雙方獲益的機會。而如果雙方合作,其前提是雙方的相互信任,就可能爭取到雙方獲益的機會。還存在另一種所謂的“一報還一報”的策略,以合作開始,然后模
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度婚姻解除協(xié)議談判策略與技巧詳解3篇
- 二零二五年度個人健康保險產(chǎn)品定制合同
- 美容行業(yè)護膚技術(shù)培訓總結(jié)
- 娛樂休閑行業(yè)推廣總結(jié)
- 二零二五年度個人快遞業(yè)務(wù)承包合同范本8篇
- 科創(chuàng)孵化器服務(wù)模式與運營模式
- 二零二五版庭院租賃合同包含庭院內(nèi)咖啡廳經(jīng)營許可3篇
- 二零二五年度金融業(yè)務(wù)授權(quán)委托書模板與字號規(guī)范6篇
- 二零二五年度農(nóng)田租賃與農(nóng)業(yè)電商平臺合作協(xié)議4篇
- 二零二五年度設(shè)計公司股權(quán)轉(zhuǎn)讓與智慧城市建設(shè)合同3篇
- (八省聯(lián)考)云南省2025年普通高校招生適應性測試 物理試卷(含答案解析)
- 印刷品質(zhì)量保證協(xié)議書
- 二年級數(shù)學上冊100道口算題大全(每日一練共12份)
- 河南省鄭州市2023-2024學年高一下學期6月期末數(shù)學試題(無答案)
- 七年級數(shù)學垂線1
- JTG C10-2007 公路勘測規(guī)范
- 糖尿病酮癥酸中毒護理查房演示課件
- 重大危險源的風險評估模型
- 采購支出管理制度
- 湖北十堰燃氣爆炸事故案例
- 混凝土試件臺賬
評論
0/150
提交評論