第3章 安全信息分析技術(安全信息工程)_第1頁
第3章 安全信息分析技術(安全信息工程)_第2頁
第3章 安全信息分析技術(安全信息工程)_第3頁
第3章 安全信息分析技術(安全信息工程)_第4頁
第3章 安全信息分析技術(安全信息工程)_第5頁
已閱讀5頁,還剩142頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、主講:楊應迪安全信息工程E-mail:39330480學時:44Del:1395546042013 安全信息分析技術獲取加工展示信 息23 安全信息分析技術加工怎么加工合理加工信 息無序問題有序化定性問題定量化 定量問題程序化 33 安全信息分析技術定量分析定性分析半定量分析信 息非結構化半結構化結構化43 安全信息分析技術文字分析圖表分析可視化分析信 息虛擬現(xiàn)實53 安全信息分析技術時間分析空間分析時空分析信 息多維分析二維分析三維分析63 安全信息分析技術人工分析計算機輔助分析計算機分析智能化信 息7第3章 安全信息分析技術3.1 統(tǒng)計分析技術3.2 機器學習方法3.3 不確定性理論3.4

2、 數(shù)據(jù)庫技術3.5 可視化技術課時:683 安全信息分析技術 從現(xiàn)代安全生產(chǎn)管理的實際需要和總的發(fā)展趨勢分析,把現(xiàn)代的計算機技術與安全科學管理技術有機地結合,綜合運用安全系統(tǒng)管理理論及事故分析預測決策技術,將會大大促進安全預測理論及方法技術的進一步提高。 “安全第一,預防為主”,預測是預防的前提,預測是決策的基礎,工業(yè)事故的預測預防及其輔助決策分析評價已成為現(xiàn)代安全管理的核心。93 安全信息分析技術 趨勢是由客觀事物內(nèi)在因素所決定的,內(nèi)在的必然因素對客觀事物的各個時期都起著普遍的、長期的、決定性的作用,并且使各個時期的發(fā)展水平沿著一個方向,即上升或下降持續(xù)發(fā)展,由此形成客觀事物在較長時期比較穩(wěn)

3、定發(fā)展變化線索和基本規(guī)律。 長期趨勢一方面由內(nèi)在因素所決定,呈現(xiàn)穩(wěn)定的發(fā)展變化;另一方面在具體的時間條件下,它又受外在的偶然因素的影響,表現(xiàn)為上下起伏波動,變化規(guī)律不明顯。正是由于這種暫時的外在偶然因素的影響,在短時間內(nèi)難以認識與掌握客觀事物發(fā)展的基本規(guī)律,需要從相當長的時期內(nèi)進行觀察和分析。因為在較長時期內(nèi)外在的偶然因素影響會相互抵消。103 安全信息分析技術水平型趨勢型113 安全信息分析技術周期變動型隨機型 隨機型時間序列模式是指時間序列所呈現(xiàn)的變化趨勢走向升降不定、沒有一定的規(guī)律可循的變動勢態(tài)。這種現(xiàn)象往往是由于某些偶然因素引起的,如經(jīng)濟現(xiàn)象中的不規(guī)則變動、政治變動以及自然氣候的突變等

4、因素所致。對于這類時間序列模式,很難運用時間序列預測方法做出預測,但有時也可通過某種統(tǒng)計處理,消除不規(guī)則因素影響,找出事物的固有變化規(guī)律,從而進行分析預測。 12 信息統(tǒng)計是指以某一特定單位對信息或其相關媒介進行統(tǒng)一的計量。信息統(tǒng)計分析技術是利用統(tǒng)計學方法對信息進行統(tǒng)計分析,以數(shù)據(jù)來描述和揭示信息的數(shù)量特征和變化規(guī)律,從而達到一定研究目的的一種分析研究方法。 信息統(tǒng)計是安全信息研究的基礎工作,信息統(tǒng)計數(shù)據(jù)是開展信息定量研究的必要條件,運用信息統(tǒng)計分析方法可以反映信息的增長變化、分布特征、流通狀況、利用程度,揭示信息的數(shù)量變化規(guī)律,為信息單位的信息管理提供依據(jù)。3.1統(tǒng)計分析技術定義定時信息統(tǒng)計

5、定量信息統(tǒng)計定性信息統(tǒng)計 133.1統(tǒng)計分析技術電力143.1統(tǒng)計分析技術建筑153.1統(tǒng)計分析技術交通163.1統(tǒng)計分析技術煤礦173.1統(tǒng)計分析技術戶外183.1統(tǒng)計分析技術全省19 我國煤炭在能源格局中占主導地位, 大概占94%, 若保持每年8. 9% 的增速, 2020年將占世界消耗的1/2, 因此, 煤炭對我國有著很大的戰(zhàn)略意義, 給國家和人民帶來了巨大利益, 然而我國的煤礦事故卻是世界上主要采煤國家煤礦死亡總人數(shù)的4倍以上, 是世界上煤礦事故最嚴重的國家之一, 這些事故給人們帶來了巨大身心傷害和心理傷害。在煤礦事故中, 尤以瓦斯事故最為嚴重, 占煤礦總事故的30%以上。就2007

6、- 2010 年間的煤礦瓦斯事故為依據(jù), 從瓦斯事故類型, 發(fā)生時間、發(fā)生地域等不同方面對瓦斯事故進行分析。 3.1統(tǒng)計分析技術煤礦重大瓦斯爆炸事故致因的概率分析及啟示201)時間序列分析2)回歸分析3)相關分析4)主成分分析5)聚類分析6)判別分析3.1統(tǒng)計分析技術方法21 時間序列分析 (Time series analysis) 是指歷史時間序列所反映的某種可以識別的事物變動趨勢形態(tài)。 3.1統(tǒng)計分析技術時間序列分析定義一是承認事物發(fā)展的延續(xù)性。二是考慮到事物發(fā)展的隨機性。 223.1統(tǒng)計分析技術時間序列分析時間序列組成因素長期趨勢(T) 季節(jié)變動(S) 循環(huán)波動(C) 不規(guī)則變動(I)

7、 組成要素 這4種因素的綜合模式有加法模式、乘法模式和混合模式。若以表示時間序列(=1,2,3,表示采樣時刻),則加法模式的時間序列是上述4種變動因素的相加,=(T)+(C)+(S)+(I);而乘法模式的則是上述4種變動因素的相乘,=(T)(C)(S)(I)。 時間序列法分為兩類:不細分4種變動因素而直接利用時間序列數(shù)據(jù)建立數(shù)學模型,進行預測。對4種變動因素有側重地進行預處理,從而派生出剔除季節(jié)變動法、移動平均法、指數(shù)平滑法、自回歸法、時間函數(shù)擬合法等具體預測方法。233.1統(tǒng)計分析技術時間序列分析組成要素大氣壓變化243.1統(tǒng)計分析技術時間序列分析第一步:用觀測、調(diào)查、統(tǒng)計、抽樣等方法取得被

8、觀測系統(tǒng)時間序列動態(tài)數(shù)據(jù); 第二步:根據(jù)動態(tài)數(shù)據(jù)作相關圖,進行相關分析,求自相關函數(shù);第三步:辨識合適的隨機模型,進行曲線擬合,即用通用隨機模型去擬合時間序列的觀測數(shù)據(jù)。步驟25系統(tǒng)描述 系統(tǒng)分析 預測未來 決策和控制 3.1統(tǒng)計分析技術時間序列分析主要用途263.1統(tǒng)計分析技術時間序列分析常用算法算術平均法移動平均法滑動平均法指數(shù)滑動平均法27運用算術平均法求平均數(shù),進行預測有兩種形式:以最后一年的每月平均值或數(shù)年的每月平均值,作為次年的每月預測值;以觀察期的每月平均值作為預測期對應月份的預測值。 算術平均法簡易法3.1統(tǒng)計分析技術時間序列分析常用算法283.1統(tǒng)計分析技術時間序列分析常用算

9、法 加權算術平均法是根據(jù)觀察期各數(shù)據(jù)重要性(時間順序數(shù))的不同,分別給以不同的權數(shù)加以平均,計算出觀測值的加權算術平均數(shù),以這一數(shù)字作為預測未來期間該變量預測值的一種趨勢預測方法。 采用這種方法來確定預測值,目的是為了適當擴大重要數(shù)據(jù)對預測值的影響作用。 歸一化處理 算術平均法加權法29移動平均法3.1統(tǒng)計分析技術時間序列分析常用算法移動平均法(Moving Average Method)是根據(jù)時間序列,逐項推移,依次計算包含一定項數(shù)的序時平均數(shù),以此進行預測的方法。模式是: 可以看出,所謂“移動”,是因為總是對近期的歷史資料數(shù)據(jù)取平均,隨著時間推移,不斷引進新的數(shù)據(jù),而“平均”則起到了“濾波

10、”作用,濾掉了隨機波動。30移動平均法3.1統(tǒng)計分析技術時間序列分析常用算法移動平均法包括一次移動平均法、加權移動平均法和二次移動平均法 。一次移動平均法加權移動平均法二次移動平均法31移動平均法3.1統(tǒng)計分析技術時間序列分析常用算法直接式 計算公式有三個變形:直接式、循環(huán)式及誤差改正式。 32移動平均法3.1統(tǒng)計分析技術時間序列分析常用算法循環(huán)式 循環(huán)式是遞推的方法,預測值用新的觀測值和舊預測值計算。加進新觀測值Xt之后,變成:33移動平均法3.1統(tǒng)計分析技術時間序列分析常用算法誤差改正式 計算誤差的符號是e,算式是:343.1統(tǒng)計分析技術時間序列分析常用算法滑動平均法(移動) 監(jiān)控系統(tǒng)觀測

11、的參數(shù)值時間序列是由長期趨勢、周期變動和不規(guī)則變動交織運動的綜合結果,如果要測定出長期趨勢,就要將時間序列中的其他影響因素消除掉,以便使長期趨勢分離出來。 滑動平均數(shù)預測是一種局部固定平均數(shù)模型, 它是對N項原始序列,取K 項滑動平均來反映序列的變動軌跡,模式是:353.1統(tǒng)計分析技術時間序列分析常用算法滑動平均法滑動平均法的優(yōu)點是對資料中的隨機波動進行了有效的平滑,但是確定滑動平均的項數(shù)是一個非常重要的問題。因為項數(shù)的多少直接影響到數(shù)列的修勻程度。一般項數(shù)越多,修勻的作用越大,反之越小。然而,如果序列的基本軌跡正在發(fā)生變化,則k宜小不宜大,否則會平滑掉數(shù)列的基本軌跡。363.1統(tǒng)計分析技術時

12、間序列分析常用算法指數(shù)滑動平均法 滑動平均線其實是對各平均項等權值進行平均,但實際上各項的影響作用并不相等,從理論上講越接近預測期的數(shù)據(jù)對準確預測的貢獻越大。指數(shù)平滑彌補了滑動平均的這一不足,它采用折扣因子對序列觀察值進行指數(shù)加權,權數(shù)分配的原則是由近及遠遞減分配。 指數(shù)平滑是利用現(xiàn)有數(shù)據(jù)的加權平均數(shù)來構造趨勢方程的統(tǒng)計方法。指數(shù)平滑值和平滑系數(shù)是該法的兩個主要參數(shù)。指數(shù)平滑值是指如下公式推導的數(shù)值: 373.1統(tǒng)計分析技術時間序列分析常用算法383.1統(tǒng)計分析技術時間序列分析案例基于監(jiān)測系統(tǒng)的瓦斯與煤突出實時預報研究 393.1統(tǒng)計分析技術回歸分析預測法定義非典模型40 回歸分析預測法,是在

13、分析某種現(xiàn)象自變量和因變量之間相關關系的基礎上,建立變量之間的回歸方程,并將回歸方程作為預測模型,根據(jù)自變量在預測期的數(shù)量變化來預測因變量關系大多表現(xiàn)為相關關系。因此,回歸分析預測法是一種重要的預測方法,當我們在對某種現(xiàn)象未來發(fā)展狀況和水平進行預測時,如果能將影響預測對象的主要因素找到,并且能夠取得其數(shù)量資料,就可以采用回歸分析預測法進行預測。它是一種具體的、行之有效的、實用價值很高的常用預測方法。3.1統(tǒng)計分析技術回歸分析預測法定義413.1統(tǒng)計分析技術回歸預測法1)根據(jù)預測目標,確定自變量和因變量2)收集歷史數(shù)據(jù)3)分析變量間的關系,建立回歸預測模型4)進行相關分析,用最小二乘法進行回歸5

14、)檢驗回歸預測模型,計算預測誤差 6)計算并確定預測值 步驟海因里希法則423.1統(tǒng)計分析技術回歸預測法433.1統(tǒng)計分析技術回歸預測法44 依據(jù)相關關系中自變量的個數(shù)不同分類,可分為一元回歸分析預測法和多元回歸分析預測法。在一元回歸分析預測法中,自變量只有一個,而在多元回歸分析預測法中,自變量有兩個以上。3.1統(tǒng)計分析技術回歸分析預測法分類453.1統(tǒng)計分析技術回歸預測法依據(jù)自變量和因變量之間的相關關系不同,可分為線性回歸預測和非線性回歸預測。分類463.1統(tǒng)計分析技術回歸預測法473.1統(tǒng)計分析技術回歸預測法483.1統(tǒng)計分析技術相關分析法相關分析法是測定安全事故因素之間相關關系的規(guī)律性,

15、并據(jù)以進行預測和控制事故的分析方法。493.1統(tǒng)計分析技術相關分析法兩個變量都必須是隨機的;而回歸分析則要求因變量必須是隨機的,自變量則不能是隨機的,而是規(guī)定的值,這與在回歸方程中用給定的自變量值來估計平均的因變量值是一致的。防止虛假相關和虛假回歸。在對兩個時間數(shù)列進行相關分析和回歸分析時,常因各期指標值受時間因素的強烈影響而損傷了所需要的隨機性;也有時兩個時間數(shù)列表面上似有同升同降的變動,實際上并無本質(zhì)聯(lián)系。對這類資料求出的高度相關系數(shù)或回歸聯(lián)系,往往是一種假象。503.1統(tǒng)計分析技術主成分分析法主成分分析(Principal Component Analysis,PCA), 將多個變量通過

16、線性變換以選出較少個數(shù)重要變量的一種多元統(tǒng)計分析方法。又稱主分量分析513.1統(tǒng)計分析技術主成分分析法聚類分析判別分析是在分類確定的條件下,根據(jù)某一研究對象的各種特征值判別其類型歸屬問題的一種多變量統(tǒng)計分析方法。指將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程。523.2機器學習方法53 機器學習則是計算機獲取知識的重要途徑和人工智能的重要標志,是一門研究怎樣用計算機來模擬或?qū)崿F(xiàn)人類學習活動的學科,是研究如何使機器通過識別和利用現(xiàn)有知識來獲取新知識和新技能。 一般認為,機器學習是一個有特定目的的知識獲取過程,其內(nèi)部表現(xiàn)為從未知到已知這樣一個知識增長過程,其外部表現(xiàn)為系統(tǒng)的某些性

17、能和適應性的改善,使得系統(tǒng)能完成原來不能完成或更好地完成原來可以完成的任務。它既注重知識本身的增加,也注重獲取知識技能的提高。3.2機器學習方法543.2機器學習方法基本結構環(huán)境、學習、知識庫、執(zhí)行 553.2機器學習方法研究方向 機器學習的研究目標大致有三個方向: 第一個方向是基礎性訓究,發(fā)展各種適合機器特點的學習理淪,探討所有可能的學習方法,比較人類學習與機器學習的異同與聯(lián)系; 第二個方向是以模擬人類的學習過程出發(fā),試圖建立學習的認識生理學模型,這個方向與認知科學的發(fā)展密切相關; 第三個方向是應用研究,建立各種實用的學習系統(tǒng)或知識獲取輔助工具,在人工智能科學的應用領域建立自動獲取知識系統(tǒng),

18、積累經(jīng)驗,完善知識庫與控制知識,進而能使機器的智能水平像人類一樣。563.2機器學習方法學習方法(1)規(guī)則歸納(2)案例學習方法(3)遺傳算法(4)免疫算法(5)蟻群算法(6)決策樹方法機械學習 歸納學習 類比學習 解釋學習知識發(fā)現(xiàn) 決策樹學習神經(jīng)網(wǎng)絡學習57機械式學習是基于記憶和檢索的方法,學習方法很簡單,但學習系統(tǒng)需要幾種能力: 能實現(xiàn)有組織的存儲信息; 能進行信息結合; 能控制檢索方向。 對于機械式學習,需要注意三個重要的問題:存儲組織信息、環(huán)境的穩(wěn)定性與存儲信息的適用性以及存儲與計算之間的權衡。機械式學習的學習程序不具有推理能力,只是將所有的信息存入計算機來增加新知識,其實質(zhì)上是用存儲

19、空間換取處理時間,雖然節(jié)省了計算時間,但卻多占用存儲空間。當因?qū)W習而積累的知識逐漸增多時,占用的空間就會越來越大,檢索的效率也將隨之下降。所以,在機械式學習中要全面權衡時間與空間的關系。3.2機器學習方法機械學習58 決策樹是決策過程的一種有序的概率圖解表示,因此,決策樹分析決策方法又稱概率分析決策方法,是風險型決策中的基本方法之一。 決策樹法是一種演繹性方法,它將決策對象按其因果關系分解成連續(xù)的層次與單元,以圖的形式進行決策分析,由于這種決策圖形似樹枝,故俗稱“決策樹”。3.2機器學習方法決策樹法學習決策樹59 方塊表示決策點,從它引出的分支叫方案分支,分支數(shù)即為可能的行動方案數(shù)。 圓圈表示

20、方案節(jié)點(也稱自然狀態(tài)點),從它引出的分支叫概率分支,每條分支的上面注明了自然狀態(tài)(客觀條件)及其概率值,分支數(shù)即為可能出現(xiàn)的自然狀態(tài)數(shù)。 三角表示結果節(jié)點(也稱“末梢”),它旁邊的數(shù)值是每一方案在相應狀態(tài)下的收益值。3.2機器學習方法決策樹法學習決策樹60 某廠因生產(chǎn)上的需要,考慮自行研制一個新的安全裝置。首先,這個研制項目是否要向上級公司申報,如果準備申報,則需要申報的費用5000元,不準備申報,則可省去這筆費用,這一事件決策者完全可以決定,這是一個主觀抉擇環(huán)節(jié)。如果決定向上申報,上級公司批準的概率為0.8,而不批準的概率為0.2,這種不能由決策者自身抉擇的環(huán)節(jié)稱為客觀隨機抉擇環(huán)節(jié)。接下來

21、是采取“本廠獨立完成”形式還是由“外單位協(xié)作完成”形式來研制這一安全裝置、這也是主觀抉擇環(huán)節(jié)。每種形式都有失敗可能,如果研制成功(無論哪一種形式),能有6萬元的效益;若采用“獨立完成”形式,則研制費用為2.5萬元。成功概率為0.7,失敗概率為0.3;若采用“外廠協(xié)作”形式,則支付研制費用為4萬元,成功概率為0.9、失敗概率為0.1。3.2機器學習方法決策樹法學習決策樹示例61 首先畫出決策樹,見下圖所示。 然后根據(jù)上述數(shù)據(jù)計算各結果點的收益值(收益效益費用),并填在“”符號旁。 3.2機器學習方法決策樹法學習決策樹示例62獨立研制成功的收益: 6052530(千元)獨立研制失敗的收益: 052

22、530(千元)協(xié)作研制成功的收益; 6054015(干元)協(xié)作研制失敗的收益: 054045(干元)3.2機器學習方法決策樹法學習決策樹示例63按照期望值公式計算期望價值: 式中,Vi事件i的條件價值; Pi特定事件i的發(fā)生概率; n事件總數(shù)。獨力研制成功的期望值: E(V6)0.7*30+0.3*(-30)=12協(xié)作研制成功的期望值: E(V7)0.9*15+0.1*(-45)=93.2機器學習方法決策樹法學習決策樹示例64 根據(jù)期望值決策準則,決策目標,如果決策目標是收益最大,則采用期望值最大的行動方案,如果決策目標是使損失最小,則選定期望值最小的行動方案。本例選用期望值大者。即選用獨立研

23、制形式。接下去在節(jié)點4處填入12數(shù)值,在下方結果結點5旁填入5(申報費),計算申報環(huán)節(jié)的期望值: E(V2)0.8*12+0.2*(-5)=8.53.2機器學習方法決策樹法學習決策樹示例65適用問題的特征實例由“屬性-值”對表示目標函數(shù)具有離散的輸出值可能需要析取的描述訓練數(shù)據(jù)可以包含錯誤訓練數(shù)據(jù)可以包含缺少屬性值的實例分類問題核心任務是把樣例分類到各可能的離散值對應的類別3.2機器學習方法決策樹法學習適用的問題66大多數(shù)決策樹學習算法是一種核心算法的變體采用自頂向下的貪婪搜索遍歷可能的決策樹空間貪心算法算法代表: ID33.2機器學習方法決策樹法學習學習算法ID3的思想自頂向下構造決策樹從“

24、哪一個屬性將在樹的根節(jié)點被測試”開始使用統(tǒng)計測試來確定每一個實例屬性單獨分類訓練樣例的能力ID3的過程分類能力最好的屬性被選作樹的根節(jié)點根節(jié)點的每個可能值產(chǎn)生一個分支訓練樣例排列到適當?shù)姆种е貜蜕厦娴倪^程67ID3(Examples, Target_attribute, Attributes)創(chuàng)建樹的root節(jié)點如果Examples都為正,返回label=+的單節(jié)點樹root如果Examples都為反,返回label=-的單節(jié)點樹root如果Attributes為空,那么返回單節(jié)點root,label=Examples中最普遍的Target_attribute值否則開始AAttributes中

25、分類examples能力最好的屬性root的決策屬性A對于A的每個可能值vi在root下加一個新的分支對應測試A=vi令Examplesvi為Examples中滿足A屬性值為vi的子集如果Examplesvi為空在這個新分支下加一個葉子節(jié)點,節(jié)點的label=Examples中最普遍的Target_attribute值否則在新分支下加一個子樹ID3( Examplesvi,Target_attribute,Attributes-A)結束返回root3.2機器學習方法決策樹法學習學習算法概要683.2機器學習方法決策樹法學習學習算法示例693.2機器學習方法決策樹法學習學習算法示例70過度擬合對

26、于一個假設,當存在其他的假設對訓練樣例的擬合比它差,但事實上在實例的整個分布上表現(xiàn)得卻更好時,我們說這個假設過度擬合訓練樣例定義:給定一個假設空間H,一個假設hH,如果存在其他的假設hH,使得在訓練樣例上h的錯誤率比h小,但在整個實例分布上h的錯誤率比h小,那么就說假設h過度擬合訓練數(shù)據(jù)。3.2機器學習方法決策樹法學習學習算法過度擬合數(shù)據(jù)713.2機器學習方法決策樹法學習學習算法過度擬合數(shù)據(jù)72導致過度擬合的原因訓練樣例含有隨機錯誤或噪聲當訓練數(shù)據(jù)沒有噪聲時,過度擬合也有可能發(fā)生特別是當少量的樣例被關聯(lián)到葉子節(jié)點時,很可能出現(xiàn)巧合的規(guī)律性,使得一些屬性恰巧可以很好地分割樣例,但卻與實際的目標函

27、數(shù)并無關系。3.2機器學習方法決策樹法學習學習算法避免過度擬合數(shù)據(jù)73避免過度擬合的方法及早停止樹增長后修剪法兩種方法的特點第一種方法更直觀第一種方法中,精確地估計何時停止樹增長很困難第二種方法被證明在實踐中更成功3.2機器學習方法決策樹法學習學習算法避免過度擬合數(shù)據(jù)74避免過度擬合的關鍵使用什么樣的準則來確定最終正確樹的規(guī)模解決方法使用與訓練樣例截然不同的一套分離的樣例,來評估通過后修剪方法從樹上修建節(jié)點的效用。使用所有可用數(shù)據(jù)進行訓練,但進行統(tǒng)計測試來估計擴展(或修剪)一個特定的節(jié)點是否有可能改善在訓練集合外的實例上的性能。使用一個明確的標準來衡量訓練樣例和決策樹的復雜度,當這個編碼的長度

28、最小時停止樹增長。3.2機器學習方法決策樹法學習學習算法避免過度擬合數(shù)據(jù)75方法評述第一種方法是最普通的,常被稱為訓練和驗證集法??捎脭?shù)據(jù)分成兩個樣例集合:訓練集合,形成學習到的假設驗證集合,評估這個假設在后續(xù)數(shù)據(jù)上的精度方法的動機:即使學習器可能會被訓練集合誤導,但驗證集合不大可能表現(xiàn)出同樣的隨機波動驗證集合應該足夠大,以便它本身可提供具有統(tǒng)計意義的實例樣本。常見的做法是,樣例的三分之二作訓練集合,三分之一作驗證集合。3.2機器學習方法決策樹法學習學習算法避免過度擬合數(shù)據(jù)76 人工神經(jīng)網(wǎng)絡(Artificial Neural Networks,簡寫為ANN)也簡稱為神經(jīng)網(wǎng)絡(NN),它是一種

29、模范動物神經(jīng)網(wǎng)絡行為特征,進行分布式并行信息處理的算法數(shù)學模型。這種網(wǎng)絡依靠系統(tǒng)的復雜程度,通過調(diào)整內(nèi)部大量節(jié)點之間相互連接的關系,從而達到處理信息的目的。 3.2機器學習方法神經(jīng)網(wǎng)絡學習77 神經(jīng)網(wǎng)絡的學習,也就是訓練過程,指的是輸入層神經(jīng)元接收輸入信息,傳遞給中間層神經(jīng)元,最后傳遞到輸出層神經(jīng)元,由輸出層輸出信息處理結果的過程。 在這個過程中,神經(jīng)網(wǎng)絡通過不斷調(diào)整網(wǎng)絡的權值和閾值,達到學習、訓練的目的,當網(wǎng)絡輸出的誤差減少到可以接受的程度,或者預先設定的學習次數(shù)后,學習就可以停止了。3.2機器學習方法神經(jīng)網(wǎng)絡學習78研究內(nèi)容:(1)生物原型研究(2)建立理論模型(3)網(wǎng)絡模型與算法研究(4

30、)人工神經(jīng)網(wǎng)絡應用系統(tǒng)工作原理: 人工神經(jīng)網(wǎng)絡是由大量的簡單基本元件神經(jīng)元相互聯(lián)接而成的自適應非線性動態(tài)系統(tǒng)。每個神經(jīng)元的結構和功能比較簡單,但大量神經(jīng)元組合產(chǎn)生的系統(tǒng)行為卻非常復雜。 人工神經(jīng)網(wǎng)絡反映了人腦功能的若干基本特性,但并非生物系統(tǒng)的逼真描述,只是某種模仿、簡化和抽象。3.2機器學習方法神經(jīng)網(wǎng)絡學習79 與數(shù)字計算機比較,人工神經(jīng)網(wǎng)絡在構成原理和功能特點等方面更加接近人腦,它不是按給定的程序一步一步地執(zhí)行運算,而是能夠自身適應環(huán)境、總結規(guī)律、完成某種運算、識別或過程控制。基于神經(jīng)網(wǎng)絡的煤炭自燃預測預報技術研究3.2機器學習方法神經(jīng)網(wǎng)絡學習80 即量子物理基本定則,由海森堡提出的理論,

31、其表述為:人們永遠不能準確知道粒子的位置和速度;對其中一個知道得越精確,則對另一個就知道得越不準確。也可理解為一個趨于完美的事件它也只能無窮大的接近100而不能達到100,而那0.001%則可能會使它原本趨于完美的完美變得不再完美;從而改變該事件,使該事件變成另一個相對的只能無窮大的接近100而不能達到100的新事件;即一切皆有可能。3.3不確定性理論81(1)模糊邏輯(2)灰色理論(3)粗糙集理論(4)證據(jù)理論(5)貝葉斯網(wǎng)絡(6)可拓理論3.3不確定性理論方法82 模糊數(shù)學又稱Fuzzy 數(shù)學,是研究和處理模糊性現(xiàn)象的一種數(shù)學理論和方法。在1965 年美國控制論學者L.A.扎德發(fā)表論文模糊

32、集合,標志著這門新學科的誕生?,F(xiàn)代數(shù)學建立在集合論的基礎上。一組對象確定一組屬性,人們可以通過指明屬性來說明概念,也可以通過指明對象來說明。符合概念的那些對象的全體叫做這個概念的外延,外延實際上就是集合。一切現(xiàn)實的理論系統(tǒng)都有可能納入集合描述的數(shù)學框架。3.3不確定性理論模糊數(shù)學83舉例說明在日常生活中,經(jīng)常遇到許多模糊事物,沒有分明的數(shù)量界限,要使用一些模糊的詞句來形容、描述。比如,比較年輕、高個、大胖子、好、漂亮、善、熱、遠。這些概念是不可以簡單地用是、非或數(shù)字來表示的。在人們的工作經(jīng)驗中,往往也有許多模糊的東西。例如,要確定一爐鋼水是否已經(jīng)煉好,除了要知道鋼水的溫度、成分比例和冶煉時間等

33、精確信息外,還需要參考鋼水顏色、沸騰情況等模糊信息。因此,除了很早就有涉及誤差的計算數(shù)學之外,還需要模糊數(shù)學。3.3不確定性理論模糊數(shù)學84課堂教學的評價模型問題背景 對教師的課堂教學進行評價,是教師評價的一個方面。由于課堂教學優(yōu)良的度量是模糊的,因此很難明確地界定。 教師的課堂教學是一種復雜的智力活動與勞動,不僅涉及到所授課程的知識,而且旁及教育學、心理學、語言學等。跟教師的工作熱情、工作態(tài)度和業(yè)務水平有相當?shù)年P系。 因此,要考慮在抓住課堂教學的主要因素和講授的基本要求后,設計評定量表,采用先定性,后定量,次量化的方法進行模糊評價。3.3不確定性理論模糊數(shù)學85課堂教學的評價模型課堂教學主要

34、因素和基本要求課堂教學的主要因素和基本要求構成集合 U =u0,u1,u2,u3,u4,u5,u6,u7,u8,u9評語構成集合V=v1,v2,v3,v4,v5 v1=很好 v2=好 v3=較好 v4=差 v5=很差3.3不確定性理論模糊數(shù)學86課堂教學的評價模型表1 課堂教學定性表舉例說明問題u9主次有所區(qū)分u8注意前后呼應u7講授內(nèi)容熟練u6內(nèi)容正確無誤u5講度掌握適中u4條理清楚好記u3板書工整得當u2講話清晰從容ul儀態(tài)端莊親切u0很差v5差 v4較好v3好 v2很好vl 評 語教學要求3.3不確定性理論模糊數(shù)學87課堂教學的評價模型表2 課堂教學定量表u95u94u93u92u91c

35、9u9c8u8c7u7c6u6c5u5c4u4c3u3c2u2c1u1u05u04u03u02u01c0u0v5v4v3v2v1權數(shù)項目3.3不確定性理論模糊數(shù)學88課堂教學的評價模型教學定性表和定量表的得到根據(jù)統(tǒng)計表1的結果,填寫課堂教學定量表(表2)表2中,uij (i=0,1, ,9; j=1, ,5)為表1中 uivj欄中打“”的數(shù)目。令n為所收回的定性表1的有效張數(shù),構造矩陣A A=(aij)105其中 aij=uij/n (i=0,1,2,.,9;j=1,2,.,5) 3.3不確定性理論模糊數(shù)學89課堂教學的評價模型第一次量化模型 確定權向量C的每一個分量ci(i=0,1,,9)

36、要求 ci0, (i=0,1,9); ci=1比如取 c0=0.10,c1=0.11,c2=0.11, c3=0.09, c4=0.08 c5=0.08,c6=0.09,c7=0.10,c8=0.12, c9=0.12于是作 D = CA D=(d1,d2,d3,d4,d5) 其中 dj=i ciaij (j=1,2,3,4,5)填寫第一次量化表3d5d4d3d2d1很差差較好好很好3.3不確定性理論模糊數(shù)學90課堂教學的評價模型第二次量化模型 確定常數(shù), 1, 2, 3 且 0.75 1, 0.5 1 23 較好 d1+1d2 , d1+1d2+ 2d3 好d1 , d1+1d2 很好d1

37、則課堂教學評價為如果符合下列條件3.3不確定性理論模糊數(shù)學91課堂教學的評價模型說明 通過建立模糊數(shù)學模型對教師的課堂教學進行評價,不僅能客觀反映教師素質(zhì)的真實情況,而且能使定性描述定量化。 整個計算步驟明確、判斷簡便,還能夠分出程度差異,替代了不科學的“印象”評價,是有現(xiàn)實意義的。3.3不確定性理論模糊數(shù)學92礦井通風系統(tǒng)可靠性評價3.3不確定性理論模糊數(shù)學93 按國際慣例,控制論中,信息多少常以顏色深淺來表示。信息充足、確定(已知)的為白色,信息缺乏、不確定(未知)的為黑色,部分確定與部分不確定的為灰色。那些既有已知參數(shù)又有未知參數(shù)的系統(tǒng),如:人體就是既有白色參數(shù)(已知的外型參數(shù))又有黑色

38、參數(shù)(未知的人體穴位功能)的灰色系統(tǒng)。 灰色系統(tǒng)論的作用,其理論作用是: 1)實踐中摸索出來的規(guī)律過去不容易用一般控制理論解釋的,可以用新系統(tǒng)理論進行解釋、提高,從而使軟件更完整、深入、量化; 2)可以得到新的控制系統(tǒng); 3)有助于促進社會系統(tǒng)與經(jīng)濟系統(tǒng)的量化研究。3.3不確定性理論灰色理論94相對于一定認識層次,內(nèi)部信息部分已知、部分未知的系統(tǒng),即信息不完全的系統(tǒng)??刂普撝谐=柚伾珌肀硎?,研究者對系統(tǒng)內(nèi)部信息和對系統(tǒng)本身的了解及認識程度?!昂凇北硎拘畔⑼耆狈?,“白”表示信息完全、“灰”表示信息不充分、不完全。黑、白、灰是相對于一定認識層次而言的,因而具有相對性。白色系統(tǒng)是全開放性的、黑色

39、系統(tǒng)是全封閉性的。灰色系統(tǒng)則介于兩者之間,是半開放半封閉性的。3.3不確定性理論灰色理論基于灰色系統(tǒng)的建筑施工安全管理系統(tǒng)95應用舉例 例:利用灰色關聯(lián)分析對6位教師工作狀況進行綜合評價 1)評價指標包括:專業(yè)素質(zhì)、外語水平、教學工作量、科研成果、論文、著作與出勤。3.3不確定性理論灰色理論示例962)對原始數(shù)據(jù)經(jīng)處理后得到以下數(shù)值,見下表 編號專業(yè)外語教學量科研論文著作出勤1898752927875738397966474688843658669838689576483.3不確定性理論灰色理論示例973)確定參考數(shù)據(jù)列: 4)計算 , 見下表編號專業(yè)外語教學量科研論文著作出勤11012370

40、22124161302032524311146351330061610422513.3不確定性理論灰色理論示例985)求最值6) 取計算,得 3.3不確定性理論灰色理論示例99同理得出其它各值,見下表編號10.7781.0000.7780.6360.4670.3331.00020.636 0.778 0.636 0.467 0.636 0.368 0.778 31.000 0.636 1.000 0.538 0.538 0.412 0.636 40.538 0.778 0.778 0.778 0.412 0.368 0.538 50.778 0.538 0.538 1.000 0.778 0.

41、368 0.778 60.778 1.000 0.467 0.636 0.538 0.412 0.778 3.3不確定性理論灰色理論示例1007)分別計算每個人各指標關聯(lián)系數(shù)的均值(關聯(lián)序): 8)如果不考慮各指標權重(認為各指標同等重要),六個被評價對象由好到劣依次為1號,5號,3號,6號,2號,4號即 3.3不確定性理論灰色理論示例101混沌理論(Chaos theory)是一種兼具質(zhì)性思考與量化分析的方法,用以探討動態(tài)系統(tǒng)中(如:人口移動、化學反應、氣象變化、社會行為等)無法用單一的數(shù)據(jù)關系,而必須用整體、連續(xù)的數(shù)據(jù)關系才能加以解釋及預測之行為。3.3不確定性理論混沌理論丟失一個釘子,壞

42、了一只蹄鐵;壞了一只蹄鐵,折了一匹戰(zhàn)馬;折了一匹戰(zhàn)馬,傷了一位騎士;傷了一位騎士,輸了一場戰(zhàn)斗;輸了一場戰(zhàn)斗,輸了一場戰(zhàn)爭;輸了一場戰(zhàn)爭,亡了一個帝國。102混沌現(xiàn)象起因于物體不斷以某種規(guī)則復制前一階段的運動狀態(tài),而產(chǎn)生無法預測的隨機效果。所謂“差之毫厘,失之千里”正是此一現(xiàn)象的最佳批注。具體而言,混沌現(xiàn)象發(fā)生于易變動的物體或系統(tǒng),該物體在行動之初極為單純,但經(jīng)過一定規(guī)則的連續(xù)變動之后,卻產(chǎn)生始料所未及的后果,也就是混沌狀態(tài)。但是此種混沌狀態(tài)不同于一般雜亂無章的的混亂狀況,此一混沌現(xiàn)象經(jīng)過長期及完整分析之后,可以從中理出某種規(guī)則出來?;煦绗F(xiàn)象雖然最先用于解釋自然界,但是在人文及社會領域中因為事

43、物之間相互牽引,混沌現(xiàn)象尤為多見。如股票市場的起伏、人生的平坦曲折、教育的復雜過程。3.3不確定性理論混沌理論1033.3不確定性理論混沌理論混沌理論還有一個是發(fā)展人格,他有三個原則:1)能量永遠會遵循阻力最小的途徑2)始終存在著通常不可見的根本結構,這個結構決定阻力最小的途徑。3)這種始終存在而通常不可見的根本結構,不僅可以被發(fā)現(xiàn),而且可以被改變。基于分形_混沌理論的煤與瓦斯突出預測研究104 預測的對象是工業(yè)系統(tǒng)工作狀態(tài)的安全預測。 其方法是對工業(yè)生產(chǎn)短期微觀事故狀態(tài)預測擬選用模糊馬爾柯夫鏈預測法,其特點是系統(tǒng)某一時刻狀態(tài)僅與上一時刻狀態(tài)有關,而與以前時刻狀態(tài)無關。 其t+1時刻的狀態(tài)預測

44、模型表示為: Psik = maxPsi1, Psi2, . , Psi1原理3.3不確定性理論馬爾柯夫鏈1053.3不確定性理論馬爾柯夫鏈1063.3不確定性理論馬爾柯夫鏈1073.3不確定性理論馬爾柯夫鏈1083.3不確定性理論馬爾柯夫鏈1093.3不確定性理論馬爾柯夫鏈1103.3不確定性理論馬爾柯夫鏈111112 數(shù)據(jù)庫技術是信息系統(tǒng)的一個核心技術。是一種計算機輔助管理數(shù)據(jù)的方法,它研究如何組織和存儲數(shù)據(jù),如何高效地獲取和處理數(shù)據(jù)。3.4數(shù)據(jù)庫技術數(shù)據(jù)結構化 較高的數(shù)據(jù)獨立性 數(shù)據(jù)共享 方便的用戶接口 較強的數(shù)據(jù)控制能力 1133.4數(shù)據(jù)庫技術新技術分布式數(shù)據(jù)庫技術 面向?qū)ο髷?shù)據(jù)庫技術

45、 多媒體數(shù)據(jù)庫 數(shù)據(jù)倉庫 1143.4數(shù)據(jù)庫技術數(shù)據(jù)倉庫技術數(shù)據(jù)倉庫技術(Data Warehousing)是基于信息系統(tǒng)業(yè)務發(fā)展的需要,基于數(shù)據(jù)庫系統(tǒng)技術發(fā)展而來,并逐步獨立的一系列新的應用技術。 數(shù)據(jù)倉庫,英文名稱為Data Warehouse,可簡寫為DW或DWH。數(shù)據(jù)倉庫是為企業(yè)所有級別的決策制定過程提供支持的所有類型數(shù)據(jù)的戰(zhàn)略集合。它是單個數(shù)據(jù)存儲,出于分析性報告和決策支持的目的而創(chuàng)建。 為企業(yè)提供需要業(yè)務智能來指導業(yè)務流程改進和監(jiān)視時間、成本、質(zhì)量和控制。 1153.4數(shù)據(jù)庫技術數(shù)據(jù)倉庫技術 數(shù)據(jù)倉庫最根本的特點是物理地存放數(shù)據(jù),而且這些數(shù)據(jù)并不是最新的、專有的,而是來源于其它數(shù)據(jù)

46、庫的。數(shù)據(jù)倉庫的建立并不是要取代數(shù)據(jù)庫,它要建立在一個較全面和完善的信息應用的基礎上,用于支持高層決策分析,而事務處理數(shù)據(jù)庫在企業(yè)的信息環(huán)境中承擔的是日常操作性的任務。數(shù)據(jù)倉庫是數(shù)據(jù)庫技術的一種新的應用,而且到目前為止,數(shù)據(jù)倉庫還是用關系數(shù)據(jù)庫管理系統(tǒng)來管理其中的數(shù)據(jù)。1163.4數(shù)據(jù)庫技術數(shù)據(jù)倉庫技術特征1)面向主題2)集成化特性3)數(shù)據(jù)不可更新4)隨時間不斷變化5)匯總的;6)大容量;7)非規(guī)范化的;8)元數(shù)據(jù);1173.4數(shù)據(jù)庫技術聯(lián)機分析技術聯(lián)機分析處理(OLAP)系統(tǒng)是數(shù)據(jù)倉庫系統(tǒng)最主要的應用,專門設計用于支持復雜的分析操作,側重對決策人員和高層管理人員的決策支持,可以根據(jù)分析人員的

47、要求快速、靈活地進行大數(shù)據(jù)量的復雜查詢處理,并且以一種直觀而易懂的形式將查詢結果提供給決策人員,以便他們準確掌握企業(yè)(公司)的經(jīng)營狀況,了解對象的需求,制定正確的方案。. 1183.4數(shù)據(jù)庫技術數(shù)據(jù)挖掘技術數(shù)據(jù)挖掘(英語:Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學有關,并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。 119數(shù)據(jù)的特征知識的特征算法的特征礦山(數(shù)據(jù))挖掘工具(算法)金子(知識)3.4數(shù)據(jù)

48、庫技術數(shù)據(jù)挖掘技術120數(shù)據(jù)挖掘-從大量數(shù)據(jù)中尋找其規(guī)律的技術,是統(tǒng)計學、數(shù)據(jù)庫技術和人工智能技術的綜合。數(shù)據(jù)挖掘是從數(shù)據(jù)中自動地抽取模式、關聯(lián)、變化、異常和有意義的結構;數(shù)據(jù)挖掘大部分的價值在于利用數(shù)據(jù)挖掘技術改善預測模型。數(shù)據(jù)挖掘數(shù)據(jù)庫越來越大有價值的知識可怕的數(shù)據(jù)3.4數(shù)據(jù)庫技術數(shù)據(jù)挖掘技術1213.4數(shù)據(jù)庫技術數(shù)據(jù)挖掘技術方法1)神經(jīng)網(wǎng)絡2)遺傳算法3)決策樹方法4)粗集方法5)統(tǒng)計分析方法6)模糊集方法122 可視化(Visualization)是利用計算機圖形學和圖像處理技術,將數(shù)據(jù)轉換成圖形或圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術。它涉及到計算機圖形學、圖像處理、

49、計算機視覺、計算機輔助設計等多個領域,成為研究數(shù)據(jù)表示、數(shù)據(jù)處理、決策分析等一系列問題的綜合技術。目前正在飛速發(fā)展的虛擬現(xiàn)實技術也是以圖形圖像的可視化技術為依托的。3.5 可視化技術1233.5 可視化技術1243.5 可視化技術科學可視化計算或采集數(shù)據(jù)1253.5 可視化技術數(shù)據(jù)可視化非空間數(shù)據(jù)1263.5 可視化技術信息可視化非數(shù)值型信息1273.5 可視化技術知識可視化復雜知識關系1283.5 可視化技術 重要意義交互性多維性可視性1293.5 可視化技術 重要意義交互性多維性可視性1303.5 可視化技術 信息可視化功能增加認知資源,如用來提高人類的工作記憶能力;易化對于各種關系的知覺推理,否則歸納起來會更加困難;對大量的潛在事件加以知覺監(jiān)控;一種便于操作的,不同于靜態(tài)圖的媒介,從而成就對數(shù)值空間的探索;加強對于各種模式的識別。1313.5 可視化技術 信息可視化面對的問題問題1323.5

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論