




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、1認(rèn)知科學(xué)研究人類如何獲取知識(shí)和使用知識(shí)數(shù)據(jù)挖掘讓機(jī)器模擬人的智能從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)1認(rèn)知科學(xué)研究人類如何獲取知識(shí)和使用知識(shí)數(shù)據(jù)挖掘2目錄 人工智能50年發(fā)展回顧 20世紀(jì)物理學(xué)的成就 不確定性認(rèn)知的原子模型 數(shù)據(jù)場(chǎng)和勢(shì)函數(shù) 認(rèn)知場(chǎng)中的知識(shí)發(fā)現(xiàn)2目錄3一、人工智能50年發(fā)展回顧人工智能的興起智能的判定標(biāo)準(zhǔn)人工智能研究的不同切入點(diǎn)人工智能研究的目標(biāo)3一、人工智能50年發(fā)展回顧人工智能的興起4人工智能自誕生之日起就引起人們無(wú)限美麗的想象和憧憬;已經(jīng)成為學(xué)科交叉發(fā)展中的一盞明燈,光芒四射;但其理論起伏跌宕,也存在爭(zhēng)議和誤解。4人工智能自誕生之日起就引起人們無(wú)限美麗的想象和憧憬;已經(jīng)成5人工智能的興起數(shù)
2、學(xué)家和邏輯學(xué)家;認(rèn)知學(xué)家和心理學(xué)家;神經(jīng)生理學(xué)家;計(jì)算機(jī)科學(xué)家 1956年著名的“達(dá)特茅斯(Dartmouth)會(huì)議”標(biāo)志人工智能學(xué)科的誕生,它從一開始就是交叉學(xué)科的產(chǎn)物。與會(huì)者有: 5人工智能的興起數(shù)學(xué)家和邏輯學(xué)家; 1956年著名的“6人工智能的興起 達(dá)特茅斯會(huì)議上,明斯基(Marvin Minsky)的神經(jīng)網(wǎng)絡(luò)模擬器、麥卡錫(John Mccarthy)的搜索法、以及西蒙(Herbert Simon)和紐厄爾(Allen Newell)的“邏輯理論家”是會(huì)議的3個(gè)亮點(diǎn)。分別討論如何穿過迷宮,如何搜索推理和如何證明數(shù)學(xué)定理。這是初期人們期待的人工智能。6人工智能的興起 達(dá)特茅斯會(huì)議上,明斯
3、基(7人工智能的經(jīng)典著作由費(fèi)根鮑姆主編的Computers and Thought被認(rèn)為是世界上第一本人工智能的經(jīng)典專著,含21篇著名論文,1963年出版。80年代出版的1-4卷The Handbook of Artificial Intelligence是人工智能的杠鼎之作。7人工智能的經(jīng)典著作由費(fèi)根鮑姆主編的Computers 8人工智能研究的杰出人物 20世紀(jì)40位圖靈獎(jiǎng)獲得者中有6名人工智能學(xué)者,可見人工智能學(xué)科影響之深遠(yuǎn)。 1969年:馬文明斯基 1971年:約翰麥卡錫 1975年:赫伯特西蒙和艾倫紐厄爾 1994年:愛德華費(fèi)根鮑姆和勞伊雷迪8人工智能研究的杰出人物 20世紀(jì)40位圖
4、靈獎(jiǎng)獲得者中有9智能的判定標(biāo)準(zhǔn)圖靈(Turing)測(cè)試: 如果機(jī)器在與人隔離的房間回答人提出的問題,且人無(wú)法判斷回答問題的是機(jī)器還是人時(shí),則應(yīng)該認(rèn)為機(jī)器已經(jīng)具備人的智能。9智能的判定標(biāo)準(zhǔn)圖靈(Turing)測(cè)試:10猴子摘香蕉10猴子摘香蕉11梵塔游戲 初始柱替換柱目的柱11梵塔游戲 初始柱替換柱目的柱12計(jì)算機(jī)下棋:1997年IBM“深藍(lán)”計(jì)算機(jī)以2勝3平1負(fù)的戰(zhàn)績(jī)戰(zhàn)勝國(guó)際象棋冠軍卡斯帕羅夫,“深藍(lán)”計(jì)算速度為200萬(wàn)棋步/秒,采用啟發(fā)式搜索方法;在與下棋領(lǐng)域具有類似性質(zhì)和類似復(fù)雜性問題上,計(jì)算機(jī)具備有智能。12計(jì)算機(jī)下棋:1997年IBM“深藍(lán)”計(jì)算機(jī)以2勝3平1負(fù)13計(jì)算機(jī)下棋:卡斯帕羅
5、夫自1990年稱霸國(guó)際象棋棋壇,2000年舉行的國(guó)際世界象棋冠軍比賽中,克拉莫尼克以8:6領(lǐng)先卡斯帕羅夫。“深藍(lán)”計(jì)算機(jī)能否打敗克拉莫尼克?也就是說(shuō),“深藍(lán)”計(jì)算機(jī)的智能能否“與時(shí)俱進(jìn)”?13計(jì)算機(jī)下棋:卡斯帕羅夫自1990年稱霸國(guó)際象棋棋壇,2014追求智能的三步曲1) ??!真了不起!2) ??!是這樣的??!3) 啊!這也算智能嗎?4) 又回到第一步。 14追求智能的三步曲1) 啊!真了不起!15人工智能研究的對(duì)象不確定非線性不完全變結(jié)構(gòu)多變量分布式15人工智能研究的對(duì)象不確定16人工智能的應(yīng)用人工智能的實(shí)際應(yīng)用越來(lái)越普遍。智能機(jī)器人、智能控制、智能網(wǎng)絡(luò)、智能手機(jī)、智能數(shù)據(jù)庫(kù)、智能管理、智能小
6、區(qū)、智能交通、甚至智能經(jīng)濟(jì)等等不絕于耳,知識(shí)就是力量。16人工智能的應(yīng)用人工智能的實(shí)際應(yīng)用越來(lái)越普遍。智能機(jī)器人、17人工智能研究的切入點(diǎn)先后出現(xiàn)了3個(gè)主流學(xué)派:符號(hào)主義方法-邏輯學(xué)派聯(lián)結(jié)主義方法-仿生學(xué)派行為主義方法-控制論學(xué)派17人工智能研究的切入點(diǎn)先后出現(xiàn)了3個(gè)主流學(xué)派:18符號(hào)主義學(xué)派(西蒙和紐厄爾為代表)物理符號(hào)系統(tǒng)假說(shuō)(physical symbol system hypothesis)。由一組稱為符號(hào)的實(shí)體組成系統(tǒng),這些符號(hào)可作為組份出現(xiàn)在另一符號(hào)實(shí)體中。任何時(shí)候系統(tǒng)內(nèi)部均有一組符號(hào)結(jié)構(gòu),以及作用在這些符號(hào)結(jié)構(gòu)上生成其他符號(hào)結(jié)構(gòu)的一組過程。任一物理符號(hào)系統(tǒng)如果是有智能的,則必能執(zhí)
7、行對(duì)符號(hào)的輸入、輸出、存儲(chǔ)、復(fù)制、條件轉(zhuǎn)移和建立符號(hào)結(jié)構(gòu)這樣6種操作。反之,能執(zhí)行這6種操作的任何系統(tǒng),也就一定能夠表現(xiàn)出智能。18符號(hào)主義學(xué)派(西蒙和紐厄爾為代表)物理符號(hào)系統(tǒng)假說(shuō)(ph19符號(hào)主義學(xué)派認(rèn)知基元是符號(hào),智能行為通過符號(hào)操作來(lái)實(shí)現(xiàn),以美國(guó)科學(xué)家Robinson提出的歸結(jié)原理為基礎(chǔ),以Lisp和Prolog語(yǔ)言為代表;著重問題求解中啟發(fā)式搜索和推理過程,在邏輯思維的模擬方面取得成功,如自動(dòng)定理證明和專家系統(tǒng);歸結(jié)原理不可能成為所有數(shù)學(xué)分支的證明基礎(chǔ),問題求解和邏輯推理的本質(zhì)僅僅是演譯。19符號(hào)主義學(xué)派認(rèn)知基元是符號(hào),智能行為通過符號(hào)操作來(lái)實(shí)現(xiàn),20聯(lián)結(jié)主義學(xué)派(J.J.Hopfi
8、eld為代表)人的思維基元是神經(jīng)元,把智能理解為相互聯(lián)結(jié)的神經(jīng)元競(jìng)爭(zhēng)與協(xié)作的結(jié)果,以人工神經(jīng)網(wǎng)絡(luò)為代表,其中,反向傳播網(wǎng)絡(luò)模型(BP)和Hopfield網(wǎng)絡(luò)模型更為突出;著重結(jié)構(gòu)模擬,研究神經(jīng)元特征、神經(jīng)元網(wǎng)絡(luò)拓樸、學(xué)習(xí)規(guī)則、網(wǎng)絡(luò)的非線性動(dòng)力學(xué)性質(zhì)和自適應(yīng)的協(xié)同行為。20聯(lián)結(jié)主義學(xué)派(J.J.Hopfield為代表)人的思維基21遺傳算法和進(jìn)化計(jì)算:1975年,John Holland提出遺傳算法(Genetic Algorithm),模仿生物染色體中基因的選擇(selection)、交叉(crossover)和變異(mutation)的自然進(jìn)化過程,通過個(gè)體結(jié)構(gòu)重組,形成一代代新群體(pop
9、ulations) ,最終收斂于近似優(yōu)化解。用于處理多變量、非線性、不確定、甚至混沌的大搜索空間的有約束的優(yōu)化問題;21遺傳算法和進(jìn)化計(jì)算:1975年,John Holland22麻將原理:剛發(fā)到手的牌就“和”了的概率是非常非常小的。不管開始手中的牌有多壞,通過一次次摸牌、選擇、淘汰,可以逐步逼近到最優(yōu)解。這相當(dāng)進(jìn)化中的變異和選擇原理。麻將的魅力在于可以在容忍的時(shí)間內(nèi)讓牌“和”了。遺傳算法和進(jìn)化計(jì)算的收斂性問題。22麻將原理:剛發(fā)到手的牌就“和”了的概率是非常非常小的。23行為主義學(xué)派(R.A.Brooks為代表)控制論研究導(dǎo)致機(jī)器人和智能控制,機(jī)器人是“感知-行為”模式,是沒有知識(shí)的智能(i
10、wk, iwr),強(qiáng)調(diào)直覺和反饋的重要性;智能行為體現(xiàn)在系統(tǒng)與環(huán)境的交互之中,功能、結(jié)構(gòu)和智能行為不可分割。90年代起智能Agent成為新的熱點(diǎn)。它是一種自治的、具有自發(fā)行為、體現(xiàn)交互性和環(huán)境適應(yīng)性的新型智能機(jī)模型,具有移動(dòng)性、推理、規(guī)劃、學(xué)習(xí)和適應(yīng)能力。23行為主義學(xué)派(R.A.Brooks為代表)控制論研究導(dǎo)致24行為主義學(xué)派反饋是控制論的基石,沒有反饋就沒有智能。根據(jù)目標(biāo)與實(shí)際行為之間的誤差來(lái)消除此誤差的控制策略。PID控制是控制論對(duì)付不確定性的最基本手段。強(qiáng)調(diào)智能系統(tǒng)與環(huán)境的交互,從運(yùn)行的環(huán)境中獲取信息(感知),通過自己的動(dòng)作對(duì)環(huán)境施加影響。24行為主義學(xué)派反饋是控制論的基石,沒有反饋
11、就沒有智能。25當(dāng)前,以實(shí)際問題驅(qū)動(dòng)的人工智能研究成為主流。人工智能不再是陽(yáng)春白雪,尤其是數(shù)據(jù)挖掘技術(shù),要以機(jī)器再現(xiàn)人類認(rèn)識(shí)過程的方式,為認(rèn)知科學(xué)提供了一個(gè)新的實(shí)體模型和實(shí)在形式。25當(dāng)前,以實(shí)際問題驅(qū)動(dòng)的人工智能研究成為主流。人工智能不再26研 究 熱 點(diǎn)模式識(shí)別智能檢索專家系統(tǒng)自然語(yǔ)言理解知識(shí)工程數(shù)據(jù)挖掘智能控制智能機(jī)器人26研 究 熱 點(diǎn)模式識(shí)別知識(shí)工程27人工智能三次大躍進(jìn)第一次:智能系統(tǒng)代替人完成部分邏輯推理工作,如專家系統(tǒng)。第二次:智能系統(tǒng)能夠和環(huán)境交互,從運(yùn)行的環(huán)境中獲取信息,代替人完成包括不確定性在內(nèi)的部分思維工作,通過自身的動(dòng)作,對(duì)環(huán)境施加影響,并適應(yīng)環(huán)境的變化。如智能機(jī)器人
12、。第三次:智能系統(tǒng)具有類人的認(rèn)知和思維能力,能夠發(fā)現(xiàn)新的知識(shí),去完成面臨的任務(wù),如基于數(shù)據(jù)挖掘的系統(tǒng)。27人工智能三次大躍進(jìn)第一次:智能系統(tǒng)代替人完成部分邏輯推理28人工智能的目標(biāo): 程序 = 智能 ? 計(jì)算 = 思維 ? 計(jì)算機(jī) = 電腦 ?目標(biāo):以機(jī)器方式再現(xiàn)人的智能28人工智能的目標(biāo): 程序 = 智能 ?29二、20世紀(jì)物理學(xué)的成就物質(zhì)層次結(jié)構(gòu)和原子物理模型場(chǎng)理論和四種相互作用29二、20世紀(jì)物理學(xué)的成就物質(zhì)層次結(jié)構(gòu)和原子物理模型30物質(zhì)層次結(jié)構(gòu)和原子物理模型可以把物質(zhì)的組成層次看成一個(gè)個(gè)等級(jí),眼前的物體看成是宏觀的,天體看成是宇觀的,把分子和原子作為界標(biāo),比它們小的物質(zhì)可以稱之為微觀的
13、。原子這個(gè)層次十分重要。原子模型的提出與演進(jìn),從開爾文模型、湯姆孫模型、勒納德模型、長(zhǎng)岡模型、尼克爾森模型直到盧瑟福的原子有核結(jié)構(gòu)模型,以及原子核模型,都表明構(gòu)思物質(zhì)組成模型是一種普遍有效的科學(xué)方法。原子的物理模型成為人類認(rèn)識(shí)世界的五個(gè)里程碑之一。30物質(zhì)層次結(jié)構(gòu)和原子物理模型可以把物質(zhì)的組成層次看成一個(gè)個(gè)31物理學(xué)中的勢(shì)場(chǎng)場(chǎng)可視為一個(gè)充滿能量的空間。例如,將一個(gè)位于無(wú)窮遠(yuǎn)處的電荷移至電場(chǎng)中需要消耗能量。場(chǎng)在某點(diǎn)P(r)處的單位作功能力被稱為該點(diǎn)的勢(shì),記為(r) 。勢(shì)函數(shù)(r)是一個(gè)關(guān)于場(chǎng)點(diǎn)位置的標(biāo)量函數(shù),它在場(chǎng)空間中構(gòu)成一個(gè)標(biāo)量場(chǎng),即勢(shì)場(chǎng)。31物理學(xué)中的勢(shì)場(chǎng)場(chǎng)可視為一個(gè)充滿能量的空間。例如,
14、將一個(gè)位32梯度、散度與旋度梯度是描述標(biāo)量場(chǎng)變化特性的矢量函數(shù),它可以將一個(gè)標(biāo)量場(chǎng)轉(zhuǎn)換為矢量場(chǎng),也可以通過引入一個(gè)輔助標(biāo)量函數(shù)來(lái)分析簡(jiǎn)化矢量場(chǎng)。散度、旋度是描述矢量場(chǎng)的兩個(gè)固有特性:源密度和旋渦密度的物理量。在最一般的情況下,一個(gè)矢量場(chǎng)總可以被看作由一個(gè)有源場(chǎng)和一個(gè)旋渦場(chǎng)疊合組成,如電磁場(chǎng)。因此一個(gè)含義不明的矢量場(chǎng)只有當(dāng)弄清它的兩個(gè)分量各自的貢獻(xiàn)和物理本質(zhì)后,即已知它的散度和旋度后才算明確。32梯度、散度與旋度梯度是描述標(biāo)量場(chǎng)變化特性的矢量函數(shù),它可33梯度場(chǎng)與旋度場(chǎng)、散度場(chǎng)梯度場(chǎng)=有勢(shì)場(chǎng)=有源場(chǎng)=保守場(chǎng)=無(wú)旋場(chǎng)33梯度場(chǎng)與旋度場(chǎng)、散度場(chǎng)梯度場(chǎng)=有勢(shì)場(chǎng)=有源場(chǎng)=保守場(chǎng)=無(wú)34電場(chǎng)和引力場(chǎng)的勢(shì)函
15、數(shù)電場(chǎng)的勢(shì)函數(shù)引力場(chǎng)的勢(shì)函數(shù)從靜電場(chǎng)和引力場(chǎng)的勢(shì)函數(shù)計(jì)算中可以發(fā)現(xiàn),兩種場(chǎng)的物理機(jī)制雖然各不相同,但在數(shù)學(xué)形態(tài)上卻非常相似,即空間區(qū)域中不同物質(zhì)粒子相互作用的數(shù)學(xué)本質(zhì)是相同或相近的。 34電場(chǎng)和引力場(chǎng)的勢(shì)函數(shù)電場(chǎng)的勢(shì)函數(shù)35物理學(xué)中的四種相互作用牛頓萬(wàn)有引力定律(引力反比于距離的平方)認(rèn)為在多質(zhì)點(diǎn)系中存在兩兩相互作用的引力場(chǎng)和引力勢(shì)能。庫(kù)倫定律(電力反比于距離的平方)認(rèn)為電荷之間通過電場(chǎng)相互作用,用電場(chǎng)線和等勢(shì)線可使電場(chǎng)分布形象化。具有相等電勢(shì)的點(diǎn)構(gòu)成等勢(shì)面。35物理學(xué)中的四種相互作用牛頓萬(wàn)有引力定律(引力反比于距離的36物理學(xué)中的四種相互作用核物理認(rèn)為,核子之間、核子與介子之間,通過夸克間交
16、換膠子實(shí)現(xiàn)強(qiáng)相互作用。這就是力程甚短的核力。按照普適費(fèi)米理論,弱相互作用是一種點(diǎn)作用,不涉及到任何場(chǎng)。后來(lái)人們發(fā)現(xiàn)這一觀點(diǎn)有問題。1984年若貝爾獎(jiǎng)被授予魯比亞 (Carlo Rubbia) 和范得米爾(Simon Van der Meer)以表彰他們發(fā)現(xiàn)弱作用場(chǎng)量子W+和Z的杰出貢獻(xiàn)。36物理學(xué)中的四種相互作用核物理認(rèn)為,核子之間、核子與介子之37物理學(xué)的大統(tǒng)一理論如果以強(qiáng)相互作用的強(qiáng)度為1的話,電磁相互作用的強(qiáng)度,其值約為10-2;弱相互作用約為10-13 10-19 ;引力相互作用最弱,約為10-39。 物理學(xué)家一直企圖將這四種相互作用進(jìn)行統(tǒng)一。愛因斯坦努力了,沒有取得成果。真正取得進(jìn)展
17、的是量子場(chǎng)論。量子電動(dòng)力學(xué)解釋了電磁相互作用;量子色動(dòng)力學(xué)解釋了強(qiáng)相互作用,又將弱相互作用與電磁相互作用進(jìn)行統(tǒng)一,即溫伯格-薩拉姆電弱統(tǒng)一理論。大統(tǒng)一理論到現(xiàn)在還缺乏實(shí)驗(yàn)驗(yàn)證。37物理學(xué)的大統(tǒng)一理論如果以強(qiáng)相互作用的強(qiáng)度為1的話,電磁相38三、不確定性認(rèn)知的原子模型 人類思維的基本單元 云模型及其數(shù)字特征 正向云發(fā)生器和逆向云發(fā)生器 連續(xù)數(shù)據(jù)離散化(概念化) 概念粒度、概念空間和泛概念樹38三、不確定性認(rèn)知的原子模型 人類思維的基本單元39人類思維活動(dòng)的層次性 生命科學(xué)可還原成不同的層次:如腦的生物化學(xué)層次和神經(jīng)構(gòu)造層次。認(rèn)知活動(dòng)可能對(duì)應(yīng)著一定的生理上的化學(xué)、電學(xué)的變化。但是,目前生命科學(xué)還不
18、能在思維活動(dòng)與亞細(xì)胞的化學(xué)、電學(xué)層次的活動(dòng)建立確切的關(guān)系。如:一個(gè)概念如何以生物學(xué)形式存儲(chǔ),它與其它概念發(fā)生聯(lián)系的生物學(xué)過程是什么。也不能決定什么樣的神經(jīng)構(gòu)造可以決定著哪些認(rèn)知模式的發(fā)生。39人類思維活動(dòng)的層次性 生命科學(xué)可還原40人類思維活動(dòng)的層次性 目前從腦的生物化學(xué)層次和神經(jīng)構(gòu)造層次研究認(rèn)知活動(dòng)尚有困難。再說(shuō),如同我們不能從最基礎(chǔ)的硅芯片的活動(dòng)來(lái)推測(cè)計(jì)算機(jī)網(wǎng)絡(luò)上電子郵件的行為一樣,我們又怎么能夠設(shè)想從分析單個(gè)離子、神經(jīng)元、突觸的性質(zhì)就能夠推斷人腦的認(rèn)知和思維活動(dòng)呢?系統(tǒng)論關(guān)于系統(tǒng)整體特征不是由低層元素加和而成的原理對(duì)還原論提出質(zhì)疑。因此,人工智能研究目前需要找到一個(gè)合適的層次和單元,向上
19、模擬人類的認(rèn)知和思維活動(dòng)。40人類思維活動(dòng)的層次性 目前從腦的生物化41人類思維活動(dòng)的工具 自然語(yǔ)言使人類獲得一個(gè)強(qiáng)有力的思維工具,這是不爭(zhēng)的事實(shí),起到呈現(xiàn)和保留思維對(duì)象及組織思維過程的作用。它是其它各種形式化系統(tǒng)(語(yǔ)言)的基礎(chǔ),派生出像計(jì)算機(jī)語(yǔ)言這樣的特殊語(yǔ)言,也派生出包括各種專業(yè)理論的專門化語(yǔ)言,如數(shù)學(xué)語(yǔ)言。這些符號(hào)構(gòu)成的形式系統(tǒng), 又成為新一級(jí)的形式化。41人類思維活動(dòng)的工具 自然語(yǔ)言使人類獲得42數(shù)學(xué)漢語(yǔ)外語(yǔ)自然語(yǔ)言符號(hào)語(yǔ)言自然語(yǔ)言和符號(hào)語(yǔ)言42數(shù)學(xué)漢語(yǔ)外語(yǔ)自然語(yǔ)言符號(hào)語(yǔ)言自然語(yǔ)言和符號(hào)語(yǔ)言43人類思維活動(dòng)的工具 自然語(yǔ)言中的語(yǔ)言值表達(dá)概念,最基本的語(yǔ)言值代表最基本的概念,成為思維的原
20、子模型。同時(shí),概念具有層次性。43人類思維活動(dòng)的工具 自然語(yǔ)言中的語(yǔ)言值44概念人類思維的基本單元客觀世界涉及物理對(duì)象,主觀世界從認(rèn)知單元和它指向的物理對(duì)象開始,反映了主客觀內(nèi)外聯(lián)系的特性。任何思維活動(dòng)都是指向一定對(duì)象的,通過對(duì)象的存在到主觀意識(shí)自身的存在。概念作為外部事物在主觀認(rèn)知中的對(duì)應(yīng)物成為思維活動(dòng)的基本單元。但是概念不是孤立的,它同外部背景有著種種聯(lián)系,是演變和流動(dòng)的過程。因此,概念必然具有不確定性,甚至包括盲目性和散漫性。44概念人類思維的基本單元客觀世界涉及物理對(duì)象,主觀世界從45概念的形成:學(xué)習(xí)和記憶標(biāo)準(zhǔn)特征是概念的一個(gè)組成部分,是用來(lái)確認(rèn)某一具體樣例屬于該類別的必要或充分條件。
21、原型在概念中占有特別的地位。模糊的邊界和不清楚的樣例是概念的普遍情況。在一個(gè)概括性更高而具體性更低的組織水平上,下位概念作為一個(gè)樣例被使用,形成基本水平、下位水平和上位水平的層次結(jié)構(gòu) (basic lever/ subordinate level/superordinate lever)。概念的形成是多次反復(fù)的學(xué)習(xí)和記憶的過程。45概念的形成:學(xué)習(xí)和記憶標(biāo)準(zhǔn)特征是概念的一個(gè)組成部分,是用46困擾人工智能的認(rèn)知模型怎樣表示用自然語(yǔ)言表述的定性知識(shí)?怎樣反映自然語(yǔ)言中的不確定性,尤其是模糊性和隨機(jī)性?怎樣實(shí)現(xiàn)定性和定量知識(shí)之間的相互轉(zhuǎn)換?怎樣體現(xiàn)語(yǔ)言思考中的軟推理能力?46困擾人工智能的認(rèn)知模型怎
22、樣表示用自然語(yǔ)言表述的定性知識(shí)?47知識(shí)表示 人工智能要以機(jī)器為載體模仿以人腦為載體的人的思維活動(dòng)智能,必須找到在人腦和機(jī)器兩種載體之間建立聯(lián)系的手段,而這個(gè)任務(wù)正是由形式化來(lái)?yè)?dān)當(dāng)?shù)?。知識(shí)表示的形式化在人工智能中居于方法論的重要地位。47知識(shí)表示 人工智能要以機(jī)器為載體模仿以48認(rèn)知模型(Cognitive Modeling) 云由許許多多云滴組成,每一個(gè)云滴就是這個(gè)定性概念映射到數(shù)域空間的一個(gè)點(diǎn),即一次反映量的樣例的實(shí)現(xiàn)。這種實(shí)現(xiàn)帶有不確定性,模型同時(shí)給出這個(gè)點(diǎn)能夠代表該定性概念的確定程度。48認(rèn)知模型(Cognitive Modeling) 49云圖的可視化方法一 給出云滴在數(shù)域(一維、二
23、維或多維)的位置,用一個(gè)點(diǎn)表示一個(gè)云滴;同時(shí),用該點(diǎn)的輝度表示出這個(gè)云滴能夠代表概念的確定度。49云圖的可視化方法一 給出云滴在數(shù)域(一維、二維或多維)50 “靠近坐標(biāo)原點(diǎn)左右”的10000個(gè)量化云滴。任何一個(gè)云滴都可以在一定程度上代表這個(gè)概念。50 “靠近坐標(biāo)原點(diǎn)左右”的10000個(gè)量化云滴。任何一個(gè)云51云圖的可視化方法二用數(shù)域里的一個(gè)圈或球表示一個(gè)云滴,其中心反映云滴在數(shù)域的位置;同時(shí),圈或球的大小表示出這個(gè)云滴能夠代表概念的確定度。51云圖的可視化方法二用數(shù)域里的一個(gè)圈或球表示一個(gè)云滴,其中52-3-2-1123-3-2-1123 “靠近坐標(biāo)點(diǎn)左右”的200個(gè)量化云滴。任何一個(gè)云滴都可
24、以在一定程度上代表這個(gè)概念。52-3-2-1123-3-2-1123 “靠近坐標(biāo)點(diǎn)左右”53云圖的可視化方法三 用N+1維表示, N維空間的點(diǎn)表示云滴在數(shù)域的位置,另一維表示這個(gè)云滴能夠代表概念的確定度。53云圖的可視化方法三 用N+1維表示, N維空間的點(diǎn)表示54不同數(shù)值代表語(yǔ)言值 “20 km左右”的確定程度54不同數(shù)值代表語(yǔ)言值 “20 km左右”的確定程度55不同的數(shù)值代表平面上的點(diǎn) “靠近中心”的確定程度55不同的數(shù)值代表平面上的點(diǎn) “靠近中心”的確定程度56期望值: 在數(shù)域空間最能夠代表這個(gè)定性概念的點(diǎn),反映了云滴群的重心位置。云數(shù)字特征的雙重性ExEnHe熵一方面反映了在數(shù)域空間
25、可被概念接受的范圍,即模糊度,是定性概念亦此亦彼性的度量;另一方面還反映了在數(shù)域空間的點(diǎn)能夠代表這個(gè)概念的概率,表示定性概念的云滴出現(xiàn)的隨機(jī)性。熵揭示了模糊性和隨機(jī)性的關(guān)聯(lián)性。超熵是熵的不確定度量,即熵的熵,反映了在數(shù)域空間代表該語(yǔ)言值的所有點(diǎn)的不確定度的凝聚性,即云滴的凝聚度。56期望值: 在數(shù)域空間最能夠代表這個(gè)定性概念的點(diǎn),反映了云57正態(tài)云發(fā)生器的實(shí)現(xiàn)算法1.生成以En為期望值,He為方差的一個(gè)正態(tài)隨機(jī)數(shù)En;2.生成以Ex為期望值,En為方差的一個(gè)正態(tài)隨機(jī)數(shù)x;3.計(jì)算 4. 使(x , y)成為論域中的一個(gè)云滴;5. 重復(fù)步驟14直至要求數(shù)目的云滴產(chǎn)生。57正態(tài)云發(fā)生器的實(shí)現(xiàn)算法1
26、.生成以En為期望值,He為方差58逆向云發(fā)生器算法1 由Ex = 求得Ex;2 對(duì)每一對(duì)(xi, yi),由 求出Eni ;3 由En = 求得En;4 求Eni的均方差 得到He;58逆向云發(fā)生器算法1 由Ex = 59云模型的多種形態(tài)正態(tài)云 云其它多維云59云模型的多種形態(tài)正態(tài)云 云其它60例子: 射擊評(píng)判射手乙射手甲射手丙評(píng)判人員:統(tǒng)計(jì)學(xué)家、模糊學(xué)家、 云理論研究者60例子: 射擊評(píng)判射手乙射手甲射手丙評(píng)判人員:統(tǒng)計(jì)學(xué)家、模61射擊評(píng)判統(tǒng)計(jì)學(xué)家用概率值表示射擊效果;模糊學(xué)家用隸屬度表示射擊效果;裁判用總環(huán)數(shù)(模糊+統(tǒng)計(jì))表示射擊效果;人們用定性語(yǔ)言評(píng)價(jià)射擊效果,云方法用3個(gè)數(shù)字特征表示
27、定性概念。61射擊評(píng)判統(tǒng)計(jì)學(xué)家用概率值表示射擊效果;62云評(píng)價(jià)方法略偏左上,比較離散,不穩(wěn)定略偏右下,射點(diǎn)集中,較穩(wěn)定射點(diǎn)靠近靶心,比較離散,不穩(wěn)定62云評(píng)價(jià)方法略偏左上,比較離散,不穩(wěn)定略偏右下,射點(diǎn)集中,63原始靶標(biāo)還原10發(fā)彈著點(diǎn)還原100發(fā)彈著點(diǎn)63原始還原還原64誤解:云方法是模糊方法 云方法沒有僅僅停留在哲學(xué)上的思辯,也不能簡(jiǎn)單地說(shuō)是概率方法或模糊方法,通過云模型實(shí)現(xiàn)定性概念和定量數(shù)據(jù)之間的轉(zhuǎn)換是一個(gè)十分嚴(yán)格的數(shù)學(xué)方法,使得定性和定量之間的轉(zhuǎn)換變得十分清晰、具體和可操作,同時(shí)又反映了轉(zhuǎn)換過程的不確定性。64誤解:云方法是模糊方法 云方法沒有僅僅停留在哲學(xué)上65連續(xù)數(shù)據(jù)離散化對(duì)連續(xù)數(shù)
28、據(jù),首先求得各數(shù)據(jù)點(diǎn)的頻數(shù),對(duì)其分布進(jìn)行云變換,使之成為若干個(gè)大小不同的云的疊加,每個(gè)云代表一個(gè)離散的、定性的概念。數(shù)據(jù)轉(zhuǎn)換為概念。65連續(xù)數(shù)據(jù)離散化對(duì)連續(xù)數(shù)據(jù),首先求得各數(shù)據(jù)點(diǎn)的頻數(shù),對(duì)其分66原始數(shù)據(jù)分布擬合結(jié)果云變換連續(xù)數(shù)據(jù)離散化:云變換66原始數(shù)據(jù)分布擬合結(jié)果云變換連續(xù)數(shù)據(jù)離散化:云變換67概念的粒度 在人的意識(shí)活動(dòng)中,思維的推進(jìn)是與概念的轉(zhuǎn)移和提升相聯(lián)系的。轉(zhuǎn)移和提升的跨度和路徑也是多樣的,我們可以把在一定層次上的思維模式看作是為原始思維活動(dòng)拍攝的一張快照。反映概念對(duì)應(yīng)的客觀事物的粒度。概念的粒度可以用云模型中的熵度量。67概念的粒度 在人的意識(shí)活動(dòng)中,思維的推68概念空間 概念空間
29、是指同一類概念的數(shù)域。例如,當(dāng)討論語(yǔ)言變量年齡這個(gè)范疇內(nèi)的不同語(yǔ)言值時(shí),如10歲左右、少年、青少年、中年、晚年等等概念,常常要明確它們?cè)跀?shù)域上所表現(xiàn)出的內(nèi)涵和外延,以及相互之間的等價(jià)(相似)關(guān)系或從屬(包含)關(guān)系。因此,不同信息粒度之間的概念在概念空間會(huì)形成層次的結(jié)構(gòu)。68概念空間 概念空間是指同一類概念的數(shù)域69概念的層次結(jié)構(gòu) 當(dāng)討論語(yǔ)言變量年齡這個(gè)范疇內(nèi)的不同語(yǔ)言值(概念)時(shí),常常要明確這些概念是大概念還是小概念,粗概念還是細(xì)概念,以及相互之間的等價(jià)(相似)關(guān)系或從屬(包含)關(guān)系。因此,不同信息粒度之間的概念在概念空間會(huì)形成層次的結(jié)構(gòu),或者說(shuō)是泛概念樹結(jié)構(gòu)。69概念的層次結(jié)構(gòu) 當(dāng)討論語(yǔ)言變
30、量年齡這70不同年齡人的泛概念樹少年 未成年人幼兒青年中年嬰幼兒兒童小學(xué)生中青年中學(xué)生大學(xué)生所有成年人青壯年老年.70不同年齡人的泛概念樹少年 未成年人幼兒青年中年嬰幼71用云表示的泛概念樹微觀層中觀層宏觀層年齡71用云表示的泛概念樹微觀層中觀層宏觀層年齡72泛概念樹可動(dòng)態(tài)生成不同層次的概念體現(xiàn)了定性概念的隨機(jī)性和模糊性體現(xiàn)不同層次概念間的多隸屬關(guān)系反映了數(shù)據(jù)的實(shí)際分布情況泛概念樹的爬升和跳躍72泛概念樹可動(dòng)態(tài)生成不同層次的概念73四、數(shù)據(jù)場(chǎng)和勢(shì)函數(shù) 客體間的相互作用和數(shù)據(jù)場(chǎng) 勢(shì)函數(shù)及其確定準(zhǔn)則 用數(shù)據(jù)場(chǎng)思想進(jìn)行特征提取和 模式識(shí)別73四、數(shù)據(jù)場(chǎng)和勢(shì)函數(shù) 客體間的相互作用和數(shù)據(jù)場(chǎng)74數(shù)據(jù)場(chǎng)的引
31、入 學(xué)科的交叉滲透是當(dāng)前科學(xué)發(fā)展的總趨勢(shì),對(duì)客觀世界的認(rèn)識(shí)和描述,無(wú)論是力學(xué)、熱物理、電磁學(xué)和近代物理,從粒子到宇宙在不同尺度上都有場(chǎng)的作用。那么,人自身的認(rèn)知和思維過程,從數(shù)據(jù)到信息到知識(shí),是否也可以用場(chǎng)來(lái)描述?74數(shù)據(jù)場(chǎng)的引入 學(xué)科的交叉滲透是當(dāng)前科學(xué)75物理場(chǎng)舉例在一個(gè)質(zhì)量為M的質(zhì)點(diǎn)產(chǎn)生的引力場(chǎng)中,任一場(chǎng)點(diǎn)r處的勢(shì)可以描述為:如果空間中存在多個(gè)質(zhì)點(diǎn),則r處的勢(shì)等于每個(gè)質(zhì)點(diǎn)單獨(dú)產(chǎn)生的勢(shì)的疊加,即75物理場(chǎng)舉例在一個(gè)質(zhì)量為M的質(zhì)點(diǎn)產(chǎn)生的引力場(chǎng)中,任一場(chǎng)點(diǎn)r76數(shù)據(jù)與數(shù)據(jù)場(chǎng) 受物理場(chǎng)的啟發(fā),可將物質(zhì)粒子間相互作用及其場(chǎng)描述方法擴(kuò)展至抽象的數(shù)據(jù)空間。數(shù)據(jù)空間中的每個(gè)對(duì)象都相當(dāng)于一個(gè)質(zhì)點(diǎn)或核子,在
32、其周圍產(chǎn)生一個(gè)球形對(duì)稱的作用場(chǎng),位于場(chǎng)內(nèi)的所有對(duì)象都將受到其他對(duì)象的聯(lián)合作用,從而在整個(gè)數(shù)據(jù)空間上形成一個(gè)場(chǎng),我們稱之為數(shù)據(jù)場(chǎng)。正如引力場(chǎng)、核力場(chǎng)可以用勢(shì)函數(shù)描述,我們也引入勢(shì)函數(shù)來(lái)描述數(shù)據(jù)場(chǎng)的性質(zhì)。76數(shù)據(jù)與數(shù)據(jù)場(chǎng) 受物理場(chǎng)的啟發(fā),可將物質(zhì)粒子間相77確定勢(shì)函數(shù)形態(tài)的準(zhǔn)則勢(shì)函數(shù)具有各向同性,即對(duì)稱性;勢(shì)函數(shù)是定義在數(shù)域空間上的連續(xù)函數(shù);勢(shì)函數(shù)值隨離開場(chǎng)源的距離增大而下降;表示勢(shì)函數(shù)的連續(xù)函數(shù),應(yīng)該光滑,即可微。77確定勢(shì)函數(shù)形態(tài)的準(zhǔn)則勢(shì)函數(shù)具有各向同性,即對(duì)稱性;78可選的勢(shì)函數(shù)形態(tài)擬引力場(chǎng)的勢(shì)函數(shù):擬核力場(chǎng)的勢(shì)函數(shù): 其中, 為以場(chǎng)源坐標(biāo)為原點(diǎn)時(shí)場(chǎng)點(diǎn)的徑向半徑;參數(shù)k為一個(gè)正整數(shù),用于調(diào)節(jié)
33、勢(shì)函數(shù)的衰減特性;參數(shù)b(0,+),用于控制對(duì)象的作用范圍,稱為影響因子;參數(shù)a相當(dāng)于質(zhì)點(diǎn)或核子的質(zhì)量代表數(shù)據(jù)場(chǎng)的強(qiáng)度。 78可選的勢(shì)函數(shù)形態(tài)擬引力場(chǎng)的勢(shì)函數(shù): 其中, 為以79兩種勢(shì)函數(shù)形態(tài)比較擬引力場(chǎng)的勢(shì)函數(shù)擬核力場(chǎng)的勢(shì)函數(shù)79兩種勢(shì)函數(shù)形態(tài)比較擬引力場(chǎng)的勢(shì)函數(shù)擬核力場(chǎng)的勢(shì)函數(shù)80數(shù)據(jù)場(chǎng)的勢(shì)函數(shù)定義 已知數(shù)據(jù)空間中的對(duì)象集 及其產(chǎn)生的數(shù)據(jù)場(chǎng),則任一場(chǎng)點(diǎn)y處的勢(shì)函數(shù)可以定義為所有對(duì)象在該點(diǎn)處產(chǎn)生的單位勢(shì)值的疊加: 其中,為場(chǎng)點(diǎn)y與對(duì)象xi間的距離;80數(shù)據(jù)場(chǎng)的勢(shì)函數(shù)定義 已知數(shù)據(jù)空間中的對(duì)象集 81數(shù)據(jù)場(chǎng)的可視化二維數(shù)據(jù)空間中的一個(gè)數(shù)據(jù)集及其產(chǎn)生的數(shù)據(jù)場(chǎng)等勢(shì)線圖81數(shù)據(jù)場(chǎng)的可視化二維數(shù)據(jù)空間
34、中的一個(gè)數(shù)據(jù)集及其產(chǎn)生的數(shù)據(jù)場(chǎng)82數(shù)據(jù)場(chǎng)擴(kuò)展自然語(yǔ)言中的基本語(yǔ)言值是定性概念,由于每個(gè)定性概念都可以用一個(gè)數(shù)值型集合來(lái)表示其內(nèi)涵和外延, 即對(duì)應(yīng)著一個(gè)定量的數(shù)據(jù)子空間,稱為概念空間。概念和概念之間也可以通過場(chǎng)相互作用,形成概念間的泛層次樹,又稱上、下位詞表。人類思維過程中的對(duì)象,對(duì)應(yīng)著一個(gè)定量的數(shù)據(jù)空間,反映對(duì)象的多個(gè)屬性,稱為特征空間。對(duì)象和對(duì)象之間也通過場(chǎng)相互作用,形成知識(shí)。概念空間和特征空間中的場(chǎng)統(tǒng)稱為數(shù)據(jù)場(chǎng)。82數(shù)據(jù)場(chǎng)擴(kuò)展自然語(yǔ)言中的基本語(yǔ)言值是定性概念,由于每個(gè)定性83我們將云滴的確定度視為場(chǎng)源的質(zhì)量,顯然,確定度高的云滴具有較強(qiáng)的作用場(chǎng)。右圖中每個(gè)云滴的位置坐標(biāo)和確定度為: A(1
35、0,12,0.6) B(10,10,1) C(13,11,0.3)8910111213141589101112131415ABC不同確定度的三個(gè)云滴形成的數(shù)據(jù)場(chǎng)等勢(shì)線圖83我們將云滴的確定度視為場(chǎng)源的質(zhì)量,顯然,確定度高的云滴具84用數(shù)據(jù)場(chǎng)思想進(jìn)行特征提取和模式識(shí)別84用數(shù)據(jù)場(chǎng)思想進(jìn)行特征提取和模式識(shí)別85ABCDEFGHIJ預(yù)處理后的人臉圖像每幅圖象的原始尺寸為 256 x 256 個(gè)像素點(diǎn),256級(jí)灰度85ABCDEFGHIJ預(yù)處理后的人臉圖像每幅圖象的原始尺寸86灰度數(shù)據(jù)集映射成為數(shù)據(jù)場(chǎng)及勢(shì)的局部極值A(chǔ)BCDEFGHIJ86灰度數(shù)據(jù)集映射成為數(shù)據(jù)場(chǎng)及勢(shì)的局部極值A(chǔ)BCDEFGHI878.
36、6917308.41101913.612820J11.80192811.14101913.912718I12.45182911.8391814.082716H11.71182912.66101913.202619G10.96182812.80101913.142619F11.92182912.39101913.052619E11.25183012.05101812.812618D11.10182912.55101912.692619C10.92182911.88101913.292519B11.21193012.13101912.632619AVPYXVPYXVPYXThe third fea
37、tureThe second featureThe first featureNamefeature數(shù)據(jù)場(chǎng)的極值成為邏輯特征878.6917308.41101913.612820J1188二次生成數(shù)據(jù)場(chǎng)進(jìn)行模式識(shí)別If we pick up an extreme local maximum potential value and its position as the most important feature for each face image, the facial feature data field for the ten face images may be, once aga
38、in, illustrated by a new isopotential lines.88二次生成數(shù)據(jù)場(chǎng)進(jìn)行模式識(shí)別If we pick up a89Face identification with the first featureABCDEFGHIJ89Face identification with the90Isopotential lines show the similarities and outliers for the ten imagesACEFGBDIHJABCDEFGHIJ90Isopotential lines show the 91Face Recognition
39、 using Facial Main Feature Data FieldWe may also pick up N local maximum potential values and their positions as the main features for each face picture, the main feature data are calculated byThe main feature data field for the ten face picture is illustrated once again by equal potential lines.and
40、91Face Recognition using Faci92用多個(gè)特征值融合后的識(shí)別結(jié)果ABCDEFGHIJ92用多個(gè)特征值融合后的識(shí)別結(jié)果ABCDEFGHIJ93Face identification: discovering similarities and discriminationBCGEDFAHIJABCDEFGHIJ93Face identification: discove94用數(shù)據(jù)場(chǎng)方法看IRIS數(shù)據(jù)分類94用數(shù)據(jù)場(chǎng)方法看IRIS數(shù)據(jù)分類95IRIS原始數(shù)據(jù)集2.15.43.16.9Virginica 1.84.83.06.0Virginica Virginica 2.55
41、.73.36.7Virginica 2.35.93.26.8Virginica Versicolour 1.54.93.1 6.9Versicolour 1.54.53.26.4Versicolour 1.44.73.27.0Versicolour Setosa 0.21.43.65.0Setosa 0.21.33.24.7Setosa 0.21.43.04.9Setosa 0.21.43.55.1Setosa 花片寬度花瓣長(zhǎng)度萼片寬度萼片長(zhǎng)度類型95IRIS原始數(shù)據(jù)集2.15.43.16.9Virgini96數(shù)據(jù)預(yù)處理 對(duì)iris數(shù)據(jù)中的萼片屬性和花瓣屬性分別做降維處理,得到新的屬性: 花瓣
42、張角=arctg(花瓣寬度/花瓣長(zhǎng)度); 萼片張角=arctg(萼片寬度/萼片長(zhǎng)度);96數(shù)據(jù)預(yù)處理 對(duì)iris數(shù)據(jù)中的萼片屬性和花瓣屬性分別97處理后數(shù)據(jù)集0.3393 0.4704Virginica0.4027 0.5016VirginicaVirginica0.4133 0.4577Virginica0.3717 0.4398VirginicaVersicolour0.29710.4223Versicolour0.32180.4636Versicolour0.28950.4288VersicolourSetosa0.13260.5930Setosa0.15260.5978Setosa 0
43、.14190.5494Setosa 0.14190.6015Setosa 花瓣張角萼片張角類型97處理后數(shù)據(jù)集0.3393 0.4704Virginica98預(yù)處理后數(shù)據(jù)分布98預(yù)處理后數(shù)據(jù)分布99從數(shù)據(jù)場(chǎng)平面分布看分類結(jié)果99從數(shù)據(jù)場(chǎng)平面分布看分類結(jié)果100從數(shù)據(jù)場(chǎng)立體分布看分類結(jié)果12.376019.00029.99463.4336100從數(shù)據(jù)場(chǎng)立體分布看分類結(jié)果12.376019.0002101五、認(rèn)知場(chǎng)中的知識(shí)發(fā)現(xiàn) 數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn) 發(fā)現(xiàn)狀態(tài)空間 類譜圖101五、認(rèn)知場(chǎng)中的知識(shí)發(fā)現(xiàn) 數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)102數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)Data Mining and Knowledge Disc
44、overy從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。102數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)Data Mining and K103從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)的難點(diǎn)大量甚至海量數(shù)據(jù)中,存在有數(shù)據(jù)的誤差、畸變、丟失或過度重疊,以歸納為主的知識(shí)發(fā)現(xiàn)過程,實(shí)際上是建立在或多或少的病態(tài)數(shù)據(jù)之上;由種種案例數(shù)據(jù)反推對(duì)象的性質(zhì)可認(rèn)為是逆向思維,人們?cè)诿}、方法或結(jié)果三個(gè)方面會(huì)獲得更多的目標(biāo)選擇。103從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)的難點(diǎn)大量甚至海量數(shù)據(jù)中,存在有數(shù)據(jù)的數(shù)據(jù)挖掘數(shù)據(jù)選擇預(yù)處理挖掘和發(fā)現(xiàn)知識(shí)解釋和驗(yàn)證數(shù)據(jù)挖掘105SelectionPrepro
45、cessingTransformationData MiningInterpretation/EvaluationTraget DataProcessed DataTransformed DataPatternsKnowledgeDMKD系統(tǒng)的基本構(gòu)成105SelectionPreprocessingTrans發(fā)現(xiàn)什么樣的知識(shí)?關(guān)聯(lián)知識(shí)聚類知識(shí)序列知識(shí) 分類知識(shí)預(yù)測(cè)知識(shí)相似時(shí)間序列發(fā)現(xiàn)什么樣的知識(shí)?分類知識(shí)預(yù)測(cè)知識(shí)相似時(shí)間序列數(shù)據(jù)挖掘工具歸納演繹聯(lián)想類比證偽數(shù)據(jù)挖掘工具歸納108數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)Data Mining and Knowledge Discovery 特定問題或特定環(huán)境下的數(shù)據(jù)
46、,是一種原始的、混亂的、不成形的自然狀態(tài)積累,但又是一種可以從中生長(zhǎng)出秩序和規(guī)則的源泉。如何透過表觀上的千頭萬(wàn)緒、混亂無(wú)規(guī),去挖掘蘊(yùn)含其中的規(guī)則性、有序性、相關(guān)性和離群性,這就是知識(shí)發(fā)現(xiàn)。108數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)Data Mining and K109DMKD的本質(zhì)什么是數(shù)據(jù)?什么是信息?什么是知識(shí)?本質(zhì)是歸納,是由微觀到中觀到宏觀的抽象.瓶頸是數(shù)據(jù)、信息和知識(shí)表示的不確定性問題.109DMKD的本質(zhì)什么是數(shù)據(jù)?什么是信息?什么是知識(shí)?110發(fā)現(xiàn)狀態(tài)空間抽象程度AMTO110發(fā)現(xiàn)狀態(tài)空間抽象程度AMTO111發(fā)現(xiàn)狀態(tài)空間特征空間的對(duì)象通過場(chǎng)發(fā)生相互作用。如同物理學(xué)中粒子之間通過場(chǎng)(場(chǎng)量子)形成
47、強(qiáng)力、電磁力、弱力或引力的相互作用一樣。對(duì)象在特征空間相互作用形成的場(chǎng)結(jié)構(gòu)反映了對(duì)象的普遍知識(shí)(廣義知識(shí))。隨著描述對(duì)象粒度(熵)越來(lái)越大,形成的普遍知識(shí)越來(lái)越宏觀。發(fā)現(xiàn)了的知識(shí)上升到抽象級(jí)別更高的層次。20世紀(jì)的物理學(xué)的發(fā)展是簡(jiǎn)化歸納。數(shù)據(jù)挖掘的本質(zhì)也是簡(jiǎn)化歸納。111發(fā)現(xiàn)狀態(tài)空間特征空間的對(duì)象通過場(chǎng)發(fā)生相互作用。如同物理112人類的認(rèn)知過程是對(duì)復(fù)雜對(duì)象關(guān)系的中觀、宏觀的知識(shí)發(fā)現(xiàn)過程,是對(duì)象所在的特征空間的微觀數(shù)據(jù)通過用自然語(yǔ)言表述的不同抽象度概念的非線性相互作用下涌現(xiàn)(突現(xiàn))的自組織特性。112人類的認(rèn)知過程是對(duì)復(fù)雜對(duì)象關(guān)系的中觀、宏觀的知識(shí)發(fā)現(xiàn)過113發(fā)現(xiàn)狀態(tài)空間 = (特征空間|概念粒
48、度) 113發(fā)現(xiàn)狀態(tài)空間 =114數(shù)據(jù)挖掘過程,實(shí)際上是從不同的抽象度上認(rèn)識(shí)數(shù)據(jù)。所謂微觀、中觀、宏觀,就是可視化的稱謂。因此,數(shù)據(jù)挖掘需要各級(jí)視圖的支持。114數(shù)據(jù)挖掘過程,實(shí)際上是從不同的抽象度上認(rèn)識(shí)數(shù)據(jù)。所謂微115隨著抽象度的提高:描述每個(gè)屬性中的概念的粒度越來(lái)越大;特征空間對(duì)象之間的關(guān)系越來(lái)越普遍;發(fā)現(xiàn)的知識(shí)逐步由微觀走向中觀、宏觀;整個(gè)歸納過程形成發(fā)現(xiàn)狀態(tài)空間的不斷轉(zhuǎn)換。115隨著抽象度的提高:描述每個(gè)屬性中的概念的粒度越來(lái)越大;116對(duì)象屬性的選取形成不同視圖,好比是從不同角度投射到客體的不同光柱,它們各有所見不及之處,但也各自照亮了不同景象。116對(duì)象屬性的選取形成不同視圖,好
49、比是從不同角度投射到客體117從不同距離觀察客體群,各有所見之景象。通過推拉鏡頭,可以改變觀察的距離,形成不同粒度的視圖。117從不同距離觀察客體群,各有所見之景象。通過推拉鏡頭,可118特征空間 當(dāng)我們討論一個(gè)客體(對(duì)象、事物、案例、記錄等)具有不同屬性或特征時(shí),常常用特征空間作為討論問題的范疇,N個(gè)屬性或特征,構(gòu)成N維空間。這時(shí),這個(gè)客體成為特征空間的一個(gè)點(diǎn)。特征空間任何一點(diǎn)的勢(shì)可認(rèn)為是所有客體在這一點(diǎn)的勢(shì)的疊加。118特征空間 當(dāng)我們討論一個(gè)客體(對(duì)象、119特征空間的聚類和類譜圖 當(dāng)我們進(jìn)行數(shù)據(jù)挖掘時(shí),將數(shù)據(jù)庫(kù)中的一條記錄按照其N個(gè)屬性,把這條記錄映射到特征空間中的一個(gè)特定點(diǎn)上,成千上
50、萬(wàn)的記錄在特征空間是成千上萬(wàn)個(gè)點(diǎn),整體上呈現(xiàn)出的抱團(tuán)特性,可以通過嵌套的等勢(shì)線(面)-自然的拓?fù)浣Y(jié)構(gòu),形成自然的聚類和類譜圖。119特征空間的聚類和類譜圖 當(dāng)我們進(jìn)行數(shù)120分類和聚類研究的基礎(chǔ)性 分類和聚類,乃是人類社會(huì)活動(dòng)、生產(chǎn)活動(dòng)以及科研活動(dòng)中最基本、最重要的活動(dòng)之一。分類和聚類研究的基礎(chǔ)性決定了其應(yīng)用的普遍性。120分類和聚類研究的基礎(chǔ)性 分類和聚類,121場(chǎng)方法發(fā)現(xiàn)聚類知識(shí)姓名工齡(月)工資(千元)A3030B5030C4070D6070E7050121場(chǎng)方法發(fā)現(xiàn)聚類知識(shí)姓名工齡(月)工資(千元)A3030122304050607080工齡304050607080工資ABCDE特征空
51、間5個(gè)對(duì)象的自然聚類122304050607080工齡304050607080工1235個(gè)對(duì)象構(gòu)成的泛類譜系圖ABCDE1235個(gè)對(duì)象構(gòu)成的泛類譜系圖ABCDE124特征空間的3000個(gè)對(duì)象的自然聚類ABC304050607080工齡304050607080工資ABCDE124特征空間的3000個(gè)對(duì)象的自然聚類ABC304050125和傳統(tǒng)聚類方法的比較:通常,人們用N個(gè)客體中的N1個(gè)樣本作為訓(xùn)練集去形成聚類結(jié)果,用N-N1個(gè)樣本作為測(cè)試集去驗(yàn)證聚類效果。實(shí)際上,這就宣布了只有這N1個(gè)樣本才對(duì)聚類有貢獻(xiàn),若N=100,極端地設(shè)想N1=2或 N1=98,必然會(huì)有不同結(jié)果。如何確定N1并選取那些樣
52、本為N1,成為一個(gè)大問題,也暴露出這種方法的缺陷。125和傳統(tǒng)聚類方法的比較:通常,人們用N個(gè)客體中的N1個(gè)樣126和傳統(tǒng)聚類方法的比較:從極微觀上看,這N個(gè)客體各自都有體現(xiàn)自身價(jià)值的不同特征,差異是絕對(duì)的,最嚴(yán)最細(xì)的分法應(yīng)該是N類。從極宏觀上看,這N個(gè)客體既然被用若干特征放到一起比較,說(shuō)明具有可比性,可以統(tǒng)屬一類。在發(fā)現(xiàn)狀態(tài)空間不同概念層次上聚類,以及聚類的相對(duì)性,就是我們的聚類觀。126和傳統(tǒng)聚類方法的比較:從極微觀上看,這N個(gè)客體各自都有127知識(shí)就是不同層次上的“規(guī)則+例外”127知識(shí)就是不同層次上的“規(guī)則+例外”128304050607080工齡304050607080工資去除例外后
53、的聚類圖AC304050607080工齡304050607080工資128304050607080工齡304050607080工129304050607080工齡304050607080工資304050607080工齡304050607080工資3000個(gè)對(duì)象中類和離群的相對(duì)性129304050607080工齡304050607080工130信息粒度粒度(Granularity)原本是一個(gè)物理學(xué)的概念,是指“微粒大小的平均度量”,在這里被借用作為對(duì)概念的抽象度的度量。把概念可視化。概念的粒度用云的熵來(lái)度量。概念在定量空間的位置用云的期望值來(lái)標(biāo)定。130信息粒度粒度(Granularity)原本
54、是一個(gè)物理學(xué)131信息粒度 人類智能的一個(gè)公認(rèn)特點(diǎn)是人們能夠從極不相同的粒度上觀察和分析同一問題,各有各的用處。人們不僅能夠在同一粒度的世界上進(jìn)行問題求解,而且能夠很快地從一個(gè)粒度世界跳到另一個(gè)粒度世界,往返自如;甚至具有同時(shí)處理不同粒度世界的能力。這正是人類問題求解的強(qiáng)有力的表現(xiàn)。131信息粒度 人類智能的一個(gè)公認(rèn)特點(diǎn)是人們能夠從極不相132觀察距離:境界決定了認(rèn)知的高度從較細(xì)的粒度世界躍升到較粗的粒度世界,是對(duì)信息或知識(shí)的抽象,可以使問題簡(jiǎn)化,數(shù)據(jù)處理量大大減少,這一過程稱為數(shù)據(jù)簡(jiǎn)約或歸約。換句話說(shuō),用粗粒度觀察和分析信息,就是增加觀察距離,忽略細(xì)微的差別,尋找共性。共性常常比個(gè)性更深刻,
55、可以求得宏觀的把握。132觀察距離:境界決定了認(rèn)知的高度從較細(xì)的粒度世界躍升到較133觀察距離:境界決定了認(rèn)知的高度反過來(lái),縮短觀察距離,用細(xì)粒度觀察和分析信息,發(fā)現(xiàn)紛繁復(fù)雜的表象,更準(zhǔn)確地區(qū)分差別,個(gè)性要比共性豐富,但是不能完全進(jìn)入共性之中。通過概念提升, 就是增加觀察距離,可以發(fā)現(xiàn)更普遍的知識(shí)。133觀察距離:境界決定了認(rèn)知的高度反過來(lái),縮短觀察距離,用134拉鏡頭發(fā)現(xiàn)特征空間的宏觀知識(shí):屬性方向和宏元組方向的概括性加大;知識(shí)模板的物理尺寸減小。從較細(xì)的粒度躍升到較粗的粒度世界,是對(duì)數(shù)據(jù)的抽象,簡(jiǎn)化問題,減少數(shù)據(jù)量,這一過程稱為數(shù)據(jù)的歸約。忽略細(xì)微的差別,尋找共性。共性常常比個(gè)性更深刻。1
56、34拉鏡頭發(fā)現(xiàn)特征空間的宏觀知識(shí):屬性方向和宏元組方向的135推鏡頭發(fā)現(xiàn)特征空間的微觀知識(shí):在發(fā)現(xiàn)空間的某個(gè)抽象層次上,縮短觀察距離,用較細(xì)粒度觀察和分析信息,發(fā)現(xiàn)紛繁復(fù)雜的表象,更準(zhǔn)確地區(qū)分差別;個(gè)性要比共性豐富,但是不能完全進(jìn)入共性之中。135推鏡頭發(fā)現(xiàn)特征空間的微觀知識(shí):在發(fā)現(xiàn)空間的某個(gè)抽象層136發(fā)現(xiàn)策略和方法發(fā)現(xiàn)是微觀和宏觀之間的跳躍,是信息粒度的變化,或者說(shuō)是觀察距離的不同;綜合運(yùn)用歸納、類比、聯(lián)想,并結(jié)合證偽和演繹,形成五大手段;以云模型作為定性定量轉(zhuǎn)換和知識(shí)表示的工具。具體發(fā)現(xiàn)方法可以是多種多樣的。136發(fā)現(xiàn)策略和方法發(fā)現(xiàn)是微觀和宏觀之間的跳躍,是信息粒度的137知識(shí)發(fā)現(xiàn)機(jī)理數(shù)
57、據(jù)挖掘揭示了人類由個(gè)別到一般、從具體到抽象的“數(shù)據(jù)概念規(guī)則”的認(rèn)知規(guī)律。概念是認(rèn)知的基元;數(shù)據(jù)是形成概念的要素;規(guī)則是在不同概念層次上客體之間的關(guān)聯(lián);不同抽象度的知識(shí),實(shí)際上是不同概念層次上的“規(guī)則加例外”而已;境界決定了認(rèn)知的高度。認(rèn)知物理學(xué)用計(jì)算機(jī)具體實(shí)現(xiàn)了這一規(guī)律的發(fā)現(xiàn)過程。137知識(shí)發(fā)現(xiàn)機(jī)理數(shù)據(jù)挖掘揭示了人類由個(gè)別到一般、從具體到抽138從數(shù)據(jù)開采的角度看專家系統(tǒng):專家系統(tǒng)是正向方式認(rèn)識(shí)世界,以演繹為主;數(shù)據(jù)開采是逆向方式認(rèn)識(shí)世界,以歸納為主。通過數(shù)據(jù)開采來(lái)發(fā)現(xiàn)知識(shí)的過程,就是構(gòu)造專家系統(tǒng)、生成知識(shí)庫(kù)的過程。138從數(shù)據(jù)開采的角度看專家系統(tǒng):專家系統(tǒng)是正向方式認(rèn)識(shí)世界139The Ex
58、perimental Database139The Experimental Database140Mining Association RulesApriori algorithmCloud based generalization as preprocessing2D clouds : location1D clouds : elevation, road density, distance to the sea, average incomeMinimum Support : 6% Minimum Confidence : 75%Mining association at multiple concept levels140Mining Association RulesApr141Discovered Association Rules for “average income”Rule 1 : If location is “southeast”, road density is “high”, and distance to the sea is “close”,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 汕頭職業(yè)技術(shù)學(xué)院《兒童文學(xué)(2)》2023-2024學(xué)年第二學(xué)期期末試卷
- 二零二五公司股權(quán)轉(zhuǎn)讓框架協(xié)議書
- 二手房代理合同書模板資訊
- 男方過錯(cuò)離婚協(xié)議書
- 2025房屋租賃版合同范本
- 2025建筑外墻保溫材料采購(gòu)合同范本
- 2025牛毛購(gòu)銷合同范文
- 2025年春季體育節(jié)開、閉幕式主持詞
- 二甲胺鹽酸鹽項(xiàng)目運(yùn)營(yíng)管理手冊(cè)(僅供參考)
- 血液培訓(xùn)課件
- 河北省唐山市路北區(qū)2023-2024學(xué)年八年級(jí)下學(xué)期4月期中物理試題
- 2024屆高中語(yǔ)文高考作文資料及素材系列
- 醫(yī)院各科室物品采購(gòu)清單
- 中國(guó)镥-177(Lu-177)市場(chǎng)發(fā)展現(xiàn)狀和未來(lái)五年前景分析
- 【中學(xué)生數(shù)學(xué)學(xué)習(xí)習(xí)慣和學(xué)習(xí)狀況調(diào)研探析報(bào)告9900字(論文)】
- 舞蹈就業(yè)能力展示
- 2024福建省能源石化集團(tuán)有限責(zé)任公司校園招聘筆試參考題庫(kù)附帶答案詳解
- 《鐵線蓮圖鑒》課件
- 內(nèi)科護(hù)理學(xué)-急性胰腺炎--1課件
- 德施曼智能鎖使用說(shuō)明書
- 《辦公室用語(yǔ)》課件
評(píng)論
0/150
提交評(píng)論