計(jì)算機(jī)新技術(shù)學(xué)術(shù)講座_第1頁(yè)
計(jì)算機(jī)新技術(shù)學(xué)術(shù)講座_第2頁(yè)
計(jì)算機(jī)新技術(shù)學(xué)術(shù)講座_第3頁(yè)
計(jì)算機(jī)新技術(shù)學(xué)術(shù)講座_第4頁(yè)
計(jì)算機(jī)新技術(shù)學(xué)術(shù)講座_第5頁(yè)
已閱讀5頁(yè),還剩127頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

計(jì)算機(jī)新技術(shù)學(xué)術(shù)講座第一頁(yè),共一百三十二頁(yè),編輯于2023年,星期五個(gè)人簡(jiǎn)介復(fù)旦大學(xué)計(jì)算機(jī)軟件與理論博士東南大學(xué)電子商務(wù)系副教授東南大學(xué)經(jīng)濟(jì)決策與信息管理研究所副所長(zhǎng)主要研究方向:數(shù)據(jù)庫(kù)/數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)、智能信息處理。已在國(guó)內(nèi)外計(jì)算機(jī)類(lèi)核心期刊發(fā)表論文十余篇,其中多篇論文被EI檢索。研究課題:數(shù)據(jù)挖掘應(yīng)用平臺(tái)研制及應(yīng)用(國(guó)家863項(xiàng)目)智能交通數(shù)據(jù)挖掘平臺(tái)(信息產(chǎn)業(yè)部攻關(guān)項(xiàng)目)環(huán)球多市場(chǎng)金融信息平臺(tái)(上海市科委攻關(guān)項(xiàng)目)2第二頁(yè),共一百三十二頁(yè),編輯于2023年,星期五主要內(nèi)容計(jì)算機(jī)硬件與互聯(lián)網(wǎng)技術(shù)計(jì)算機(jī)軟件技術(shù)智能信息處理技術(shù)3第三頁(yè),共一百三十二頁(yè),編輯于2023年,星期五計(jì)算機(jī)硬件與互聯(lián)網(wǎng)技術(shù)集群計(jì)算技術(shù)網(wǎng)格計(jì)算技術(shù)普適計(jì)算本體論與語(yǔ)義網(wǎng)絡(luò)4第四頁(yè),共一百三十二頁(yè),編輯于2023年,星期五集群計(jì)算技術(shù)什么是集群集群是使用兩臺(tái)或兩臺(tái)以上的服務(wù)器組成的服務(wù)器集合,用以提供高性能的不停機(jī)服務(wù),每臺(tái)服務(wù)器均承擔(dān)部分計(jì)算任務(wù)和容錯(cuò)任務(wù),但是整體上表現(xiàn)為一個(gè)單一系統(tǒng)。與傳統(tǒng)的并行計(jì)算模型相比,集群中各節(jié)點(diǎn)的復(fù)雜度中等,但是在單一系統(tǒng)映像、可靠性和可伸縮性上更優(yōu)越。由于集群大多使用標(biāo)準(zhǔn)的商用部件,因此能夠大幅度降低企業(yè)成本,如下頁(yè)表所示。5第五頁(yè),共一百三十二頁(yè),編輯于2023年,星期五集群計(jì)算技術(shù)特征MPPSMP集群分布式系統(tǒng)節(jié)點(diǎn)個(gè)數(shù)100-100010-10010010-1000節(jié)點(diǎn)復(fù)雜性低—中中—高中高節(jié)點(diǎn)通信消息傳遞、共享變量共享存儲(chǔ)器消息傳遞共享文件、PRC、消息單一系統(tǒng)映像部分支持支持完全支持不支持任務(wù)調(diào)度主機(jī)單一隊(duì)列單一運(yùn)行隊(duì)列多隊(duì)列協(xié)同獨(dú)立運(yùn)行隊(duì)列系統(tǒng)可用性中低高中系統(tǒng)可擴(kuò)展性低中(100CPU以下)高中6第六頁(yè),共一百三十二頁(yè),編輯于2023年,星期五集群計(jì)算技術(shù)集群系統(tǒng)的組成部分后臺(tái)共享存儲(chǔ)設(shè)備集群內(nèi)部網(wǎng)絡(luò)通訊公共網(wǎng)絡(luò)虛擬的前臺(tái)界面無(wú)虛擬內(nèi)存的的集群系統(tǒng)為了進(jìn)一步提高集群系統(tǒng)的效率,使用高速網(wǎng)絡(luò)將各主機(jī)的內(nèi)存連接起來(lái),當(dāng)一個(gè)任務(wù)的內(nèi)存不夠時(shí),它可以通過(guò)遠(yuǎn)程缺頁(yè)的方式使用遠(yuǎn)程結(jié)點(diǎn)的內(nèi)存,這樣可以通過(guò)高速網(wǎng)絡(luò)共享全局內(nèi)存。7第七頁(yè),共一百三十二頁(yè),編輯于2023年,星期五集群計(jì)算技術(shù)無(wú)虛擬內(nèi)存集群系統(tǒng)的難點(diǎn)整個(gè)資源的分配概念發(fā)生了變化,它是基于內(nèi)存的資源分配;一個(gè)結(jié)點(diǎn)可能需要訪問(wèn)另外一個(gè)結(jié)點(diǎn)的內(nèi)存,這就需要解決結(jié)點(diǎn)內(nèi)存的所有權(quán)和自治問(wèn)題;需要解決全局內(nèi)存管理問(wèn)題(集中式還是分散式),通過(guò)全局內(nèi)存管理,應(yīng)能達(dá)到減少網(wǎng)絡(luò)流量,降低延遲和數(shù)據(jù)本地優(yōu)化的目的。

目前的操作系統(tǒng)還沒(méi)有實(shí)現(xiàn)上述的處理,我們需要重構(gòu)操作系統(tǒng)以方便內(nèi)存資源共享。8第八頁(yè),共一百三十二頁(yè),編輯于2023年,星期五集群計(jì)算技術(shù)集群的分類(lèi)科學(xué)計(jì)算集群該集群主要用于大規(guī)模數(shù)值計(jì)算,解決復(fù)雜的科學(xué)問(wèn)題。這種集群上一般運(yùn)行專(zhuān)用軟件,能夠?qū)?shù)據(jù)分布到不同的服務(wù)器上進(jìn)行解決。針對(duì)不同的科學(xué)計(jì)算任務(wù),一般有以下兩種方式:任務(wù)分片方式:將任務(wù)分成多個(gè)子任務(wù)并分配到各節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)單獨(dú)運(yùn)行出結(jié)果,最后匯總計(jì)算結(jié)果;并行計(jì)算方式:各個(gè)節(jié)點(diǎn)可以進(jìn)行具有強(qiáng)藕合關(guān)系的運(yùn)算,運(yùn)算中交換大量數(shù)據(jù)。9第九頁(yè),共一百三十二頁(yè),編輯于2023年,星期五集群計(jì)算技術(shù)負(fù)載均衡集群該集群的目的是使負(fù)載盡量在各個(gè)節(jié)點(diǎn)中均衡分布,如計(jì)算負(fù)載、網(wǎng)絡(luò)流量負(fù)載等。高可用性集群該集群的目的是使服務(wù)系統(tǒng)的運(yùn)行速度和響應(yīng)速度盡可能快,通過(guò)將程序運(yùn)行在冗余節(jié)點(diǎn)上,集群具有更好的容錯(cuò)性。高可用性集群可以分為主從方式、雙機(jī)備份方式和多機(jī)備份方式。10第十頁(yè),共一百三十二頁(yè),編輯于2023年,星期五集群計(jì)算技術(shù)并行數(shù)據(jù)庫(kù)集群近年來(lái)興起的集群類(lèi)型,同時(shí)具有并行計(jì)算、高可用性和負(fù)載均衡等多種特征,主要用于高端數(shù)據(jù)庫(kù)領(lǐng)域,如OracleRAC和IBMDB2EEE。OracleRAC系統(tǒng)每臺(tái)主機(jī)擁有獨(dú)立的CPU和內(nèi)存,但是共享磁盤(pán)空間,主要針對(duì)于大量用戶(hù)并行的訪問(wèn),I/O沖突采用數(shù)據(jù)庫(kù)的鎖機(jī)制解決;DB2EEE中各計(jì)算機(jī)擁有獨(dú)立的CPU、內(nèi)存和磁盤(pán),并且高速相連,對(duì)每一次訪問(wèn),每個(gè)節(jié)點(diǎn)查詢(xún)本地表中的相應(yīng)結(jié)果,返回給協(xié)調(diào)程序,最后匯總成最終查詢(xún)結(jié)果。11第十一頁(yè),共一百三十二頁(yè),編輯于2023年,星期五網(wǎng)格計(jì)算技術(shù)網(wǎng)格的基本概念什么是網(wǎng)格(GRID)網(wǎng)格是以Internet技術(shù)和分布計(jì)算技術(shù)為基礎(chǔ),將地理上分散的各類(lèi)計(jì)算資源、存儲(chǔ)資源、數(shù)據(jù)資源、應(yīng)用資源、儀器設(shè)備等構(gòu)成統(tǒng)一的虛擬環(huán)境,采用開(kāi)放標(biāo)準(zhǔn)的協(xié)議,實(shí)現(xiàn)資源的有效共享,為動(dòng)態(tài)參與的、由多機(jī)構(gòu)所形成的虛擬組織協(xié)同完成高性能計(jì)算、信息處理等各類(lèi)應(yīng)用,提供可擴(kuò)展的、安全的、一致的、不同等級(jí)質(zhì)量的服務(wù)。網(wǎng)格是集群系統(tǒng)的進(jìn)一步發(fā)展。12第十二頁(yè),共一百三十二頁(yè),編輯于2023年,星期五網(wǎng)格計(jì)算技術(shù)網(wǎng)格計(jì)算的產(chǎn)生背景分布式計(jì)算、高性能計(jì)算、大規(guī)模的資源共享、協(xié)同工作、數(shù)據(jù)密集型的科學(xué)計(jì)算。網(wǎng)格的本質(zhì)特征是分布與資源共享高度抽象自相似動(dòng)態(tài)性和多樣性高可擴(kuò)展性網(wǎng)格計(jì)算的示例(見(jiàn)下頁(yè)圖所示)13第十三頁(yè),共一百三十二頁(yè),編輯于2023年,星期五網(wǎng)格計(jì)算技術(shù)Tier1Tier2Centre~1TIPSOnlineSystemOfflineProcessorFarm~20TIPSCERNComputerCentreFermiLab~4TIPSFranceRegionalCentreItalyRegionalCentreGermanyRegionalCentreInstituteInstituteInstituteInstitute~0.25TIPSPentiumII300MHzPentiumII300MHzPentiumII300MHzPentiumII300MHzPhysicistworkstations~100MBytes/sec~100MBytes/sec~622Mbits/sec~1MBytes/secHPSSHPSSPhysicsdatacache~PBytes/sec~622Mbits/secorAirFreight(deprecated)HPSSHPSSHPSSTier2Centre~1TIPSTier2Centre~1TIPSTier2Centre~1TIPSCaltech~1TIPS~622Mbits/secTier0Tier2Tier414第十四頁(yè),共一百三十二頁(yè),編輯于2023年,星期五網(wǎng)格計(jì)算技術(shù)網(wǎng)格的系統(tǒng)結(jié)構(gòu)(見(jiàn)下頁(yè)圖所示)網(wǎng)格結(jié)點(diǎn):地理上獨(dú)立的計(jì)算和信息中心,由Internet上孤立、異構(gòu)的各類(lèi)資源組成;網(wǎng)格中間件:網(wǎng)格體系結(jié)構(gòu)的核心部分,其功能是屏蔽網(wǎng)格資源層中計(jì)算資源的分布、異構(gòu)性,向網(wǎng)格應(yīng)用層提供透明、一致的服務(wù)接口,如遠(yuǎn)程進(jìn)程管理、資源分配、存儲(chǔ)訪問(wèn)和安全控制等。網(wǎng)格應(yīng)用工具層:提供更為專(zhuān)業(yè)化的服務(wù)和組建不同類(lèi)型的應(yīng)用。網(wǎng)格應(yīng)用層:應(yīng)用層包括各種應(yīng)用軟件的研究、高速網(wǎng)格的建設(shè)等,它可以使用戶(hù)方便地共享網(wǎng)格中的各種資源。15第十五頁(yè),共一百三十二頁(yè),編輯于2023年,星期五網(wǎng)格計(jì)算技術(shù)16第十六頁(yè),共一百三十二頁(yè),編輯于2023年,星期五網(wǎng)格計(jì)算技術(shù)典型的網(wǎng)格系統(tǒng)(1)——Globus系統(tǒng)什么是GlobusGlobus是一個(gè)研究性的項(xiàng)目,其主要的研究目標(biāo)是網(wǎng)格基礎(chǔ)技術(shù)研究,以及相應(yīng)軟件的開(kāi)發(fā)和標(biāo)準(zhǔn)的制定。Globus是網(wǎng)格技術(shù)的典型代表,也是目前事實(shí)上的規(guī)范。Globus是一種軟件基礎(chǔ)設(shè)施,它以單一虛擬機(jī)的方式處理分布異構(gòu)的計(jì)算資源,其核心在于GlobusMetacomputingToolkit(GMT),它提供了建構(gòu)一個(gè)計(jì)算網(wǎng)格所需的基本服務(wù),如安全、資源定位、管理和調(diào)度、通訊服務(wù)等。17第十七頁(yè),共一百三十二頁(yè),編輯于2023年,星期五網(wǎng)格計(jì)算技術(shù)Globus的五層結(jié)構(gòu)應(yīng)用層多科學(xué)模擬光線追蹤匯聚層(面向問(wèn)題)聯(lián)合求解器,分布式數(shù)據(jù)文檔檢查點(diǎn),作業(yè)管理,故障避免,分段運(yùn)輸匯聚層(通用)資源發(fā)現(xiàn),資源代理,系統(tǒng)監(jiān)控,社團(tuán)授權(quán),收回證書(shū)資源層訪問(wèn)計(jì)算,訪問(wèn)數(shù)據(jù),訪問(wèn)系統(tǒng)結(jié)構(gòu),狀態(tài)與性能信息連接層通信(IP),服務(wù)發(fā)現(xiàn)(DNS),認(rèn)證,授權(quán),代理構(gòu)造層存儲(chǔ)系統(tǒng),計(jì)算機(jī),網(wǎng)絡(luò),代碼庫(kù),目錄18第十八頁(yè),共一百三十二頁(yè),編輯于2023年,星期五網(wǎng)格計(jì)算技術(shù)典型的網(wǎng)格系統(tǒng)(2)——TeraGrid系統(tǒng)TeraGrid網(wǎng)格系統(tǒng)基本情況與主要應(yīng)用TeraGrid網(wǎng)格系統(tǒng)最初包括4個(gè)節(jié)點(diǎn),后擴(kuò)充到9節(jié)點(diǎn),節(jié)點(diǎn)間通過(guò)10-30GB/s的專(zhuān)用網(wǎng)絡(luò)互聯(lián),具有超強(qiáng)的計(jì)算能力和存儲(chǔ)能力。協(xié)作進(jìn)行分布式數(shù)據(jù)集的分析和交換:各節(jié)點(diǎn)進(jìn)行獨(dú)立的數(shù)據(jù)分析,整個(gè)項(xiàng)目的完成依賴(lài)于快速和頻繁的分析結(jié)果交換,如研究宇宙射線項(xiàng)目;多個(gè)機(jī)構(gòu)共享的分布式模擬:例如規(guī)模龐大的地震模擬計(jì)算在不同的節(jié)點(diǎn)進(jìn)行,任何節(jié)點(diǎn)的科學(xué)家可以通過(guò)高速網(wǎng)絡(luò)快速獲取各個(gè)不同階段的計(jì)算結(jié)果;19第十九頁(yè),共一百三十二頁(yè),編輯于2023年,星期五網(wǎng)格計(jì)算技術(shù)網(wǎng)格計(jì)算的關(guān)鍵技術(shù)安全技術(shù)網(wǎng)格安全機(jī)制相當(dāng)復(fù)雜,各種自治資源交互時(shí)既不能影響資源本身的可用性,又不能在系統(tǒng)中引入漏洞。Globus提出了網(wǎng)格安全基礎(chǔ)設(shè)施GSI,GSI主要集中在網(wǎng)絡(luò)的傳輸層和應(yīng)用層,采用X1509認(rèn)證和安全套接層(SSL)通信協(xié)議,GSI中的主要安全技術(shù)包括安全認(rèn)證、安全身份相互鑒別、通信加密等。20第二十頁(yè),共一百三十二頁(yè),編輯于2023年,星期五網(wǎng)格計(jì)算技術(shù)異構(gòu)系統(tǒng)的單一系統(tǒng)映像技術(shù)網(wǎng)格包含多種異構(gòu)資源,實(shí)現(xiàn)異構(gòu)機(jī)器間的合作和轉(zhuǎn)換,向用戶(hù)提供統(tǒng)一、透明的服務(wù)是首要問(wèn)題。Globus中使用使用輕量級(jí)目錄訪問(wèn)協(xié)議(LDAP)作為訪問(wèn)該信息的接口。通過(guò)使用LDAP服務(wù)器,MDS在公共接口中提供了中間件信息,從而將統(tǒng)一的圖像放在全異資源的頂部。21第二十一頁(yè),共一百三十二頁(yè),編輯于2023年,星期五網(wǎng)格計(jì)算技術(shù)網(wǎng)格統(tǒng)一資源管理技術(shù)網(wǎng)格資源管理包括資源信息的組織、查詢(xún)與更新等,網(wǎng)格資源分為計(jì)算類(lèi)和非計(jì)算類(lèi)資源。計(jì)算類(lèi)資源信息包括所有網(wǎng)格結(jié)點(diǎn)及網(wǎng)絡(luò)的靜態(tài)和動(dòng)態(tài)信息,如結(jié)點(diǎn)計(jì)算能力、存儲(chǔ)能力、網(wǎng)絡(luò)結(jié)構(gòu)和性能指標(biāo);非計(jì)算類(lèi)資源信息指網(wǎng)格中服務(wù)于系統(tǒng)和用戶(hù)的信息,如網(wǎng)格用戶(hù)信息、軟件信息、服務(wù)功能信息等。Globus使用GRAM處理資源請(qǐng)求、執(zhí)行遠(yuǎn)程應(yīng)用、分配資源等任務(wù),并根據(jù)計(jì)算資源的情況,把資源更新信息發(fā)送給MDS。22第二十二頁(yè),共一百三十二頁(yè),編輯于2023年,星期五網(wǎng)格計(jì)算技術(shù)網(wǎng)格技術(shù)的缺陷和局限網(wǎng)格系統(tǒng)對(duì)數(shù)據(jù)通訊速率要求很高,影響了系統(tǒng)效率或提高了成本;網(wǎng)格系統(tǒng)的維護(hù)費(fèi)用比集群等高得多;由于目前網(wǎng)絡(luò)帶寬比CPU資源昂貴得多,且因特網(wǎng)成本降低的速度低于芯片成本降低的速度,因此網(wǎng)格系統(tǒng)目前比較適合于計(jì)算復(fù)雜、但數(shù)據(jù)傳輸量小的應(yīng)用。對(duì)于大多數(shù)應(yīng)用,集群系統(tǒng)方案綜合看來(lái)更優(yōu)越。23第二十三頁(yè),共一百三十二頁(yè),編輯于2023年,星期五網(wǎng)格計(jì)算技術(shù)網(wǎng)格技術(shù)在數(shù)字油藏模擬中的應(yīng)用背景當(dāng)前被模擬的油藏模型從幾十萬(wàn)個(gè)單元到幾千萬(wàn)個(gè)單元,運(yùn)行平臺(tái)主要是專(zhuān)業(yè)的并行機(jī)。隨著老油區(qū)開(kāi)發(fā)難度的增大,油藏模型的面積和數(shù)量將會(huì)明顯地增加和擴(kuò)大,繼續(xù)用傳統(tǒng)的并行計(jì)算機(jī)來(lái)模擬,為了達(dá)到理想的模擬速度和效果,其硬件平臺(tái)的投資將很高。同時(shí)隨著隨著并行機(jī)市場(chǎng)不斷萎縮,其系統(tǒng)的擴(kuò)容、維護(hù)等都存在很大的問(wèn)題。24第二十四頁(yè),共一百三十二頁(yè),編輯于2023年,星期五網(wǎng)格計(jì)算技術(shù)目的為獲得低成本、高性能的計(jì)算平臺(tái),以滿(mǎn)足企業(yè)對(duì)油藏模擬不斷增長(zhǎng)的計(jì)算需求,國(guó)外石油公司逐步采用了基于網(wǎng)格技術(shù)的PC集群系統(tǒng)(即以PC集群作為網(wǎng)格主節(jié)點(diǎn),再通過(guò)網(wǎng)格中間件并入其他異構(gòu)系統(tǒng))替代并行機(jī)來(lái)進(jìn)行油藏模擬。對(duì)比實(shí)驗(yàn)選擇了國(guó)外某油田100萬(wàn)個(gè)網(wǎng)格、8個(gè)斷層、7個(gè)組分、100個(gè)井的模型,模擬時(shí)間20年。對(duì)比IBMSP2并行機(jī)與基于千兆以太網(wǎng)、Myrinet高速交換技術(shù)和AMDOpteron64位CPU的PC集群系統(tǒng)。(基于VIP模擬軟件)25第二十五頁(yè),共一百三十二頁(yè),編輯于2023年,星期五網(wǎng)格計(jì)算技術(shù)實(shí)驗(yàn)結(jié)果(新疆油田勘探開(kāi)發(fā)研究院提供)在模擬計(jì)算的精度和穩(wěn)定性上,PC集群系統(tǒng)與并行機(jī)結(jié)果相當(dāng);到IBMSP2的4個(gè)節(jié)點(diǎn)8CPU的并行機(jī)上模擬,系統(tǒng)運(yùn)行了30.2個(gè)小時(shí)后,同樣CPU個(gè)數(shù)的基于Myrinet的PC集群的運(yùn)算時(shí)間為11.66小時(shí);基于千兆以太網(wǎng)的PC集群運(yùn)算時(shí)間是16小時(shí),在運(yùn)算速度上,比IBMSP2提高了2.6~1.9倍;VIP軟件的計(jì)算節(jié)點(diǎn)之間需要大量的數(shù)據(jù)交換,去計(jì)算相鄰網(wǎng)格單元邊緣處的偏移。在PC集群系統(tǒng)中,當(dāng)計(jì)算節(jié)點(diǎn)很多時(shí),存在著訪問(wèn)網(wǎng)絡(luò)的瓶頸問(wèn)題。26第二十六頁(yè),共一百三十二頁(yè),編輯于2023年,星期五普適計(jì)算普適計(jì)算普適計(jì)算的定義普適計(jì)算是信息空間與物理空間的融合,在這個(gè)融合的空間中人們可以隨時(shí)隨地、透明地獲得數(shù)字化的服務(wù)。隨時(shí)隨地是指人們可以在工作、生活的現(xiàn)場(chǎng)就可以獲得服務(wù),甚至是由系統(tǒng)主動(dòng)提供;透明是計(jì)算機(jī)技術(shù)已經(jīng)滲透到人們的日常生活中,以致于人們根本沒(méi)有意識(shí)到這些技術(shù)。普適計(jì)算強(qiáng)調(diào)把計(jì)算機(jī)嵌入到環(huán)境或日常工具中去,讓計(jì)算機(jī)本身從人們的視線中消失,讓人們注意的中心回歸到要完成的任務(wù)本身。27第二十七頁(yè),共一百三十二頁(yè),編輯于2023年,星期五普適計(jì)算普適計(jì)算的研究?jī)?nèi)容智能環(huán)境和不可見(jiàn)的計(jì)算即物理環(huán)境與信息環(huán)境有效地融合,信息環(huán)境能夠自動(dòng)、智能地感知物理環(huán)境中的變化。常用的方法包括:(1)直接在物體上嵌入一定的感知、計(jì)算、通信能力,使其同時(shí)具有物理空間和信息空間中的用途;(2)為每個(gè)物體添加可以被計(jì)算機(jī)自動(dòng)識(shí)別的標(biāo)簽,如紅外或者RFID。28第二十八頁(yè),共一百三十二頁(yè),編輯于2023年,星期五普適計(jì)算無(wú)縫的可移動(dòng)性用戶(hù)能夠在不同的服務(wù)空間中很自然地移動(dòng),可以把應(yīng)用從一個(gè)設(shè)備移動(dòng)到另一個(gè)設(shè)備中。普遍的信息訪問(wèn)通過(guò)網(wǎng)絡(luò)和服務(wù)器的支持,用戶(hù)能在任何時(shí)間和地點(diǎn)檢索信息,利用任何種類(lèi)的交互設(shè)備與遠(yuǎn)程聯(lián)網(wǎng)的設(shè)備進(jìn)行交互。覺(jué)察上下文的計(jì)算系統(tǒng)能覺(jué)察在當(dāng)時(shí)的情景中與交互的任務(wù)有關(guān)的上下文,并據(jù)此做出決策和自動(dòng)地提供相應(yīng)的服務(wù)。29第二十九頁(yè),共一百三十二頁(yè),編輯于2023年,星期五普適計(jì)算普適計(jì)算的實(shí)例RFID(無(wú)線射頻識(shí)別標(biāo)簽)通常為一片帶有存儲(chǔ)單元和天線的半導(dǎo)體芯片,通過(guò)天線與讀取器進(jìn)行非接觸通信。普適計(jì)算環(huán)境下,帶有RFID標(biāo)簽的衣服能夠在商場(chǎng)收銀臺(tái)顯示商品的價(jià)格,能夠?qū)⒁路牟剂铣煞謧鬟f給洗衣機(jī)和電熨斗,使洗滌、烘干程序和熨燙溫度均可以自動(dòng)設(shè)定。家庭計(jì)算機(jī)可以通過(guò)RFID信息了解到衣物的保暖、防風(fēng)性能,自動(dòng)比較主人外出前穿戴衣物的保暖性能是否適應(yīng)室外的氣候,包括當(dāng)時(shí)的氣候和一段時(shí)間之后的氣候。如果主人出遠(yuǎn)門(mén),計(jì)算機(jī)還會(huì)通過(guò)訂票信息了解目的地的氣候情況并進(jìn)行分析,這些分析會(huì)根據(jù)每個(gè)個(gè)體的衣著習(xí)慣進(jìn)行。30第三十頁(yè),共一百三十二頁(yè),編輯于2023年,星期五本體論與語(yǔ)義網(wǎng)絡(luò)本體論與語(yǔ)義網(wǎng)絡(luò)什么是本體(Ontology)在哲學(xué)界,本體作為表述哲學(xué)理論的術(shù)語(yǔ),是指形成現(xiàn)象的根本實(shí)體。在信息技術(shù)與知識(shí)領(lǐng)域,本體是用于描述或表達(dá)某一領(lǐng)域知識(shí)的一組概念或術(shù)語(yǔ),可用于組織知識(shí)庫(kù)較高層次的知識(shí)抽象,也可用來(lái)描述特定領(lǐng)域的知識(shí)??偟膩?lái)說(shuō),本體就是通過(guò)對(duì)于概念、術(shù)語(yǔ)及其相互關(guān)系的規(guī)范化描述,勾畫(huà)出某一領(lǐng)域的基本知識(shí)體系和描述語(yǔ)言。31第三十一頁(yè),共一百三十二頁(yè),編輯于2023年,星期五本體論與語(yǔ)義網(wǎng)絡(luò)研究本體的意義本體可以在不同的建模方法、范式、語(yǔ)言和軟件工具之間進(jìn)行翻譯和映射,以實(shí)現(xiàn)不同系統(tǒng)之間的互操作和繼承。本體和數(shù)據(jù)庫(kù)在功能上有些相似,但是定義本體的語(yǔ)言,在詞法和語(yǔ)義上都比數(shù)據(jù)庫(kù)所能表示的信息豐富得多,并且本體提供的是一個(gè)領(lǐng)域嚴(yán)謹(jǐn)豐富的理論,而不單單是一個(gè)存放數(shù)據(jù)的結(jié)構(gòu)。本體是領(lǐng)域內(nèi)重要實(shí)體、屬性、過(guò)程及其相互關(guān)系形式化描述的基礎(chǔ),這種形式化的描述可成為軟件系統(tǒng)中可重用和共享的組件。32第三十二頁(yè),共一百三十二頁(yè),編輯于2023年,星期五本體論與語(yǔ)義網(wǎng)絡(luò)對(duì)于知識(shí)管理系統(tǒng)來(lái)說(shuō),本體就是一個(gè)正式的詞匯表。本體可以將對(duì)象知識(shí)的概念和相互間的關(guān)系進(jìn)行較為精確的定義。在這樣一系列概念的支持下進(jìn)行知識(shí)搜索、知識(shí)積累、知識(shí)共享的效率將大大提高,真正意義上的知識(shí)重用和知識(shí)共享也能成為現(xiàn)實(shí)。本體適合表示抽象的描述,而企業(yè)模型是人們對(duì)企業(yè)或者企業(yè)的某些模型的抽象描述,因此在企業(yè)邏輯建模中,本體的使用可以幫助我們清楚地理解企業(yè)特定領(lǐng)域的相關(guān)元素、關(guān)系和概念,讓知識(shí)表達(dá)更加準(zhǔn)確便捷,幫助人們進(jìn)行更好的企業(yè)決策。33第三十三頁(yè),共一百三十二頁(yè),編輯于2023年,星期五本體論與語(yǔ)義網(wǎng)絡(luò)本體的分類(lèi)頂層本體描述的是最普遍的概念及概念之間的關(guān)系,如空間、時(shí)間、事件、行為等等,與具體的應(yīng)用無(wú)關(guān),其他種類(lèi)的本體都是其的特例;領(lǐng)域本體描述的是某個(gè)特定領(lǐng)域(如醫(yī)藥、地理等)中的概念及概念之間的關(guān)系;任務(wù)本體描述的是特定任務(wù)或行為中的概念及概念之間的關(guān)系;應(yīng)用本體描述的是依賴(lài)于特定領(lǐng)域和任務(wù)的概念及概念之間的關(guān)系。34第三十四頁(yè),共一百三十二頁(yè),編輯于2023年,星期五本體論與語(yǔ)義網(wǎng)絡(luò)語(yǔ)義網(wǎng)絡(luò)的產(chǎn)生背景現(xiàn)有互聯(lián)網(wǎng)技術(shù)只是按照URI來(lái)定位信息,并沒(méi)有對(duì)信息的含義進(jìn)行描述,但對(duì)信息的內(nèi)容并不關(guān)心,因此互聯(lián)網(wǎng)上信息處理的自動(dòng)化、智能化程度是很低的。語(yǔ)義Web通過(guò)擴(kuò)展現(xiàn)有互聯(lián)網(wǎng),在信息中加入表示其含義的內(nèi)容,使計(jì)算機(jī)可以自動(dòng)與人協(xié)同工作,提高信息處理的自動(dòng)化和智能化。語(yǔ)義Web是要把Web上的資源(如一篇文章里的關(guān)鍵詞的含義和主題思想)用本體論語(yǔ)言標(biāo)注明確其語(yǔ)義,然后進(jìn)行基于語(yǔ)義的查詢(xún)和推理。35第三十五頁(yè),共一百三十二頁(yè),編輯于2023年,星期五本體論與語(yǔ)義網(wǎng)絡(luò)語(yǔ)義Web的分層結(jié)構(gòu)基于XML的語(yǔ)法層X(jué)ML允許用戶(hù)為文檔添加結(jié)構(gòu)信息,但并不能說(shuō)明這些結(jié)構(gòu)的含義,語(yǔ)義Web結(jié)構(gòu)中使用XML作為語(yǔ)法層,為語(yǔ)義Web的建立提供語(yǔ)法基礎(chǔ)。基于資源描述框架(RDF)的數(shù)據(jù)層RDF是對(duì)結(jié)構(gòu)化的元數(shù)據(jù)編碼、交換和重用的基礎(chǔ)。在語(yǔ)義Web模型中,信息統(tǒng)一以RDF句子的形式存儲(chǔ),便于機(jī)器理解。RDF數(shù)據(jù)模型表示為一個(gè)有向標(biāo)記圖,該圖獨(dú)立于實(shí)現(xiàn)且可以用XML來(lái)序列化。36第三十六頁(yè),共一百三十二頁(yè),編輯于2023年,星期五本體論與語(yǔ)義網(wǎng)絡(luò)基于本體的語(yǔ)義層本體適合于描述互聯(lián)網(wǎng)上各種不同的、分散的、半結(jié)構(gòu)化的信息資源。通過(guò)定義共享的、通用的領(lǐng)域知識(shí),本體幫助人和機(jī)器進(jìn)行語(yǔ)義級(jí)的交換,而不僅是語(yǔ)法級(jí)的。邏輯層邏輯層提供了規(guī)則,從而便于進(jìn)行推理。證據(jù)層在邏輯層基礎(chǔ)上交換推理的結(jié)果,為了檢查這些結(jié)果,需要將內(nèi)部推理機(jī)制轉(zhuǎn)化為一種通用的證據(jù)表示語(yǔ)言。37第三十七頁(yè),共一百三十二頁(yè),編輯于2023年,星期五本體論與語(yǔ)義網(wǎng)絡(luò)語(yǔ)義Web的應(yīng)用研究Webservices是一系列用來(lái)促進(jìn)跨平臺(tái)的程序間通信的標(biāo)準(zhǔn)。語(yǔ)義Web可以提高用戶(hù)對(duì)Webservices進(jìn)行定位、選擇、運(yùn)用、組合和監(jiān)控的自動(dòng)化程度。語(yǔ)義Web用本體來(lái)描述各種網(wǎng)上資源,網(wǎng)絡(luò)中的知識(shí)將用一種結(jié)構(gòu)化、邏輯化、語(yǔ)義化的方式來(lái)表示。代理(Agent)可以在本體的指導(dǎo)下對(duì)網(wǎng)上知識(shí)進(jìn)行讀取和推理,并形成一個(gè)動(dòng)態(tài)聯(lián)系的Agent網(wǎng)絡(luò),傳統(tǒng)的C/S計(jì)算模式將可能被一種基于Agent的分布式計(jì)算模式所取代。38第三十八頁(yè),共一百三十二頁(yè),編輯于2023年,星期五本體論與語(yǔ)義網(wǎng)絡(luò)現(xiàn)有的搜索引擎是基于關(guān)鍵字,詞語(yǔ)中的多義詞和同義詞降低了查詢(xún)的精確性。盡管研究者們提出許多算法來(lái)解決這個(gè)問(wèn)題,但從網(wǎng)頁(yè)的文本內(nèi)容入手僅能得到有限的語(yǔ)義信息,而語(yǔ)義Web則可以較好的處理這個(gè)問(wèn)題。近年來(lái)大量的數(shù)字化多媒體數(shù)據(jù)被加入互聯(lián)網(wǎng),傳統(tǒng)的基于內(nèi)容的多媒體數(shù)據(jù)檢索技術(shù),不能有效利用網(wǎng)上的多媒體數(shù)據(jù)?;谡Z(yǔ)義的查詢(xún)能夠利用多媒體資源的高級(jí)特征,從而使各種多媒體數(shù)據(jù)資源得到有效利用。39第三十九頁(yè),共一百三十二頁(yè),編輯于2023年,星期五計(jì)算機(jī)軟件技術(shù)數(shù)據(jù)庫(kù)技術(shù)數(shù)據(jù)倉(cāng)庫(kù)空間數(shù)據(jù)庫(kù)、移動(dòng)數(shù)據(jù)庫(kù)實(shí)時(shí)數(shù)據(jù)庫(kù)、數(shù)據(jù)流技術(shù)XML數(shù)據(jù)庫(kù)、微型數(shù)據(jù)庫(kù)商用數(shù)據(jù)庫(kù)新進(jìn)展數(shù)據(jù)庫(kù)新技術(shù)在地礦行業(yè)的應(yīng)用軟件工程技術(shù)軟件工程中的知識(shí)管理40第四十頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)的定義面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。數(shù)據(jù)倉(cāng)庫(kù)的主要特點(diǎn):數(shù)據(jù)倉(cāng)庫(kù)面向分析型數(shù)據(jù)處理,用于支持決策,不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫(kù);數(shù)據(jù)倉(cāng)庫(kù)是對(duì)多個(gè)異構(gòu)數(shù)據(jù)源進(jìn)行的有效集成,并按主題進(jìn)行重組,數(shù)據(jù)一般也不再修改。41第四十一頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)圖數(shù)據(jù)倉(cāng)庫(kù)抽取轉(zhuǎn)換加載更新OLAP引擎分析查詢(xún)報(bào)表數(shù)據(jù)挖掘監(jiān)測(cè)集成元數(shù)據(jù)數(shù)據(jù)源前端工具數(shù)據(jù)集市操作數(shù)據(jù)庫(kù)其它數(shù)據(jù)源數(shù)據(jù)存儲(chǔ)OLAP服務(wù)器42第四十二頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)與聯(lián)機(jī)分析處理OLAPOLAP是使分析人員能夠從多角度對(duì)信息進(jìn)行快速、一致、交互地訪問(wèn),從而獲得對(duì)數(shù)據(jù)的更深入了解的一種軟件技術(shù),其目標(biāo)是滿(mǎn)足在多維環(huán)境下特定的查詢(xún)和報(bào)表需求。OLAP的核心是將數(shù)據(jù)按照多維結(jié)構(gòu)(即數(shù)據(jù)立方體)進(jìn)行組織與處理,即將實(shí)體的重要屬性定義為“維”,并且“維”可以包含復(fù)雜的層次結(jié)構(gòu)。根據(jù)“維”的結(jié)構(gòu)層次不同,OLAP分析的常見(jiàn)操作包括下鉆、上卷、切片、切塊以及旋轉(zhuǎn)等。43第四十三頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)立方體的實(shí)例美國(guó)的電視機(jī)年度銷(xiāo)售總額日期產(chǎn)品國(guó)家All,All,Allsumsum

TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum44第四十四頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)與OLAP的實(shí)現(xiàn)方式

MOLAP:使用多維數(shù)組存儲(chǔ)數(shù)據(jù)。多維數(shù)據(jù)在存儲(chǔ)中將形成“立方體”的結(jié)構(gòu)。ROLAP:以關(guān)系數(shù)據(jù)庫(kù)為核心,以關(guān)系表進(jìn)行多維數(shù)據(jù)的表示和存儲(chǔ)。ROLAP將多維結(jié)構(gòu)劃分為兩類(lèi)表,即事實(shí)表(存儲(chǔ)數(shù)據(jù)和維關(guān)鍵字)和維表(用于存放維的層次、成員類(lèi)別等描述信息)。常見(jiàn)的組織形式包括“星型模式”和“雪花模式”。HOLAP:基于混合形式的實(shí)現(xiàn),例如低層是關(guān)系型的,高層是多維矩陣,該方式更具靈活性。45第四十五頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——數(shù)據(jù)倉(cāng)庫(kù)星型模式實(shí)例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch46第四十六頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)實(shí)施的難點(diǎn)業(yè)務(wù)模型與數(shù)據(jù)模型的建立;相關(guān)主題領(lǐng)域的確定;元數(shù)據(jù)的設(shè)計(jì)和管理;數(shù)據(jù)的凈化和集成;自下而上和自上而下實(shí)施策略的選擇;47第四十七頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——空間數(shù)據(jù)庫(kù)空間數(shù)據(jù)庫(kù)空間數(shù)據(jù)庫(kù)的出現(xiàn)背景:GIS的普及使用。傳統(tǒng)RDBMS管理地理信息數(shù)據(jù)的局限地理信息數(shù)據(jù)一般為連續(xù)數(shù)據(jù),并具有較強(qiáng)的空間相關(guān)性;地理信息數(shù)據(jù)的實(shí)體類(lèi)型多,空間關(guān)系復(fù)雜;地理信息數(shù)據(jù)的數(shù)據(jù)項(xiàng)復(fù)雜,變長(zhǎng)記錄居多;地理信息數(shù)據(jù)需要大量的空間操作和查詢(xún),如拓?fù)潢P(guān)系查詢(xún)和相似性查詢(xún)等;48第四十八頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——空間數(shù)據(jù)庫(kù)空間數(shù)據(jù)庫(kù)的實(shí)現(xiàn)方式混合模式:將非空間數(shù)據(jù)存儲(chǔ)在RDBMS中,將空間數(shù)據(jù)存放在文件系統(tǒng)中。缺點(diǎn):空間數(shù)據(jù)無(wú)法獲得DBMS的有效管理,文件的通用性差。集成模式:將空間數(shù)據(jù)和屬性數(shù)據(jù)全部存儲(chǔ)在數(shù)據(jù)庫(kù)中,這是目前空間數(shù)據(jù)庫(kù)的發(fā)展方向。

空間數(shù)據(jù)引擎:處于應(yīng)用程序和RDBMS之間的中間件技術(shù),客戶(hù)通過(guò)引擎對(duì)RDBMS中的空間數(shù)據(jù)進(jìn)行訪問(wèn),如MapInfo提供的中間件產(chǎn)品SaptialWare。通用空間數(shù)據(jù)庫(kù):在DBMS中管理空間數(shù)據(jù),如Oracle

Spatial。這類(lèi)數(shù)據(jù)庫(kù)一般采用對(duì)象-關(guān)系模型,使用R-tree等高效空間索引結(jié)構(gòu),并支持SQL語(yǔ)言查詢(xún)。49第四十九頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——空間數(shù)據(jù)庫(kù)空間數(shù)據(jù)庫(kù)未來(lái)的主要研究方向支持場(chǎng)實(shí)體的數(shù)據(jù)庫(kù)必須具有高效的柵格處理能力,如柵格的存儲(chǔ)策略、索引形式等;更高效的高維空間索引結(jié)構(gòu),已出現(xiàn)的新的結(jié)構(gòu)包括R*-tree、TV-tree、X-tree、M-tree等;如何高效地進(jìn)行基于內(nèi)容的查詢(xún),如“查找所有背景為海洋,前景為海灘的圖像”;空間數(shù)據(jù)倉(cāng)庫(kù)中,空間數(shù)據(jù)的各種分析操作以及結(jié)果的可視化顯示,都有待于進(jìn)一步研究;各種空間數(shù)據(jù)挖掘技術(shù)。50第五十頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——移動(dòng)數(shù)據(jù)庫(kù)移動(dòng)數(shù)據(jù)庫(kù)移動(dòng)數(shù)據(jù)庫(kù)的定義移動(dòng)數(shù)據(jù)庫(kù)是傳統(tǒng)的分布式數(shù)據(jù)庫(kù)的延伸和擴(kuò)展,是一個(gè)由無(wú)線網(wǎng)絡(luò)和有線網(wǎng)絡(luò)組成的復(fù)雜的、異構(gòu)的分布式系統(tǒng),各種移動(dòng)用戶(hù)可以通過(guò)移動(dòng)設(shè)備訪問(wèn)固定網(wǎng)絡(luò)中的信息。移動(dòng)數(shù)據(jù)庫(kù)的新特點(diǎn)移動(dòng)性、頻繁的斷接性網(wǎng)絡(luò)的多樣性和非對(duì)稱(chēng)性資源的有限性51第五十一頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——移動(dòng)數(shù)據(jù)庫(kù)移動(dòng)數(shù)據(jù)庫(kù)系統(tǒng)結(jié)構(gòu)52第五十二頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——移動(dòng)數(shù)據(jù)庫(kù)RDBMS在管理移動(dòng)對(duì)象方面的不足不支持移動(dòng)對(duì)象的數(shù)據(jù)模型和查詢(xún)語(yǔ)言;針對(duì)移動(dòng)對(duì)象需要處理大量的位置信息,操作性能不高;移動(dòng)數(shù)據(jù)庫(kù)需要解決的關(guān)鍵問(wèn)題移動(dòng)對(duì)象的位置表示模型與數(shù)據(jù)存儲(chǔ)方法;移動(dòng)對(duì)象索引、位置更新策略與空間查詢(xún)處理;新的事務(wù)管理策略和處理機(jī)制;數(shù)據(jù)的同步與一致性;數(shù)據(jù)的安全性。53第五十三頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——移動(dòng)數(shù)據(jù)庫(kù)上述問(wèn)題的解決方法設(shè)計(jì)新的移動(dòng)對(duì)象模型,一般與GIS對(duì)象模型的國(guó)際標(biāo)準(zhǔn)兼容;使用對(duì)象關(guān)系數(shù)據(jù)庫(kù)(ORDB),擴(kuò)展SQL查詢(xún)語(yǔ)言,設(shè)計(jì)新的存儲(chǔ)和索引機(jī)制;新的事務(wù)處理機(jī)制(如新的兩階段提交模型),例如根據(jù)連接速度決定事務(wù)優(yōu)先級(jí),移動(dòng)事務(wù)的結(jié)果實(shí)時(shí)更新等;新的數(shù)據(jù)同步機(jī)制,如普遍采用的樂(lè)觀復(fù)制法;對(duì)移動(dòng)終端進(jìn)行認(rèn)證,對(duì)無(wú)線傳輸進(jìn)行加密,保證數(shù)據(jù)的安全。54第五十四頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——實(shí)時(shí)數(shù)據(jù)庫(kù)實(shí)時(shí)數(shù)據(jù)庫(kù)(RTDB)基本概念實(shí)時(shí)數(shù)據(jù)庫(kù)就是其數(shù)據(jù)和事務(wù)都有顯式定時(shí)限制的數(shù)據(jù)庫(kù),系統(tǒng)的正確性不僅依賴(lài)于事務(wù)的邏輯結(jié)果,而且依賴(lài)于該邏輯結(jié)果所產(chǎn)生的時(shí)間。實(shí)時(shí)數(shù)據(jù)庫(kù)是實(shí)時(shí)系統(tǒng)和數(shù)據(jù)庫(kù)技術(shù)相結(jié)合的產(chǎn)物,用于處理不斷更新、快速變化的數(shù)據(jù),以及具有時(shí)間限制的事務(wù)處理。但是實(shí)時(shí)數(shù)據(jù)庫(kù)并不是上述兩種技術(shù)的簡(jiǎn)單結(jié)合,而是涉及到一系列的整合技術(shù)。55第五十五頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——實(shí)時(shí)數(shù)據(jù)庫(kù)實(shí)時(shí)數(shù)據(jù)庫(kù)的基本特征數(shù)據(jù)特征:實(shí)時(shí)數(shù)據(jù)庫(kù)中的數(shù)據(jù)對(duì)象由當(dāng)前值、采樣時(shí)間和外部有效期三個(gè)分量組成,數(shù)據(jù)必須滿(mǎn)足內(nèi)部一致性(傳統(tǒng)數(shù)據(jù)庫(kù)的完整性和一致性)、外部一致性(數(shù)據(jù)與外部對(duì)象在時(shí)間上一致)和相互一致性(導(dǎo)出數(shù)據(jù)的時(shí)間有效性)。事務(wù)特征:實(shí)時(shí)數(shù)據(jù)庫(kù)中事務(wù)的執(zhí)行有顯式的時(shí)限,并且事務(wù)必須在指定的時(shí)間內(nèi)被正確執(zhí)行。此外,由于受到時(shí)間因素的影響,事務(wù)間存在多種語(yǔ)義相關(guān)性,如結(jié)構(gòu)相關(guān)、數(shù)據(jù)相關(guān)等。56第五十六頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——實(shí)時(shí)數(shù)據(jù)庫(kù)實(shí)時(shí)數(shù)據(jù)庫(kù)的主要技術(shù)實(shí)時(shí)數(shù)據(jù)模型與語(yǔ)言;(傳統(tǒng)模型引入時(shí)間維)實(shí)時(shí)事務(wù)模型與處理;(非原子型的復(fù)雜事務(wù)模型,與多個(gè)時(shí)間屬性相關(guān)的新的優(yōu)先級(jí)、調(diào)度機(jī)制和并發(fā)控制)數(shù)據(jù)存儲(chǔ)與緩存管理;(使用內(nèi)存數(shù)據(jù)庫(kù)技術(shù)降低I/O對(duì)時(shí)間效率的影響,不同優(yōu)先級(jí)事務(wù)的緩存管理)恢復(fù);(實(shí)時(shí)數(shù)據(jù)庫(kù)的恢復(fù)可能影響到活動(dòng)事務(wù),有些事務(wù)從時(shí)間的角度是不可恢復(fù)的,需要用到補(bǔ)償事務(wù))57第五十七頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——實(shí)時(shí)數(shù)據(jù)庫(kù)實(shí)時(shí)數(shù)據(jù)庫(kù)的訪問(wèn)方式使用API訪問(wèn);(效率高、簡(jiǎn)單)使用ODBC訪問(wèn);(由于實(shí)時(shí)數(shù)據(jù)庫(kù)與關(guān)系數(shù)據(jù)庫(kù)差異較大,該方法效果有限)使用OPC(OLEforProcessControl)方式訪問(wèn);(OPC是為了給眾多的API訪問(wèn)算法,提出一個(gè)統(tǒng)一標(biāo)準(zhǔn)的存儲(chǔ)接口,超過(guò)200家產(chǎn)商已經(jīng)加入OPC組織)58第五十八頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——實(shí)時(shí)數(shù)據(jù)庫(kù)實(shí)時(shí)數(shù)據(jù)庫(kù)的產(chǎn)品與應(yīng)用Aspentech公司的Infoplus.21(石化行業(yè))OSI公司的PI(PlantInformationSystem)(電力行業(yè))(數(shù)據(jù)壓縮效率極高,性能好)Honeywell公司的PHD(ProcessHistoryDatabase)(內(nèi)嵌Oracle數(shù)據(jù)為后臺(tái))Wonderware公司的IndustrialSQL國(guó)內(nèi)公司的SuperInfo和RealInfo59第五十九頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——數(shù)據(jù)流技術(shù)數(shù)據(jù)流技術(shù)數(shù)據(jù)流的基本概念數(shù)據(jù)流由一系列按序到達(dá)的數(shù)據(jù)組成,也可以看作是信息傳輸過(guò)程中經(jīng)編碼處理的數(shù)字信號(hào)串。數(shù)據(jù)流的典型實(shí)例包括網(wǎng)絡(luò)監(jiān)測(cè)信號(hào)、Internet中的IP數(shù)據(jù)包、WEB服務(wù)器上的用戶(hù)登錄記錄、電信公司的通話記錄、股票交易信息等。60第六十頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——數(shù)據(jù)流技術(shù)數(shù)據(jù)流的特點(diǎn)數(shù)據(jù)連續(xù)、實(shí)時(shí)地到達(dá),并且在時(shí)間維度上嚴(yán)格有序;數(shù)據(jù)量巨大,有可能具有無(wú)限長(zhǎng)度;數(shù)據(jù)流中的數(shù)據(jù)經(jīng)常發(fā)生較大的變化,并且往往需要快速、實(shí)時(shí)地處理和響應(yīng);數(shù)據(jù)一經(jīng)處理,除非特意保存,否則不能被再次取出處理(即一次性處理),或者再次提取數(shù)據(jù)的代價(jià)昂貴;大多數(shù)數(shù)據(jù)流都需要進(jìn)行抽象化、層次化處理。61第六十一頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——數(shù)據(jù)流技術(shù)數(shù)據(jù)流的基本模型滑動(dòng)窗體:設(shè)置一個(gè)窗口,隨著數(shù)據(jù)的不斷到達(dá),舊數(shù)據(jù)從窗口的一端移出,新數(shù)據(jù)從窗口另一端移入。界標(biāo)模型:數(shù)據(jù)范圍從某一個(gè)已知的初始時(shí)間點(diǎn),一直到當(dāng)前時(shí)間點(diǎn)為止的所有數(shù)據(jù)??煺漳P停簝蓚€(gè)預(yù)定義時(shí)間戳之間的所有數(shù)據(jù)。滑動(dòng)窗體模型和界標(biāo)模型能夠處理不斷到來(lái)的新數(shù)據(jù),更接近于真實(shí)應(yīng)用,因而得到更加廣泛的研究和使用。62第六十二頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——數(shù)據(jù)流技術(shù)數(shù)據(jù)流領(lǐng)域的主要研究?jī)?nèi)容數(shù)據(jù)流管理系統(tǒng)63第六十三頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——數(shù)據(jù)流技術(shù)數(shù)據(jù)流查詢(xún)數(shù)據(jù)流的查詢(xún)與傳統(tǒng)DBMS顯著不同,如單調(diào)與非單調(diào)的連續(xù)查詢(xún)、自適應(yīng)查詢(xún)(如數(shù)據(jù)流速率變化時(shí))與分布式查詢(xún)(從多個(gè)源查詢(xún)數(shù)據(jù)時(shí)如何減少網(wǎng)絡(luò)通信)。數(shù)據(jù)概要設(shè)計(jì)使用各種概要信息(或總結(jié)信息)代替無(wú)限的數(shù)據(jù)。常見(jiàn)的概要信息包括:直方圖、小波系數(shù)以及各種統(tǒng)計(jì)量(如均值、方差、頻率、回歸系數(shù)等)?;跀?shù)據(jù)流的各種算法包括查詢(xún)算法、分析與挖掘算法等,這些算法大多屬于單遍掃描算法,并需要使用數(shù)據(jù)的概要信息。64第六十四頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——數(shù)據(jù)流技術(shù)數(shù)據(jù)流管理系統(tǒng)的兩大類(lèi)型在傳統(tǒng)的DBMS中加入數(shù)據(jù)流管理的功能,這一方向進(jìn)展不大,目前主流的商用數(shù)據(jù)庫(kù)中都未實(shí)現(xiàn)該功能;專(zhuān)用的數(shù)據(jù)流管理系統(tǒng)斯坦福大學(xué)的STREAM:拓展SQL語(yǔ)言在數(shù)據(jù)流上的處理功能,開(kāi)發(fā)新的查詢(xún)語(yǔ)言,通過(guò)特殊的窗口操作將流數(shù)據(jù)轉(zhuǎn)換為關(guān)系處理。伯克利大學(xué)的TelegraphCQ:一個(gè)連續(xù)查詢(xún)處理系統(tǒng),重點(diǎn)在于共享查詢(xún)估算和自適應(yīng)查詢(xún)處理;65第六十五頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——XML數(shù)據(jù)庫(kù)XML數(shù)據(jù)庫(kù)什么是XML數(shù)據(jù)庫(kù)XML數(shù)據(jù)庫(kù)是可以對(duì)XML文檔進(jìn)行存取、管理和查詢(xún)的數(shù)據(jù)庫(kù)。

XML數(shù)據(jù)存儲(chǔ)的問(wèn)題目前大量的XML數(shù)據(jù)以文本文檔方式存儲(chǔ),這種方式難以支持復(fù)雜高效的查詢(xún)應(yīng)用;用傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)可以將XML文檔分開(kāi)放到關(guān)系表中,或者直接將其看作一個(gè)大的二進(jìn)制對(duì)象,主要問(wèn)題在于模式映射帶來(lái)的效率下降,以及數(shù)據(jù)語(yǔ)義的丟失。66第六十六頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——XML數(shù)據(jù)庫(kù)XML數(shù)據(jù)庫(kù)的分類(lèi)純XML數(shù)據(jù)庫(kù)管理系統(tǒng)(NXD)NXD是專(zhuān)門(mén)針對(duì)XML格式的文檔進(jìn)行存取、管理和查詢(xún)的數(shù)據(jù)庫(kù);TaminoXML數(shù)據(jù)庫(kù)是全球第一個(gè)完全的XMLDBMS,能夠處理各種結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),適合開(kāi)發(fā)基于XML標(biāo)準(zhǔn)的商業(yè)應(yīng)用。Tamino能保存層次結(jié)構(gòu)的XML文檔,允許XML數(shù)據(jù)的直接存儲(chǔ)、集成和交換,不需要將其轉(zhuǎn)化為關(guān)系型的表格格式,因此在性能上優(yōu)于附帶XML轉(zhuǎn)換器的關(guān)系型數(shù)據(jù)庫(kù),并且具有很好的擴(kuò)展性。67第六十七頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——XML數(shù)據(jù)庫(kù)支持XML的數(shù)據(jù)庫(kù)(XEDB)XEDB是在傳統(tǒng)數(shù)據(jù)庫(kù)的基礎(chǔ)上,通過(guò)增加對(duì)XML數(shù)據(jù)的管理功能,從而實(shí)現(xiàn)對(duì)XML數(shù)據(jù)的管理的數(shù)據(jù)庫(kù)。XEDB的主要用途是實(shí)現(xiàn)數(shù)據(jù)關(guān)系不太復(fù)雜的XML文檔與傳統(tǒng)數(shù)據(jù)庫(kù)之間的轉(zhuǎn)換。微軟公司的SQLServer2005可以存儲(chǔ)和處理XML數(shù)據(jù),且無(wú)須將這些數(shù)據(jù)轉(zhuǎn)換為關(guān)系列和行,更不需要將其存儲(chǔ)為二進(jìn)制大型對(duì)象。編程人員可以使用XQuery來(lái)檢索XML數(shù)據(jù)。其他商業(yè)數(shù)據(jù)庫(kù),如DB2和Oracle等都加入了對(duì)XML的支持。68第六十八頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——XML數(shù)據(jù)庫(kù)XML數(shù)據(jù)庫(kù)的一些關(guān)鍵技術(shù)如何定義完善的查詢(xún)代數(shù)(半結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn)使得定義完善的查詢(xún)代數(shù)很困難);如何將XML的復(fù)雜路徑轉(zhuǎn)換為系統(tǒng)識(shí)別的查詢(xún)路徑;XML的樹(shù)狀結(jié)構(gòu)使得查詢(xún)代價(jià)計(jì)算和查詢(xún)優(yōu)化的實(shí)施很困難;XML的高效索引結(jié)構(gòu)設(shè)計(jì);XML底層數(shù)據(jù)的存儲(chǔ)。69第六十九頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——微型數(shù)據(jù)庫(kù)微型數(shù)據(jù)庫(kù)系統(tǒng)微型數(shù)據(jù)庫(kù)系統(tǒng)的基本概念微型數(shù)據(jù)庫(kù)系統(tǒng)是一個(gè)只需很小的內(nèi)存來(lái)支持的數(shù)據(jù)庫(kù)系統(tǒng)內(nèi)核。內(nèi)存限制是決定微小型數(shù)據(jù)庫(kù)系統(tǒng)特征的重要因素。根據(jù)占用內(nèi)存的大小又可以分為:超微:占用10-50K的內(nèi)存,適用于智能卡等設(shè)備;微小:占用50-500K的內(nèi)存,適用于手機(jī)等設(shè)備;嵌入式:占用1-2M的內(nèi)存,適用于掌上電腦等設(shè)備;70第七十頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——微型數(shù)據(jù)庫(kù)微型數(shù)據(jù)庫(kù)的設(shè)計(jì)原則

移動(dòng)設(shè)備大多計(jì)算能力弱、存儲(chǔ)空間小、帶寬有限,并且在閃存上進(jìn)行讀寫(xiě)速度慢,因此設(shè)計(jì)微型數(shù)據(jù)庫(kù)應(yīng)遵循以下原則:壓縮性原則:數(shù)據(jù)結(jié)構(gòu)和代碼都要精簡(jiǎn);RAM原則:最小化RAM的使用;寫(xiě)原則:最小化寫(xiě)操作以減少寫(xiě)代價(jià);讀原則:充分利用快速讀操作;存取原則:利用低粒度和穩(wěn)定內(nèi)存的直接訪問(wèn)能力進(jìn)行讀和寫(xiě);71第七十一頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)——微型數(shù)據(jù)庫(kù)微型數(shù)據(jù)庫(kù)的主要產(chǎn)品智能卡數(shù)據(jù)庫(kù):主要包括Gnat-DB和Pico-DBMS(精簡(jiǎn)高效,但數(shù)據(jù)格式不通用,資料交換困難)。手持設(shè)備數(shù)據(jù)庫(kù):SybaseSQLAnywhere、IBMDB2Everyplace、Oracle9iLite、InformixCloudscape(支持多平臺(tái)、Java、手持設(shè)備與多種無(wú)線通訊協(xié)議,高性能和高可伸縮性,易于使用和管理)以及SQLServerCE。72第七十二頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)

——商用數(shù)據(jù)庫(kù)新進(jìn)展商用數(shù)據(jù)庫(kù)新進(jìn)展IBM以數(shù)據(jù)庫(kù)為基礎(chǔ)構(gòu)建SOA(面向服務(wù))架構(gòu),與WebSphere中間件更緊密地結(jié)合企業(yè)信息資源,屏蔽信息資源底層的復(fù)雜結(jié)構(gòu);數(shù)據(jù)庫(kù)以XML為基礎(chǔ),全面增強(qiáng)對(duì)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的管理能力;進(jìn)一步增強(qiáng)數(shù)據(jù)挖掘和商業(yè)智能功能;提供主數(shù)據(jù)(MasterData)管理,為企業(yè)提供統(tǒng)一的信息資源視圖。73第七十三頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)

——商用數(shù)據(jù)庫(kù)新進(jìn)展Oracle在提供傳統(tǒng)數(shù)據(jù)庫(kù)產(chǎn)品和服務(wù)的基礎(chǔ)上,近年來(lái)主要向嵌入式數(shù)據(jù)庫(kù)、移動(dòng)數(shù)據(jù)庫(kù)領(lǐng)域發(fā)展,主要產(chǎn)品包括OracleLite和OracleTimeTen。SybaseASE15設(shè)計(jì)新的查詢(xún)處理引擎,提供新的并行查詢(xún)功能,并通過(guò)一系列新特性(如PlanView、查詢(xún)進(jìn)程矩陣、自動(dòng)更新統(tǒng)計(jì)信息等),從而充分利用系統(tǒng)資源,降低企業(yè)總擁有成本TCO。同時(shí)ASE15具有獨(dú)特的消息發(fā)布功能,當(dāng)系統(tǒng)中發(fā)生重要事件時(shí),能自動(dòng)通知用戶(hù)。74第七十四頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)

——商用數(shù)據(jù)庫(kù)新進(jìn)展MicrosoftSQLServer2005支持XML、Webservice等新應(yīng)用,并且在企業(yè)級(jí)支持、商業(yè)智能應(yīng)用、管理開(kāi)發(fā)效率等方面有了顯著的增強(qiáng)。SQLServer2005提供集成的數(shù)據(jù)管理和分析平臺(tái),幫助企業(yè)進(jìn)行信息管理、運(yùn)行復(fù)雜的商務(wù)應(yīng)用和高級(jí)商務(wù)智能。InterSystems公司的CacheCache突破了1NF,即屬性值可以為非原子,關(guān)系可以由子關(guān)系組成,稱(chēng)為后關(guān)系數(shù)據(jù)庫(kù),根據(jù)相關(guān)研究報(bào)告,Cache比RDBMS節(jié)約空間2/3,速度快20倍左右。75第七十五頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)

——地礦行業(yè)的應(yīng)用數(shù)據(jù)庫(kù)新技術(shù)在地礦行業(yè)的應(yīng)用(1)基于WebGIS技術(shù),中國(guó)石化石油勘探開(kāi)發(fā)研究院開(kāi)發(fā)了“中國(guó)1:50萬(wàn)地質(zhì)圖數(shù)據(jù)庫(kù)系統(tǒng)”。該系統(tǒng)基于ASP/COM技術(shù),實(shí)現(xiàn)網(wǎng)絡(luò)訪問(wèn)地質(zhì)圖數(shù)據(jù),其中GIS應(yīng)用服務(wù)器為中地公司的MapGISIMS,系統(tǒng)使用Oracle數(shù)據(jù)庫(kù)存儲(chǔ)地質(zhì)圖空間數(shù)據(jù),通過(guò)空間數(shù)據(jù)引擎訪問(wèn)數(shù)據(jù)。該系統(tǒng)已經(jīng)投入使用,能為科技人員進(jìn)行油氣勘探開(kāi)發(fā)研究提供全國(guó)各探區(qū)的地質(zhì)空間數(shù)據(jù),系統(tǒng)性能優(yōu)越,Web結(jié)構(gòu)也大大降低了系統(tǒng)的安裝、部署和維護(hù)。76第七十六頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)庫(kù)技術(shù)

——地礦行業(yè)的應(yīng)用數(shù)據(jù)庫(kù)新技術(shù)在地礦行業(yè)的應(yīng)用(2)蘭州石化公司選用美國(guó)AspenTech公司的Infoplus.21實(shí)時(shí)數(shù)據(jù)庫(kù)系統(tǒng),建成了覆蓋公司7000個(gè)主要裝置的生產(chǎn)信息采集系統(tǒng)。在該系統(tǒng)的基礎(chǔ)上,開(kāi)發(fā)了流程圖瀏覽、實(shí)時(shí)工藝數(shù)據(jù)查詢(xún)、報(bào)警查詢(xún)、事故追憶等應(yīng)用系統(tǒng)。上述實(shí)時(shí)數(shù)據(jù)庫(kù)系統(tǒng)和應(yīng)用系統(tǒng)的建立,使得公司能夠?qū)ιa(chǎn)裝置中的關(guān)鍵設(shè)備進(jìn)行在線監(jiān)控,對(duì)實(shí)時(shí)變化的過(guò)程進(jìn)行實(shí)際響應(yīng),迅速?zèng)Q策,從而為優(yōu)化生產(chǎn)管理、提高產(chǎn)品質(zhì)量提供支持。77第七十七頁(yè),共一百三十二頁(yè),編輯于2023年,星期五軟件工程技術(shù)

——軟件工程中的知識(shí)管理軟件工程中的知識(shí)管理(KM)知識(shí)管理的基本概念定義1:知識(shí)管理是一種對(duì)知識(shí)的組織和再組織,從而在大量的信息中進(jìn)行知識(shí)挖掘,以及對(duì)人的顯性和隱性知識(shí)進(jìn)行管理。定義2:知識(shí)管理是一個(gè)形成管理和均衡企業(yè)智力資源的業(yè)務(wù)過(guò)程,它使企業(yè)從合作式的、整合式的方法提升到信息財(cái)富的創(chuàng)造、獲取、組織、傳播和應(yīng)用這樣一個(gè)高度。78第七十八頁(yè),共一百三十二頁(yè),編輯于2023年,星期五軟件工程技術(shù)

——軟件工程中的知識(shí)管理知識(shí)管理的主要研究?jī)?nèi)容組織中需要的知識(shí)是什么?現(xiàn)有的知識(shí)在哪里?從哪里可以獲???知識(shí)如何有效地傳播?如何生成新的知識(shí)?知識(shí)如何存儲(chǔ)、更新、保護(hù)以及如何表示?如何有效地利用知識(shí)?79第七十九頁(yè),共一百三十二頁(yè),編輯于2023年,星期五軟件工程技術(shù)

——軟件工程中的知識(shí)管理知識(shí)管理技術(shù)知識(shí)管理技術(shù)是指能夠協(xié)助人們實(shí)現(xiàn)知識(shí)管理的基于計(jì)算機(jī)的現(xiàn)代信息技術(shù),它是一個(gè)龐大的技術(shù)體系,覆蓋了知識(shí)管理的各環(huán)節(jié)。IBM《企業(yè)知識(shí)管理白皮書(shū)》認(rèn)為,知識(shí)管理技術(shù)分為商業(yè)智能技術(shù)、電子協(xié)作技術(shù)、知識(shí)傳遞技術(shù)、知識(shí)發(fā)現(xiàn)技術(shù)和知識(shí)地圖技術(shù)。知識(shí)管理技術(shù)本身處于不斷發(fā)展和不斷成熟的過(guò)程中,下圖給出了知識(shí)管理技術(shù)的體系結(jié)構(gòu)和發(fā)展趨勢(shì)。80第八十頁(yè),共一百三十二頁(yè),編輯于2023年,星期五軟件工程技術(shù)

——軟件工程中的知識(shí)管理知識(shí)管理技術(shù)體系結(jié)構(gòu)與發(fā)展趨勢(shì)圖81第八十一頁(yè),共一百三十二頁(yè),編輯于2023年,星期五軟件工程技術(shù)

——軟件工程中的知識(shí)管理知識(shí)系統(tǒng)知識(shí)系統(tǒng)是為整個(gè)組織的知識(shí)管理服務(wù)的,一般具有以下功能:能夠高效率的獲取與組織知識(shí);能夠有效地保護(hù)和存儲(chǔ)知識(shí);能夠及時(shí)有效地傳播知識(shí);能夠高效的開(kāi)發(fā)新的知識(shí)產(chǎn)品;能夠創(chuàng)造有利于知識(shí)生成、轉(zhuǎn)移、使用的組織文化。82第八十二頁(yè),共一百三十二頁(yè),編輯于2023年,星期五軟件工程技術(shù)

——軟件工程中的知識(shí)管理軟件工程中的知識(shí)管理問(wèn)題大型軟件項(xiàng)目開(kāi)發(fā)的成敗,已經(jīng)主要取決于概念設(shè)計(jì)與需求分析這兩個(gè)階段。軟件企業(yè)競(jìng)爭(zhēng)的焦點(diǎn)也越來(lái)越集中在客戶(hù)需求的理解上。從知識(shí)管理的角度看,如何在這兩個(gè)階段實(shí)現(xiàn)軟件企業(yè)、用戶(hù)之間無(wú)障礙的知識(shí)共享和交流,就成為軟件工程的關(guān)鍵問(wèn)題。在系統(tǒng)設(shè)計(jì)、編程的過(guò)程中,如何有效地運(yùn)用已有的知識(shí)提高軟件開(kāi)發(fā)的效率和質(zhì)量,如何在軟件工程的各階段將隱性知識(shí)顯性化,這些都是軟件工程中的知識(shí)管理問(wèn)題。83第八十三頁(yè),共一百三十二頁(yè),編輯于2023年,星期五軟件工程技術(shù)

——軟件工程中的知識(shí)管理軟件工程中知識(shí)管理的關(guān)鍵問(wèn)題知識(shí)傳遞與共享:知識(shí)在人員間的有效傳遞和共享。對(duì)于軟件行業(yè)這種隱性知識(shí)占主導(dǎo)地位、經(jīng)驗(yàn)豐富與否可以決定其成敗的行業(yè)里,顯得尤為重要。知識(shí)重用:軟件復(fù)用是當(dāng)前軟件工程發(fā)展的一個(gè)趨勢(shì),如何采用各種技術(shù)手段(如規(guī)范化的文檔管理、采用可復(fù)用的設(shè)計(jì)等),盡量提高軟件復(fù)用的層次和范圍,是一個(gè)重要問(wèn)題。84第八十四頁(yè),共一百三十二頁(yè),編輯于2023年,星期五軟件工程技術(shù)

——軟件工程中的知識(shí)管理如何在軟件工程中有效地進(jìn)行知識(shí)管理軟件工程中人的管理是知識(shí)管理的核心知識(shí)管理的目的是希望保留團(tuán)隊(duì)中成員的經(jīng)驗(yàn),特別是過(guò)程的模式、流程、數(shù)據(jù)等,以實(shí)現(xiàn)知識(shí)的共享和重用。實(shí)現(xiàn)知識(shí)管理還要考慮企業(yè)的自身特色及其所處的文化氛圍,使員工對(duì)知識(shí)共享和重用有認(rèn)同感。在軟件工程的知識(shí)管理中,必須建立強(qiáng)有力的激勵(lì)制度,鼓勵(lì)和刺激員工向知識(shí)庫(kù)中提交自己的觀點(diǎn)與經(jīng)驗(yàn),營(yíng)造知識(shí)共享和重用的氛圍。85第八十五頁(yè),共一百三十二頁(yè),編輯于2023年,星期五軟件工程技術(shù)

——軟件工程中的知識(shí)管理建立高效的知識(shí)管理系統(tǒng)(KMS)知識(shí)管理系統(tǒng)是實(shí)現(xiàn)知識(shí)管理的工具,能有效地促進(jìn)知識(shí)共享與重用。知識(shí)管理系統(tǒng)中需要提供多種知識(shí)表達(dá)與存儲(chǔ)方式,如文本、圖像、視頻等。系統(tǒng)也需要提供多種接口形式,能夠讓員工便捷的向知識(shí)庫(kù)中錄入相關(guān)知識(shí)。知識(shí)管理系統(tǒng)需要采用先進(jìn)的知識(shí)分類(lèi)方法,能夠根據(jù)需求變化動(dòng)態(tài)改變知識(shí)信息的分類(lèi),從而使用戶(hù)更容易確定其提交知識(shí)的類(lèi)別。知識(shí)管理系統(tǒng)可以將傳統(tǒng)的檢索方法與神經(jīng)網(wǎng)絡(luò)等技術(shù)相結(jié)合,從而增強(qiáng)知識(shí)檢索的準(zhǔn)確性和合理性。86第八十六頁(yè),共一百三十二頁(yè),編輯于2023年,星期五智能信息處理技術(shù)數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘技術(shù)概述關(guān)聯(lián)分析、序列分析分類(lèi)分析、聚類(lèi)分析異常檢測(cè)數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域時(shí)間序列挖掘數(shù)據(jù)流挖掘空間數(shù)據(jù)庫(kù)挖掘87第八十七頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)概述數(shù)據(jù)挖掘技術(shù)概述什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘指的是從大量的數(shù)據(jù)中提取隱含的、未知的、并具有潛在的使用價(jià)值的信息的過(guò)程。數(shù)據(jù)挖掘是一種決策支持過(guò)程,它基于數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)、人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)可視化等多種技術(shù),自動(dòng)化地分析企業(yè)歷史數(shù)據(jù),從中挖掘出供決策使用的高層次的知識(shí),幫助決策者提高決策質(zhì)量和效率。88第八十八頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)概述數(shù)據(jù)挖掘的過(guò)程數(shù)據(jù)挖掘的一般過(guò)程可以分為三個(gè)階段:數(shù)據(jù)準(zhǔn)備、模式發(fā)現(xiàn)與結(jié)果表達(dá),如圖所示。89第八十九頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)——關(guān)聯(lián)分析關(guān)聯(lián)分析什么是關(guān)聯(lián)分析關(guān)聯(lián)分析是尋找給定數(shù)據(jù)記錄集中數(shù)據(jù)項(xiàng)之間的相互關(guān)系的一種分析過(guò),所發(fā)現(xiàn)的關(guān)系(或規(guī)則)稱(chēng)為關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則的形式:

A1A2…Am

B1B2…Bn

關(guān)聯(lián)規(guī)則的度量支持度與置信度90第九十頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)——關(guān)聯(lián)分析關(guān)聯(lián)分析的算法步驟關(guān)聯(lián)規(guī)則的概念由Agrawal等人提出,關(guān)聯(lián)規(guī)則本身屬于描述型的模式,發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法屬于無(wú)監(jiān)督的學(xué)習(xí)方法。一般分為兩個(gè)步驟:在數(shù)據(jù)項(xiàng)集中找出所有頻繁數(shù)據(jù)項(xiàng)集,即找出支持度超過(guò)指定閾值的數(shù)據(jù)項(xiàng)集;在頻繁數(shù)據(jù)項(xiàng)集中生成候選關(guān)聯(lián)規(guī)則,驗(yàn)證置信度后生成關(guān)聯(lián)規(guī)則。在上述兩步中,頻繁數(shù)據(jù)項(xiàng)集的生成是最關(guān)鍵的。

91第九十一頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)——關(guān)聯(lián)分析關(guān)聯(lián)分析的典型算法Apriori算法Apriori算法是較早提出的關(guān)聯(lián)規(guī)則挖掘算法,包括候選頻繁項(xiàng)集的生成和剪枝兩個(gè)步驟(如下頁(yè)圖所示)。由于該算法要生成大量的候選頻繁項(xiàng)集,并且由候選k項(xiàng)集生成頻繁k項(xiàng)集時(shí)必須掃描一遍數(shù)據(jù)庫(kù),因此效率比較低。常見(jiàn)的優(yōu)化方法主要包括劃分、采樣、哈希、事務(wù)壓縮、動(dòng)態(tài)項(xiàng)集計(jì)數(shù)等。

92第九十二頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)——關(guān)聯(lián)分析93第九十三頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)——關(guān)聯(lián)分析FP-Growth算法FP-Growth算法是一個(gè)具有更好性能和伸縮性的頻繁項(xiàng)集挖掘算法,其最大特點(diǎn)是不需要生成大量的候選項(xiàng)集。算法將數(shù)據(jù)庫(kù)壓縮進(jìn)一棵前綴樹(shù)中,之后的挖掘就在這棵相對(duì)于原數(shù)據(jù)庫(kù)要小很多的樹(shù)上進(jìn)行,避免了掃描龐大的數(shù)據(jù)庫(kù)。算法采用模式增長(zhǎng)的方法,不需要產(chǎn)生候選項(xiàng)集,而且算法采用基于分區(qū)的分治法,有效的降低了搜索空間。因此該算法比起Apriori算法具有明顯的性能提升。94第九十四頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)——關(guān)聯(lián)分析關(guān)聯(lián)分析的典型應(yīng)用市場(chǎng)營(yíng)銷(xiāo)廣告、推薦系統(tǒng)醫(yī)療診斷、醫(yī)療保險(xiǎn)交通流量、交通事故分析金融市場(chǎng)客戶(hù)行為、股票漲跌地質(zhì)現(xiàn)象與地質(zhì)規(guī)律95第九十五頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)——序列分析序列分析與關(guān)聯(lián)分析相似,序列分析的目的也是為了挖掘數(shù)據(jù)項(xiàng)之間的聯(lián)系。但是關(guān)聯(lián)分析關(guān)注于發(fā)現(xiàn)同一時(shí)間內(nèi)呈現(xiàn)出的模式,而序列分析在于分析在不同時(shí)間的前后關(guān)系。序列分析的模型、挖掘算法以及應(yīng)用場(chǎng)合都與關(guān)聯(lián)規(guī)則類(lèi)似,不再贅述。96第九十六頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)——分類(lèi)分析分類(lèi)分析什么是分類(lèi)分析分類(lèi)分析是從已知分類(lèi)信息的數(shù)據(jù)(稱(chēng)為訓(xùn)練集)中總結(jié)出一個(gè)預(yù)測(cè)模型,從而預(yù)測(cè)實(shí)際數(shù)據(jù)的類(lèi)別信息(見(jiàn)下頁(yè)圖所示)。分類(lèi)分析的典型應(yīng)用包括:預(yù)測(cè)哪些客戶(hù)最可能對(duì)營(yíng)銷(xiāo)活動(dòng)做出回應(yīng),判斷銀行的客戶(hù)信用等級(jí)的高低,以及地質(zhì)領(lǐng)域中對(duì)儲(chǔ)層類(lèi)型、油層類(lèi)型進(jìn)行判別等。分類(lèi)分析的典型模型包括決策樹(shù)、人工神經(jīng)網(wǎng)絡(luò)以及支持向量機(jī)等。97第九十七頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)——分類(lèi)分析訓(xùn)練集分類(lèi)算法IFrank=‘professor’ORyears>6THENtenured=‘yes’

分類(lèi)器模型98第九十八頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)——分類(lèi)分析ClassifierTestingDataUnseenData(Jeff,Professor,4)Tenured?99第九十九頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)——分類(lèi)分析決策樹(shù)模型決策樹(shù)是使用較多的一種分類(lèi)模型,如下圖所示。構(gòu)建一棵決策樹(shù)分為學(xué)習(xí)和剪枝兩個(gè)步驟。age?overcaststudent?creditrating?noyesfairexcellent<=30>40nonoyesyesyes30..40100第一百頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)——分類(lèi)分析經(jīng)典的決策樹(shù)學(xué)習(xí)算法包括ID3、C4.5以及CART等。這些算法都假定訓(xùn)練集能夠載入內(nèi)存,而實(shí)際應(yīng)用中往往使用大量的訓(xùn)練集,因此具有很大的局限性。其他改進(jìn)的決策樹(shù)學(xué)習(xí)算法還包括SLIQ算法、SPRINT算法、RainForest算法等。常見(jiàn)的決策樹(shù)剪枝算法包括代價(jià)復(fù)雜性剪枝、悲觀估計(jì)剪枝和基于MDL的剪枝等,其中MDL剪枝算法能夠生成較小的樹(shù)且具有較高的準(zhǔn)確度,是一種理想的剪枝算法。101第一百零一頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)——分類(lèi)分析人工神經(jīng)網(wǎng)絡(luò)技術(shù)人工神經(jīng)網(wǎng)絡(luò)是一種應(yīng)用類(lèi)似于大腦神經(jīng)突觸聯(lián)接的結(jié)構(gòu)進(jìn)行信息處理的數(shù)學(xué)模型。在這一模型中,大量的節(jié)點(diǎn)(即神經(jīng)元)之間相互聯(lián)接構(gòu)成網(wǎng)絡(luò),稱(chēng)為神經(jīng)網(wǎng)絡(luò),以達(dá)到處理信息的目的。人工神經(jīng)網(wǎng)絡(luò)的工作過(guò)程也分為兩個(gè)步驟,即訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)和使用網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)在使用過(guò)程中最大的問(wèn)題在于,初始網(wǎng)絡(luò)結(jié)構(gòu)和系統(tǒng)參數(shù)的選擇存在一定的偶然性,影響了最終的分析結(jié)果。102第一百零二頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)——分類(lèi)分析支持向量機(jī)SVM什么是支持向量(以線性分類(lèi)為例)支持向量小間隔大間隔103第一百零三頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)——分類(lèi)分析支持向量機(jī)的基本思路對(duì)于原始空間中的非線性分類(lèi)問(wèn)題,通過(guò)非線性變換轉(zhuǎn)化為某個(gè)高維空間中的線性分類(lèi)問(wèn)題,在變換空間中求最優(yōu)分類(lèi)面。支持向量機(jī)的優(yōu)點(diǎn)SVM專(zhuān)門(mén)針對(duì)有限樣本情況,其目標(biāo)是得到現(xiàn)有信息下的最優(yōu)解,而非樣本趨于無(wú)窮多時(shí)的最優(yōu)值;SVM最終將轉(zhuǎn)化成為一個(gè)二次型尋優(yōu)問(wèn)題,從理論上得到的將是全局最優(yōu)點(diǎn),而非局部最優(yōu)點(diǎn);SVM算法的復(fù)雜度與樣本的維數(shù)無(wú)關(guān),僅與支持向量個(gè)數(shù)有關(guān),能有效的解決“維災(zāi)”問(wèn)題。104第一百零四頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)——分類(lèi)分析支持向量機(jī)的缺點(diǎn)和研究方向在解決二次型尋優(yōu)問(wèn)題時(shí)由于需要大量的矩陣運(yùn)算,因此速度較慢,內(nèi)存消耗太大。因此研究新的、更高效率的對(duì)偶尋優(yōu)問(wèn)題算法,是提高支持向量機(jī)運(yùn)行效率的關(guān)鍵,如固定工作樣本集方法、塊算法等;在進(jìn)行空間映射時(shí),需要使用到核函數(shù),盡管一些實(shí)驗(yàn)結(jié)果表明核函數(shù)的具體形式對(duì)分類(lèi)效果的影響不大,但是核函數(shù)的形式以及其參數(shù)的確定決定了分類(lèi)器的類(lèi)型和復(fù)雜程度。核函數(shù)選擇的理論研究仍然是目前的一個(gè)難點(diǎn)。105第一百零五頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)——聚類(lèi)分析聚類(lèi)分析什么是聚類(lèi)分析聚類(lèi)分析是把整個(gè)目標(biāo)數(shù)據(jù)分成不同的組,使得組與組之間差別明顯,而組內(nèi)數(shù)據(jù)盡量相似。聚類(lèi)分析是一種無(wú)監(jiān)督的學(xué)習(xí)方法,與分類(lèi)方法不同,事先并沒(méi)有一組已經(jīng)知道類(lèi)別標(biāo)號(hào)的訓(xùn)練集,而是直接將未知類(lèi)別標(biāo)號(hào)的進(jìn)行分類(lèi)。聚類(lèi)分析一般作為其他挖掘方法的預(yù)處理過(guò)程,也可以直接作為一種獨(dú)立的分析方法。常見(jiàn)的聚類(lèi)方法包括劃分方法、層次方法、基于密度的方法和基于網(wǎng)格的方法等。106第一百零六頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)——聚類(lèi)分析基于劃分方法的聚類(lèi)該方法隨機(jī)選定K個(gè)對(duì)象為初始簇中心,計(jì)算每個(gè)對(duì)象到簇中心的距離,并將其分配到距離最近的簇中去,然后計(jì)算新的簇中心,如此反復(fù)循環(huán),直到對(duì)象不再發(fā)生變化(如下頁(yè)圖所示)。典型的基于劃分方法的聚類(lèi)方法包括PAM、CLARA、CLARANS、K-Means和K-medoids等,這些算法的區(qū)別在于:(1)簇中心的選擇策略不同;(2)對(duì)象分配策略不同;(3)算法復(fù)雜度不同。107第一百零七頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)——聚類(lèi)分析012345678910012345678910012345678910012345678910K=2任意選定兩個(gè)對(duì)象作為初始的簇中心將每個(gè)對(duì)象分配到最近的簇中心去更新簇中心的位置更新簇中心的位置重分配重分配108第一百零八頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)——聚類(lèi)分析層次聚類(lèi)方法層次聚類(lèi)方法將數(shù)據(jù)對(duì)象組織成一棵樹(shù),根據(jù)層次構(gòu)造是自頂向下還是自底向上該方法可以分成分裂和凝聚兩種。分裂法將所有對(duì)象看成屬于同一簇,逐步向下分裂成更多的簇,直到每個(gè)對(duì)象都自成一簇或滿(mǎn)足某個(gè)結(jié)束條件為止;凝聚法則將每個(gè)對(duì)象都看成獨(dú)立的簇,由下向上合并數(shù)據(jù)對(duì)象,直到滿(mǎn)足某一結(jié)束條件或所有對(duì)象已經(jīng)合并到一個(gè)簇中(如下頁(yè)圖所示)。典型的層次聚類(lèi)方法包括BIRCH、CURE、ROCK和Chameleon(下頁(yè)圖所示)等。109第一百零九頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)——聚類(lèi)分析Step0Step1Step2Step3Step4bdceaabdecdeabcdeStep4Step3Step2Step1Step0凝聚分裂cde110第一百一十頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)——聚類(lèi)分析構(gòu)建稀疏圖圖分區(qū)合并分區(qū)最終簇111第一百一十一頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)——聚類(lèi)分析其他聚類(lèi)方法還有基于密度的方法(如DBSCAN、OPTICS)、基于網(wǎng)格的方法(如STING)和基于密度與網(wǎng)格的混合方法(如CLIQUE)等。某些聚類(lèi)方法并不針對(duì)實(shí)際數(shù)據(jù)進(jìn)行,而是針對(duì)數(shù)據(jù)的某些特征變量進(jìn)行聚類(lèi),例如基于小波系數(shù)的聚類(lèi)、逐段線性近似聚類(lèi)(PLA)、組段回歸近似聚類(lèi)(PRA)等。大多數(shù)的聚類(lèi)算法都擅長(zhǎng)處理某一類(lèi)特殊問(wèn)題,沒(méi)有任何一個(gè)算法能夠針對(duì)任何聚類(lèi)問(wèn)題都快捷準(zhǔn)確有效。聚類(lèi)問(wèn)題的難點(diǎn)在于確定數(shù)據(jù)間的距離度量,研究新的距離度量函數(shù)(尤其是對(duì)于高維數(shù)據(jù))是聚類(lèi)問(wèn)題的一個(gè)重要方向。112第一百一十二頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)——異常檢測(cè)異常檢測(cè)什么是異常檢測(cè)異常檢測(cè)是數(shù)據(jù)挖掘中一個(gè)重要方面,用來(lái)數(shù)據(jù)集中間顯著不同于其它數(shù)據(jù)的對(duì)象。所謂異常是在數(shù)據(jù)集中明顯與眾不同的數(shù)據(jù),使人懷疑這些數(shù)據(jù)是由不同的機(jī)制產(chǎn)生的,而非隨機(jī)偏差。異常檢測(cè)的典型應(yīng)用包括:電信和信用卡欺騙、貸款審批、氣象預(yù)報(bào)、金融和客戶(hù)分類(lèi)等各種領(lǐng)域。113第一百一十三頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)——異常檢測(cè)異常與異常檢測(cè)算法的分類(lèi)有模式異常檢測(cè)就是已知異常的模式,或可以得到異常模式,用異常模式來(lái)識(shí)別異常。無(wú)模式異常檢測(cè)就是不知道異常的模式,只知道正常模式,而偏離正常模式較遠(yuǎn)的就認(rèn)為是異常。異常檢測(cè)算法大體可以分為基于統(tǒng)計(jì)的算法、基于深度的算法、基于偏差的算法、基于距離的算法、基于密度的算法等。114第一百一十四頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)——異常檢測(cè)基于統(tǒng)計(jì)的異常檢測(cè)從80年代起,異常檢測(cè)問(wèn)題就在統(tǒng)計(jì)學(xué)領(lǐng)域里得到廣泛研究。通常用戶(hù)假設(shè)給定的數(shù)據(jù)集服從一個(gè)隨機(jī)分布(如正態(tài)分布等),用不一致性測(cè)試識(shí)別異常。已經(jīng)開(kāi)發(fā)出許多不一致性測(cè)試方法,它們分別適用于不同的情形,如不同的數(shù)據(jù)分布、數(shù)據(jù)分布參數(shù)是否已知、異常的數(shù)目和異常數(shù)據(jù)類(lèi)型等。這些方法的最大缺陷是:在許多情況下,用戶(hù)并不知道這個(gè)數(shù)據(jù)分布。而且現(xiàn)實(shí)數(shù)據(jù)也往往不符合任何一種理想狀態(tài)的數(shù)學(xué)分布。115第一百一十五頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)——異常檢測(cè)基于深度的異常檢測(cè)根據(jù)該算法,每一個(gè)數(shù)據(jù)被映射到一個(gè)k維數(shù)據(jù)空間上的點(diǎn),并且每個(gè)點(diǎn)被賦予一個(gè)特定定義的”深度”。根據(jù)不同的深度,數(shù)據(jù)被劃分成不同層次,異常往往存在于較“淺”的層次中,而存在于較“深”層次中的可能性較小?;谄畹漠惓z測(cè)Agrawal提出了“序列異?!钡母拍?,即掃描數(shù)據(jù)集,當(dāng)發(fā)現(xiàn)某數(shù)據(jù)點(diǎn)明顯不同于前面的序列,就被認(rèn)為是異常數(shù)據(jù)。該算法的復(fù)雜度與數(shù)據(jù)集大小呈線性關(guān)系,性能較好。但是“序列異?!痹诟拍钌嫌腥毕?,遺漏了不少的真正異常數(shù)據(jù)。116第一百一十六頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)——異常檢測(cè)基于距離的異常檢測(cè)數(shù)據(jù)集D中一個(gè)對(duì)象p稱(chēng)為DB(pct,dmin)-異常,如果它滿(mǎn)足下列性質(zhì):數(shù)據(jù)集D中至少pct%的對(duì)象與p的距離大于距離dmin,即集合{qD|d(p,q)dmin}的基數(shù)小于或等于D的大小的(100–pct)%。設(shè)數(shù)據(jù)集數(shù)據(jù)量N,k=N*pct%。如果數(shù)據(jù)集中與點(diǎn)p的距離小于dmin的點(diǎn)的個(gè)數(shù)不超過(guò)k,那么就稱(chēng)p為相對(duì)于k和dmin的異常。117第一百一十七頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)——異常檢測(cè)基于密度的異常檢測(cè)異常不一定是個(gè)全局的概念,而是具有一定的“局部”性,尤其當(dāng)數(shù)據(jù)分布密度不均勻時(shí),即某一點(diǎn)異常是指這一點(diǎn)與之鄰近的聚類(lèi)相對(duì)較遠(yuǎn)。118第一百一十八頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘技術(shù)——異常檢測(cè)異常檢測(cè)的研究方向不斷拓展異常的定義,以期更加接近異常本質(zhì)性定義,涵蓋更多類(lèi)型的異常數(shù)據(jù);算法運(yùn)行上更加自動(dòng)化(盡量減少對(duì)用戶(hù)的領(lǐng)域知識(shí)要求和人工干預(yù)程度);隨著數(shù)據(jù)維度的增加,會(huì)遇到兩方面的問(wèn)題:算法效率的下降和基于距離和密度的異常意義的失效。因此需要研究新的異常檢測(cè)算法,以適用于更高維度的數(shù)據(jù)集(如維度達(dá)到數(shù)十維甚至數(shù)百維)。119第一百一十九頁(yè),共一百三十二頁(yè),編輯于2023年,星期五數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域

——時(shí)間序列挖掘時(shí)間序列挖掘什么是時(shí)間序列時(shí)間序列數(shù)據(jù)是一類(lèi)特殊的序列數(shù)據(jù),這些數(shù)據(jù)由一系列隨時(shí)間變化的值所組成,測(cè)量這些值的時(shí)間間隔可以是等間

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論