第6章-物聯(lián)網(wǎng)數(shù)據(jù)處理_第1頁
第6章-物聯(lián)網(wǎng)數(shù)據(jù)處理_第2頁
第6章-物聯(lián)網(wǎng)數(shù)據(jù)處理_第3頁
第6章-物聯(lián)網(wǎng)數(shù)據(jù)處理_第4頁
第6章-物聯(lián)網(wǎng)數(shù)據(jù)處理_第5頁
已閱讀5頁,還剩81頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

物聯(lián)網(wǎng)工程概論主講教師王良民MAIL:wanglm@熊書明MAIL:xsm@9/23/20231江蘇大學計算機科學與通信工程學院第五講內(nèi)容安排后臺數(shù)據(jù)庫技術(shù) 數(shù)據(jù)庫概述 關(guān)系型數(shù)據(jù)庫 SQL查詢語言資源受限網(wǎng)絡(luò)的分級數(shù)據(jù)融合 節(jié)點的分簇控制 簇內(nèi)數(shù)據(jù)融合 分布式數(shù)據(jù)存儲與處理數(shù)據(jù)挖掘與海計算 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù) 云計算概述 海計算的概念與未來9/23/20232江蘇大學計算機科學與通信工程學院第五講內(nèi)容安排后臺數(shù)據(jù)庫技術(shù) 數(shù)據(jù)庫概述 關(guān)系型數(shù)據(jù)庫 SQL查詢語言資源受限網(wǎng)絡(luò)的分級數(shù)據(jù)融合 節(jié)點的分簇控制 簇內(nèi)數(shù)據(jù)融合 分布式數(shù)據(jù)存儲與處理數(shù)據(jù)挖掘與海計算 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù) 云計算概述 海計算的概念與未來9/23/20233江蘇大學計算機科學與通信工程學院物聯(lián)網(wǎng)數(shù)據(jù)處理物聯(lián)網(wǎng)中的個體通過感應(yīng)器來感知信息,然后通過中間傳輸網(wǎng)來傳送信息,最后在數(shù)據(jù)處理中心進行智能處理和控制。隨著物聯(lián)網(wǎng)技術(shù)的廣泛應(yīng)用,我們將面對大量異構(gòu)的、混雜的、不完整的物聯(lián)網(wǎng)數(shù)據(jù)。在物聯(lián)網(wǎng)的萬千終端收集到這些數(shù)據(jù)后,如何對它們進行處理、分析和使用成為物聯(lián)網(wǎng)應(yīng)用的關(guān)鍵。本講對物聯(lián)網(wǎng)中的后臺數(shù)據(jù)庫技術(shù)、數(shù)據(jù)挖掘技術(shù)和云計算與海計算技術(shù)逐一介紹。9/23/20234江蘇大學計算機科學與通信工程學院后臺數(shù)據(jù)庫技術(shù)數(shù)據(jù)庫是一項專門研究如何科學地組織和存儲數(shù)據(jù)、如何高效地獲取和處理數(shù)據(jù)的技術(shù)。主要內(nèi)容:數(shù)據(jù)庫的基本概念關(guān)系型數(shù)據(jù)庫SQL查詢語言9/23/20235江蘇大學計算機科學與通信工程學院數(shù)據(jù)庫概述1.數(shù)據(jù)庫相關(guān)的基本概念數(shù)據(jù)(Data)是描述事物的符號記錄,數(shù)字、文本、聲音和圖像等都是數(shù)據(jù)。數(shù)據(jù)有多種表現(xiàn)形式,它們都能數(shù)字化后存入計算機,數(shù)據(jù)是數(shù)據(jù)庫中存儲的基本對象。(1) 數(shù)據(jù)庫數(shù)據(jù)庫(DataBase,DB)從字面上來看,就是存放數(shù)據(jù)的倉庫,只不過這個倉庫是在計算機存儲設(shè)備上,而且數(shù)據(jù)是按一定格式存放的。數(shù)據(jù)庫是指長期存儲在計算機內(nèi)、有組織的、可共享的大量數(shù)據(jù)的集合。數(shù)據(jù)庫中的數(shù)據(jù)按一定的數(shù)據(jù)模型組織、描述和儲存,具有較小的冗余度(redundancy)、較高的數(shù)據(jù)獨立性(independency)和易擴展性(expandability),并可為各種用戶共享。9/23/20236江蘇大學計算機科學與通信工程學院數(shù)據(jù)庫概述(2) 數(shù)據(jù)庫管理系統(tǒng)數(shù)據(jù)庫管理系統(tǒng)(DataBaseManagementSystem,DBMS)是位于用戶與操作系統(tǒng)之間的一層數(shù)據(jù)管理軟件,它允許用戶對數(shù)據(jù)庫中的數(shù)據(jù)進行操作,并將操作結(jié)果以某種格式返回給用戶。數(shù)據(jù)庫管理系統(tǒng)和操作系統(tǒng)一樣是計算機的基礎(chǔ)軟件,也是一個大型復雜的軟件系統(tǒng)。數(shù)據(jù)庫管理系統(tǒng)的主要功能如下:① 數(shù)據(jù)定義功能② 數(shù)據(jù)組織、存儲和管理③ 數(shù)據(jù)操縱功能④ 數(shù)據(jù)庫的事務(wù)管理和運行管理⑤ 數(shù)據(jù)庫的建立和維護功能⑥ 其他功能:通信功能、數(shù)據(jù)轉(zhuǎn)換功能、異構(gòu)數(shù)據(jù)庫之間的互訪和互操作的功能等。9/23/20237江蘇大學計算機科學與通信工程學院數(shù)據(jù)庫概述(3) 數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)庫系統(tǒng)(DataBaseSystem,DBS)是指一個采用數(shù)據(jù)庫技術(shù)的計算機存儲系統(tǒng)。廣義地講,數(shù)據(jù)庫系統(tǒng)是由計算機硬件、操作系統(tǒng)、數(shù)據(jù)庫管理系統(tǒng)以及在它支持下建立起來的數(shù)據(jù)庫、應(yīng)用程序、用戶和維護人員組成的一個整體。狹義地講,數(shù)據(jù)庫系統(tǒng)由數(shù)據(jù)庫、數(shù)據(jù)庫管理系統(tǒng)和用戶組成。需要指出的是,數(shù)據(jù)庫的建立、使用和維護等工作只靠一個DBMS遠遠不夠,還需要專門的人員來完成,這些人員被稱為數(shù)據(jù)庫管理員(DataBaseAdministrator,DBA)。9/23/20238江蘇大學計算機科學與通信工程學院數(shù)據(jù)庫概述

數(shù)據(jù)庫系統(tǒng):數(shù)據(jù)庫在計算機系統(tǒng)中的層次結(jié)構(gòu):

9/23/20239江蘇大學計算機科學與通信工程學院數(shù)據(jù)庫概述2.數(shù)據(jù)管理技術(shù)的產(chǎn)生與發(fā)展數(shù)據(jù)庫技術(shù)是應(yīng)數(shù)據(jù)管理任務(wù)的需要而產(chǎn)生的,數(shù)據(jù)管理則是對數(shù)據(jù)進行分類、組織、編碼、存儲、檢索和維護,它是數(shù)據(jù)處理的中心問題。數(shù)據(jù)處理是指對各種數(shù)據(jù)進行收集、存儲、加工和傳播的一系列活動的總和。在應(yīng)用需求的推動下和計算機硬件、軟件發(fā)展的基礎(chǔ)上,數(shù)據(jù)管理技術(shù)經(jīng)歷了三個階段:人工管理文件系統(tǒng)數(shù)據(jù)庫系統(tǒng)9/23/202310江蘇大學計算機科學與通信工程學院數(shù)據(jù)庫概述數(shù)據(jù)庫技術(shù)從20世紀60年代中期產(chǎn)生到現(xiàn)在僅僅50余年的歷史,但其發(fā)展速度之快、使用范圍之廣是其他技術(shù)所不及的。60年代末出現(xiàn)了最早的數(shù)據(jù)庫——層次數(shù)據(jù)庫,隨后在70年代出現(xiàn)了網(wǎng)狀數(shù)據(jù)庫,在此階段層次數(shù)據(jù)庫和網(wǎng)狀數(shù)據(jù)庫占據(jù)了商用市場主流。在70年代同時出現(xiàn)了處于實驗階段的關(guān)系數(shù)據(jù)庫,后來,隨著計算機硬件性能的改善,關(guān)系系統(tǒng)的使用簡便,關(guān)系數(shù)據(jù)庫系統(tǒng)已逐漸替代了網(wǎng)狀數(shù)據(jù)庫和層次數(shù)據(jù)庫,成為當今最流行的商用數(shù)據(jù)庫系統(tǒng)。20世紀90年代,由于計算機應(yīng)用的需求,數(shù)據(jù)庫技術(shù)與面向?qū)ο?、網(wǎng)絡(luò)技術(shù)相互滲透,對象數(shù)據(jù)庫技術(shù)和網(wǎng)絡(luò)數(shù)據(jù)庫技術(shù)得到了深入研究。9/23/202311江蘇大學計算機科學與通信工程學院數(shù)據(jù)庫概述數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)管理結(jié)構(gòu):9/23/202312江蘇大學計算機科學與通信工程學院數(shù)據(jù)庫概述3.數(shù)據(jù)庫系統(tǒng)的特點數(shù)據(jù)庫是在計算機內(nèi)按照數(shù)據(jù)結(jié)構(gòu)來組織、存儲和管理大量共享數(shù)據(jù)的倉庫,它可以讓各種用戶共享,并具有最小冗余度和較高的數(shù)據(jù)獨立性。DBMS在數(shù)據(jù)庫建立、運用和維護時對數(shù)據(jù)庫進行統(tǒng)一控制,以保證數(shù)據(jù)的完整性、安全性,并會在多用戶同時使用數(shù)據(jù)庫時進行并發(fā)控制,在發(fā)生故障時對數(shù)據(jù)庫進行恢復。與人工管理和文件系統(tǒng)相比,數(shù)據(jù)庫系統(tǒng)的特點主要有以下幾個方面:(1)數(shù)據(jù)結(jié)構(gòu)化9/23/202313江蘇大學計算機科學與通信工程學院數(shù)據(jù)庫概述(2)數(shù)據(jù)的共享性高、冗余度低、易擴充(3)數(shù)據(jù)獨立性高(4)數(shù)據(jù)由DBMS統(tǒng)一管理和控制9/23/202314江蘇大學計算機科學與通信工程學院關(guān)系型數(shù)據(jù)庫關(guān)系數(shù)據(jù)庫(RelationalDataBase,RDB)是基于關(guān)系數(shù)據(jù)模型的數(shù)據(jù)庫系統(tǒng)。1.關(guān)系數(shù)據(jù)庫的研究與發(fā)展歷程1970年,IBM公司圣何塞研究中心的研究員E.F.Codd(關(guān)系數(shù)據(jù)庫之父)發(fā)表了著名的論文ARelationalModelofDataforLargeSharedDataBanks(大型共享數(shù)據(jù)庫的關(guān)系數(shù)據(jù)模型),開創(chuàng)了數(shù)據(jù)庫系統(tǒng)的新局面。Codd提出了關(guān)系數(shù)據(jù)模型的概念,即數(shù)據(jù)庫管理系統(tǒng)應(yīng)該將數(shù)據(jù)組織成二維表(也稱為關(guān)系)的形式呈現(xiàn)給用戶。開發(fā)人員使用關(guān)系數(shù)據(jù)模型,而不必關(guān)心數(shù)據(jù)的存儲結(jié)構(gòu),并可以使用高級語言來描述其查詢。這樣,可以大大提高數(shù)據(jù)庫應(yīng)用系統(tǒng)開發(fā)人員的工作效率。9/23/202315江蘇大學計算機科學與通信工程學院關(guān)系型數(shù)據(jù)庫關(guān)系數(shù)據(jù)庫模型的主要特點如下:(1)關(guān)系模型的概念單一,實體以及實體之間的聯(lián)系都用關(guān)系來表示;(2)以關(guān)系代數(shù)為基礎(chǔ),易于形式化表示;(3)數(shù)據(jù)獨立性強,數(shù)據(jù)的物理存儲和存取路徑對用戶隱藏;(4)關(guān)系數(shù)據(jù)庫語言是非過程化的,這樣可以將用戶從通過編程一步一步引導查詢操作執(zhí)行的過程中解脫出來,大大降低了用戶編程的難度。9/23/202316江蘇大學計算機科學與通信工程學院關(guān)系型數(shù)據(jù)庫關(guān)系數(shù)據(jù)庫的發(fā)展歷程可以分為三個階段:第一階段從20世紀70年代初期E.F.Codd提出關(guān)系模型開始。這一階段奠定了關(guān)系模型的理論基礎(chǔ),人們研究了關(guān)系數(shù)據(jù)庫語言,并開發(fā)出了關(guān)系數(shù)據(jù)庫管理系統(tǒng)的一些原型。其中,IBM公司的SystemR和加州大學伯克利分校的Ingres等為這一時期的代表。第二階段從20世紀70年代后期開始,是關(guān)系數(shù)據(jù)庫的應(yīng)用階段。這一時期從理論上解決了諸如查詢優(yōu)化、并發(fā)控制、完整性機制和故障恢復等一系列重大技術(shù)問題,從而使得關(guān)系數(shù)據(jù)庫走向?qū)嵱没蜕虡I(yè)化。在這期間,出現(xiàn)了比較典型的商業(yè)關(guān)系數(shù)據(jù)庫管理系統(tǒng)如Oracle、DB2和Informix等。9/23/202317江蘇大學計算機科學與通信工程學院關(guān)系型數(shù)據(jù)庫第三階段從20世紀80年代開始,自那時以來,分布式關(guān)系數(shù)據(jù)庫系統(tǒng)成為數(shù)據(jù)庫研究的重點,并且日趨成熟。目前,幾乎所有主流的DBMS產(chǎn)品都支持分布式。這個時期的代表產(chǎn)品有Oracle、Informix、DB2和SQLServer等。2.關(guān)系數(shù)據(jù)庫的基本概念(1)關(guān)系數(shù)據(jù)結(jié)構(gòu)關(guān)系模型的數(shù)據(jù)結(jié)構(gòu)非常簡單,只包含單一的數(shù)據(jù)結(jié)構(gòu):關(guān)系(relation)。它為人們提供了一種二維表的方法來描述數(shù)據(jù),關(guān)系模型的中心概念為關(guān)系,一個關(guān)系由模式和模式的實例兩部分構(gòu)成。9/23/202318江蘇大學計算機科學與通信工程學院關(guān)系型數(shù)據(jù)庫① 關(guān)系實例關(guān)系實例就是指由行和列組成的表,一般人們就用“關(guān)系”來代表關(guān)系實例。② 屬性關(guān)系表中的列稱為屬性,其中表的第一行是屬性名,其余各行是相應(yīng)的屬性值。③ 域域是一組具有相同數(shù)據(jù)類型的值的集合。關(guān)系表中屬性的取值范圍就稱為域。例如,屬性“性別”的域為“男”和“女”兩個值。④ 元組關(guān)系表中的行稱為元組或記錄。一般地,任意兩個元組不能完全相同。所有元組的集合就是關(guān)系表本身。⑤ 分量元組中的每一個屬性的值稱為元組的一個分量。例如,元組(001,張三,男,18,IS)有5個分量,對應(yīng)“所在系”的分量是“IS”。對于同一屬性,分量應(yīng)該是同一類型的數(shù)據(jù),即來自同一個域,且每一個分量都必須是不可再分的數(shù)據(jù)項。9/23/202319江蘇大學計算機科學與通信工程學院關(guān)系型數(shù)據(jù)庫⑥ 候選碼如果關(guān)系中的某一屬性組的值能唯一地標識一個元組,則稱該屬性為候選碼。一個關(guān)系可以有多個候選碼。在最簡單的情況下,候選碼只包含一個屬性。而在極端情況下,所有屬性都是候選碼,此時稱為全碼。⑦ 主碼當一個關(guān)系中有多個候選碼時,則從中選擇一個候選碼作為主碼。對于一個關(guān)系,只能有一個主碼。主碼是能辨識記錄的最小屬性組。例如,對于關(guān)系“學生”中學生ID可以作為主碼。⑧ 主屬性和非主屬性包含在候選碼中的屬性稱為主屬性,其它的為非主屬性。9/23/202320江蘇大學計算機科學與通信工程學院關(guān)系型數(shù)據(jù)庫⑨ 關(guān)系模式關(guān)系名和其屬性集合的組合稱為關(guān)系模式。設(shè)關(guān)系名為R,其屬性分別為a1、a2和a3,則關(guān)系模式可以表示為R(a1,a2,a3)。學生的關(guān)系模式可表示為:學生(學生ID,姓名,性別,年齡,所在系)。關(guān)系模式只是對數(shù)據(jù)特性的描述,因此,可以將關(guān)系模式理解為一個數(shù)據(jù)類型。這樣,關(guān)系實例就是一個具體的值。9/23/202321江蘇大學計算機科學與通信工程學院關(guān)系型數(shù)據(jù)庫(2)關(guān)系操作關(guān)系模型給出了關(guān)系操作能力的說明,但不對RDBMS語言給出具體的語法要求,也就是說不同的RDBMS可以定義和開發(fā)不同的語言來實現(xiàn)這些操作。關(guān)系模型中常用的關(guān)系操作有查詢(Query)操作和插入(Insert)、刪除(Delete)及修改(Update)操作兩大類。關(guān)系的查詢表達能力很強,是關(guān)系操作中最主要的部分。查詢操作又可以分為并(Union)、差(Except)、交(Intersection)、笛卡爾積(CartesianProduct)、投影(Project)、選擇(Select)、連接(Join)和除(Divide)等。關(guān)系操作的特點是集合操作方式,即操作的對象和結(jié)果都是集合,這種操作方式也稱為一次一集合(set-at-time)方式。9/23/202322江蘇大學計算機科學與通信工程學院關(guān)系型數(shù)據(jù)庫① 并(Union)關(guān)系R與關(guān)系S各有n個屬性,且相應(yīng)的屬性值取自同一個域(以下均為此條件),則關(guān)系R與關(guān)系S的并記作RUS={t|t∈R∨t∈S},其結(jié)果仍為n個屬性,由屬于R或?qū)儆赟的元組組成。9/23/202323江蘇大學計算機科學與通信工程學院SQL查詢語言結(jié)構(gòu)化查詢語言(StructuredQueryLanguage,SQL)是關(guān)系數(shù)據(jù)庫的標準語言,它具有通用、功能性強等優(yōu)點,而且它的功能不僅僅局限于查詢。目前,幾乎所有的關(guān)系數(shù)據(jù)庫管理系統(tǒng)軟件都支持SQL,有許多廠商對SQL基本命令進行了不同程度的改善與擴充。9/23/202324江蘇大學計算機科學與通信工程學院關(guān)系型數(shù)據(jù)庫1.SQL語言的發(fā)展歷史在20世紀70年代初,E.F.Codd首先提出了關(guān)系模型。到了70年代中期,IBM公司在研制SYSTEMR關(guān)系數(shù)據(jù)管理系統(tǒng)時,研究設(shè)計了SQL語言。最早的SQL語言公布在1976年11月的IBMJournalofR&D上。1979年,Oracle公司首先提供商用的SQL語言,同時,IBM公司在DB2和SQL/DS數(shù)據(jù)庫系統(tǒng)中也實現(xiàn)了SQL。1986年10月,美國ANSI組織采用SQL作為關(guān)系數(shù)據(jù)庫管理系統(tǒng)的標準語言,后被國際標準化組織(ISO)采納為國際標準。在1999年發(fā)布的SQL99標準中,增加了面向?qū)ο蟮墓δ?,隨后,SQL標準不斷改進,比如,SQL2003版支持XML、Window函數(shù)和Merge語句等,SQL2006版增強了XML對數(shù)據(jù)處理的能力,SQL2008增加了數(shù)據(jù)集成功能、改進了分析服務(wù)、集成了Office等。SQL語言簡單易學、功能豐富,深受用戶及業(yè)界的歡迎與推崇。當前主流的數(shù)據(jù)庫管理系統(tǒng),如Oracle、MySQL、SQLserver等,都是基于SQL語言的。9/23/202325江蘇大學計算機科學與通信工程學院關(guān)系型數(shù)據(jù)庫2.SQL語言的主要特點SQL是一個關(guān)系數(shù)據(jù)庫語言,它的操作對象是以表的形式存放在關(guān)系數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)。SQL語言雖然名為“語言”,但其本身并不是一個完整的編程語言,比如,它不支持程序的流程控制等,SQL語言需要和其他編程語言結(jié)合起來用。SQL語言主要特點如下。① 綜合統(tǒng)一② 高度非過程化當面向過程化語言需要進行某項操作(例如,查詢)時,必須指定存取路徑。而對于SQL語言,用戶只需提出“做什么”,而不必指明“怎么做”,也就是說,用戶無需了解存取路徑,SQL語句的執(zhí)行過程由系統(tǒng)自動完成。這種操作方式不僅大大減輕了用戶負擔,而且有利于提高數(shù)據(jù)的獨立性。③ 面向集合的操作方式SQL采用集合操作方式,不僅操作對象和查詢結(jié)果都是記錄的集合,而且插入、刪除及更新操作的對象也可以是記錄的集合。④ 以同一種語法結(jié)構(gòu)提供兩種使用方式SQL既是獨立的語言,又是嵌入式語言。在兩種不同的使用方式下,SQL的語法結(jié)構(gòu)基本上是一致的。⑤ 語言簡潔,易學易用9/23/202326江蘇大學計算機科學與通信工程學院關(guān)系型數(shù)據(jù)庫3.SQL的基本概念支持SQL的關(guān)系數(shù)據(jù)庫管理系統(tǒng)都支持數(shù)據(jù)庫的三級模式(Schema)結(jié)構(gòu),該結(jié)構(gòu)如下所示:9/23/202327江蘇大學計算機科學與通信工程學院關(guān)系型數(shù)據(jù)庫4.SQL的操作關(guān)系數(shù)據(jù)庫系統(tǒng)支持模式、外模式和內(nèi)模式的三級模式結(jié)構(gòu),它們操作的基本對象包括表(TABLE)、視圖(VIEW)和索引(INDEX)。因此,SQL的數(shù)據(jù)定義功能包括模式定義、表定義、視圖和索引定義。與表和視圖相關(guān)的一些SQL操作如下。(1) 建立表SQL中使用CREATETABLE語句來定義表。一種簡化的定義格式如下:CREATETABLE<表名>(<列名><數(shù)據(jù)類型>[,<列名><數(shù)據(jù)類型>)];9/23/202328江蘇大學計算機科學與通信工程學院關(guān)系型數(shù)據(jù)庫【例6.7】利用SQL語言建立學生表Student(Sno,Sname,Ssex,Sage,Sdept)完成上述要求的SQL語句如下:CREATETABLEStudent(SnoCHAR(8),SnameCHAR(20),SsexCHAR(2),SageINT,SdeptCHAR(20));9/23/202329江蘇大學計算機科學與通信工程學院關(guān)系型數(shù)據(jù)庫(2) 建立視圖(3) 數(shù)據(jù)查詢SQL的查詢功能是SQL數(shù)據(jù)庫的核心操作,它提供了SELECT語句進行數(shù)據(jù)庫查詢,該語句使用方式靈活、功能豐富。SELECT語句的格式如下:SELECT[ALL|DISTINCT]<目標屬性列組>FROM<表名或視圖名>[WHERE<條件表達式>][GRROUPBY<列名1>[HAVING<條件表達式>]][ORDERBY<列名2>[ASC|DESC]];【例6.10】查詢所有計算機系(CS)和數(shù)學系(MA)學生的姓名和性別。SELECTSname,SsexFROMStudentWHERESdeptIN(‘CS’,’MA’);9/23/202330江蘇大學計算機科學與通信工程學院第五講內(nèi)容安排后臺數(shù)據(jù)庫技術(shù) 數(shù)據(jù)庫概述 關(guān)系型數(shù)據(jù)庫 SQL查詢語言資源受限網(wǎng)絡(luò)的分級數(shù)據(jù)融合 節(jié)點的分簇控制 簇內(nèi)數(shù)據(jù)融合 分布式數(shù)據(jù)存儲與處理數(shù)據(jù)挖掘與海計算 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù) 云計算概述 海計算的概念與未來9/23/202331江蘇大學計算機科學與通信工程學院資源受限網(wǎng)絡(luò)的分級數(shù)據(jù)融合無線傳感器網(wǎng)絡(luò)是一種資源受限的網(wǎng)絡(luò),節(jié)點僅提供有限的計算能力、通信能力和供電能力,而且,在這種網(wǎng)絡(luò)中節(jié)點過多、分布較廣。傳感器網(wǎng)絡(luò)可以根據(jù)節(jié)點間距離的遠近劃分成簇(Clustering),而基于簇的分層結(jié)構(gòu)具有天然的分布式處理能力,這樣可以提高受限網(wǎng)絡(luò)的資源利用率和數(shù)據(jù)處理的效率。下面主要介紹WSN中的節(jié)點分簇控制、簇內(nèi)數(shù)據(jù)融合及分布式數(shù)據(jù)存儲與處理。9/23/202332江蘇大學計算機科學與通信工程學院節(jié)點的分簇控制1.分簇的網(wǎng)絡(luò)結(jié)構(gòu)隨著無線傳感器網(wǎng)絡(luò)自組網(wǎng)規(guī)模的擴大,節(jié)點鏈路處理開銷不斷加大,網(wǎng)絡(luò)對事件的響應(yīng)速度變慢,可以通過傳感器網(wǎng)絡(luò)的節(jié)點分簇控制機制來解決這些問題。分簇是指將傳感器網(wǎng)絡(luò)中一定區(qū)域內(nèi)的節(jié)點組成稱為簇(cluster)的控制單元,每個簇成員(clustermember)都把自己感知的數(shù)據(jù)傳輸給簇頭(clusterhead)。簇頭是一個分布式處理中心,即無線傳感器網(wǎng)絡(luò)中的一個匯聚節(jié)點(sinknode),簇頭作為小規(guī)模范圍內(nèi)的節(jié)點控制者,它負責收集和協(xié)調(diào)簇內(nèi)節(jié)點監(jiān)測到的數(shù)據(jù),再傳輸給基站(base-station)。9/23/202333江蘇大學計算機科學與通信工程學院節(jié)點的分簇控制傳感器網(wǎng)絡(luò)典型的兩級分簇結(jié)構(gòu):9/23/202334江蘇大學計算機科學與通信工程學院節(jié)點的分簇控制傳感器網(wǎng)絡(luò)是由多個簇構(gòu)成,每個簇包括簇頭和成員兩種類型的節(jié)點。處在同一簇內(nèi)的簇頭和成員節(jié)點共同維護所在簇的路由信息,簇頭節(jié)點負責所管轄簇內(nèi)數(shù)據(jù)信息的壓縮和融合處理,并與基站交換信息。這種兩級分簇結(jié)構(gòu)適用于小規(guī)模傳感器網(wǎng)絡(luò),如果網(wǎng)絡(luò)規(guī)模較大,需要在多個簇頭節(jié)點之間轉(zhuǎn)發(fā)(forward)消息,最終把數(shù)據(jù)傳輸?shù)交?,這時涉及到傳感器網(wǎng)絡(luò)的路由(routing)問題,即按照什么規(guī)則尋找下一跳節(jié)點。9/23/202335江蘇大學計算機科學與通信工程學院節(jié)點的分簇控制2.節(jié)點分簇控制的優(yōu)點①采用層次結(jié)構(gòu)后,簇內(nèi)成員節(jié)點只需要與所屬簇的簇頭通信,而簇頭只需要和其它簇頭交換路由信息,因此,可以降低傳感器網(wǎng)絡(luò)路由協(xié)議的復雜度,減少節(jié)點路由表項的數(shù)目,同時,路由維護開銷也隨之降低且具有較好的可擴展性,更加適合于大規(guī)模WSN的應(yīng)用場景。②在滿足一定約束條件下,例如,覆蓋范圍與采樣精度要求等,簇內(nèi)成員節(jié)點可以在某些時間段內(nèi)關(guān)閉無線通信模塊,從而大幅度減少節(jié)點空閑等待時的能量消耗。③在一個簇內(nèi)部,簇內(nèi)成員節(jié)點采集到的數(shù)據(jù)通常具有較大的相關(guān)性,因此,在簇頭節(jié)點上可以采用數(shù)據(jù)融合算法,在保證一定信息質(zhì)量的情況下減少數(shù)據(jù)通信量,可以降低數(shù)據(jù)轉(zhuǎn)發(fā)的能量開銷。9/23/202336江蘇大學計算機科學與通信工程學院節(jié)點的分簇控制3.典型分簇控制算法根據(jù)不同的分類標準,分簇控制算法可以有多種分類方法。以簇形成是否存在集中控制,可劃分為集中式、分布式算法。以是否需要預先獲得節(jié)點位置信息,可劃分為基于地理位置、不基于地理位置的算法。以每次分簇是否存在一個確定的結(jié)果,可劃分為確定性和隨機性分簇算法等。在這些算法中,LEACH是分布式、無需地理位置的隨機分簇控制算法。9/23/202337江蘇大學計算機科學與通信工程學院節(jié)點的分簇控制典型分簇控制算法LEACHLEACH(Low-EnergyAdaptiveClusteringHierarchy)是無線傳感器網(wǎng)絡(luò)中最早提出的且具有代表性的分簇算法,它使用隨機輪轉(zhuǎn)在傳感器節(jié)點間平均分配能量負載。該算法工作的假設(shè)條件是傳感器網(wǎng)絡(luò)中的節(jié)點發(fā)射功率足夠大,任何節(jié)點都可以一跳到達基站,所有節(jié)點在網(wǎng)內(nèi)的地位是一樣的。9/23/202338江蘇大學計算機科學與通信工程學院節(jié)點的分簇控制LEACH算法把時間分成很多輪(round),輪的周期固定,每輪從簇建立階段開始,這個階段形成簇,其后是穩(wěn)定工作階段,這個階段傳輸數(shù)據(jù)到基站。一定時間后進入下一輪重新開始前面分簇、數(shù)據(jù)傳輸?shù)墓ぷ?。LEACH算法的工作過程:9/23/202339江蘇大學計算機科學與通信工程學院節(jié)點的分簇控制LEACH算法在一輪中的工作大致分為兩步:成簇階段和數(shù)據(jù)傳輸階段。(1) 成簇階段當需要建立簇時,每個節(jié)點自組織地決定在當前輪中自己是否成為簇頭,這個決定基于傳感器網(wǎng)絡(luò)預設(shè)的簇頭比例(該值預先確定)和當前輪數(shù)。節(jié)點n通過產(chǎn)生一個在0和1之間的隨機數(shù)來做決定,如果這個數(shù)小于閥值T(n),該節(jié)點成為這一輪的其中一個簇頭,閥值T(n)如下所示:9/23/202340江蘇大學計算機科學與通信工程學院節(jié)點的分簇控制其中,P:預先確定的簇頭占總節(jié)點數(shù)的比值,比如,可取值0.05;r:當前輪數(shù);G:在過去的r-1輪中尚未當選簇頭的節(jié)點集合。每個自我選舉成為當前輪的簇頭的節(jié)點廣播公告信息給其余節(jié)點,在廣播“簇頭公告信息”時,簇頭使用CSMAMAC協(xié)議,并且所有簇頭節(jié)點用同樣的發(fā)射能量發(fā)送它們各自的公告信息。在這段時間,非簇頭節(jié)點必須打開接收設(shè)備,收聽所有簇頭節(jié)點的公告,這段時間過后,每個非簇頭節(jié)點根據(jù)收到的公告的信號強弱,決定這一輪加入哪個簇。在通信鏈路對稱的情況下,普通節(jié)點以收到的簇頭公告的信號最強的簇頭為自己所加入簇的簇頭,此時,僅需最少的發(fā)送能量就能與該簇頭通信。9/23/202341江蘇大學計算機科學與通信工程學院節(jié)點的分簇控制在每個節(jié)點決定加入選定的簇后,它必須通知對應(yīng)的簇頭節(jié)點將其設(shè)置為簇內(nèi)成員,每個節(jié)點同樣用CSMAMAC協(xié)議把這個信息發(fā)回給簇頭,在這段時間,所有簇頭節(jié)點必須打開接收設(shè)備。簇頭節(jié)點接收到所有想加入該簇的節(jié)點消息后,簇頭節(jié)點基于簇內(nèi)節(jié)點的數(shù)量建立TDMA調(diào)度方案,告訴每個簇內(nèi)節(jié)點什么時候可以發(fā)送消息,這個調(diào)度信息被廣播給簇內(nèi)節(jié)點。至此,成簇階段結(jié)束。9/23/202342江蘇大學計算機科學與通信工程學院節(jié)點的分簇控制LEACH協(xié)議某兩輪成簇的網(wǎng)絡(luò)結(jié)構(gòu)。9/23/202343江蘇大學計算機科學與通信工程學院節(jié)點的分簇控制(2) 數(shù)據(jù)傳輸階段在數(shù)據(jù)傳輸階段,簇內(nèi)成員節(jié)點根據(jù)分配給自己的TDMA時間片向簇頭發(fā)送自己的感知數(shù)據(jù),而在其他時刻可以進入休眠狀態(tài),從而節(jié)省能量。為了避免相鄰簇內(nèi)節(jié)點的通信干擾,各個簇之間都采用不同的CDMA碼片。當簇頭節(jié)點接收到數(shù)據(jù)后,進行簇內(nèi)數(shù)據(jù)融合等處理,再把數(shù)據(jù)以CSMA/CA方式傳輸給基站。9/23/202344江蘇大學計算機科學與通信工程學院節(jié)點的分簇控制4.基于分簇的無線傳感器網(wǎng)絡(luò)應(yīng)用系統(tǒng)9/23/202345江蘇大學計算機科學與通信工程學院簇內(nèi)數(shù)據(jù)融合數(shù)據(jù)融合的概念始于20世紀70年代初期,在80年代得到了長足發(fā)展。近幾年來,數(shù)據(jù)融合技術(shù)已經(jīng)引起世界范圍內(nèi)的普遍關(guān)注,且在一些重大研究項目上取得了突破性進展,不少數(shù)據(jù)融合技術(shù)的研究成果和實用系統(tǒng)已在1991年的海灣戰(zhàn)爭中得到實戰(zhàn)驗證,取得了理想效果。9/23/202346江蘇大學計算機科學與通信工程學院1.數(shù)據(jù)融合的原理與方法多傳感器數(shù)據(jù)融合的工作原理就像人腦綜合處理信息一樣,充分利用多個傳感器資源,通過對多傳感器及其觀測信息的合理支配和使用,把多傳感器在空間或時間上冗余或互補信息依據(jù)某種準則來進行組合,從而獲得被測對象的一致性解釋或描述。多傳感器數(shù)據(jù)融合工作過程如下:①n個不同的傳感器收集觀測目標的數(shù)據(jù);②對傳感器的輸出數(shù)據(jù)進行特征提取和變換,得到相應(yīng)的特征矢量;簇內(nèi)數(shù)據(jù)融合9/23/202347江蘇大學計算機科學與通信工程學院③對特征矢量進行模式識別和處理,完成各傳感器關(guān)于目標的說明,用到的識別方法可以是聚類算法、自適應(yīng)神經(jīng)網(wǎng)絡(luò)方法,或者其他能將特征矢量變換成目標屬性判決的統(tǒng)計模式識別法等;④將各傳感器關(guān)于目標的說明數(shù)據(jù)按同一目標進行分組;⑤利用融合算法將每一目標的各傳感器數(shù)據(jù)進行合成,得到該目標的一致性解釋與描述。簇內(nèi)數(shù)據(jù)融合9/23/202348江蘇大學計算機科學與通信工程學院利用多個傳感器獲取關(guān)于對象和環(huán)境全面完整的信息的關(guān)鍵主要在于融合算法,因此,多傳感器融合系統(tǒng)的核心問題是如何選擇合適的融合算法。目前,在不少應(yīng)用領(lǐng)域根據(jù)各自的具體應(yīng)用背景,已經(jīng)提出了許多成熟并且有效的融合方法,這些多傳感器數(shù)據(jù)融合的方法可以概括為隨機和人工智能兩大類。隨機方法有加權(quán)平均法、卡爾曼濾波法、多貝葉斯估計法、Dempster-Shafer(D-S)證據(jù)推理、產(chǎn)生式規(guī)則等。人工智能方法包括模糊邏輯理論、神經(jīng)網(wǎng)絡(luò)、粗糙集理論、專家系統(tǒng)等。信息融合方法的基本要求是要具有魯棒性和并行處理能力、融合方法的運算速度和精度、與前期預處理系統(tǒng)和后續(xù)信息識別系統(tǒng)的接口性能以及對信息樣本的要求等。簇內(nèi)數(shù)據(jù)融合9/23/202349江蘇大學計算機科學與通信工程學院2.數(shù)據(jù)融合分類按照不同的分類標準,數(shù)據(jù)融合可以有多種不同的分類方法。根據(jù)數(shù)據(jù)進行融合操作前后的信息量來分:無損融合(losslessaggregation)和有損融合(lossyaggregation);根據(jù)數(shù)據(jù)融合與應(yīng)用層數(shù)據(jù)語義之間的關(guān)系來劃分:依賴于應(yīng)用的數(shù)據(jù)融合和獨立于應(yīng)用的數(shù)據(jù)融合;根據(jù)融合操作的級別劃分:數(shù)據(jù)級融合、特征級融合和決策級融合三類。簇內(nèi)數(shù)據(jù)融合9/23/202350江蘇大學計算機科學與通信工程學院(1) 無損融合和有損融合在無損數(shù)據(jù)融合中,所有的細節(jié)信息均被保留,此類融合的常見方法是剔除信息中的冗余部分。根據(jù)信息理論,無損融合中,信息量整體縮減的大小受到其熵值的限制。例如,將多個數(shù)據(jù)分組打包成一個“大的”數(shù)據(jù)分組,而不改變各個分組所攜帶的數(shù)據(jù)內(nèi)容的方法就屬于無損融合。時間戳融合是無損融合的另一個例子。簇內(nèi)數(shù)據(jù)融合9/23/202351江蘇大學計算機科學與通信工程學院(1) 無損融合和有損融合有損融合通常會省略一些細節(jié)信息或降低數(shù)據(jù)的質(zhì)量,從而減少需要存儲或傳輸?shù)臄?shù)據(jù)量,以達到節(jié)省存儲資源或能量的目的。在有損融合中,信息損失的上限是要保留應(yīng)用所需要的全部信息量。很多有損融合都是針對數(shù)據(jù)收集的需求而進行網(wǎng)內(nèi)處理的必然結(jié)果。比如,溫/濕度監(jiān)測應(yīng)用中,需要查詢某一區(qū)域內(nèi)的平均溫/濕度或最低、最高溫/濕度時,網(wǎng)內(nèi)將對各個傳感器節(jié)點所報告的數(shù)據(jù)進行計算,并只將結(jié)果數(shù)據(jù)報告給查詢者。簇內(nèi)數(shù)據(jù)融合9/23/202352江蘇大學計算機科學與通信工程學院(2) 應(yīng)用相關(guān)/無關(guān)的數(shù)據(jù)融合數(shù)據(jù)融合都是針對應(yīng)用層數(shù)據(jù)進行的,即數(shù)據(jù)融合需要了解應(yīng)用數(shù)據(jù)的語義。從實現(xiàn)角度看,數(shù)據(jù)融合如果在網(wǎng)絡(luò)分層結(jié)構(gòu)的應(yīng)用層實現(xiàn),則與應(yīng)用數(shù)據(jù)之間沒有語義鴻溝,可以直接對應(yīng)用數(shù)據(jù)進行融合;如果在網(wǎng)絡(luò)層實現(xiàn)數(shù)據(jù)融合,則需要跨協(xié)議層理解應(yīng)用層數(shù)據(jù)的含義,即在網(wǎng)絡(luò)層理解應(yīng)用層數(shù)據(jù),這稱為應(yīng)用相關(guān)的數(shù)據(jù)融合(ApplicationDependentDataAggregation,ADDA)技術(shù)。簇內(nèi)數(shù)據(jù)融合9/23/202353江蘇大學計算機科學與通信工程學院(2) 應(yīng)用相關(guān)/無關(guān)的數(shù)據(jù)融合獨立于應(yīng)用的數(shù)據(jù)融合(ApplicationIndependentDataAggregation,AIDA)技術(shù)可以避免ADDA的語義相關(guān)性問題,該技術(shù)把數(shù)據(jù)融合作為獨立的一層來實現(xiàn),簡化了各層之間的關(guān)系。簇內(nèi)數(shù)據(jù)融合9/23/202354江蘇大學計算機科學與通信工程學院(3) 根據(jù)融合操作的級別劃分1)數(shù)據(jù)級融合數(shù)據(jù)級融合是最底層的融合,操作對象是傳感器通過采集得到的數(shù)據(jù),因此是面向數(shù)據(jù)的融合。這類融合大多數(shù)情況下僅僅依賴于傳感器類型,而不依賴于用戶需求。2)特征級融合特征級融合通過一些特征提取手段將傳感器數(shù)據(jù)表示為一系列的特征向量,以反映事物的屬性,是面向監(jiān)測對象特征的融合。比如,在溫度監(jiān)測應(yīng)用中,特征級融合可以對溫度傳感器數(shù)據(jù)進行綜合,表示成(地區(qū)范圍,最高溫度,最低溫度,平均溫度)的形式。3)決策級融合決策級融合根據(jù)應(yīng)用需求進行較高級的決策,是最高級融合。決策級融合的操作可以依據(jù)特征級融合提取的數(shù)據(jù)特征,對監(jiān)測對象進行判別、分類,并通過簡單的邏輯運算,執(zhí)行滿足應(yīng)用需求的決策。因此,決策級融合是面向應(yīng)用的融合。比如,在災(zāi)難監(jiān)測應(yīng)用中,決策級融合可能需要綜合多種類型的傳感器信息,包括溫/濕度、震動和毒性氣體等,進而對是否發(fā)生了災(zāi)難性事故進行判斷。簇內(nèi)數(shù)據(jù)融合9/23/202355江蘇大學計算機科學與通信工程學院3.WSN中的數(shù)據(jù)融合傳感器網(wǎng)絡(luò)應(yīng)用往往以數(shù)據(jù)為中心,人們關(guān)心的是某個區(qū)域的某個觀測指標的值,而不是具體某個節(jié)點觀測到的值。因此,在傳感器網(wǎng)絡(luò)節(jié)點采集、處理信息的過程中,各個節(jié)點單獨傳輸數(shù)據(jù)到基站的方法顯然是不合適的。因為節(jié)點采集到的數(shù)據(jù)存在大量冗余信息,這樣會浪費大量的通信帶寬和寶貴的能量資源。為避免上述問題,傳感器網(wǎng)絡(luò)采用了數(shù)據(jù)融合(數(shù)據(jù)匯聚)技術(shù)來減少網(wǎng)內(nèi)數(shù)據(jù)傳輸量。所謂傳感器數(shù)據(jù)融合是指將多個節(jié)點數(shù)據(jù)進行處理,組合出更準確高效、更符合用戶需求的數(shù)據(jù)的操作。簇內(nèi)數(shù)據(jù)融合9/23/202356江蘇大學計算機科學與通信工程學院(1) 基于卡爾曼濾波的傳感器節(jié)點數(shù)據(jù)融合(2) 基于簇內(nèi)加權(quán)數(shù)據(jù)融合傳感器網(wǎng)絡(luò)采用分簇層次結(jié)構(gòu)后,在簇內(nèi)通常要進行簇內(nèi)數(shù)據(jù)融合。簇內(nèi)數(shù)據(jù)融合是把一個簇內(nèi)各個簇成員節(jié)點感知到的數(shù)據(jù)按照某一規(guī)則結(jié)合為一個最佳估計值。由于傳感器節(jié)點是隨機放置的,而且各個傳感器有各自的測量誤差,因此,每個傳感器感知到的數(shù)據(jù)的權(quán)重因子也就各不相同,誤差小的節(jié)點的權(quán)重應(yīng)該較大,而誤差大的節(jié)點的權(quán)重應(yīng)該較小。簇內(nèi)數(shù)據(jù)融合9/23/202357江蘇大學計算機科學與通信工程學院簇內(nèi)加權(quán)數(shù)據(jù)融合:簇內(nèi)數(shù)據(jù)融合9/23/202358江蘇大學計算機科學與通信工程學院圖靈獎獲得者JimGray指出,隨著計算機處理能力的提高、網(wǎng)絡(luò)技術(shù)的不斷進步和存儲容量的飛速發(fā)展,數(shù)據(jù)處理、存儲、傳輸越來越廉價,數(shù)據(jù)和數(shù)據(jù)組織才是真正最有價值的東西。數(shù)據(jù)的存儲和處理經(jīng)歷了由集中式向分布式發(fā)展的歷程。1.集中式數(shù)據(jù)處理集中式計算機網(wǎng)絡(luò)是一個大型的中央計算系統(tǒng),其終端是客戶機。數(shù)據(jù)全部存儲在中央系統(tǒng)內(nèi),由數(shù)據(jù)庫管理系統(tǒng)進行管理,而且所有的處理都由該大型計算系統(tǒng)來完成,終端只是用來輸入和輸出。在這種計算模式里,終端自己不作任何數(shù)據(jù)處理,所有任務(wù)都在中央主機上進行處理。集中式數(shù)據(jù)存儲、處理的主要特點是把所有數(shù)據(jù)保存在一個地方,各個遠程終端通過電纜同中央計算機(主機)相連,保證了每個終端使用的都是同一信息。分布式數(shù)據(jù)存儲與處理9/23/202359江蘇大學計算機科學與通信工程學院銀行的ATM機采用的就是集中式計算機網(wǎng)絡(luò),所有的事務(wù)都在銀行網(wǎng)絡(luò)系統(tǒng)的主機上進行處理,終端只提供簡單的信息輸入、查詢處理。這種集中式處理結(jié)構(gòu)總體費用比較低,主機因擁有大量存儲空間和強大的計算能力而價格昂貴,但眾多的終端因功能簡單,其價格非常便宜。集中式處理不利的一面是來自所有終端的計算需求都是由中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論