版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1第1章數(shù)據(jù)庫系統(tǒng)概論1.1數(shù)據(jù)庫系統(tǒng)1.2數(shù)據(jù)模型1.3關(guān)系數(shù)據(jù)庫1.4數(shù)據(jù)庫設(shè)計1.5大數(shù)據(jù)簡介SQLServer數(shù)據(jù)庫庫技術(shù)與應(yīng)用
21.1數(shù)據(jù)庫系統(tǒng)1.數(shù)據(jù):數(shù)據(jù)(Data)是事物的符號表示,數(shù)據(jù)可以是數(shù)字、文字、圖像、聲音等。2.數(shù)據(jù)庫:數(shù)據(jù)庫(Database)是以特定的組織結(jié)構(gòu)、存放在計算機的存儲介質(zhì)中的相互關(guān)聯(lián)的數(shù)據(jù)集合。3.數(shù)據(jù)庫管理系統(tǒng):數(shù)據(jù)庫管理系統(tǒng)(DataBaseManagementSystem,DBMS)是在操作系統(tǒng)支持下的系統(tǒng)軟件,它是數(shù)據(jù)庫應(yīng)用系統(tǒng)的核心組成部分,它的主要功能如下:●數(shù)據(jù)定義功能:提供數(shù)據(jù)定義語言定義數(shù)據(jù)庫和數(shù)據(jù)庫對象?!?/p>
數(shù)據(jù)操縱功能:提供數(shù)據(jù)操縱語言對數(shù)據(jù)庫中數(shù)據(jù)進行查詢、插入、修改、刪除等操作?!駭?shù)據(jù)控制功能:提供數(shù)據(jù)控制語言進行數(shù)據(jù)控制,即提供數(shù)據(jù)的安全性、完整性、并發(fā)控制等項功能●數(shù)據(jù)庫建立維護功能:包括數(shù)據(jù)庫初始數(shù)據(jù)的裝入、轉(zhuǎn)儲、恢復(fù)和系統(tǒng)性能監(jiān)視、分析等項功能。
SQLServer數(shù)據(jù)庫庫技術(shù)與應(yīng)用
31.1數(shù)據(jù)庫系統(tǒng)4.數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)庫系統(tǒng)(DatabaseSystem,DBS)是數(shù)據(jù)庫應(yīng)用系統(tǒng)的簡稱,數(shù)據(jù)庫系統(tǒng)由數(shù)據(jù)庫、操作系統(tǒng)、數(shù)據(jù)庫管理系統(tǒng)、應(yīng)用程序、用戶、數(shù)據(jù)庫管理員組成,如圖1.1所示。
SQLServer數(shù)據(jù)庫庫技術(shù)與應(yīng)用
41.1數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)庫應(yīng)用系統(tǒng)分為客戶-服務(wù)器模式(C/S)和三層客戶-服務(wù)器(B/S)模式。(1)C/S模式應(yīng)用程序直接與用戶打交道,數(shù)據(jù)庫管理系統(tǒng)不直接與用戶打交道,因此,應(yīng)用程序稱為前臺,數(shù)據(jù)庫管理系統(tǒng)稱為后臺。因為應(yīng)用程序向數(shù)據(jù)庫管理系統(tǒng)提出服務(wù)請求,所以稱為客戶程序(Client),而數(shù)據(jù)庫管理系統(tǒng)向應(yīng)用程序提供服務(wù),所以稱為服務(wù)器程序(Server),上述操作數(shù)據(jù)庫的模式稱為客戶-服務(wù)器模式(C/S),如圖1.2所示。
SQLServer數(shù)據(jù)庫庫技術(shù)與應(yīng)用
51.1數(shù)據(jù)庫系統(tǒng)(2)B/S模式基于Web的數(shù)據(jù)庫應(yīng)用采用三層客戶-服務(wù)器模式(B/S),第一層為瀏覽器,第二層為Web服務(wù)器,第三層為數(shù)據(jù)庫服務(wù)器,如圖1.3所示。
SQLServer數(shù)據(jù)庫庫技術(shù)與應(yīng)用
6
1.2數(shù)據(jù)模型1.層次模型用樹狀層次結(jié)構(gòu)組織數(shù)據(jù),樹狀結(jié)構(gòu)每一個結(jié)點表示一個記錄類型,記錄類型之間的聯(lián)系是一對多的聯(lián)系。層次模型有且僅有一個根結(jié)點,位于樹狀結(jié)構(gòu)頂部,其它結(jié)點有且僅有一個父結(jié)點。某大學按層次模型組織數(shù)據(jù)的示例如圖1.4所示。
SQLServer數(shù)據(jù)庫庫技術(shù)與應(yīng)用
7
1.2數(shù)據(jù)模型2.網(wǎng)狀模型采用網(wǎng)狀結(jié)構(gòu)組織數(shù)據(jù),網(wǎng)狀結(jié)構(gòu)每一個結(jié)點表示一個記錄類型,記錄類型之間可以有多種聯(lián)系,按網(wǎng)狀模型組織數(shù)據(jù)的示例如圖1.5所示。
SQLServer數(shù)據(jù)庫庫技術(shù)與應(yīng)用
81.2數(shù)據(jù)模型3.關(guān)系模型采用關(guān)系的形式組織數(shù)據(jù),一個關(guān)系就是一張二維表,二維表由行和列組成,按關(guān)系模型組織數(shù)據(jù)的示例如圖1.6所示。SQLServer數(shù)據(jù)庫庫技術(shù)與應(yīng)用
9
1.2數(shù)據(jù)模型SQLServer數(shù)據(jù)庫庫技術(shù)與應(yīng)用
101.3關(guān)系數(shù)據(jù)庫關(guān)系數(shù)據(jù)庫采用關(guān)系模型組織數(shù)據(jù),關(guān)系數(shù)據(jù)庫是目前最流行的數(shù)據(jù)庫,關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RelationalDatabaseManagementSystem,RDBMS)是支持關(guān)系模型的數(shù)據(jù)庫管理系統(tǒng)。1.關(guān)系數(shù)據(jù)庫基本概念●關(guān)系:關(guān)系就是表(Table),在關(guān)系數(shù)據(jù)庫中,一個關(guān)系存儲為一個數(shù)據(jù)表。●元組:表中一行(Row)為一個元組(Tuple),一個元組對應(yīng)數(shù)據(jù)表中的一條記錄(Record),元組的各個分量對應(yīng)于關(guān)系的各個屬性?!駥傩裕罕碇械牧?Column)稱為屬性(Property),對應(yīng)數(shù)據(jù)表中的字段(Field)。
SQLServer數(shù)據(jù)庫庫技術(shù)與應(yīng)用
111.3關(guān)系數(shù)據(jù)庫
●域:屬性的取值范圍。●關(guān)系模式:對關(guān)系的描述稱為關(guān)系模式,格式如下:●關(guān)系名(屬性名1,屬性名2,…屬性名n)
●候選碼:屬性或?qū)傩越M,其值可唯一標識其對應(yīng)元組?!裰麝P(guān)鍵字(主鍵):在候選碼中選擇一個作為主鍵(PrimaryKey)
●外關(guān)鍵字(外鍵):在一個關(guān)系中的屬性或?qū)傩越M不是該關(guān)系的主鍵,但它是另一個關(guān)系的主鍵,稱為外鍵(ForeignKey)。
SQLServer數(shù)據(jù)庫庫技術(shù)與應(yīng)用
121.3關(guān)系數(shù)據(jù)庫在圖1.3中,學生的關(guān)系模式為
學生(學號,姓名,性別,出生日期,專業(yè),總學分)主鍵為學號。成績的關(guān)系模式為
成績(學號,課程號,成績)2.關(guān)系運算關(guān)系數(shù)據(jù)操作稱為關(guān)系運算,投影、選擇、連接是最重要的關(guān)系運算,關(guān)系數(shù)據(jù)庫管理系統(tǒng)支持關(guān)系數(shù)據(jù)庫和投影、選擇、連接運算。
SQLServer數(shù)據(jù)庫庫技術(shù)與應(yīng)用
131.3關(guān)系數(shù)據(jù)庫(1)選擇選擇(Selection)指選出滿足給定條件的記錄,它是從行的角度進行的單目運算,運算對象是一個表,運算結(jié)果形成一個新表?!纠?.1】從學生表中選擇專業(yè)為計算機且總學分在50分以上的行進行選擇運算,選擇所得的新表如表1.1所示。
SQLServer數(shù)據(jù)庫庫技術(shù)與應(yīng)用
141.3關(guān)系數(shù)據(jù)庫(2)投影投影(Projection)是選擇表中滿足條件的列,它是從列的角度進行的單目運算。【例1.2】從學生表中選取姓名、性別、專業(yè)進行投影運算,投影所得的新表如表1.2所示。
SQLServer數(shù)據(jù)庫庫技術(shù)與應(yīng)用
151.3關(guān)系數(shù)據(jù)庫(3)連接連接(Join)是將兩個表中的行按照一定的條件橫向結(jié)合生成的新表。選擇和投影都是單目運算,其操作對象只是一個表,而連接是雙目運算,其操作對象是兩個表?!纠?.3】學生表與成績表通過學號相等的連接條件進行連接運算,連接所得的新表如表1.3所示。
SQLServer數(shù)據(jù)庫庫技術(shù)與應(yīng)用
161.4
數(shù)據(jù)庫設(shè)計1.4.1需求分析需求分析階段是整個數(shù)據(jù)庫設(shè)計中最重要的一個步驟,它需要從各個方面對業(yè)務(wù)對象進行調(diào)查、收集、分析,以準確了解用戶對數(shù)據(jù)和處理的需求,需求分析中的結(jié)構(gòu)化分析方法采用逐層分解的方法分析系統(tǒng),通過數(shù)據(jù)流圖、數(shù)據(jù)字典描述系統(tǒng)。
●數(shù)據(jù)流圖:數(shù)據(jù)流圖用來描述系統(tǒng)的功能,表達了數(shù)據(jù)和處理的關(guān)系。
●數(shù)據(jù)字典:數(shù)據(jù)字典是各類數(shù)據(jù)描述的集合,對數(shù)據(jù)流圖中的數(shù)據(jù)流和加工等進一步定義,它包括數(shù)據(jù)項、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)流、存儲、處理過程等。
SQLServer數(shù)據(jù)庫庫技術(shù)與應(yīng)用
171.4數(shù)據(jù)庫設(shè)計1.4.2概念結(jié)構(gòu)設(shè)計為了把現(xiàn)實世界的具體事物抽象、組織為某一DBMS支持的數(shù)據(jù)模型,首先將現(xiàn)實世界的具體事物抽象為信息世界某一種概念結(jié)構(gòu),這種結(jié)構(gòu)不依賴于具體的計算機系統(tǒng),然后,將概念結(jié)構(gòu)轉(zhuǎn)換為某個DBMS所支持的數(shù)據(jù)模型。需求分析得到的數(shù)據(jù)描述是無結(jié)構(gòu)的,概念設(shè)計是在需求分析的基礎(chǔ)上轉(zhuǎn)換為有結(jié)構(gòu)的、易于理解的精確表達,概念設(shè)計階段的目標是形成整體數(shù)據(jù)庫的概念結(jié)構(gòu),它獨立于數(shù)據(jù)庫邏輯結(jié)構(gòu)和具體的DBMS,描述概念結(jié)構(gòu)的工具是E-R模型。E-R模型即實體-聯(lián)系模型,在E-R模型中:
SQLServer數(shù)據(jù)庫庫技術(shù)與應(yīng)用
181.4數(shù)據(jù)庫設(shè)計●實體:客觀存在并可相互區(qū)別的事物稱為實體,實體用矩形框表示,框內(nèi)為實體名。實體可以是具體的人、事、物或抽象的概念,例如,在學生成績管理系統(tǒng)中,“學生”就是一個實體。
●屬性:實體所具有的某一特性稱為屬性,屬性采用橢圓框表示,框內(nèi)為屬性名,并用無向邊與其相應(yīng)實體連接。例如,在學生成績管理系統(tǒng)中,學生的特性有學號、姓名、性別、出生日期、專業(yè)、總學分,它們就是學生實體的6個屬性?!駥嶓w型:用實體名及其屬性名集合來抽象和刻畫同類實體,稱為實體型。例如,學生(學號,姓名,性別,出生日期,專業(yè),總學分)就是一個實體型。
SQLServer數(shù)據(jù)庫庫技術(shù)與應(yīng)用
191.4數(shù)據(jù)庫設(shè)計●實體集:同型實體的集合稱為實體集,例如全體學生記錄就是一個實體集。●聯(lián)系:實體之間的聯(lián)系,可分為一對一的聯(lián)系、一對多的聯(lián)系、多對多的聯(lián)系。實體間的聯(lián)系采用菱形框表示,聯(lián)系以適當?shù)暮x命名,名字寫在菱形框中,用無向邊將參加聯(lián)系的實體矩形框分別與菱形框相連,并在連線上標明聯(lián)系的類型,即1—1、1—n或m—n。如果聯(lián)系也具有屬性,則將屬性與菱形也用無向邊連上。1.一對一的聯(lián)系(1:1)例如,一個班只有一個正班長,而一個正班長只屬于一個班,班級與正班長兩個實體間具有一對一的聯(lián)系。2.一對多的聯(lián)系(1:n)例如,一個班可有若干學生,一個學生只能屬于一個班,班級與學生兩個實體間具有一對多的聯(lián)系。
SQLServer數(shù)據(jù)庫庫技術(shù)與應(yīng)用
201.4數(shù)據(jù)庫設(shè)計3.多對多的聯(lián)系(m:n)例如,一個學生可選多門課程,一門課程可被多個學生選修,學生與課程兩個實體間具有多對多的聯(lián)系。實體之間的三種聯(lián)系如圖1.7所示。
SQLServer數(shù)據(jù)庫庫技術(shù)與應(yīng)用
211.4數(shù)據(jù)庫設(shè)計【例1.4】設(shè)學生成績系統(tǒng)有學生、課程、教師實體如下:學生:學號、姓名、性別、出生日期、專業(yè)、總學分課程:課程號、課程名、學分教師:教師編號、姓名、性別、出生日期、職稱、學院上述實體中存在如下聯(lián)系:(1)一個學生可選修多門課程,一門課程可為多個學生選修。(2)一個教師可講授多門課程,一門課程可為多個教師講授。要求設(shè)計該系統(tǒng)的E-R圖。
SQLServer數(shù)據(jù)庫庫技術(shù)與應(yīng)用
221.4數(shù)據(jù)庫設(shè)計
SQLServer數(shù)據(jù)庫庫技術(shù)與應(yīng)用
設(shè)計的學生成績系統(tǒng)E-R圖如圖1.8所示。231.4數(shù)據(jù)庫設(shè)計1.2.3
邏輯結(jié)構(gòu)設(shè)計為了建立用戶所要求的數(shù)據(jù)庫,必須將概念結(jié)構(gòu)轉(zhuǎn)換為某個DBMS所支持的數(shù)據(jù)模型,由于當前主流的數(shù)據(jù)模型是關(guān)系模型,所以邏輯結(jié)構(gòu)設(shè)計是將概念結(jié)構(gòu)轉(zhuǎn)換為關(guān)系模型,即將E-R模型轉(zhuǎn)換為一組關(guān)系模式。1.(1:1)聯(lián)系的E-R圖到關(guān)系模式的轉(zhuǎn)換用學校和校長之間的聯(lián)系為例,一個學校只有一個校長,一個校長只在一個學校任校長,屬于一對一關(guān)系(下劃線“_”表示該字段為主鍵)。(1)每個實體設(shè)計一張表。學校(學校編號,名稱,地址)
校長(校長編號,姓名,職稱)
SQLServer數(shù)據(jù)庫庫技術(shù)與應(yīng)用
241.4數(shù)據(jù)庫設(shè)計(2)任選一表,其中的主鍵在另一個表中充當外鍵。選擇校長表中的主鍵在學校表中充當外鍵,設(shè)計以下關(guān)系模式。學校(學校編號,名稱,地址,校長編號)
校長(校長編號,姓名,職稱)2.(1:n)聯(lián)系的E-R圖到關(guān)系模式的轉(zhuǎn)換以班級和學生之間的聯(lián)系為例。一個班級中有若干名學生,每個學生只在一個班級中學習,屬于一對多關(guān)系。(1)每個實體設(shè)計一張表。
班級(班級編號,教室號,人數(shù))學生(學號,姓名,性別,出生日期,專業(yè),總學分)
SQLServer數(shù)據(jù)庫庫技術(shù)與應(yīng)用
251.4數(shù)據(jù)庫設(shè)計(2)選“1”端表,其主鍵在“n”端表中充當外鍵。選擇班級表中的主鍵在學生表中充當外鍵,設(shè)計以下關(guān)系模式。
班級(班級編號,教室號,人數(shù))
學生(學號,姓名,性別,出生日期,專業(yè),總學分,班級編號)3.(m:n)聯(lián)系的E-R圖到關(guān)系模式的轉(zhuǎn)換以學生和課程之間的聯(lián)系為例。一個學生可以選多門課程,一門課程可以有多個學生選,屬于多對多關(guān)系。(1)每個實體設(shè)計一張表。
學生(學號,姓名,性別,出生日期,專業(yè),總學分)
課程(課程號,課程名,學分)
SQLServer數(shù)據(jù)庫庫技術(shù)與應(yīng)用
261.4數(shù)據(jù)庫設(shè)計(2)產(chǎn)生一個新表,“m”端和“n”端的主鍵在新表中充當外鍵。選擇學生表中的主鍵和在課程表中的主鍵在新表選課表中充當外鍵,設(shè)計以下關(guān)系模式。
學生(學號,姓名,性別,出生日期,專業(yè),總學分)
課程(課程號,課程名,學分)
選課(學號,課程號,分數(shù))
SQLServer數(shù)據(jù)庫庫技術(shù)與應(yīng)用
271.4數(shù)據(jù)庫設(shè)計【例1.5】設(shè)計學生成績系統(tǒng)的邏輯結(jié)構(gòu)設(shè)計學生成績系統(tǒng)的邏輯結(jié)構(gòu),即設(shè)計學生成績系統(tǒng)的關(guān)系模式。選課聯(lián)系與講課聯(lián)系都是多對多的聯(lián)系,它們都轉(zhuǎn)換為關(guān)系,選課關(guān)系的屬性有分數(shù),講課關(guān)系的屬性有上課地點。選課關(guān)系實際上是成績關(guān)系,將選課關(guān)系改為成績關(guān)系。學生成績管理系統(tǒng)的關(guān)系模式設(shè)計如下:學生(學號,姓名,性別,出生日期,專業(yè),總學分)
課程(課程號,課程名,學分)
成績(學號,課程號,分數(shù))
教師(教師編號,姓名,性別,出生日期,職稱,學院)
講課(教師編號,課程號,上課地點)
SQLServer數(shù)據(jù)庫庫技術(shù)與應(yīng)用
281.4數(shù)據(jù)庫設(shè)計為了程序設(shè)計方便,將漢字表示的關(guān)系模式改為英文表示的關(guān)系模式:
student(stno,stname,stsex,stbirthday,speciality,tc)對應(yīng)學生關(guān)系模式
course(cno,cname,credit)對應(yīng)課程關(guān)系模式
score(stno,cno,grade)對應(yīng)成績關(guān)系模式
teacher(tno,tname,tsex,tbirthday,title,school)對應(yīng)教師關(guān)系模式
lecture(tno,cno,location)對應(yīng)講課關(guān)系模式
SQLServer數(shù)據(jù)庫庫技術(shù)與應(yīng)用
291.4數(shù)據(jù)庫設(shè)計1.4.4物理結(jié)構(gòu)設(shè)計數(shù)據(jù)庫在物理設(shè)備上的存儲結(jié)構(gòu)和存取方法稱為數(shù)據(jù)庫的物理結(jié)構(gòu),它依賴于給定的計算機系統(tǒng),為邏輯數(shù)據(jù)模型選取一個最適合應(yīng)用環(huán)境的物理結(jié)構(gòu),就是物理結(jié)構(gòu)設(shè)計。數(shù)據(jù)庫的物理結(jié)構(gòu)設(shè)計通常分為2步:
●確定數(shù)據(jù)庫的物理結(jié)構(gòu),在關(guān)系數(shù)據(jù)庫中主要指存取方法和存儲結(jié)構(gòu);
●對物理結(jié)構(gòu)進行評價,評價的重點是時間和空間效率。
SQLServer數(shù)據(jù)庫庫技術(shù)與應(yīng)用
301.4數(shù)據(jù)庫設(shè)計1.4.5數(shù)據(jù)庫實施數(shù)據(jù)庫實施包括以下工作:●建立數(shù)據(jù)庫●組織數(shù)據(jù)入庫●編制與調(diào)試應(yīng)用程序●數(shù)據(jù)庫試運行
SQLServer數(shù)據(jù)庫庫技術(shù)與應(yīng)用
311.4數(shù)據(jù)庫設(shè)計1.4.6數(shù)據(jù)庫運行和維護數(shù)據(jù)庫投入正式運行后,經(jīng)常性維護工作主要由DBA完成,內(nèi)容如下:●數(shù)據(jù)庫的轉(zhuǎn)儲和恢復(fù)●數(shù)據(jù)庫的安全性、完整性控制●數(shù)據(jù)庫性能的監(jiān)督、分析和改進●數(shù)據(jù)庫的重組織和重構(gòu)造
SQLServer數(shù)據(jù)庫庫技術(shù)與應(yīng)用
MySQL數(shù)據(jù)庫技術(shù)與應(yīng)用321.5.1大數(shù)據(jù)的基本概念1.大數(shù)據(jù)的概念目前在學術(shù)界和工業(yè)界對于大數(shù)據(jù)的定義,尚未形成標準化的表述,比較流行的提法如下。維基百科(Wikipedia)定義大數(shù)據(jù)為”數(shù)據(jù)集規(guī)模超過了目前常用的工具在可接受的時間范圍內(nèi)進行采集、管理及處理的水平“。美國國家標準技術(shù)研究院(NIST)定義大數(shù)據(jù)為”具有規(guī)模大(Volume)、多樣化(Variety)、時效性(Velocity)、和多變性(Variability)特性,需要具備可擴展性的計算架構(gòu)來進行有效存儲、處理和分析的大規(guī)模數(shù)據(jù)集”。概況上述情況和定義可以得出:大數(shù)據(jù)(BigData)指海量數(shù)據(jù)或巨量數(shù)據(jù),需要以新的計算模式為手段,獲取、存儲、管理、處理并提煉數(shù)據(jù)以幫助使用者決策。1.5大數(shù)據(jù)簡介MySQL數(shù)據(jù)庫技術(shù)與應(yīng)用332.大數(shù)據(jù)的特點大數(shù)據(jù)具有4V+1C的特點:(1)巨量(Volume):存儲和處理的數(shù)據(jù)量巨大,超過了傳統(tǒng)的GB(1GB=1024MB)或TB(1TB=1024GB)規(guī)模,達到了PB(1PB=1024TB)甚至EB(1EB=1024PB)量級,PB級別已是常態(tài)。(2)多樣(Variety):數(shù)據(jù)的來源及格式多樣,數(shù)據(jù)格式除了傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)外,還包括半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),比如用戶上傳的音頻和視頻內(nèi)容。而隨著人類活動的進一步拓寬,數(shù)據(jù)的來源更加多樣。(3)快速(Velocity):數(shù)據(jù)增長速度快,而且越新的數(shù)據(jù)價值越大,這就要求對數(shù)據(jù)的處理速度也要快,以便能夠從數(shù)據(jù)中及時地提取知識,發(fā)現(xiàn)價值。(4)價值(Value):需要對大量數(shù)據(jù)進行處理,挖掘其潛在的價值。(5)復(fù)雜(Complexity):對數(shù)據(jù)的處理和分析的難度增大。1.5大數(shù)據(jù)簡介MySQL數(shù)據(jù)庫技術(shù)與應(yīng)用341.5.2大數(shù)據(jù)的處理過程大數(shù)據(jù)的處理過程包括數(shù)據(jù)的采集和預(yù)處理,大數(shù)據(jù)分析,數(shù)據(jù)可視化。1.數(shù)據(jù)的采集和預(yù)處理大數(shù)據(jù)的采集一般采用多個數(shù)據(jù)庫來接收終端數(shù)據(jù),包括智能終端、移動APP應(yīng)用端、網(wǎng)頁端、傳感器端等。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約等方法。(1)數(shù)據(jù)清理目標是達到數(shù)據(jù)格式標準化,清除異常數(shù)據(jù)和重復(fù)數(shù)據(jù)、糾正數(shù)據(jù)錯誤。(2)數(shù)據(jù)集成將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來并統(tǒng)一存儲,建立數(shù)據(jù)倉庫。(3)數(shù)據(jù)變換通過平滑聚集、數(shù)據(jù)泛化、規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。1.5大數(shù)據(jù)簡介MySQL數(shù)據(jù)庫技術(shù)與應(yīng)用35(4)數(shù)據(jù)歸約尋找依賴于發(fā)現(xiàn)目標的數(shù)據(jù)的有用特征,縮減數(shù)據(jù)規(guī)模,最大限度地精簡數(shù)據(jù)量。2.大數(shù)據(jù)分析大數(shù)據(jù)分析包括統(tǒng)計分析、數(shù)據(jù)挖掘等方法。(1)統(tǒng)計分析統(tǒng)計與分析使用分布式數(shù)據(jù)庫或分布式計算集群,對存儲于其內(nèi)的海量數(shù)據(jù)進行分析和分類匯總。統(tǒng)計分析、繪圖的語言和操作環(huán)境通常采用R語言,它是一個用于統(tǒng)計計算和統(tǒng)計制圖的、免費和源代碼開放的優(yōu)秀軟件,(2)數(shù)據(jù)挖掘數(shù)據(jù)挖掘與統(tǒng)計分析不同的是一般沒有預(yù)先設(shè)定主題。數(shù)據(jù)挖掘通過對提供的數(shù)據(jù)進行分析,查找特定類型的模式和趨勢,最終形成模型。數(shù)據(jù)挖掘常用方法有分類、聚類、關(guān)聯(lián)分析、預(yù)測建模等。1.5大數(shù)據(jù)簡介MySQL數(shù)據(jù)庫技術(shù)與應(yīng)用36●分類:根據(jù)重要數(shù)據(jù)類的特征向量值及其他約束條件,構(gòu)造分類函數(shù)或分類模型,目的是根據(jù)數(shù)據(jù)集的特點把未知類別的樣本映射到給定類別中?!窬垲悾耗康脑谟趯?shù)據(jù)集內(nèi)具有相似特征屬性的數(shù)據(jù)聚集成一類,同一類中的數(shù)據(jù)特征要盡可能相似,不同類中的數(shù)據(jù)特征要有明顯的區(qū)別。●關(guān)聯(lián)分析:搜索系統(tǒng)中的所有數(shù)據(jù),找出所有能把一組事件或數(shù)據(jù)項與另一組事件或數(shù)據(jù)項聯(lián)系起來的規(guī)則,以獲得預(yù)先未知的和被隱藏的信息?!耦A(yù)測建模:一種統(tǒng)計或數(shù)據(jù)挖掘的方法,包括可以在結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)中使用以確定未來結(jié)果的算法和技術(shù),可為預(yù)測、優(yōu)化、預(yù)報和模擬等許多業(yè)務(wù)系統(tǒng)所使用。3.數(shù)據(jù)可視化通過圖形、圖像等技術(shù)直觀形象和清晰有效地表達數(shù)據(jù),從而為發(fā)現(xiàn)數(shù)據(jù)隱含的規(guī)律提供技術(shù)手段。1.5大數(shù)據(jù)簡介MySQL數(shù)據(jù)庫技術(shù)與應(yīng)用371.5.3大數(shù)據(jù)的技術(shù)支撐大數(shù)據(jù)的技術(shù)支撐有:計算速度的提高、存儲成本的下降和對人工智能的需求,如圖1.9所示。圖1.9大數(shù)據(jù)技術(shù)支撐的三大因素1.5大數(shù)據(jù)簡介MySQL數(shù)據(jù)庫技術(shù)與應(yīng)用38(1)計算速度的提高在大數(shù)據(jù)的發(fā)展過程中,計算速度是關(guān)鍵的因素。分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop的高效性,基于內(nèi)存的集群計算系統(tǒng)Spark的快速數(shù)據(jù)分析,HDFS為海量的數(shù)據(jù)提供了存儲,MapReduce為海量的數(shù)據(jù)提供了并行計算,從而大幅度地提高了計算效率。大數(shù)據(jù)需要強大的計算能力支撐,中國國家工信部電子科技情報所所做的大數(shù)據(jù)需求調(diào)查表明:實時分析能力差、海量數(shù)據(jù)處理效率低等是目前中國企業(yè)數(shù)據(jù)分析處理面臨的主要難題。(2)存儲成本的下降新的云計算數(shù)據(jù)中心的出現(xiàn),降低了企業(yè)的計算和存儲成本,例如,建設(shè)企業(yè)網(wǎng)站,通過租用硬件設(shè)備的方式,不需要購買服務(wù)器,也不需要雇用技術(shù)人員維護服務(wù)器,并可長期保留歷史數(shù)據(jù),為大數(shù)據(jù)做好基礎(chǔ)工作。1.5大數(shù)據(jù)簡介MySQL數(shù)據(jù)庫技術(shù)與應(yīng)用39(3)對人工智能的需求大數(shù)據(jù)讓機器具有智能,例如,Google的AlphaoGo戰(zhàn)勝世界圍棋冠軍李世石,阿里云小Ai成功預(yù)測出”我是歌手”的總決賽歌王。1.5.4NoSQL數(shù)據(jù)庫在大數(shù)據(jù)和云計算時代,很多信息系統(tǒng)需要對海量的非結(jié)構(gòu)化數(shù)據(jù)進行存儲和計算,NoSQL數(shù)據(jù)庫應(yīng)運而生。1.傳統(tǒng)關(guān)系數(shù)據(jù)庫存在的問題隨著互聯(lián)網(wǎng)應(yīng)用的發(fā)展,傳統(tǒng)關(guān)系數(shù)據(jù)庫在讀寫速度、支撐容量、擴展性能、管理和運營成本方面存在以下問題。(1)讀寫速度慢關(guān)系數(shù)據(jù)庫由于其系統(tǒng)邏輯復(fù)雜,當數(shù)據(jù)量達到一定規(guī)模時,讀寫速度快速下滑,即使能勉強應(yīng)付每秒上萬次SQL查詢,硬盤I/O也無法承擔每秒上萬次SQL寫數(shù)據(jù)的要求。1.5大數(shù)據(jù)簡介MySQL數(shù)據(jù)庫技術(shù)與應(yīng)用40(2)支撐容量有限Facebook和Twitter等社交網(wǎng)站,每月能產(chǎn)生上億條用戶動態(tài),關(guān)系數(shù)據(jù)庫在一個有數(shù)億條記錄的表中進行查詢,效率極低,致使查詢速度無法忍受。(3)擴展困難當一個應(yīng)用系統(tǒng)的用戶量和訪問量不斷增加時,關(guān)系數(shù)據(jù)庫無法通過簡單添加更多的硬件和服務(wù)節(jié)點來擴展性能和負載能力,該應(yīng)用系統(tǒng)不得不停機維護以完成擴展工作。(4)管理和運營成本高企業(yè)級數(shù)據(jù)庫的License價格高,加上系統(tǒng)規(guī)模不斷上升,系統(tǒng)管理維護成本無法滿足上述要求。同時,關(guān)系數(shù)據(jù)庫一些特性,例如,復(fù)雜的SQL查詢、多表關(guān)聯(lián)查詢等,在云計算和大數(shù)據(jù)中卻往往無用武之地,所以,傳統(tǒng)關(guān)系數(shù)據(jù)庫已難以獨立滿足云計算和大數(shù)據(jù)時代應(yīng)用的需要。1.5大數(shù)據(jù)簡介MySQL數(shù)據(jù)庫技術(shù)與應(yīng)用412.NoSQL的基本概念NoSQL數(shù)據(jù)庫泛指非關(guān)系型的數(shù)據(jù)庫,NoSQL(NotOnlySQL)指其在設(shè)計上和傳統(tǒng)的關(guān)系數(shù)據(jù)庫不同,常用的數(shù)據(jù)模型有Cassandra、Hbase、BigTable、Redis、MongoDB、CouchDB、Neo4j等。NoSQL數(shù)據(jù)庫具有以下特點:(1)讀寫速度快、數(shù)據(jù)容量大。具有對數(shù)據(jù)的高并發(fā)讀寫和海量數(shù)據(jù)的存儲。(2)易于擴展。可以在系統(tǒng)運行的時候,動態(tài)增加或者刪除節(jié)點,不需要停機維護。(3)一致性策略。遵循BASE(BasicallyAvailable,Softstate,Eventualconsistency)原則,即BasicallyAvailable(基本
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度陶瓷面磚行業(yè)綠色生產(chǎn)標準制定合同4篇
- 期貨交易委托合同書范本
- 委托網(wǎng)上期貨交易合同書
- 二零二五年度整棟教育機構(gòu)租賃及設(shè)施改造合同3篇
- 二零二五年度生物質(zhì)除塵設(shè)備供應(yīng)及安裝合同3篇
- 二零二五年度房屋建筑室內(nèi)外裝飾承建合同3篇
- 2025年度農(nóng)機融資租賃及還款管理合同4篇
- 2025年度個人住房裝修安全責任與施工保障合同
- 2025年度環(huán)保型泥漿外運合同范本4篇
- 上海市房屋租賃合同范本
- 2025屆高考語文復(fù)習:散文的結(jié)構(gòu)與行文思路 課件
- 電網(wǎng)調(diào)度基本知識課件
- 拉薩市2025屆高三第一次聯(lián)考(一模)語文試卷(含答案解析)
- 《保密法》培訓課件
- 回收二手機免責協(xié)議書模板
- (正式版)JC∕T 60023-2024 石膏條板應(yīng)用技術(shù)規(guī)程
- (權(quán)變)領(lǐng)導行為理論
- 2024屆上海市浦東新區(qū)高三二模英語卷
- 2024年智慧工地相關(guān)知識考試試題及答案
- GB/T 8005.2-2011鋁及鋁合金術(shù)語第2部分:化學分析
- 不動產(chǎn)登記實務(wù)培訓教程課件
評論
0/150
提交評論