版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
教學(xué)內(nèi)容數(shù)據(jù)管理的發(fā)展數(shù)據(jù)庫系統(tǒng)的產(chǎn)生與構(gòu)成數(shù)據(jù)庫管理系統(tǒng)的五個(gè)軟件組成部分(zǔchénɡbùfèn)數(shù)據(jù)倉庫的主要特征
第3章數(shù)據(jù)庫與數(shù)據(jù)倉庫第一頁,共57頁。3.1數(shù)據(jù)管理的發(fā)展(fāzhǎn)
文件系統(tǒng)階段數(shù)據(jù)1數(shù)據(jù)2數(shù)據(jù)n存取方式程序1程序2程序n第二頁,共57頁。補(bǔ)貼系別姓名學(xué)號(hào)勞資科住址系別性別姓名學(xué)號(hào)房產(chǎn)科學(xué)位學(xué)分系別姓名學(xué)號(hào)學(xué)籍科學(xué)位學(xué)分年齡系別性別姓名學(xué)號(hào)人事科籍貫(jíguàn)第三頁,共57頁。存在(cúnzài)問題:1、數(shù)據(jù)(shùjù)冗余與數(shù)據(jù)(shùjù)不一致性2、數(shù)據(jù)(shùjù)聯(lián)系弱3、缺少數(shù)據(jù)字典,缺乏靈活性傳統(tǒng)文件處理系統(tǒng)第四頁,共57頁。數(shù)據(jù)庫系統(tǒng)階段(jiēduàn)數(shù)據(jù)(shùjù)1統(tǒng)一(tǒngyī)存取數(shù)據(jù)2數(shù)據(jù)n程序2程序1程序n第五頁,共57頁。學(xué)號(hào)姓名(xìngmíng)性別(xìngbié)系別年齡(niánlíng)住址籍貫學(xué)位學(xué)分補(bǔ)貼學(xué)籍科房產(chǎn)科人事科勞資科第六頁,共57頁。對(duì)比方面文件系統(tǒng)數(shù)據(jù)庫系統(tǒng)特點(diǎn)數(shù)據(jù)的管理者文件系統(tǒng)數(shù)據(jù)庫管理系統(tǒng)數(shù)據(jù)面向的對(duì)象某一應(yīng)用程序整個(gè)應(yīng)用系統(tǒng)數(shù)據(jù)的共享程度共享性差,冗余度大共享性高,冗余度小數(shù)據(jù)的獨(dú)立性獨(dú)立性差高度的物理獨(dú)立性和邏輯獨(dú)立性數(shù)據(jù)的結(jié)構(gòu)化記錄內(nèi)有結(jié)構(gòu)整體結(jié)構(gòu)化,用數(shù)據(jù)模型描述數(shù)據(jù)控制能力應(yīng)用程序自己控制由數(shù)據(jù)庫管理系統(tǒng)提供數(shù)據(jù)安全性、完整性、并發(fā)控制和恢復(fù)能力兩種數(shù)據(jù)管理方式(fāngshì)的對(duì)比第七頁,共57頁。數(shù)據(jù)庫是統(tǒng)一管理的相關(guān)(xiāngguān)數(shù)據(jù)的集合。3.2數(shù)據(jù)庫系統(tǒng)的產(chǎn)生(chǎnshēng)與構(gòu)成數(shù)據(jù)庫不僅(bùjǐn)存放數(shù)據(jù),而且還要存放數(shù)據(jù)和數(shù)據(jù)之間的聯(lián)系。表示數(shù)據(jù)和數(shù)據(jù)之間的聯(lián)系的方法稱為數(shù)據(jù)模型。第八頁,共57頁。數(shù)據(jù)庫系統(tǒng)的誕生(20世紀(jì)(shìjì)60年代末和70年代初)1)層次數(shù)據(jù)模型IMS(InformationManagementSystem)1968年研制成功、1969年形成(xíngchéng)產(chǎn)品的。3.2數(shù)據(jù)庫系統(tǒng)的產(chǎn)生(chǎnshēng)與構(gòu)成第九頁,共57頁。層次模型用樹形結(jié)構(gòu)表示客觀事物(kèɡuānshìwù)之間聯(lián)系的模型。ABCDEF第十頁,共57頁。2)網(wǎng)狀數(shù)據(jù)模型DBTG美國(guó)數(shù)據(jù)系統(tǒng)語言協(xié)會(huì)(xiéhuì)(ConferenceOnDataSystemLanguage)下屬的數(shù)據(jù)庫任務(wù)組(DatabaseTaskGroup)發(fā)表了若干個(gè)報(bào)告,奠定了數(shù)據(jù)庫的很多概念、方法和技術(shù)。
第十一頁,共57頁。網(wǎng)狀模型(NetworkModel)用網(wǎng)絡(luò)結(jié)構(gòu)表示(biǎoshì)客觀事物之間聯(lián)系的數(shù)據(jù)模型。第十二頁,共57頁。3)關(guān)系數(shù)據(jù)模型1970年,IBM公司的研究員E.F.Codd發(fā)表了論文“大型共享數(shù)據(jù)庫的關(guān)系模型”,為關(guān)系數(shù)據(jù)庫的發(fā)展奠定(diàndìng)了理論基礎(chǔ)。
第十三頁,共57頁。關(guān)系模型(RelationalModel)用二維表表示(biǎoshì)實(shí)體與實(shí)體之間聯(lián)系的模型。倉庫號(hào)城市面積WH1北京370WH2上海500WH3廣州200倉庫(cāngkù)器件號(hào)器件名稱P1顯示卡P2聲卡P3解壓卡P4散熱風(fēng)扇器件(qìjiàn)器件倉庫庫存第十四頁,共57頁。倉庫號(hào)城市面積WH1北京370WH2上海500WH3廣州200倉庫(cāngkù)器件號(hào)器件名稱P1顯示卡P2聲卡P3解壓卡P4散熱風(fēng)扇倉庫號(hào)器件號(hào)數(shù)量WH1P2675WH1P3250WH1P4340WH2P1280WH2P2200WH2P4270WH3P2500WH3P1330器件(qìjiàn)庫存(kùcún)器件倉庫庫存第十五頁,共57頁。倉庫號(hào)城市面積倉庫倉庫號(hào)器件號(hào)數(shù)量庫存?zhèn)}庫號(hào)職工號(hào)工資職工職工號(hào)供應(yīng)商號(hào)訂購單號(hào)訂購日期訂購單第十六頁,共57頁。關(guān)系(guānxì)數(shù)據(jù)結(jié)構(gòu)1)候選(hòuxuǎn)碼是表中一列或多列的組合,其值惟一標(biāo)識(shí)了表中的一個(gè)元組。2)主碼若一個(gè)關(guān)系有多個(gè)候選(hòuxuǎn)碼,選定其中一個(gè)為主碼。主碼的諸屬性稱為主屬性。3)非碼屬性不包含在任何候選(hòuxuǎn)碼中的屬性。4)全碼關(guān)系模式的所有屬性組是這個(gè)關(guān)系模式的候選(hòuxuǎn)碼。第十七頁,共57頁。關(guān)系(guānxì)數(shù)據(jù)結(jié)構(gòu)5)外部(wàibù)關(guān)鍵字(外部(wàibù)碼)設(shè)F是基本關(guān)系R的一個(gè)或一組屬性,但不是關(guān)系R的碼,如果F與基本關(guān)系S的主碼Ks相對(duì)應(yīng),則稱F是基本關(guān)系R的外部(wàibù)碼,簡(jiǎn)稱外碼。并稱基本關(guān)系R為參照關(guān)系(Referencingrelation),或從表,基本關(guān)系S為被參照關(guān)系(Referencedrelation)、目標(biāo)關(guān)系(Targetrelation)或主表。關(guān)系R和S不一定是不同的關(guān)系,但是Ks與F是定義在同一域中的。第十八頁,共57頁。學(xué)號(hào)
飯卡號(hào)
姓名
性別
學(xué)院
012005020000
25685234
王俊
F
管理學(xué)院
012005020001
25685236
李偉
M
管理學(xué)院
012005023852
35862578
陳文
M
軟件學(xué)院
012005024583
56987435
張鈺
F
環(huán)境學(xué)院
列、屬性(shǔxìng)行、元組主碼(PRIMARYKEY)學(xué)生(xuésheng)基本信息表關(guān)系(guānxì)數(shù)據(jù)結(jié)構(gòu)域(DOMAIN)關(guān)系名第十九頁,共57頁。3.3數(shù)據(jù)庫設(shè)計(jì)(shèjì)現(xiàn)實(shí)(xiànshí)世界觀念(guānniàn)世界數(shù)據(jù)世界人們頭腦之外的客觀世界,它包含客觀事物及其相互聯(lián)系信息世界,是現(xiàn)實(shí)世界在人們頭腦中的反映現(xiàn)實(shí)世界中的事物及其聯(lián)系,在數(shù)據(jù)世界中用數(shù)據(jù)模型描第二十頁,共57頁。1)數(shù)據(jù)庫設(shè)計(jì)(shèjì)的步驟現(xiàn)實(shí)(xiànshí)世界觀念(guānniàn)世界數(shù)據(jù)世界用戶需求分析概念結(jié)構(gòu)設(shè)計(jì)邏輯結(jié)構(gòu)設(shè)計(jì)物理結(jié)構(gòu)設(shè)計(jì)E-R圖數(shù)據(jù)模型概念結(jié)構(gòu)設(shè)計(jì)邏輯結(jié)構(gòu)設(shè)計(jì)第二十一頁,共57頁。2)信息(xìnxī)的轉(zhuǎn)換客觀事物(shìwù)類:事物(shìwù)相關(guān)性質(zhì)集合人實(shí)體實(shí)體集合及實(shí)體聯(lián)系(liánxì)相關(guān)屬性集合加工、轉(zhuǎn)換數(shù)文件據(jù)記錄庫相關(guān)數(shù)據(jù)項(xiàng)集合加工轉(zhuǎn)換存儲(chǔ)二進(jìn)制數(shù)據(jù)集合結(jié)構(gòu)計(jì)算機(jī)世界DBMS數(shù)據(jù)世界DBMS的數(shù)據(jù)模型信息世界認(rèn)識(shí)選擇描述現(xiàn)實(shí)世界E-R模型第二十二頁,共57頁。3)實(shí)體(shítǐ)聯(lián)系模型(E-R模型)實(shí)體(shítǐ)聯(lián)系模型反映的是現(xiàn)實(shí)世界中的事物及其相互聯(lián)系。圖書(túshū)作者寫作出版社類別頁數(shù)ISBN*書名姓名出生地身份證號(hào)*定稿時(shí)間價(jià)格第二十三頁,共57頁。(1)實(shí)體(Entity)描述客觀事物(kèɡuānshìwù)的概念實(shí)體(shítǐ)名稱表示(biǎoshì)方法:第二十四頁,共57頁。(2)屬性指實(shí)體(shítǐ)具有的某種特性。表示(biǎoshì)方法:屬性(shǔxìng)實(shí)體名稱屬性1屬性2屬性n第二十五頁,共57頁。(3)聯(lián)系(liánxì)現(xiàn)實(shí)世界的事物總是存在著這樣或那樣的聯(lián)系(liánxì)聯(lián)系(liánxì)表示(biǎoshì)方法:實(shí)體1實(shí)體2聯(lián)系第二十六頁,共57頁。聯(lián)系(liánxì)的類型設(shè)A,B為兩個(gè)包含(bāohán)若干個(gè)體的總體一對(duì)一聯(lián)系如果對(duì)于A中的一個(gè)實(shí)體,B中至多有一個(gè)實(shí)體與其發(fā)生(fāshēng)聯(lián)系,反之,B中的每一實(shí)體至多對(duì)應(yīng)A中一個(gè)實(shí)體,則稱A與B是一對(duì)一聯(lián)系。系系主任任職11病區(qū)科室主任任職11第二十七頁,共57頁。一對(duì)多聯(lián)系如果(rúguǒ)對(duì)于A中的每一實(shí)體,實(shí)體B中有一個(gè)以上實(shí)體與之發(fā)生聯(lián)系,反之,B中的每一實(shí)體至多只能對(duì)應(yīng)于A中的一個(gè)實(shí)體,則稱A與B是一對(duì)多聯(lián)系。AB聯(lián)系1n教研室教師聯(lián)系1n第二十八頁,共57頁。多對(duì)多聯(lián)系如果(rúguǒ)A中至少有一實(shí)體對(duì)應(yīng)于B中一個(gè)以上實(shí)體,反之,B中也至少有一個(gè)實(shí)體對(duì)應(yīng)于A中一個(gè)以上實(shí)體,則稱A與B為多對(duì)多聯(lián)系。AB聯(lián)系mn教師學(xué)生教學(xué)mn第二十九頁,共57頁。E—R圖繪制(huìzhì)圖書(túshū)作者(zuòzhě)寫作出版社類別頁數(shù)ISBN*書名姓名出生地身份證號(hào)*定稿時(shí)間價(jià)格1、利用分類、聚集、概括等方法抽象出實(shí)體,并一一命名。2、描述實(shí)體之間的聯(lián)系3、實(shí)體屬性和聯(lián)系屬性的說明第三十頁,共57頁。構(gòu)造(gòuzào)E-R圖應(yīng)注意的問題:1、注意(zhùyì)標(biāo)識(shí)實(shí)體屬性中的關(guān)鍵字;2、如果所處理的對(duì)象是一個(gè)比較大的系統(tǒng),則應(yīng)該先畫出各個(gè)部門的子E-R圖,然后再合并同類實(shí)體(shítǐ),消除冗余。3、對(duì)于一個(gè)特定的應(yīng)用處理對(duì)象,所構(gòu)造的E-R模型可能不是唯一的。第三十一頁,共57頁。mn1m關(guān)系數(shù)據(jù)庫概念模型的設(shè)計(jì)(shèjì)
—ER模型第三十二頁,共57頁。4)關(guān)系數(shù)據(jù)庫的數(shù)據(jù)模型設(shè)計(jì)
—ER模型轉(zhuǎn)化(zhuǎnhuà)為關(guān)系模型E-R模型(móxíng)向關(guān)系模型(móxíng)的轉(zhuǎn)換,實(shí)際上就是要將實(shí)體、屬性和聯(lián)系轉(zhuǎn)化為關(guān)系模式,轉(zhuǎn)換規(guī)則如下:(1)一個(gè)實(shí)體型轉(zhuǎn)換為一個(gè)同名的關(guān)系模式。實(shí)體的屬性就是關(guān)系的屬性,實(shí)體的碼就是關(guān)系的碼。(2)一個(gè)1:1聯(lián)系可以轉(zhuǎn)換為一個(gè)獨(dú)立的關(guān)系模式,也可以與任意一端對(duì)應(yīng)的關(guān)系模式合并,該聯(lián)系的碼可以是任一端的實(shí)體的碼。(3)一個(gè)1:n聯(lián)系可以轉(zhuǎn)換為一個(gè)獨(dú)立的關(guān)系模式,也可以與n端對(duì)應(yīng)的關(guān)系模式合并,則n端實(shí)體的碼就是該聯(lián)系的碼。第三十三頁,共57頁。(4)一個(gè)m:n聯(lián)系轉(zhuǎn)換為一個(gè)關(guān)系模式,與該聯(lián)系相連的各實(shí)體的碼的集合就是(jiùshì)該聯(lián)系的碼。(5)3個(gè)或3個(gè)以上實(shí)體間的一個(gè)多元聯(lián)系轉(zhuǎn)換為一個(gè)關(guān)系模式。(6)同一實(shí)體集的實(shí)體間的聯(lián)系,即自聯(lián)系,也可按上述1:1,1:n和m:n三種情況分別處理。(7)具有相同碼的關(guān)系模式可以合并。4)關(guān)系數(shù)據(jù)庫的數(shù)據(jù)模型設(shè)計(jì)(shèjì)
—ER模型轉(zhuǎn)化為關(guān)系模型第三十四頁,共57頁。實(shí)例(shílì)S(SNO,SNAME,DEPT)學(xué)生姓名學(xué)號(hào)系別第三十五頁,共57頁。實(shí)例(shílì)廠長(zhǎng)號(hào)姓名年齡廠號(hào)廠名地點(diǎn)管理11廠長(zhǎng)(廠長(zhǎng)號(hào),廠號(hào),姓名,年齡)工廠(廠號(hào),廠名,地點(diǎn))工廠廠長(zhǎng)第三十六頁,共57頁。倉庫(倉庫號(hào),地點(diǎn),面積)產(chǎn)品(貨號(hào),品名,價(jià)格,倉庫號(hào),數(shù)量)倉庫號(hào)地點(diǎn)面積倉庫貨號(hào)品名價(jià)格產(chǎn)品存放1n數(shù)量實(shí)例(shílì)第三十七頁,共57頁。學(xué)生(學(xué)號(hào),姓名,年齡)課程(課程號(hào),課程名,學(xué)時(shí)數(shù))學(xué)習(xí)(學(xué)號(hào),課程號(hào),成績(jī))實(shí)例(shílì)學(xué)號(hào)姓名年齡課程號(hào)課程名學(xué)時(shí)數(shù)nm成績(jī)學(xué)生課程學(xué)習(xí)第三十八頁,共57頁。實(shí)例(shílì)數(shù)據(jù)庫設(shè)計(jì)第三十九頁,共57頁。在一家超市里,有一個(gè)有趣的現(xiàn)象(xiànxiàng):尿布和啤酒赫然擺在一起出售。但是這個(gè)奇怪的舉措?yún)s使尿布和啤酒的銷量雙雙增加了。這不是一個(gè)笑話,而是發(fā)生在美國(guó)沃爾瑪連鎖店超市的真實(shí)案例,并一直為商家所津津樂道。沃爾瑪擁有世界上最大的數(shù)據(jù)倉庫系統(tǒng),為了能夠準(zhǔn)確了解顧客在其門店的購買習(xí)慣,沃爾瑪對(duì)其顧客的購物行為進(jìn)行購物籃分析,想知道顧客經(jīng)常一起購買的商品有哪些。沃爾瑪數(shù)據(jù)倉庫里集中了其各門店的詳細(xì)原始交易數(shù)據(jù)。在這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘方法對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘。3.4數(shù)據(jù)倉庫與商務(wù)(shāngwù)智能第四十頁,共57頁。一個(gè)意外的發(fā)現(xiàn)是:“跟尿布一起購買最多的商品竟是啤酒!經(jīng)過大量實(shí)際調(diào)查和分析,揭示了一個(gè)隱藏在”尿布與啤酒“背后的美國(guó)人的一種行為模式:在美國(guó),一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時(shí)也為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原因是:美國(guó)的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們?cè)谫I尿布后又隨手帶回了他們喜歡的啤酒。按常規(guī)思維,尿布與啤酒風(fēng)馬牛不相及,若不是借助數(shù)據(jù)挖掘技術(shù)對(duì)大量交易數(shù)據(jù)進(jìn)行挖掘分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在(nèizài)這一有價(jià)值的規(guī)律的。
3.4數(shù)據(jù)倉庫與商務(wù)(shāngwù)智能第四十一頁,共57頁。當(dāng)前數(shù)據(jù)倉庫和數(shù)據(jù)挖掘應(yīng)用主要集中在電信、零售、農(nóng)業(yè)、網(wǎng)絡(luò)日志、銀行、電力、生物、天體、化工、醫(yī)藥等方面。看似廣泛,實(shí)際應(yīng)用還遠(yuǎn)沒有普及。而據(jù)Gartner的報(bào)告也指出,數(shù)據(jù)挖掘會(huì)成為未來10年內(nèi)重要的技術(shù)之一。而數(shù)據(jù)挖掘,也已經(jīng)開始成為一門獨(dú)立的專業(yè)學(xué)科。結(jié)合武漢市房貸案例,說明房產(chǎn)、銀行、民政等數(shù)據(jù)孤島數(shù)據(jù)怎樣實(shí)現(xiàn)整合。結(jié)合移動(dòng)(yídòng)套餐、保險(xiǎn)精算案例,說明數(shù)據(jù)分析挖掘的作用。
3.4數(shù)據(jù)倉庫與商務(wù)(shāngwù)智能第四十二頁,共57頁。1)數(shù)據(jù)倉庫與數(shù)據(jù)庫何為數(shù)據(jù)倉庫?前面提到的企業(yè)/單位投資信息化,他們不停上信息化系統(tǒng),比如ERP、CRM、CallCenter、OA或者計(jì)費(fèi)等。但上了這些系統(tǒng)后,會(huì)產(chǎn)生大量數(shù)據(jù),客戶首先的需求(xūqiú)是查詢和報(bào)表。但很多報(bào)表和查詢是需要跨系統(tǒng),而且復(fù)雜查詢和報(bào)表很耗資源,可能影響各個(gè)系統(tǒng)的正常運(yùn)行。于是上世紀(jì)80年代人們專門建設(shè)一個(gè)數(shù)據(jù)庫系統(tǒng),把各個(gè)系統(tǒng)的數(shù)據(jù)拿到那里進(jìn)行準(zhǔn)確的查詢和報(bào)表制作,這樣既方便又準(zhǔn)備,而且不會(huì)影響業(yè)務(wù)系統(tǒng)。那么從這點(diǎn)說,數(shù)據(jù)倉庫是全數(shù)據(jù)的集合。
第四十三頁,共57頁。1)數(shù)據(jù)倉庫與數(shù)據(jù)庫何為數(shù)據(jù)倉庫?數(shù)據(jù)倉庫(DataWarehouse)是一個(gè)面向主題的(SubjectOriented)、集成的(Integrated)、相對(duì)穩(wěn)定的(Non-Volatile)、反映(fǎnyìng)歷史變化(TimeVariant)的數(shù)據(jù)集合,用于支持管理決策(DecisionMakingSupport)。第四十四頁,共57頁。1)數(shù)據(jù)倉庫與數(shù)據(jù)庫數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別數(shù)據(jù)庫解決數(shù)據(jù)存儲(chǔ)、查詢以及自動(dòng)記錄;面向基本數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)的放進(jìn)去、查出來;銀行的基本業(yè)務(wù),賬目進(jìn)出,報(bào)表,線性統(tǒng)計(jì)等;面向相對(duì)靜止的數(shù)據(jù),分析查詢,面向應(yīng)用方向使用目標(biāo)不同了,宏觀(hóngguān)技術(shù)性強(qiáng)銀行的儲(chǔ)蓄、結(jié)算、分析第四十五頁,共57頁。2)數(shù)據(jù)中心何為數(shù)據(jù)中心?如果是針對(duì)具體的企業(yè)或者(huòzhě)單位,其實(shí)就是業(yè)務(wù)系統(tǒng)數(shù)據(jù)存儲(chǔ)技術(shù)+數(shù)據(jù)倉庫數(shù)據(jù)中心要求不同來源、類型的數(shù)據(jù)集成在一起,綜合分析,屏蔽掉多個(gè)接口的復(fù)雜性,實(shí)現(xiàn)公共信息平臺(tái)的作用。第四十六頁,共57頁。2)數(shù)據(jù)中心何為數(shù)據(jù)中心?當(dāng)然有的單位干脆只有數(shù)據(jù)倉庫,比如科研單位,他們不作業(yè)務(wù)處理,只有分析需求。如果是互聯(lián)網(wǎng)公司,就和普通企業(yè)和單位的數(shù)據(jù)中心不同,因?yàn)榛ヂ?lián)網(wǎng)的信息實(shí)在龐大,不可能包羅所有信息到數(shù)據(jù)庫,也處理不了那么多信息,所以他們的數(shù)據(jù)中心的其中作用就是加強(qiáng)(jiāqiáng)互聯(lián)網(wǎng)數(shù)據(jù)的處理速度和效果;另一個(gè)作用也是數(shù)據(jù)倉庫,但他們的數(shù)據(jù)倉庫就不會(huì)包含所有互聯(lián)網(wǎng)信息,而是企業(yè)本身關(guān)心的信息,當(dāng)然數(shù)據(jù)量也非常大,一般十TB以上。第四十七頁,共57頁。3)數(shù)據(jù)遷移(qiānyí)與清洗數(shù)據(jù)清洗從名字上也看的出就是把“臟”的“洗掉”。因?yàn)閿?shù)據(jù)倉庫中的數(shù)據(jù)是面向某一主題的數(shù)據(jù)的集合,這些(zhèxiē)數(shù)據(jù)從多個(gè)業(yè)務(wù)系統(tǒng)中抽取而來而且包含歷史數(shù)據(jù),這樣就避免不了有的數(shù)據(jù)是錯(cuò)誤數(shù)據(jù)、有的數(shù)據(jù)相互之間有沖突,這些(zhèxiē)錯(cuò)誤的或有沖突的數(shù)據(jù)顯然是我們不想要的,成為“臟數(shù)據(jù)”。我們要按照一定的規(guī)則把“臟數(shù)據(jù)”“洗掉”,這就是數(shù)據(jù)清洗.而數(shù)據(jù)清洗的任務(wù)是過濾那些不符合要求的數(shù)據(jù),將過濾的結(jié)果交給業(yè)務(wù)主管部門,確認(rèn)是否過濾掉還是由業(yè)務(wù)單位修正之后再進(jìn)行抽取。不符合要求的數(shù)據(jù)主要是有不完整的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)、重復(fù)的數(shù)據(jù)三大類。
第四十八頁,共57頁。4)數(shù)據(jù)倉庫三層架構(gòu)(jiàɡòu)原始業(yè)務(wù)數(shù)據(jù)采集層數(shù)據(jù)倉庫中心統(tǒng)計(jì)數(shù)據(jù)展現(xiàn)(zhǎnxiàn)與發(fā)布層第四十九頁,共57頁。7)OLAP聯(lián)機(jī)分析處理(OnlineAnalyticalProcessing,OLAP)是數(shù)據(jù)倉庫的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。決策數(shù)據(jù)是多
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年皮革化學(xué)品:浸水助劑項(xiàng)目申請(qǐng)報(bào)告
- 病媒生物監(jiān)測(cè)投標(biāo)方案
- 玻璃隔斷供貨方案
- 玻璃鋼煙囪施工方案
- 玻璃顯色技術(shù)研究報(bào)告
- 玻璃幕墻技術(shù)方案
- 玻璃企業(yè)定位策略研究報(bào)告
- 猜字謎教學(xué)課程設(shè)計(jì)
- 愛護(hù)書籍幼兒課程設(shè)計(jì)
- 愛嬰早教中心課程設(shè)計(jì)
- 2024年日歷(打印版每月一張)
- 車用動(dòng)力電池回收利用 管理規(guī)范 第2部分:回收服務(wù)網(wǎng)點(diǎn)征求意見稿編制說明
- 新劍橋少兒英語第六冊(cè)全冊(cè)配套文本
- 科學(xué)預(yù)測(cè)方案
- 職業(yè)生涯規(guī)劃網(wǎng)絡(luò)與新媒體專業(yè)
- T-WAPIA 052.2-2023 無線局域網(wǎng)設(shè)備技術(shù)規(guī)范 第2部分:終端
- 市政管道開槽施工-市政排水管道的施工
- 初中八年級(jí)英語課件Reading Giant pandas-“江南聯(lián)賽”一等獎(jiǎng)2
- 人工智能在教育行業(yè)中的應(yīng)用與管理
- 心衰合并胸腔積液的護(hù)理Ppt
- 廉潔風(fēng)險(xiǎn)防控手冊(cè)(醫(yī)院)
評(píng)論
0/150
提交評(píng)論