《Python數(shù)據(jù)分析基礎(chǔ)與案例實(shí)戰(zhàn)》第3章 了解數(shù)據(jù)的常見類型_第1頁
《Python數(shù)據(jù)分析基礎(chǔ)與案例實(shí)戰(zhàn)》第3章 了解數(shù)據(jù)的常見類型_第2頁
《Python數(shù)據(jù)分析基礎(chǔ)與案例實(shí)戰(zhàn)》第3章 了解數(shù)據(jù)的常見類型_第3頁
《Python數(shù)據(jù)分析基礎(chǔ)與案例實(shí)戰(zhàn)》第3章 了解數(shù)據(jù)的常見類型_第4頁
《Python數(shù)據(jù)分析基礎(chǔ)與案例實(shí)戰(zhàn)》第3章 了解數(shù)據(jù)的常見類型_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

了解數(shù)據(jù)的常見類型1半結(jié)構(gòu)化數(shù)據(jù)目錄結(jié)構(gòu)化數(shù)據(jù)2非結(jié)構(gòu)化數(shù)據(jù)3數(shù)據(jù)的類型多種多樣,按照數(shù)據(jù)的結(jié)構(gòu)可分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)的表現(xiàn)形式為二維的列表結(jié)構(gòu),嚴(yán)格地遵循數(shù)據(jù)格式與長度規(guī)范,主要通過關(guān)系型數(shù)據(jù)庫進(jìn)行存儲和管理。結(jié)構(gòu)化數(shù)據(jù)由行和列構(gòu)成,通常每一行對應(yīng)一條記錄,每一列對應(yīng)一個(gè)屬性,同一個(gè)表中的數(shù)據(jù)具有相同的屬性集,即同一張表中所有記錄的列的個(gè)數(shù)是一致的。一個(gè)結(jié)構(gòu)化數(shù)據(jù)的例子,如下表所示。結(jié)構(gòu)化數(shù)字IDSexbodyTypecreatDate1男020160309表中展示了一條結(jié)構(gòu)化的汽車交易記錄,ID列表示該交易的編號為1,通常為數(shù)值型或字符型。Sex列表示該客戶的性別為男性,通常為字符型;bodyType列的0表示該車的車型是豪華轎車,為數(shù)值型。creatDate列表示該客戶的消費(fèi)時(shí)間為2016年3月9日,通常為字符型或時(shí)間型。結(jié)構(gòu)化數(shù)據(jù)主要應(yīng)用于各類業(yè)務(wù)系統(tǒng)的關(guān)系型數(shù)據(jù)庫中,其存儲需求包括高速存儲應(yīng)用需求、數(shù)據(jù)備份需求、數(shù)據(jù)共享需求以及數(shù)據(jù)容災(zāi)需求等。結(jié)構(gòu)化數(shù)字1半結(jié)構(gòu)化數(shù)據(jù)目錄結(jié)構(gòu)化數(shù)字2非結(jié)構(gòu)化數(shù)據(jù)3半結(jié)構(gòu)化數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)的一種特殊形式,是以樹或圖的數(shù)據(jù)結(jié)構(gòu)存儲的數(shù)據(jù),其結(jié)構(gòu)并不符合關(guān)系型數(shù)據(jù)庫或其他數(shù)據(jù)表的形式關(guān)聯(lián)起來的數(shù)據(jù)模型結(jié)構(gòu)。半結(jié)構(gòu)化數(shù)據(jù)包含相關(guān)標(biāo)記,用來分隔語義元素以及對記錄和字段進(jìn)行分層,這種結(jié)構(gòu)也被稱為自描述的結(jié)構(gòu)。半結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫是節(jié)點(diǎn)的集合,每個(gè)節(jié)點(diǎn)都是一個(gè)葉子節(jié)點(diǎn)或一個(gè)內(nèi)部節(jié)點(diǎn)。葉子節(jié)點(diǎn)與數(shù)據(jù)相關(guān),數(shù)據(jù)的類型可以是任意原子類型,如數(shù)字和字符串。每個(gè)內(nèi)部節(jié)點(diǎn)至少有一條外向的弧。每條弧都有一個(gè)標(biāo)簽,該標(biāo)簽指明弧開始處的節(jié)點(diǎn)與弧末端的節(jié)點(diǎn)之間的關(guān)系。半結(jié)構(gòu)化數(shù)據(jù)一個(gè)名為根的內(nèi)部節(jié)點(diǎn)沒有進(jìn)入的弧,它代表整個(gè)數(shù)據(jù)庫。每個(gè)節(jié)點(diǎn)都從根可達(dá)整個(gè)圖的結(jié)構(gòu)未必是一棵樹。常見的半結(jié)構(gòu)化數(shù)據(jù)格式有XML和JSON。一個(gè)XML文件中的記錄,可以看到兩條記錄的屬性個(gè)數(shù)是不一樣的。第一條記錄有name、age和gender三個(gè)屬性,而第二條記錄只有name和gender兩個(gè)屬性。半結(jié)構(gòu)化文件記錄的屬性個(gè)數(shù)是可以變動(dòng)的,這點(diǎn)與結(jié)構(gòu)化數(shù)據(jù)要求數(shù)據(jù)必須具有相同的屬性集不同,使得半結(jié)構(gòu)化數(shù)據(jù)具有更好的靈活性。半結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)包括郵件、HTML、報(bào)表、資源庫等,常見的應(yīng)用場景有郵件系統(tǒng)、WEB集群、教學(xué)資源庫和檔案系統(tǒng)等。這些應(yīng)用的存儲要求主要有數(shù)據(jù)存儲、數(shù)據(jù)備份、數(shù)據(jù)共享以及數(shù)據(jù)歸檔等。半結(jié)構(gòu)化數(shù)據(jù)1半結(jié)構(gòu)化數(shù)據(jù)目錄結(jié)構(gòu)化數(shù)字2非結(jié)構(gòu)化數(shù)據(jù)3非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。常見的非結(jié)構(gòu)化數(shù)據(jù)包括辦公文檔、文本、圖像、音頻、視頻等。非結(jié)構(gòu)化數(shù)據(jù)的格式非常多樣,標(biāo)準(zhǔn)也具有多樣性,在技術(shù)上非結(jié)構(gòu)化信息比結(jié)構(gòu)化信息更難標(biāo)準(zhǔn)化和理解。其存儲、檢索、發(fā)布以及利用需要更加智能化的IT技術(shù)。常見具體應(yīng)用有醫(yī)療影像系統(tǒng)、教育視頻點(diǎn)播、視頻監(jiān)控、地理信息系統(tǒng)、設(shè)計(jì)院、文件服務(wù)器(PDM/FTP)、媒體資源管理等。非結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)常見具體應(yīng)用有。醫(yī)療

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論