版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)倉(cāng)指標(biāo)、標(biāo)簽、維度、度量、自然鍵、代理鍵等常見概念術(shù)語(yǔ)關(guān)系解析作為一個(gè)數(shù)據(jù)人,是不是經(jīng)常被各種名詞圍繞,是不是對(duì)其中很多概念認(rèn)知模糊。有些詞雖然只有一字之差,但是它們意思完全不同,今天我們就來(lái)了解下數(shù)倉(cāng)建設(shè)及數(shù)據(jù)分析時(shí)常見的—些概念含義及它們之間的關(guān)系。建議大家收藏此文,以后遇到不熟悉的概念可以在本篇文章中查找下本文結(jié)構(gòu)如下圖所示:下鉆度當(dāng)無(wú)対血的駐喪iBftEfiS-自撚進(jìn)與代連輕皺總姑便用區(qū)別,一*自冊(cè)目翹*久鰹暨1_下鉆度當(dāng)無(wú)対血的駐喪iBftEfiS-自撚進(jìn)與代連輕皺總姑便用區(qū)別,一*自冊(cè)目翹*久鰹暨1_”豳証隼亂爭(zhēng)實(shí)袁.旌這衷之問的關(guān)朿二□£裕際是口徑唯j匿各岳數(shù)倉(cāng)中槪念朮語(yǔ)解暢純度和招扁區(qū)別與聯(lián)乘一、數(shù)倉(cāng)中常見概念解析實(shí)體實(shí)體是指依附的主體,就是我們分析的一個(gè)對(duì)象,比如我們分析商品的銷售情況,如華為手機(jī)近半年的銷售量是多少,那華為手機(jī)就是一個(gè)實(shí)體;我們分析用戶的活躍度,用戶就是一個(gè)實(shí)體。當(dāng)然實(shí)體也可以現(xiàn)實(shí)中不存在的,比如虛擬的業(yè)務(wù)對(duì)象,活動(dòng),會(huì)員等都可看做一個(gè)實(shí)體。實(shí)體的存在是為了業(yè)務(wù)分析,作為分析的一個(gè)篩選的維度,擁有描述自己的屬性,本身具有可分析的價(jià)維度維度就是看待問題的角度,分析業(yè)務(wù)數(shù)據(jù),從什么角度分析,就建立什么樣的維度。所以維度就是要對(duì)數(shù)據(jù)進(jìn)行分析時(shí)所用的一個(gè)量,比如你要分析產(chǎn)品銷售情況,你可以選擇按商品類別來(lái)進(jìn)行分析,這就構(gòu)成一個(gè)維度,把所有商品類別集合在一起,就構(gòu)成了維度表。度量度量是業(yè)務(wù)流程節(jié)點(diǎn)上的一個(gè)數(shù)值。比如銷量,價(jià)格,成本等等。事實(shí)表中的度量可分為三類:完全可加,半可加,不可加完全可加的度量是最靈活,最有用的,比如說(shuō)銷量,銷售額等,可進(jìn)行任意維度匯總;半可加的度量可以對(duì)某些維度匯總,但不能對(duì)所有維度匯總,差額是常見的半可加度量,它除了時(shí)間維度外,可以跨所有維度進(jìn)行加法操作;還有一種是完全不可加的,例如:比率。對(duì)于這類非可加度量,一種好的方法是,盡可能存儲(chǔ)非可加度量的完全可加分量,并在計(jì)算出最終的非可加事實(shí)前,將這些分量匯總到最終的結(jié)果集中。粒度粒度就是業(yè)務(wù)流程中對(duì)度量的單位,比如商品是按件記錄度量,還是按批記錄度量。
在數(shù)倉(cāng)建設(shè)中,我們說(shuō)這是用戶粒度的事實(shí)表,那么表中每行數(shù)據(jù)都是一個(gè)用戶,無(wú)重復(fù)用戶;例如還有銷售粒度的表,那么表中每行都是一條銷售記錄。選擇合適的粒度級(jí)別是數(shù)據(jù)倉(cāng)庫(kù)建設(shè)好壞的重要關(guān)鍵內(nèi)容,在設(shè)計(jì)數(shù)據(jù)粒度時(shí),通常需重點(diǎn)考慮以下因素:要接受的分析類型、可接受的數(shù)據(jù)最低粒度和能存儲(chǔ)的數(shù)據(jù)量;粒度的層次定義越高,就越不能在該倉(cāng)庫(kù)中進(jìn)行更細(xì)致的分析;4.如果存儲(chǔ)資源有一定的限制,就只能采用較高的數(shù)據(jù)粒度劃分;4.據(jù)粒度劃分策略一定要保證:數(shù)據(jù)的粒度確實(shí)能夠滿足用戶的決策分析需要,這是數(shù)據(jù)粒度劃分策略中最重要的一個(gè)準(zhǔn)則口徑口徑就是取數(shù)邏輯(如何取數(shù)的),比如要取的數(shù)是10歲以下兒童中男孩的平均身高,這就是統(tǒng)計(jì)的口徑。指標(biāo)指標(biāo)是口徑的衡量值,也就是最后的結(jié)果。比如最近七天的訂單量,一個(gè)促銷活動(dòng)的購(gòu)買轉(zhuǎn)化率等?!獋€(gè)指標(biāo)具體到計(jì)算實(shí)施,主要有以下幾部分組成:?指標(biāo)加工邏輯,比如count,sum,avg?維度,比如按部門、地域進(jìn)行指標(biāo)統(tǒng)計(jì),對(duì)應(yīng)sql中的groupby?業(yè)務(wù)限定/修飾詞,比如以不同的支付渠道來(lái)算對(duì)應(yīng)的指標(biāo),微信支付的訂單退款率,支付寶支付的訂單退款率。對(duì)應(yīng)sql中的where。除此之外,指標(biāo)本身還可以衍生、派生出更多的指標(biāo),基于這些特點(diǎn),可以將指標(biāo)進(jìn)行分類:?原子指標(biāo):基本業(yè)務(wù)事實(shí),沒有業(yè)務(wù)限定、沒有維度。比如訂單表中的訂單量、訂單總金額都算原子指標(biāo);業(yè)務(wù)方更關(guān)心的指標(biāo),是有實(shí)際業(yè)務(wù)含義,可以直接取數(shù)據(jù)的指標(biāo)。比如店鋪近1天訂單支付金額就是一個(gè)派生指標(biāo),會(huì)被直接在產(chǎn)品上展示給商家看。但是這個(gè)指標(biāo)卻不能直接從數(shù)倉(cāng)的統(tǒng)一中間層里取數(shù)(因?yàn)闆]有現(xiàn)成的事實(shí)字段,數(shù)倉(cāng)提供的一般都是大寬表)。需要有一個(gè)橋梁連接數(shù)倉(cāng)中間層和業(yè)務(wù)方的指標(biāo)需求,于是便有了派生指標(biāo)?派生指標(biāo):維度+修飾詞+原子指標(biāo)。店鋪近1天訂單支付金額中店鋪是維度,近1天是一個(gè)時(shí)間類型的修飾詞,支付金額是一個(gè)原子指標(biāo);維度:觀察各項(xiàng)指標(biāo)的角度;修飾詞:維度的一個(gè)或某些值,比如維度性別下,男和女就是2種修飾詞。?衍生指標(biāo):比如某一個(gè)促銷活動(dòng)的轉(zhuǎn)化率就是衍生指標(biāo),因?yàn)樾枰黉N投放人數(shù)指標(biāo)和促銷訂單數(shù)指標(biāo)進(jìn)行計(jì)算得出。標(biāo)簽標(biāo)簽是人為設(shè)定的、根據(jù)業(yè)務(wù)場(chǎng)景需求,對(duì)目標(biāo)對(duì)象運(yùn)用一定的算法得到的高度精煉的特征標(biāo)識(shí)??梢姌?biāo)簽是經(jīng)過人為再加工后的結(jié)果,如網(wǎng)紅、白富美、蘿莉。對(duì)于有歧義的標(biāo)簽,我們內(nèi)部可進(jìn)行標(biāo)簽區(qū)分,比如:蘋果,我們可以定義蘋果指的是水果,蘋果手機(jī)才指的是手機(jī)。自然鍵由現(xiàn)實(shí)中已經(jīng)存在的屬性組成的鍵,它在業(yè)務(wù)概念中是唯一的,并具有一定的業(yè)務(wù)含義,比如商品ID,員工ID。以數(shù)倉(cāng)角度看,來(lái)自于業(yè)務(wù)系統(tǒng)的標(biāo)識(shí)符就是自然鍵,比如業(yè)務(wù)庫(kù)中員工的編號(hào)。持久鍵保持永久性不會(huì)發(fā)生變化。有時(shí)也被叫做超自然持久鍵。比如身份證號(hào)屬于持久鍵。自然鍵和持久鍵區(qū)別:舉個(gè)例子就明白了,比如說(shuō)公司員工離職之后又重新入職,他的自然鍵也就是員工編號(hào)發(fā)生了變化,但是他的持久鍵身份證號(hào)是不變的。代理鍵就是不具有業(yè)務(wù)含義的鍵。代理鍵有許多其他的稱呼:無(wú)意義鍵、整數(shù)鍵、非自然鍵、人工鍵、合成鍵等。代理鍵就是簡(jiǎn)單的以按照順序序列生產(chǎn)的整數(shù)表示。產(chǎn)品行的第1行代理鍵為1,則下一行的代理鍵為2,如此進(jìn)行。代理鍵的作用僅僅是連接維度表和事實(shí)表退化維度退化維度,就是那些看起來(lái)像是事實(shí)表的一個(gè)維度關(guān)鍵字,但實(shí)際上并沒有對(duì)應(yīng)的維度表,就是維度屬性存儲(chǔ)到事實(shí)表中,這種存儲(chǔ)到事實(shí)表中的維度列被稱為退化維度。與其他存儲(chǔ)在維表中的維度一樣,退化維度也可以用來(lái)進(jìn)行事實(shí)表的過濾查詢、實(shí)現(xiàn)聚合操作等。那么究竟怎么定義退化維度呢?比如說(shuō)訂單id,這種量級(jí)很大的維度,沒必要用一張維度表來(lái)進(jìn)行存儲(chǔ),而我們進(jìn)行數(shù)據(jù)查詢或者數(shù)據(jù)過濾的時(shí)候又非常需要,所以這種就冗余在事實(shí)表里面,這種就叫退化維度,citycode這種我們也會(huì)冗余在事實(shí)表里面,但是它有對(duì)應(yīng)的維度表,所以它不是退化維度下鉆這是在數(shù)據(jù)分析中常見的概念,下鉆可以理解成增加維的層次,從而可以由粗粒度到細(xì)粒度來(lái)觀察數(shù)據(jù),比如對(duì)產(chǎn)品銷售情況分析時(shí),可以沿著時(shí)間維從年到月到日更細(xì)粒度的觀察數(shù)據(jù)。從年的維度可以下鉆到月的維度、日的維度等。上卷知道了下鉆,上卷就容易理解了,它倆是相逆的操作,所以上卷可以理解為刪掉維的某些層,由細(xì)粒度到粗粒度觀察數(shù)據(jù)的操作或沿著維的層次向上聚合匯總數(shù)據(jù)。實(shí)體表,事實(shí)表,維度表之間的關(guān)系在Kimball維度建模中有維度與事實(shí),在Inmon范式建模中有實(shí)體與關(guān)系,如果我們分開兩種建模方式看這些概念比較容易理解。但是目前也出現(xiàn)了不少混合建模方式,兩種建模方式結(jié)合起來(lái)看,這些概念是不是容易記憶混亂,尤其事實(shí)表和實(shí)體表,它們之間到底有怎樣區(qū)別與聯(lián)系,先看下它們各自概念:維度表:維度表可以看成是用戶用來(lái)分析一個(gè)事實(shí)的窗口,它里面的數(shù)據(jù)應(yīng)該是對(duì)事實(shí)的各個(gè)方面描述,比如時(shí)間維度表,地域維度表,維度表是事實(shí)表的一個(gè)分析角度。事實(shí)表:事實(shí)表其實(shí)就是通過各種維度和一些指標(biāo)值的組合來(lái)確定一個(gè)事實(shí)的,比如通過時(shí)間維度,地域組織維度,指標(biāo)值可以去確定在某時(shí)某地的一些指標(biāo)值怎么樣的事實(shí)。事實(shí)表的每一條數(shù)據(jù)都是幾條維度表的數(shù)據(jù)和指標(biāo)值交匯而得到的。實(shí)體表:實(shí)體表就是一個(gè)實(shí)際對(duì)象的表,實(shí)體表放的數(shù)據(jù)一定是一條條客觀存在的事物數(shù)據(jù),比如說(shuō)各種商品,它就是客觀存在的,所以可以將其設(shè)計(jì)一個(gè)實(shí)體表。實(shí)時(shí)表只描述各個(gè)事物,并不存在具體的事實(shí),所以也有人稱實(shí)體表是無(wú)事實(shí)的事實(shí)表。舉個(gè)例子:比如說(shuō)手機(jī)商場(chǎng)中有蘋果手機(jī),華為手機(jī)等各品牌各型號(hào)的手機(jī),這些數(shù)據(jù)可以組成一個(gè)手機(jī)實(shí)體表,但是表中沒有可度量的數(shù)據(jù)。某天蘋果手機(jī)賣了15臺(tái),華為手機(jī)賣了20臺(tái),這些手機(jī)銷售數(shù)據(jù)屬于事實(shí),組成-個(gè)事實(shí)表。這樣就可以使用日期維度表和地域維度表對(duì)這個(gè)事實(shí)表進(jìn)行各種維度分析。指標(biāo)與標(biāo)簽的區(qū)別?概念不同指標(biāo)是用來(lái)定義、評(píng)價(jià)和描述特定事物的一種標(biāo)準(zhǔn)或方式。比如:新增用戶數(shù)、累計(jì)用戶數(shù)、用戶活躍率等是衡量用戶發(fā)展情況的指標(biāo);標(biāo)簽是人為設(shè)定的、根據(jù)業(yè)務(wù)場(chǎng)景需求,對(duì)目標(biāo)對(duì)象運(yùn)用一定的算法得到的高度精煉的特征標(biāo)識(shí)??梢姌?biāo)簽是經(jīng)過人為再加工后的結(jié)果,如網(wǎng)紅、白富美、蘿莉。?構(gòu)成不同指標(biāo)名稱是對(duì)事物質(zhì)與量?jī)煞矫嫣攸c(diǎn)的命名;指標(biāo)取值是指標(biāo)在具體時(shí)間、地域、條件下的數(shù)量表現(xiàn),如人的體重,指標(biāo)名稱是體重,指標(biāo)的取值就是120斤;標(biāo)簽名稱通常都是形容詞或形容詞+名詞的結(jié)構(gòu),標(biāo)簽一般是不可量化的,通常是孤立的,除了基礎(chǔ)類標(biāo)簽,通過一定算法加工出來(lái)的標(biāo)簽一般都沒有單位和量綱。如將超過200斤的稱為大胖子。?分類不同對(duì)指標(biāo)的分類:按照指標(biāo)計(jì)算邏輯,可以將指標(biāo)分為原子指標(biāo)、派生指標(biāo)、衍生指標(biāo)三種類型;按照對(duì)事件描述內(nèi)容的不同,分為過程性指標(biāo)和結(jié)果性指標(biāo);對(duì)標(biāo)簽的分類:按照標(biāo)簽的變化性分為靜態(tài)標(biāo)簽和動(dòng)態(tài)標(biāo)簽;按照標(biāo)簽的指代和評(píng)估指標(biāo)的不同,可分為定性標(biāo)簽和定量標(biāo)簽;指標(biāo)最擅長(zhǎng)的應(yīng)用是監(jiān)測(cè)、分析、評(píng)價(jià)和建模。標(biāo)簽最擅長(zhǎng)的應(yīng)用是標(biāo)注、刻畫、分類和特征提取。特別需要指出的是,由于對(duì)結(jié)果的標(biāo)注也是一種標(biāo)簽,所以在自然語(yǔ)言處理和機(jī)器學(xué)習(xí)相關(guān)的算法應(yīng)用場(chǎng)景下,標(biāo)簽對(duì)于監(jiān)督式學(xué)習(xí)有重要價(jià)值,只是單純的指標(biāo)難以做到的。而指標(biāo)在任務(wù)分配、績(jī)效管理等領(lǐng)域的作用,也是標(biāo)簽無(wú)法做到的。維度和指標(biāo)區(qū)別與聯(lián)系維度就是數(shù)據(jù)的觀察角度,即從哪個(gè)角度去分析問題,看待問題。指標(biāo)就是從維度的基礎(chǔ)上去衡算這個(gè)結(jié)果的值。維度一般是一個(gè)離散的值,比如時(shí)間或地域維度上每一個(gè)獨(dú)立的日期或地區(qū)。因此統(tǒng)計(jì)時(shí),可以把維度相同記錄的聚合在一起,應(yīng)用聚合函數(shù)做累加、均值、最大值、最小值等聚合計(jì)算。指標(biāo)就是被聚合的通計(jì)算,即聚合運(yùn)算的結(jié)果,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 參加涉密培訓(xùn)承諾書范文范本
- 2025-2030全球止吠項(xiàng)圈行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025-2030全球新能源車和充電樁高壓直流繼電器行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025年全球及中國(guó)消費(fèi)后回收 (PCR) 薄膜行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025-2030全球可回收金屬瓶蓋和封口行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025年全球及中國(guó)平板電動(dòng)貨車行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025年全球及中國(guó)制冷空調(diào)熱力膨脹閥行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025-2030全球電動(dòng)門遙控器行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025-2030全球高精度事件計(jì)時(shí)器行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025年全球及中國(guó)相機(jī)腕帶行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 文檔協(xié)同編輯-深度研究
- 七年級(jí)數(shù)學(xué)新北師大版(2024)下冊(cè)第一章《整式的乘除》單元檢測(cè)習(xí)題(含簡(jiǎn)單答案)
- 2024-2025學(xué)年云南省昆明市盤龍區(qū)高一(上)期末數(shù)學(xué)試卷(含答案)
- 2024年財(cái)政部會(huì)計(jì)法律法規(guī)答題活動(dòng)題目及答案一
- 高考日語(yǔ)基礎(chǔ)歸納總結(jié)與練習(xí)(一輪復(fù)習(xí))
- 煤場(chǎng)用車輛倒運(yùn)煤的方案
- 《預(yù)防犯罪》課件
- 【企業(yè)作業(yè)成本在上海汽車集團(tuán)中的應(yīng)用研究案例7300字(論文)】
- 《民航服務(wù)溝通技巧》教案第6課巧妙化解沖突
- 化學(xué)用語(yǔ)專項(xiàng)訓(xùn)練
評(píng)論
0/150
提交評(píng)論