數(shù)據(jù)倉庫相關(guān)術(shù)語_第1頁
數(shù)據(jù)倉庫相關(guān)術(shù)語_第2頁
數(shù)據(jù)倉庫相關(guān)術(shù)語_第3頁
數(shù)據(jù)倉庫相關(guān)術(shù)語_第4頁
數(shù)據(jù)倉庫相關(guān)術(shù)語_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)倉庫相關(guān)術(shù)語

?數(shù)據(jù)倉庫數(shù)據(jù)集市

?事實(shí)

?維度

?級別

?數(shù)據(jù)清洗

?數(shù)據(jù)采集

?數(shù)據(jù)轉(zhuǎn)換

?聯(lián)機(jī)分析處理(OLAPOnlineAnalyticalProcessing)

?切片

?切塊

?星型模式

?雪花模式

?粒度

?度量

?度量值

?口徑

?指標(biāo)

■原子指標(biāo):

■派生指標(biāo)

■衍生指標(biāo)

?標(biāo)簽

?自然鍵

?持久鍵

?代理鍵

?退化維度

?下鉆

?上卷

?T+0與T+1

?數(shù)據(jù)挖掘

?數(shù)據(jù)科學(xué)家

?總線架構(gòu)

?總線矩陣

?實(shí)體表,事實(shí)表,維度表之間的關(guān)系

■維度表

-事實(shí)表

■實(shí)體表

?指標(biāo)與標(biāo)簽的區(qū)別

■概念不同

■構(gòu)成不同

■分類不同

?維度和指標(biāo)區(qū)別與聯(lián)系

?自然鍵與代理鍵在數(shù)倉的使用區(qū)別

?SKU與SPU

■SPU=StandardProductUnit(標(biāo)準(zhǔn)化產(chǎn)品單元)

■SKU=stockkeepingunit(庫存量單位)

■spu屬性:

■sku屬性

數(shù)據(jù)倉庫相關(guān)術(shù)語

數(shù)據(jù)倉庫

數(shù)據(jù)倉庫是一個(gè)支持管理決策的數(shù)據(jù)集合。數(shù)據(jù)是面向主題的、集成

的、不易丟失的并且是時(shí)變的。數(shù)據(jù)倉庫是所有操作環(huán)境和外部數(shù)據(jù)源

的快照集合。它并不需要非常精確,因?yàn)樗仨氃谔囟ǖ臅r(shí)間基礎(chǔ)上從

操作環(huán)境中提取出來。

數(shù)據(jù)集市

數(shù)據(jù)倉庫只限于單個(gè)主題的區(qū)域,例如顧客、部門、地點(diǎn)等。數(shù)據(jù)集市

在從數(shù)據(jù)倉庫獲取數(shù)據(jù)時(shí)可以依賴于數(shù)據(jù)倉庫,或者當(dāng)它們從操作系統(tǒng)

中獲取數(shù)據(jù)時(shí)就不依賴于數(shù)據(jù)倉庫。

事實(shí)

事實(shí)是數(shù)據(jù)倉庫中的信息單元,也是多維空間中的一個(gè)單元,受分析單

元的限制。事實(shí)存儲于一張表中(當(dāng)使用關(guān)系數(shù)據(jù)庫時(shí))或者是多維數(shù)

據(jù)庫中的一個(gè)單元。每個(gè)事實(shí)包括關(guān)于事實(shí)(銷售額,銷售量,成本,

毛利,毛利率等)的基本信息,并且與維度相關(guān)。在某些情況下,當(dāng)所

有的必要信息都存儲于維度中時(shí),單純的事實(shí)出現(xiàn)就是對于數(shù)據(jù)倉庫足

夠的信息。

維度

維度是用來反映業(yè)務(wù)的一類屬性,這類屬性的集合構(gòu)成一個(gè)維度。例

如,某個(gè)地理維度可能包括國家、地區(qū)、省以及城市的級別。一個(gè)時(shí)間

維度可能包括年、季、月、周、日的級別。

級別

維度層次結(jié)構(gòu)的一個(gè)元素。級別描述了數(shù)據(jù)的層次結(jié)構(gòu),從數(shù)據(jù)的最高

(匯總程度最大)級別直到最低(最詳細(xì))級別(如大分類-中分類-小

分類-細(xì)分類)。級別僅存在于維度內(nèi)。級別基于維度表中的列或維度

中的成員屬性。

數(shù)據(jù)清洗

對數(shù)據(jù)倉庫系統(tǒng)無用的或者不符合數(shù)據(jù)格式規(guī)范的數(shù)據(jù)稱之為臟數(shù)據(jù)。

清洗的過程就是清除臟數(shù)據(jù)的過程。

數(shù)據(jù)采集

數(shù)據(jù)倉庫系統(tǒng)中后端處理的一部分。數(shù)據(jù)采集過程是指從業(yè)務(wù)系統(tǒng)中收

集與數(shù)據(jù)倉庫各指標(biāo)有關(guān)的數(shù)據(jù)。

數(shù)據(jù)轉(zhuǎn)換

解釋業(yè)務(wù)數(shù)據(jù)并修改其內(nèi)容,使之符合數(shù)據(jù)倉庫數(shù)據(jù)格式規(guī)范,并放入

數(shù)據(jù)倉庫的數(shù)據(jù)存儲介質(zhì)中。數(shù)據(jù)轉(zhuǎn)換包括數(shù)據(jù)存儲格式的轉(zhuǎn)換以及數(shù)

據(jù)表示符的轉(zhuǎn)換(如產(chǎn)品代碼到產(chǎn)品名稱的轉(zhuǎn)換)。

聯(lián)機(jī)分析處理(OLAPOnlineAnalyticalProcessing)

OLAP是一種多維分析技術(shù),用來滿足決策用戶在大量的業(yè)務(wù)數(shù)據(jù)中,

從多角度探索業(yè)務(wù)活動的規(guī)律性、市場的運(yùn)作趨勢的分析需求,并輔助

他們進(jìn)行戰(zhàn)略發(fā)展決策的制定。按照數(shù)據(jù)的存儲方式分OLAP又分為

ROLAP、MOLAP和HOLAP。在客戶信息數(shù)據(jù)倉庫CCDW的數(shù)據(jù)環(huán)境

下,OLAP提供上鉆、下鉆、切片、旋轉(zhuǎn)等在線分析機(jī)制。完成的功能

包括多角度實(shí)時(shí)查詢、簡單的數(shù)據(jù)分析,并輔之于各種圖形展示分析結(jié)

果。

切片

一種用來在數(shù)據(jù)倉庫中將一個(gè)維度中的分析空間限制為數(shù)據(jù)子集的技

術(shù)。

切塊

一種用來在數(shù)據(jù)倉庫中將多個(gè)維度中的分析空間限制為數(shù)據(jù)子集的技

術(shù)。

星型模式

是數(shù)據(jù)倉庫應(yīng)用程序的最佳設(shè)計(jì)模式。它的命名是因其在物理上表現(xiàn)為

中心實(shí)體,典型內(nèi)容包括指標(biāo)數(shù)據(jù)、輻射數(shù)據(jù),通常是有助于瀏覽和聚

集指標(biāo)數(shù)據(jù)的維度。星形圖模型得到的結(jié)果常常是查詢式數(shù)據(jù)結(jié)構(gòu),能

夠?yàn)榭焖夙憫?yīng)用戶的查詢要求提供最優(yōu)的數(shù)據(jù)結(jié)構(gòu)。星形圖還常常產(chǎn)生

一種包含維度數(shù)據(jù)和指標(biāo)數(shù)據(jù)的兩層模型。

雪花模式

指一種擴(kuò)展的星形圖。星形圖通常生成一個(gè)兩層結(jié)構(gòu),即只有維度和指

標(biāo),雪花圖生成了附加層。實(shí)際數(shù)據(jù)倉庫系統(tǒng)建設(shè)過程中,通常只擴(kuò)展

三層:維度(維度實(shí)體)、指標(biāo)(指標(biāo)實(shí)體)和相關(guān)的描述數(shù)據(jù)(類目

細(xì)節(jié)實(shí)體);超過三層的雪花圖模型在數(shù)據(jù)倉庫系統(tǒng)中應(yīng)該避免。因?yàn)?/p>

它們開始像更傾向于支持OLTP應(yīng)用程序的規(guī)格化結(jié)構(gòu),而不是為數(shù)據(jù)

倉庫和OLAP應(yīng)用程序而優(yōu)化的非格式化結(jié)構(gòu)。

粒度

粒度將直接決定所構(gòu)建倉庫系統(tǒng)能夠提供決策支持的細(xì)節(jié)級別。粒度越

高表示倉庫中的數(shù)據(jù)較粗,反之,較細(xì)。粒度是與具體指標(biāo)相關(guān)的,具

體表現(xiàn)在描述此指標(biāo)的某些可分層次維的維值上。例如,時(shí)間維度,時(shí)

間可以分成年、季、月、周、日等。數(shù)據(jù)倉庫模型中所存儲的數(shù)據(jù)的粒

度將對信息系統(tǒng)的多方面產(chǎn)生影響。事實(shí)表中以各種維度的什么層次作

為最細(xì)粒度,將決定存儲的數(shù)據(jù)能否滿足信息分析的功能需求,而粒度

的層次劃分、以及聚合表中粒度的選擇將直接影響查詢的響應(yīng)時(shí)間。

度量

度量是業(yè)務(wù)流程節(jié)點(diǎn)上的一個(gè)數(shù)值。比如

銷量

價(jià)格

成本

等等。

事實(shí)表中的度量可分為三類:

完全可加

半可加

不可加

?完全可加的度量是最靈活,最有用的,比如說銷量,銷售額等,可

進(jìn)行任意維度匯總;

?半可加的度量可以對某些維度匯總,但不能對所有維度匯總,差額

是常見的半可加度量,它除了時(shí)間維度外,可以跨所有維度進(jìn)行加

法操作;

?還有一種是完全不可加的,例如:比率。對于這類非可加度量,一

種好的方法是,盡可能存儲非可加度量的完全可加分量,并在計(jì)算

出最終的非可加事實(shí)前,將這些分量匯總到最終的結(jié)果集中。

度量值

在多維數(shù)據(jù)集中,度量值是一組值,這些值基于多維數(shù)據(jù)集的事實(shí)數(shù)據(jù)

表中的一列,而且通常為數(shù)字。此外,度量值是所分析的多維數(shù)據(jù)集的

中心值。即,度量值是最終用戶瀏覽多維數(shù)據(jù)集時(shí)重點(diǎn)查看的數(shù)字?jǐn)?shù)據(jù)

(如銷售、毛利、成本)。

口徑

口徑就是取數(shù)邏輯(如何取數(shù)的),比如要取的數(shù)是10歲以下兒童中

男孩的平均身高,這就是統(tǒng)計(jì)的口徑。

指標(biāo)

指標(biāo)是口徑的衡量值,也就是最后的結(jié)果。比如最近七天的訂單量,一

個(gè)促銷活動的購買轉(zhuǎn)化率等。

一個(gè)指標(biāo)具體到計(jì)算實(shí)施,主要有以下幾部分組成:

指標(biāo)加工邏輯,比如count,sum,avg

維度,比如按部門、地域進(jìn)行指標(biāo)統(tǒng)計(jì),對應(yīng)sql中的groupby

業(yè)務(wù)限定/修飾詞,比如以不同的支付渠道來算對應(yīng)的指標(biāo),微信支付

的訂單退款率,支付寶支付的訂單退款率。對應(yīng)sql中的where。

除此之外,指標(biāo)本身還可以衍生、派生出更多的指標(biāo),基于這些特點(diǎn),

可以將指標(biāo)進(jìn)行分類:

原子指標(biāo):

基本業(yè)務(wù)事實(shí),沒有業(yè)務(wù)限定、沒有維度。比如訂單表中的訂單量、訂

單總金額都算原子指標(biāo);

業(yè)務(wù)方更關(guān)心的指標(biāo),是有實(shí)際業(yè)務(wù)含義,可以直接取數(shù)據(jù)的指標(biāo)。比

如店鋪近1天訂單支付金額就是一個(gè)派生指標(biāo),會被直接在產(chǎn)品上展示

給商家看。

但是這個(gè)指標(biāo)卻不能直接從數(shù)倉的統(tǒng)一中間層里取數(shù)(因?yàn)闆]有現(xiàn)成的

事實(shí)字段,數(shù)倉提供的一般都是大寬表)。需要有一個(gè)橋梁連接數(shù)倉中

間層和業(yè)務(wù)方的指標(biāo)需求,于是便有了派生指標(biāo)

派生指標(biāo)

維度+修飾詞+原子指標(biāo)。店鋪近1天訂單支付金額中店鋪是維度,近1

天是一個(gè)時(shí)間類型的修飾詞,支付金額是一個(gè)原子指標(biāo);維度:觀察各

項(xiàng)指標(biāo)的角度;修飾詞:維度的一個(gè)或某些值,比如維度性別下,男和

女就是2種修飾詞。

衍生指標(biāo)

比如某一個(gè)促銷活動的轉(zhuǎn)化率就是衍生指標(biāo),因?yàn)樾枰黉N投放人數(shù)指

標(biāo)和促銷訂單數(shù)指標(biāo)進(jìn)行計(jì)算得出。

標(biāo)簽

標(biāo)簽是人為設(shè)定的、根據(jù)業(yè)務(wù)場景需求,對目標(biāo)對象運(yùn)用一定的算法得

到的高度精煉的特征標(biāo)識。可見標(biāo)簽是經(jīng)過人為再加工后的結(jié)果,如網(wǎng)

紅、白富美、蘿莉。對于有歧義的標(biāo)簽,我們內(nèi)部可進(jìn)行標(biāo)簽區(qū)分,比

如:蘋果,我們可以定義蘋果指的是水果,蘋果手機(jī)才指的是手機(jī)。

自然鍵

由現(xiàn)實(shí)中已經(jīng)存在的屬性組成的鍵,它在業(yè)務(wù)概念中是唯一的,并具有

一定的業(yè)務(wù)含義,比如商品1D,員工1D。

以數(shù)倉角度看,來自于業(yè)務(wù)系統(tǒng)的標(biāo)識符就是自然鍵,比如業(yè)務(wù)庫中員

工的編號。

持久鍵

保持永久性不會發(fā)生變化。有時(shí)也被叫做超自然持久鍵。比如身份證號

屬于持久鍵。

自然鍵和持久鍵區(qū)別:舉個(gè)例子就明白了,比如說公司員工離職之后又

重新入職,他的自然鍵也就是員工編號發(fā)生了變化,但是他的持久鍵身

份證號是不變的。

代理鍵

就是不具有業(yè)務(wù)含義的鍵。代理鍵有許多其他的稱呼:無意義鍵、整數(shù)

鍵、非自然鍵、人工鍵、合成鍵等。

代理鍵就是簡單的以按照順序序列生產(chǎn)的整數(shù)表示。產(chǎn)品行的第1行代

理鍵為1,則下一行的代理鍵為2,如此進(jìn)行。代理鍵的作用僅僅是連

接維度表和事實(shí)表。

退化維度

退化維度,就是那些看起來像是事實(shí)表的一個(gè)維度關(guān)鍵字,但實(shí)際上并

沒有對應(yīng)的維度表,就是維度屬性存儲到事實(shí)表中,這種存儲到事實(shí)表

中的維度列被稱為退化維度。與其他存儲在維表中的維度一樣,退化維

度也可以用來進(jìn)行事實(shí)表的過濾查詢、實(shí)現(xiàn)聚合操作等。

那么究竟怎么定義退化維度呢?比如說訂單id,這種量級很大的維度,

沒必要用一張維度表來進(jìn)行存儲,而我們進(jìn)行數(shù)據(jù)查詢或者數(shù)據(jù)過濾的

時(shí)候又非常需要,所以這種就冗余在事實(shí)表里面,這種就叫退化維度,

citycode這種我們也會冗余在事實(shí)表里面,但是它有對應(yīng)的維度表,所

以它不是退化維度。

下鉆

這是在數(shù)據(jù)分析中常見的概念,下鉆可以理解成增加維的層次,從而可

以由粗粒度到細(xì)粒度來觀察數(shù)據(jù),比如對產(chǎn)品銷售情況分析時(shí),可以沿

著時(shí)間維從年到月到日更細(xì)粒度的觀察數(shù)據(jù)。從年的維度可以下鉆到月

的維度、日的維度等。

上卷

知道了下鉆,上卷就容易理解了,它倆是相逆的操作,所以上卷可以理

解為刪掉維的某些層,由細(xì)粒度到粗粒度觀察數(shù)據(jù)的操作或沿著維的層

次向上聚合匯總數(shù)據(jù)。

T+0與T+1

概念最早來自于股市。T+0和T+1交易制度是中國股市的一種交易制

度,T+0交易指的是當(dāng)天買入股票可當(dāng)天賣出,當(dāng)天賣出股票又可當(dāng)天

買入。

在大數(shù)據(jù)中:T+0代表實(shí)時(shí)處理的數(shù)據(jù)。T+1代表處理昨天的數(shù)據(jù)。

數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是指利用復(fù)雜的模式識別技術(shù)從大量數(shù)據(jù)中找到有意義的模

式、提取見解。這與我們前文討論的使用個(gè)人數(shù)據(jù)做分析的術(shù)語"分析”

密切相關(guān)。為了提取出有意義的模式,數(shù)據(jù)挖掘者使用統(tǒng)計(jì)學(xué)(是呀,

好老的數(shù)學(xué))、機(jī)器學(xué)習(xí)算法和人工智能。

數(shù)據(jù)科學(xué)家

我們談?wù)摰氖且粋€(gè)如此熱門的職業(yè)!數(shù)據(jù)科學(xué)家們可以通過提取原始數(shù)

據(jù)(難道是從前文所說的數(shù)據(jù)湖中提取的?),處理數(shù)據(jù),然后提出新見

解。數(shù)據(jù)科學(xué)家所需具備的一些技能與超人無異:分析、統(tǒng)計(jì)、計(jì)算機(jī)

科學(xué)、創(chuàng)造力、故事講述和理解業(yè)務(wù)環(huán)境。難怪他們能獲得如此高的薪

水報(bào)酬。

總線架構(gòu)

維度建模的數(shù)據(jù)倉庫中,有一個(gè)概念叫BusArchitecture,中文一般

翻譯為“總線架構(gòu)"??偩€架構(gòu)是Kimball的多維體系結(jié)構(gòu)(MD)中的

三個(gè)關(guān)鍵性概念之一,另兩個(gè)是一致性維度(Conformed

Dimension)和一致性事實(shí)(ConformedFact)。

在多維體系結(jié)構(gòu)(MD)的數(shù)據(jù)倉庫架構(gòu)中,主導(dǎo)思想是分步建立數(shù)據(jù)

倉庫,由數(shù)據(jù)集市組合成企業(yè)的數(shù)據(jù)倉庫。但是,在建立第一個(gè)數(shù)據(jù)集

市前,架構(gòu)師首先要做的就是設(shè)計(jì)出在整個(gè)企業(yè)內(nèi)具有統(tǒng)一解釋的標(biāo)準(zhǔn)

化的維度和事實(shí),即一致性維度和一致性事實(shí)。而開發(fā)團(tuán)隊(duì)必須嚴(yán)格的

按照這個(gè)體系結(jié)構(gòu)來進(jìn)行數(shù)據(jù)集市的迭代開發(fā)。

一致性維度就好比企業(yè)范圍內(nèi)的一組總線,不同數(shù)據(jù)集市的事實(shí)的就好

比插在這組總線上的元件。這也是稱之為總線架構(gòu)的原因。

實(shí)際設(shè)計(jì)過程中,我們通常把總線架構(gòu)列表成矩陣的形式,其中列為一

致性維度,行為不同的業(yè)務(wù)處理過程,即事實(shí),在交叉點(diǎn)上打上標(biāo)記表

示該業(yè)務(wù)處理過程與該維度相關(guān)。這個(gè)矩陣也稱為總線矩陣(Bus

Matrix)。

總線架構(gòu)和一致性維度、一致性事實(shí)共同組成了Kimball的多維體系結(jié)

構(gòu)的基礎(chǔ),也建立了一套可以逐步建立數(shù)據(jù)倉庫的方法論。由于總線架

構(gòu)是多維體系結(jié)構(gòu)的核心,所以我們有時(shí)就把多維體系結(jié)構(gòu)直接稱為總

線架構(gòu)。

總線矩陣

通常,總線矩陣的一行會產(chǎn)生幾個(gè)相關(guān)的事實(shí)表,由此可以從不同角度

跟蹤業(yè)務(wù)過程。訂單業(yè)務(wù)過程可能會有行項(xiàng)級別的訂單事務(wù)事實(shí)表和訂

單級別的訂單快照事實(shí)表。這兩種基于訂單的維度模型同屬于訂單業(yè)務(wù)

過程,這種分組稱為業(yè)務(wù)過程維度模型。

二、數(shù)倉概念之間關(guān)系

實(shí)體表,事實(shí)表,維度表之間的關(guān)系

在Kimball維度建模中有維度與事實(shí),在Inmon范式建模中有實(shí)體與

關(guān)系,如果我們分開兩種建模方式看這些概念比較容易理解。但是目前

也出現(xiàn)了不少混合建模方式,兩種建模方式結(jié)合起來看,這些概念是不

是容易記憶混亂,尤其事實(shí)表和實(shí)體表,它們之間到底有怎樣區(qū)別與聯(lián)

系,先看下它們各自概念:

維度表

維度表可以看成是用戶用來分析一個(gè)事實(shí)的窗口,它里面的數(shù)據(jù)應(yīng)該是

對事實(shí)的各個(gè)方面描述,比如時(shí)間維度表,地域維度表,維度表是事實(shí)

表的一個(gè)分析角度。

事實(shí)表

事實(shí)表其實(shí)就是通過各種維度和一些指標(biāo)值的組合來確定一個(gè)事實(shí)的,

比如通過時(shí)間維度,地域組織維度,指標(biāo)值可以去確定在某時(shí)某地的一

些指標(biāo)值怎么樣的事實(shí)。事實(shí)表的每一條數(shù)據(jù)都是幾條維度表的數(shù)據(jù)和

指標(biāo)值交匯而得到的。

實(shí)體表

實(shí)體表就是一個(gè)實(shí)際對象的表,實(shí)體表放的數(shù)據(jù)一定是一條條客觀存在

的事物數(shù)據(jù),比如說各種商品,它就是客觀存在的,所以可以將其設(shè)計(jì)

一個(gè)實(shí)體表。實(shí)時(shí)表只描述各個(gè)事物,并不存在具體的事實(shí),所以也有

人稱實(shí)體表是無事實(shí)的事實(shí)表。

舉個(gè)例子:比如說手機(jī)商場中有蘋果手機(jī),華為手機(jī)等各品牌各

型號的手機(jī),這些數(shù)據(jù)可以組成一個(gè)手機(jī)實(shí)體表,但是表中沒有

可度量的數(shù)據(jù)。某天蘋果手機(jī)賣了15臺,華為手機(jī)賣了20臺,

這些手機(jī)銷售數(shù)據(jù)屬于事實(shí),組成一個(gè)事實(shí)表。這樣就可以使用

日期維度表和地域維度表對這個(gè)事實(shí)表進(jìn)行各種維度分析。

,,

指標(biāo)與標(biāo)簽的區(qū)別

概念不同

指標(biāo)是用來定義、評價(jià)和描述特定事物的一種標(biāo)準(zhǔn)或方式。比如:新增

用戶數(shù)、累計(jì)用戶數(shù)、用戶活躍率等是衡量用戶發(fā)展情況的指標(biāo);

標(biāo)簽是人為設(shè)定的、根據(jù)業(yè)務(wù)場景需求,對目標(biāo)對象運(yùn)用一定的算法得

到的高度精煉的特征標(biāo)識??梢姌?biāo)簽是經(jīng)過人為再加工后的結(jié)果,如網(wǎng)

紅、白富美、蘿莉。

構(gòu)成不同

指標(biāo)名稱是對事物質(zhì)與量兩方面特點(diǎn)的命名;指標(biāo)取值是指標(biāo)在具體時(shí)

間、地域、條件下的數(shù)量表現(xiàn),如人的體重,指標(biāo)名稱是體重,指標(biāo)的

取值就是120斤;

標(biāo)簽名稱通常都是形容詞或形容詞+名詞的結(jié)構(gòu),標(biāo)簽一般是不可量化

的,通常是孤立的,除了基礎(chǔ)類標(biāo)簽,通過一定算法加工出來的標(biāo)簽一

般都沒有單位和量綱。如將超過200斤的稱為大胖子。

分類不同

?對指標(biāo)的分類:

按照指標(biāo)計(jì)算邏輯,可以將指標(biāo)分為原子指標(biāo)、派生指標(biāo)、衍生指標(biāo)三

種類型;

按照對事件描述內(nèi)容的不同,分為過程性指標(biāo)和結(jié)果性指標(biāo);

?對標(biāo)簽的分類:

按照標(biāo)簽的變化性分為靜態(tài)標(biāo)簽和動態(tài)標(biāo)簽;

按照標(biāo)簽的指代和評估指標(biāo)的不同,可分為定性標(biāo)簽和定量標(biāo)簽;

?指標(biāo)最擅長的應(yīng)用是監(jiān)測、分析、評價(jià)和建模。

?標(biāo)簽最擅長的應(yīng)用是標(biāo)注、刻畫、分類和特征提取。

?特別需要指出的是,由于對結(jié)果的標(biāo)注也是一種標(biāo)簽,所以在自然

語言處理和機(jī)器學(xué)習(xí)相關(guān)的算法應(yīng)用場景下,標(biāo)簽對于監(jiān)督式學(xué)習(xí)

有重要價(jià)值,只是單純的指標(biāo)難以做到的。而指標(biāo)在任務(wù)分配、績

效管理等領(lǐng)域的作用,也是標(biāo)簽無法做到的。

維度和指標(biāo)區(qū)別與聯(lián)系

維度就是數(shù)據(jù)的觀察角度,即從哪個(gè)角度去分析問題,看待問題。

指標(biāo)就是從維度的基礎(chǔ)上去衡算這個(gè)結(jié)果的值。

維度一般是一個(gè)離散的值,比如時(shí)間或地域維度上每一個(gè)獨(dú)立的日期或

地區(qū)。因此統(tǒng)計(jì)時(shí).,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論