版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)倉庫相關(guān)術(shù)語
?數(shù)據(jù)倉庫數(shù)據(jù)集市
?事實(shí)
?維度
?級別
?數(shù)據(jù)清洗
?數(shù)據(jù)采集
?數(shù)據(jù)轉(zhuǎn)換
?聯(lián)機(jī)分析處理(OLAPOnlineAnalyticalProcessing)
?切片
?切塊
?星型模式
?雪花模式
?粒度
?度量
?度量值
?口徑
?指標(biāo)
■原子指標(biāo):
■派生指標(biāo)
■衍生指標(biāo)
?標(biāo)簽
?自然鍵
?持久鍵
?代理鍵
?退化維度
?下鉆
?上卷
?T+0與T+1
?數(shù)據(jù)挖掘
?數(shù)據(jù)科學(xué)家
?總線架構(gòu)
?總線矩陣
?實(shí)體表,事實(shí)表,維度表之間的關(guān)系
■維度表
-事實(shí)表
■實(shí)體表
?指標(biāo)與標(biāo)簽的區(qū)別
■概念不同
■構(gòu)成不同
■分類不同
?維度和指標(biāo)區(qū)別與聯(lián)系
?自然鍵與代理鍵在數(shù)倉的使用區(qū)別
?SKU與SPU
■SPU=StandardProductUnit(標(biāo)準(zhǔn)化產(chǎn)品單元)
■SKU=stockkeepingunit(庫存量單位)
■spu屬性:
■sku屬性
數(shù)據(jù)倉庫相關(guān)術(shù)語
數(shù)據(jù)倉庫
數(shù)據(jù)倉庫是一個(gè)支持管理決策的數(shù)據(jù)集合。數(shù)據(jù)是面向主題的、集成
的、不易丟失的并且是時(shí)變的。數(shù)據(jù)倉庫是所有操作環(huán)境和外部數(shù)據(jù)源
的快照集合。它并不需要非常精確,因?yàn)樗仨氃谔囟ǖ臅r(shí)間基礎(chǔ)上從
操作環(huán)境中提取出來。
數(shù)據(jù)集市
數(shù)據(jù)倉庫只限于單個(gè)主題的區(qū)域,例如顧客、部門、地點(diǎn)等。數(shù)據(jù)集市
在從數(shù)據(jù)倉庫獲取數(shù)據(jù)時(shí)可以依賴于數(shù)據(jù)倉庫,或者當(dāng)它們從操作系統(tǒng)
中獲取數(shù)據(jù)時(shí)就不依賴于數(shù)據(jù)倉庫。
事實(shí)
事實(shí)是數(shù)據(jù)倉庫中的信息單元,也是多維空間中的一個(gè)單元,受分析單
元的限制。事實(shí)存儲于一張表中(當(dāng)使用關(guān)系數(shù)據(jù)庫時(shí))或者是多維數(shù)
據(jù)庫中的一個(gè)單元。每個(gè)事實(shí)包括關(guān)于事實(shí)(銷售額,銷售量,成本,
毛利,毛利率等)的基本信息,并且與維度相關(guān)。在某些情況下,當(dāng)所
有的必要信息都存儲于維度中時(shí),單純的事實(shí)出現(xiàn)就是對于數(shù)據(jù)倉庫足
夠的信息。
維度
維度是用來反映業(yè)務(wù)的一類屬性,這類屬性的集合構(gòu)成一個(gè)維度。例
如,某個(gè)地理維度可能包括國家、地區(qū)、省以及城市的級別。一個(gè)時(shí)間
維度可能包括年、季、月、周、日的級別。
級別
維度層次結(jié)構(gòu)的一個(gè)元素。級別描述了數(shù)據(jù)的層次結(jié)構(gòu),從數(shù)據(jù)的最高
(匯總程度最大)級別直到最低(最詳細(xì))級別(如大分類-中分類-小
分類-細(xì)分類)。級別僅存在于維度內(nèi)。級別基于維度表中的列或維度
中的成員屬性。
數(shù)據(jù)清洗
對數(shù)據(jù)倉庫系統(tǒng)無用的或者不符合數(shù)據(jù)格式規(guī)范的數(shù)據(jù)稱之為臟數(shù)據(jù)。
清洗的過程就是清除臟數(shù)據(jù)的過程。
數(shù)據(jù)采集
數(shù)據(jù)倉庫系統(tǒng)中后端處理的一部分。數(shù)據(jù)采集過程是指從業(yè)務(wù)系統(tǒng)中收
集與數(shù)據(jù)倉庫各指標(biāo)有關(guān)的數(shù)據(jù)。
數(shù)據(jù)轉(zhuǎn)換
解釋業(yè)務(wù)數(shù)據(jù)并修改其內(nèi)容,使之符合數(shù)據(jù)倉庫數(shù)據(jù)格式規(guī)范,并放入
數(shù)據(jù)倉庫的數(shù)據(jù)存儲介質(zhì)中。數(shù)據(jù)轉(zhuǎn)換包括數(shù)據(jù)存儲格式的轉(zhuǎn)換以及數(shù)
據(jù)表示符的轉(zhuǎn)換(如產(chǎn)品代碼到產(chǎn)品名稱的轉(zhuǎn)換)。
聯(lián)機(jī)分析處理(OLAPOnlineAnalyticalProcessing)
OLAP是一種多維分析技術(shù),用來滿足決策用戶在大量的業(yè)務(wù)數(shù)據(jù)中,
從多角度探索業(yè)務(wù)活動的規(guī)律性、市場的運(yùn)作趨勢的分析需求,并輔助
他們進(jìn)行戰(zhàn)略發(fā)展決策的制定。按照數(shù)據(jù)的存儲方式分OLAP又分為
ROLAP、MOLAP和HOLAP。在客戶信息數(shù)據(jù)倉庫CCDW的數(shù)據(jù)環(huán)境
下,OLAP提供上鉆、下鉆、切片、旋轉(zhuǎn)等在線分析機(jī)制。完成的功能
包括多角度實(shí)時(shí)查詢、簡單的數(shù)據(jù)分析,并輔之于各種圖形展示分析結(jié)
果。
切片
一種用來在數(shù)據(jù)倉庫中將一個(gè)維度中的分析空間限制為數(shù)據(jù)子集的技
術(shù)。
切塊
一種用來在數(shù)據(jù)倉庫中將多個(gè)維度中的分析空間限制為數(shù)據(jù)子集的技
術(shù)。
星型模式
是數(shù)據(jù)倉庫應(yīng)用程序的最佳設(shè)計(jì)模式。它的命名是因其在物理上表現(xiàn)為
中心實(shí)體,典型內(nèi)容包括指標(biāo)數(shù)據(jù)、輻射數(shù)據(jù),通常是有助于瀏覽和聚
集指標(biāo)數(shù)據(jù)的維度。星形圖模型得到的結(jié)果常常是查詢式數(shù)據(jù)結(jié)構(gòu),能
夠?yàn)榭焖夙憫?yīng)用戶的查詢要求提供最優(yōu)的數(shù)據(jù)結(jié)構(gòu)。星形圖還常常產(chǎn)生
一種包含維度數(shù)據(jù)和指標(biāo)數(shù)據(jù)的兩層模型。
雪花模式
指一種擴(kuò)展的星形圖。星形圖通常生成一個(gè)兩層結(jié)構(gòu),即只有維度和指
標(biāo),雪花圖生成了附加層。實(shí)際數(shù)據(jù)倉庫系統(tǒng)建設(shè)過程中,通常只擴(kuò)展
三層:維度(維度實(shí)體)、指標(biāo)(指標(biāo)實(shí)體)和相關(guān)的描述數(shù)據(jù)(類目
細(xì)節(jié)實(shí)體);超過三層的雪花圖模型在數(shù)據(jù)倉庫系統(tǒng)中應(yīng)該避免。因?yàn)?/p>
它們開始像更傾向于支持OLTP應(yīng)用程序的規(guī)格化結(jié)構(gòu),而不是為數(shù)據(jù)
倉庫和OLAP應(yīng)用程序而優(yōu)化的非格式化結(jié)構(gòu)。
粒度
粒度將直接決定所構(gòu)建倉庫系統(tǒng)能夠提供決策支持的細(xì)節(jié)級別。粒度越
高表示倉庫中的數(shù)據(jù)較粗,反之,較細(xì)。粒度是與具體指標(biāo)相關(guān)的,具
體表現(xiàn)在描述此指標(biāo)的某些可分層次維的維值上。例如,時(shí)間維度,時(shí)
間可以分成年、季、月、周、日等。數(shù)據(jù)倉庫模型中所存儲的數(shù)據(jù)的粒
度將對信息系統(tǒng)的多方面產(chǎn)生影響。事實(shí)表中以各種維度的什么層次作
為最細(xì)粒度,將決定存儲的數(shù)據(jù)能否滿足信息分析的功能需求,而粒度
的層次劃分、以及聚合表中粒度的選擇將直接影響查詢的響應(yīng)時(shí)間。
度量
度量是業(yè)務(wù)流程節(jié)點(diǎn)上的一個(gè)數(shù)值。比如
銷量
價(jià)格
成本
等等。
事實(shí)表中的度量可分為三類:
完全可加
半可加
不可加
?完全可加的度量是最靈活,最有用的,比如說銷量,銷售額等,可
進(jìn)行任意維度匯總;
?半可加的度量可以對某些維度匯總,但不能對所有維度匯總,差額
是常見的半可加度量,它除了時(shí)間維度外,可以跨所有維度進(jìn)行加
法操作;
?還有一種是完全不可加的,例如:比率。對于這類非可加度量,一
種好的方法是,盡可能存儲非可加度量的完全可加分量,并在計(jì)算
出最終的非可加事實(shí)前,將這些分量匯總到最終的結(jié)果集中。
度量值
在多維數(shù)據(jù)集中,度量值是一組值,這些值基于多維數(shù)據(jù)集的事實(shí)數(shù)據(jù)
表中的一列,而且通常為數(shù)字。此外,度量值是所分析的多維數(shù)據(jù)集的
中心值。即,度量值是最終用戶瀏覽多維數(shù)據(jù)集時(shí)重點(diǎn)查看的數(shù)字?jǐn)?shù)據(jù)
(如銷售、毛利、成本)。
口徑
口徑就是取數(shù)邏輯(如何取數(shù)的),比如要取的數(shù)是10歲以下兒童中
男孩的平均身高,這就是統(tǒng)計(jì)的口徑。
指標(biāo)
指標(biāo)是口徑的衡量值,也就是最后的結(jié)果。比如最近七天的訂單量,一
個(gè)促銷活動的購買轉(zhuǎn)化率等。
一個(gè)指標(biāo)具體到計(jì)算實(shí)施,主要有以下幾部分組成:
指標(biāo)加工邏輯,比如count,sum,avg
維度,比如按部門、地域進(jìn)行指標(biāo)統(tǒng)計(jì),對應(yīng)sql中的groupby
業(yè)務(wù)限定/修飾詞,比如以不同的支付渠道來算對應(yīng)的指標(biāo),微信支付
的訂單退款率,支付寶支付的訂單退款率。對應(yīng)sql中的where。
除此之外,指標(biāo)本身還可以衍生、派生出更多的指標(biāo),基于這些特點(diǎn),
可以將指標(biāo)進(jìn)行分類:
原子指標(biāo):
基本業(yè)務(wù)事實(shí),沒有業(yè)務(wù)限定、沒有維度。比如訂單表中的訂單量、訂
單總金額都算原子指標(biāo);
業(yè)務(wù)方更關(guān)心的指標(biāo),是有實(shí)際業(yè)務(wù)含義,可以直接取數(shù)據(jù)的指標(biāo)。比
如店鋪近1天訂單支付金額就是一個(gè)派生指標(biāo),會被直接在產(chǎn)品上展示
給商家看。
但是這個(gè)指標(biāo)卻不能直接從數(shù)倉的統(tǒng)一中間層里取數(shù)(因?yàn)闆]有現(xiàn)成的
事實(shí)字段,數(shù)倉提供的一般都是大寬表)。需要有一個(gè)橋梁連接數(shù)倉中
間層和業(yè)務(wù)方的指標(biāo)需求,于是便有了派生指標(biāo)
派生指標(biāo)
維度+修飾詞+原子指標(biāo)。店鋪近1天訂單支付金額中店鋪是維度,近1
天是一個(gè)時(shí)間類型的修飾詞,支付金額是一個(gè)原子指標(biāo);維度:觀察各
項(xiàng)指標(biāo)的角度;修飾詞:維度的一個(gè)或某些值,比如維度性別下,男和
女就是2種修飾詞。
衍生指標(biāo)
比如某一個(gè)促銷活動的轉(zhuǎn)化率就是衍生指標(biāo),因?yàn)樾枰黉N投放人數(shù)指
標(biāo)和促銷訂單數(shù)指標(biāo)進(jìn)行計(jì)算得出。
標(biāo)簽
標(biāo)簽是人為設(shè)定的、根據(jù)業(yè)務(wù)場景需求,對目標(biāo)對象運(yùn)用一定的算法得
到的高度精煉的特征標(biāo)識。可見標(biāo)簽是經(jīng)過人為再加工后的結(jié)果,如網(wǎng)
紅、白富美、蘿莉。對于有歧義的標(biāo)簽,我們內(nèi)部可進(jìn)行標(biāo)簽區(qū)分,比
如:蘋果,我們可以定義蘋果指的是水果,蘋果手機(jī)才指的是手機(jī)。
自然鍵
由現(xiàn)實(shí)中已經(jīng)存在的屬性組成的鍵,它在業(yè)務(wù)概念中是唯一的,并具有
一定的業(yè)務(wù)含義,比如商品1D,員工1D。
以數(shù)倉角度看,來自于業(yè)務(wù)系統(tǒng)的標(biāo)識符就是自然鍵,比如業(yè)務(wù)庫中員
工的編號。
持久鍵
保持永久性不會發(fā)生變化。有時(shí)也被叫做超自然持久鍵。比如身份證號
屬于持久鍵。
自然鍵和持久鍵區(qū)別:舉個(gè)例子就明白了,比如說公司員工離職之后又
重新入職,他的自然鍵也就是員工編號發(fā)生了變化,但是他的持久鍵身
份證號是不變的。
代理鍵
就是不具有業(yè)務(wù)含義的鍵。代理鍵有許多其他的稱呼:無意義鍵、整數(shù)
鍵、非自然鍵、人工鍵、合成鍵等。
代理鍵就是簡單的以按照順序序列生產(chǎn)的整數(shù)表示。產(chǎn)品行的第1行代
理鍵為1,則下一行的代理鍵為2,如此進(jìn)行。代理鍵的作用僅僅是連
接維度表和事實(shí)表。
退化維度
退化維度,就是那些看起來像是事實(shí)表的一個(gè)維度關(guān)鍵字,但實(shí)際上并
沒有對應(yīng)的維度表,就是維度屬性存儲到事實(shí)表中,這種存儲到事實(shí)表
中的維度列被稱為退化維度。與其他存儲在維表中的維度一樣,退化維
度也可以用來進(jìn)行事實(shí)表的過濾查詢、實(shí)現(xiàn)聚合操作等。
那么究竟怎么定義退化維度呢?比如說訂單id,這種量級很大的維度,
沒必要用一張維度表來進(jìn)行存儲,而我們進(jìn)行數(shù)據(jù)查詢或者數(shù)據(jù)過濾的
時(shí)候又非常需要,所以這種就冗余在事實(shí)表里面,這種就叫退化維度,
citycode這種我們也會冗余在事實(shí)表里面,但是它有對應(yīng)的維度表,所
以它不是退化維度。
下鉆
這是在數(shù)據(jù)分析中常見的概念,下鉆可以理解成增加維的層次,從而可
以由粗粒度到細(xì)粒度來觀察數(shù)據(jù),比如對產(chǎn)品銷售情況分析時(shí),可以沿
著時(shí)間維從年到月到日更細(xì)粒度的觀察數(shù)據(jù)。從年的維度可以下鉆到月
的維度、日的維度等。
上卷
知道了下鉆,上卷就容易理解了,它倆是相逆的操作,所以上卷可以理
解為刪掉維的某些層,由細(xì)粒度到粗粒度觀察數(shù)據(jù)的操作或沿著維的層
次向上聚合匯總數(shù)據(jù)。
T+0與T+1
概念最早來自于股市。T+0和T+1交易制度是中國股市的一種交易制
度,T+0交易指的是當(dāng)天買入股票可當(dāng)天賣出,當(dāng)天賣出股票又可當(dāng)天
買入。
在大數(shù)據(jù)中:T+0代表實(shí)時(shí)處理的數(shù)據(jù)。T+1代表處理昨天的數(shù)據(jù)。
數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是指利用復(fù)雜的模式識別技術(shù)從大量數(shù)據(jù)中找到有意義的模
式、提取見解。這與我們前文討論的使用個(gè)人數(shù)據(jù)做分析的術(shù)語"分析”
密切相關(guān)。為了提取出有意義的模式,數(shù)據(jù)挖掘者使用統(tǒng)計(jì)學(xué)(是呀,
好老的數(shù)學(xué))、機(jī)器學(xué)習(xí)算法和人工智能。
數(shù)據(jù)科學(xué)家
我們談?wù)摰氖且粋€(gè)如此熱門的職業(yè)!數(shù)據(jù)科學(xué)家們可以通過提取原始數(shù)
據(jù)(難道是從前文所說的數(shù)據(jù)湖中提取的?),處理數(shù)據(jù),然后提出新見
解。數(shù)據(jù)科學(xué)家所需具備的一些技能與超人無異:分析、統(tǒng)計(jì)、計(jì)算機(jī)
科學(xué)、創(chuàng)造力、故事講述和理解業(yè)務(wù)環(huán)境。難怪他們能獲得如此高的薪
水報(bào)酬。
總線架構(gòu)
維度建模的數(shù)據(jù)倉庫中,有一個(gè)概念叫BusArchitecture,中文一般
翻譯為“總線架構(gòu)"??偩€架構(gòu)是Kimball的多維體系結(jié)構(gòu)(MD)中的
三個(gè)關(guān)鍵性概念之一,另兩個(gè)是一致性維度(Conformed
Dimension)和一致性事實(shí)(ConformedFact)。
在多維體系結(jié)構(gòu)(MD)的數(shù)據(jù)倉庫架構(gòu)中,主導(dǎo)思想是分步建立數(shù)據(jù)
倉庫,由數(shù)據(jù)集市組合成企業(yè)的數(shù)據(jù)倉庫。但是,在建立第一個(gè)數(shù)據(jù)集
市前,架構(gòu)師首先要做的就是設(shè)計(jì)出在整個(gè)企業(yè)內(nèi)具有統(tǒng)一解釋的標(biāo)準(zhǔn)
化的維度和事實(shí),即一致性維度和一致性事實(shí)。而開發(fā)團(tuán)隊(duì)必須嚴(yán)格的
按照這個(gè)體系結(jié)構(gòu)來進(jìn)行數(shù)據(jù)集市的迭代開發(fā)。
一致性維度就好比企業(yè)范圍內(nèi)的一組總線,不同數(shù)據(jù)集市的事實(shí)的就好
比插在這組總線上的元件。這也是稱之為總線架構(gòu)的原因。
實(shí)際設(shè)計(jì)過程中,我們通常把總線架構(gòu)列表成矩陣的形式,其中列為一
致性維度,行為不同的業(yè)務(wù)處理過程,即事實(shí),在交叉點(diǎn)上打上標(biāo)記表
示該業(yè)務(wù)處理過程與該維度相關(guān)。這個(gè)矩陣也稱為總線矩陣(Bus
Matrix)。
總線架構(gòu)和一致性維度、一致性事實(shí)共同組成了Kimball的多維體系結(jié)
構(gòu)的基礎(chǔ),也建立了一套可以逐步建立數(shù)據(jù)倉庫的方法論。由于總線架
構(gòu)是多維體系結(jié)構(gòu)的核心,所以我們有時(shí)就把多維體系結(jié)構(gòu)直接稱為總
線架構(gòu)。
總線矩陣
通常,總線矩陣的一行會產(chǎn)生幾個(gè)相關(guān)的事實(shí)表,由此可以從不同角度
跟蹤業(yè)務(wù)過程。訂單業(yè)務(wù)過程可能會有行項(xiàng)級別的訂單事務(wù)事實(shí)表和訂
單級別的訂單快照事實(shí)表。這兩種基于訂單的維度模型同屬于訂單業(yè)務(wù)
過程,這種分組稱為業(yè)務(wù)過程維度模型。
二、數(shù)倉概念之間關(guān)系
實(shí)體表,事實(shí)表,維度表之間的關(guān)系
在Kimball維度建模中有維度與事實(shí),在Inmon范式建模中有實(shí)體與
關(guān)系,如果我們分開兩種建模方式看這些概念比較容易理解。但是目前
也出現(xiàn)了不少混合建模方式,兩種建模方式結(jié)合起來看,這些概念是不
是容易記憶混亂,尤其事實(shí)表和實(shí)體表,它們之間到底有怎樣區(qū)別與聯(lián)
系,先看下它們各自概念:
維度表
維度表可以看成是用戶用來分析一個(gè)事實(shí)的窗口,它里面的數(shù)據(jù)應(yīng)該是
對事實(shí)的各個(gè)方面描述,比如時(shí)間維度表,地域維度表,維度表是事實(shí)
表的一個(gè)分析角度。
事實(shí)表
事實(shí)表其實(shí)就是通過各種維度和一些指標(biāo)值的組合來確定一個(gè)事實(shí)的,
比如通過時(shí)間維度,地域組織維度,指標(biāo)值可以去確定在某時(shí)某地的一
些指標(biāo)值怎么樣的事實(shí)。事實(shí)表的每一條數(shù)據(jù)都是幾條維度表的數(shù)據(jù)和
指標(biāo)值交匯而得到的。
實(shí)體表
實(shí)體表就是一個(gè)實(shí)際對象的表,實(shí)體表放的數(shù)據(jù)一定是一條條客觀存在
的事物數(shù)據(jù),比如說各種商品,它就是客觀存在的,所以可以將其設(shè)計(jì)
一個(gè)實(shí)體表。實(shí)時(shí)表只描述各個(gè)事物,并不存在具體的事實(shí),所以也有
人稱實(shí)體表是無事實(shí)的事實(shí)表。
舉個(gè)例子:比如說手機(jī)商場中有蘋果手機(jī),華為手機(jī)等各品牌各
型號的手機(jī),這些數(shù)據(jù)可以組成一個(gè)手機(jī)實(shí)體表,但是表中沒有
可度量的數(shù)據(jù)。某天蘋果手機(jī)賣了15臺,華為手機(jī)賣了20臺,
這些手機(jī)銷售數(shù)據(jù)屬于事實(shí),組成一個(gè)事實(shí)表。這樣就可以使用
日期維度表和地域維度表對這個(gè)事實(shí)表進(jìn)行各種維度分析。
,,
指標(biāo)與標(biāo)簽的區(qū)別
概念不同
指標(biāo)是用來定義、評價(jià)和描述特定事物的一種標(biāo)準(zhǔn)或方式。比如:新增
用戶數(shù)、累計(jì)用戶數(shù)、用戶活躍率等是衡量用戶發(fā)展情況的指標(biāo);
標(biāo)簽是人為設(shè)定的、根據(jù)業(yè)務(wù)場景需求,對目標(biāo)對象運(yùn)用一定的算法得
到的高度精煉的特征標(biāo)識??梢姌?biāo)簽是經(jīng)過人為再加工后的結(jié)果,如網(wǎng)
紅、白富美、蘿莉。
構(gòu)成不同
指標(biāo)名稱是對事物質(zhì)與量兩方面特點(diǎn)的命名;指標(biāo)取值是指標(biāo)在具體時(shí)
間、地域、條件下的數(shù)量表現(xiàn),如人的體重,指標(biāo)名稱是體重,指標(biāo)的
取值就是120斤;
標(biāo)簽名稱通常都是形容詞或形容詞+名詞的結(jié)構(gòu),標(biāo)簽一般是不可量化
的,通常是孤立的,除了基礎(chǔ)類標(biāo)簽,通過一定算法加工出來的標(biāo)簽一
般都沒有單位和量綱。如將超過200斤的稱為大胖子。
分類不同
?對指標(biāo)的分類:
按照指標(biāo)計(jì)算邏輯,可以將指標(biāo)分為原子指標(biāo)、派生指標(biāo)、衍生指標(biāo)三
種類型;
按照對事件描述內(nèi)容的不同,分為過程性指標(biāo)和結(jié)果性指標(biāo);
?對標(biāo)簽的分類:
按照標(biāo)簽的變化性分為靜態(tài)標(biāo)簽和動態(tài)標(biāo)簽;
按照標(biāo)簽的指代和評估指標(biāo)的不同,可分為定性標(biāo)簽和定量標(biāo)簽;
?指標(biāo)最擅長的應(yīng)用是監(jiān)測、分析、評價(jià)和建模。
?標(biāo)簽最擅長的應(yīng)用是標(biāo)注、刻畫、分類和特征提取。
?特別需要指出的是,由于對結(jié)果的標(biāo)注也是一種標(biāo)簽,所以在自然
語言處理和機(jī)器學(xué)習(xí)相關(guān)的算法應(yīng)用場景下,標(biāo)簽對于監(jiān)督式學(xué)習(xí)
有重要價(jià)值,只是單純的指標(biāo)難以做到的。而指標(biāo)在任務(wù)分配、績
效管理等領(lǐng)域的作用,也是標(biāo)簽無法做到的。
維度和指標(biāo)區(qū)別與聯(lián)系
維度就是數(shù)據(jù)的觀察角度,即從哪個(gè)角度去分析問題,看待問題。
指標(biāo)就是從維度的基礎(chǔ)上去衡算這個(gè)結(jié)果的值。
維度一般是一個(gè)離散的值,比如時(shí)間或地域維度上每一個(gè)獨(dú)立的日期或
地區(qū)。因此統(tǒng)計(jì)時(shí).,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度綠色環(huán)保廠房裝飾裝修工程承包合同4篇
- 2024水庫魚塘承包養(yǎng)殖與市場拓展合作協(xié)議2篇
- 2025年度產(chǎn)權(quán)房屋買賣定金合同產(chǎn)權(quán)過戶范本3篇
- 2025年度廠房買賣合同范本(新能源產(chǎn)業(yè)適用)4篇
- 二零二五年度網(wǎng)絡(luò)安全服務(wù)提供商保密及數(shù)據(jù)處理協(xié)議3篇
- 二零二五年度船舶氣象預(yù)報(bào)船員聘用合同范本3篇
- 個(gè)人IT崗位保密條款合同(2024版)版B版
- 2025年度XX地區(qū)水資源綜合利用項(xiàng)目合作協(xié)議3篇
- 2025年度智能自動化廠房車間租賃合同4篇
- 2025年度嬰幼兒用品配送與安全監(jiān)管合同4篇
- 電除顫操作流程圖
- 湖北教育出版社三年級下冊信息技術(shù)教案
- 鐵路工程主要建材碳排放因子、常用施工機(jī)械臺班能源用量、類運(yùn)輸方式、能源碳排放因子、不同植栽方式綠化固碳量
- 設(shè)計(jì)基礎(chǔ)全套教學(xué)課件
- 藥品養(yǎng)護(hù)記錄表
- IATF16949包裝方案評審表
- 食堂服務(wù)外包投標(biāo)方案(技術(shù)標(biāo))
- 綠建評分報(bào)告模板
- 1 運(yùn)行方案說明
- 大骨節(jié)病專業(yè)知識講座課件
- PHILIPS HeartStart XL+操作培訓(xùn)課件
評論
0/150
提交評論