版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第10章用戶角色與分析工具QQ:81505050楊武劍周蘇大數(shù)據(jù)分析與實(shí)踐——社會(huì)研究與數(shù)字治理我們要講述的是一個(gè)有關(guān)對(duì)圖書館進(jìn)行實(shí)驗(yàn)的故事。實(shí)驗(yàn)對(duì)象是史學(xué)史中最有趣的數(shù)據(jù)集:一個(gè)旨在包羅所有書籍的數(shù)字圖書館。圖10-1圖書館的進(jìn)化第10章導(dǎo)讀案例包羅一切的數(shù)字圖書館這樣神奇的圖書館從何而來(lái)呢?1996年,斯坦福大學(xué)計(jì)算機(jī)科學(xué)系的兩位研究生正在做一個(gè)現(xiàn)在已經(jīng)沒(méi)什么影響力的項(xiàng)目——斯坦福數(shù)字圖書館技術(shù)項(xiàng)目。該項(xiàng)目的目標(biāo)是展望圖書館的未來(lái),構(gòu)建一個(gè)能夠?qū)⑺袝突ヂ?lián)網(wǎng)整合起來(lái)的圖書館。他們打算開(kāi)發(fā)一個(gè)工具,能夠讓用戶瀏覽圖書館的所有藏書。但是,這個(gè)想法在當(dāng)時(shí)是難以實(shí)現(xiàn)的,因?yàn)橹挥泻苌僖徊糠謺菙?shù)字形式的。于是,他們將該想法和相關(guān)技術(shù)轉(zhuǎn)移到文本上,將大數(shù)據(jù)實(shí)驗(yàn)延伸到互聯(lián)網(wǎng)上,開(kāi)發(fā)出了一個(gè)讓用戶能夠?yàn)g覽互聯(lián)網(wǎng)上所有網(wǎng)頁(yè)的工具,他們最終開(kāi)發(fā)出了一個(gè)搜索引擎,并將其稱為“谷歌(Google)”。第10章導(dǎo)讀案例包羅一切的數(shù)字圖書館到2004年,谷歌“組織全世界的信息”的使命進(jìn)展得很順利,這就使其創(chuàng)始人拉里?佩奇有暇回顧他的“初戀”——數(shù)字圖書館。令人沮喪的是,仍然只有少數(shù)圖書是數(shù)字形式的。不過(guò),在那幾年間,某些事情已經(jīng)改變了:佩奇現(xiàn)在是億萬(wàn)富翁。于是,他決定讓谷歌涉足掃描圖書并對(duì)其進(jìn)行數(shù)字化的業(yè)務(wù)。盡管他的公司已經(jīng)在做這項(xiàng)業(yè)務(wù)了,但他認(rèn)為谷歌應(yīng)該為此竭盡全力。第10章導(dǎo)讀案例包羅一切的數(shù)字圖書館雄心勃勃?無(wú)疑如此。不過(guò),谷歌最終成功了。在公開(kāi)宣稱啟動(dòng)該項(xiàng)目的9年后,谷歌完成了3000多萬(wàn)本書的數(shù)字化,相當(dāng)于歷史上出版圖書總數(shù)的l/4。其收錄的圖書總量超過(guò)了哈佛大學(xué)(1700萬(wàn)冊(cè))、斯坦福大學(xué)(900萬(wàn)冊(cè))、牛津大學(xué)(1100萬(wàn)冊(cè))以及其他任何大學(xué)的圖書館,甚至還超過(guò)了俄羅斯國(guó)家圖書館(1500萬(wàn)冊(cè))、中國(guó)國(guó)家圖書館(2600萬(wàn)冊(cè))和德國(guó)國(guó)家圖書館(2500萬(wàn)冊(cè))。唯一比谷歌藏書更多的圖書館是美國(guó)國(guó)會(huì)圖書館(3300萬(wàn)冊(cè))。而在你讀到這句話的時(shí)候,谷歌可能已經(jīng)超過(guò)它了。第10章導(dǎo)讀案例包羅一切的數(shù)字圖書館長(zhǎng)數(shù)據(jù),量化人文變遷的標(biāo)尺當(dāng)“谷歌圖書”項(xiàng)目啟動(dòng)時(shí),大家都是從新聞中得知的。但是,直到兩年后的2006年,這一項(xiàng)目的影響才真正顯現(xiàn)出來(lái)。當(dāng)時(shí),我們正在寫一篇關(guān)于英語(yǔ)語(yǔ)法歷史的論文。為了該論文,我們對(duì)一些古英語(yǔ)語(yǔ)法教科書做了小規(guī)模的數(shù)字化?,F(xiàn)實(shí)問(wèn)題是,與我們的研究最相關(guān)的書被“埋藏”在哈佛大學(xué)魏德納圖書館里。來(lái)看一下我們是如何找到這些書的。首先,到達(dá)圖書館東樓的二層,走過(guò)羅斯福收藏室和美洲印第安人語(yǔ)言部,你會(huì)看到一個(gè)標(biāo)有電話號(hào)碼“8900”和向上標(biāo)識(shí)的過(guò)道,這些書被放在從上數(shù)的第二個(gè)書架上。多年來(lái),伴隨著研究的推進(jìn),我們經(jīng)常來(lái)翻閱這個(gè)書架上的書。那些年來(lái),我們是唯一借閱過(guò)這些書的人,除了我們之外沒(méi)有人在意這個(gè)書架。第10章導(dǎo)讀案例包羅一切的數(shù)字圖書館有一天,我們注意到研究中經(jīng)常使用的一本書可以在網(wǎng)上看到了。那是由“谷歌圖書”項(xiàng)目實(shí)現(xiàn)的。出于好奇,我們開(kāi)始在“谷歌圖書”項(xiàng)目中搜索魏德納圖書館那個(gè)書架上的其他書,而那些書同樣也可以在“谷歌圖書”項(xiàng)目中找到。這并不是因?yàn)楣雀韫娟P(guān)心中世紀(jì)英語(yǔ)的語(yǔ)法。我們又搜索了其他一些書,無(wú)論這些書來(lái)自哪個(gè)書架,都可以在“谷歌圖書”中找到對(duì)應(yīng)的電子版本。也就是說(shuō),就在我們動(dòng)手?jǐn)?shù)字化那幾本語(yǔ)法書時(shí),谷歌已經(jīng)數(shù)字化了幾棟樓的書!第10章導(dǎo)讀案例包羅一切的數(shù)字圖書館谷歌的大量藏書代表了一種全新的大數(shù)據(jù),它有可能會(huì)轉(zhuǎn)變?nèi)藗兛创^(guò)去的方式。大多數(shù)大數(shù)據(jù)雖然大,但時(shí)間跨度卻很短,是有關(guān)近期事件的新近記錄。這是因?yàn)檫@些數(shù)據(jù)是由互聯(lián)網(wǎng)催生的,而互聯(lián)網(wǎng)是一項(xiàng)新興的技術(shù)。我們的目標(biāo)是研究文化變遷,而文化變遷通常會(huì)跨越很長(zhǎng)的時(shí)間段,這期間一代代人的生生死死。當(dāng)我們探索歷史上的文化變遷時(shí),短期數(shù)據(jù)是沒(méi)有多大用處的,不管它有多大。第10章導(dǎo)讀案例包羅一切的數(shù)字圖書館“谷歌圖書”項(xiàng)目的規(guī)模可以和我們這個(gè)數(shù)字媒體時(shí)代的任何一個(gè)數(shù)據(jù)集相媲美。谷歌數(shù)字化的書并不只是當(dāng)代的:不像電子郵件、RSS(內(nèi)容聚合)訂閱和Superpokes(超級(jí)戳)等,這些書可以追溯到幾個(gè)世紀(jì)前。因此,“谷歌圖書”不僅是大數(shù)據(jù),而且是長(zhǎng)數(shù)據(jù)。由于“谷歌圖書”包含了如此長(zhǎng)的數(shù)據(jù),和大多數(shù)大數(shù)據(jù)不同,這些數(shù)字化的圖書不局限于描繪當(dāng)代人文圖景,還反映了人類文明在相當(dāng)長(zhǎng)一段時(shí)期內(nèi)的變遷,其時(shí)間跨度比一個(gè)人的生命更長(zhǎng),甚至比一個(gè)國(guó)家的壽命還長(zhǎng)。“谷歌圖書”的數(shù)據(jù)集也由于其他原因而備受青睞——它涵蓋的主題范圍非常廣泛。瀏覽如此大量的書籍可以被認(rèn)為是在咨詢大量的人,而其中有很多人都已經(jīng)去世了。在歷史和文學(xué)領(lǐng)域,關(guān)于特定時(shí)間和地區(qū)的書是了解那個(gè)時(shí)間和地區(qū)的重要信息源。第10章導(dǎo)讀案例包羅一切的數(shù)字圖書館由此可見(jiàn),通過(guò)數(shù)字透鏡來(lái)閱讀“谷歌圖書”將有可能建立一個(gè)研究人類歷史的新視角。我們知道,無(wú)論要花多長(zhǎng)時(shí)間,我們都必須在數(shù)據(jù)上入手。數(shù)據(jù)越多,問(wèn)題越多大數(shù)據(jù)為我們認(rèn)識(shí)周圍世界創(chuàng)造了新機(jī)遇,同時(shí)也帶來(lái)了新的挑戰(zhàn)。第一個(gè)主要的挑戰(zhàn)是,大數(shù)據(jù)和數(shù)據(jù)科學(xué)家們之前運(yùn)用的數(shù)據(jù)在結(jié)構(gòu)上差異很大??茖W(xué)家們喜歡采用精巧的實(shí)驗(yàn)推導(dǎo)出一致的準(zhǔn)確結(jié)果,回答精心設(shè)計(jì)的問(wèn)題。第10章導(dǎo)讀案例包羅一切的數(shù)字圖書館但是,大數(shù)據(jù)是雜亂的數(shù)據(jù)集。典型的數(shù)據(jù)集通常會(huì)混雜很多事實(shí)和測(cè)量數(shù)據(jù),數(shù)據(jù)搜集過(guò)程隨意,并非出于科學(xué)研究的目的。因此,大數(shù)據(jù)集經(jīng)常錯(cuò)漏百出、殘缺不全,缺乏科學(xué)家們需要的信息。而這些錯(cuò)誤和遺漏即便在單個(gè)數(shù)據(jù)集中也往往不一致。那是因?yàn)榇髷?shù)據(jù)集通常由許多小數(shù)據(jù)集融合而成。不可避免地,構(gòu)成大數(shù)據(jù)集的一些小數(shù)據(jù)集比其他小數(shù)據(jù)集要可靠一些,同時(shí)每個(gè)小數(shù)據(jù)集都有各自的特性。臉書就是一個(gè)很好的例子,交友在臉書中意味著截然不同的意思。有些人無(wú)節(jié)制地交友,有些人則對(duì)交友持謹(jǐn)慎的態(tài)度;有些人在臉書中將同事加為好友,而有些人卻不這么做。處理大數(shù)據(jù)的一部分工作就是熟悉數(shù)據(jù),以便你能反推出產(chǎn)生這些數(shù)據(jù)的工程師們的想法。但是,我們和多達(dá)1拍字節(jié)的數(shù)據(jù)又能熟悉到什么程度呢?第10章導(dǎo)讀案例包羅一切的數(shù)字圖書館第二個(gè)主要的挑戰(zhàn)是,大數(shù)據(jù)和我們通常認(rèn)為的科學(xué)方法并不完全吻合。科學(xué)家們想通過(guò)數(shù)據(jù)證實(shí)某個(gè)假設(shè),將他們從數(shù)據(jù)中了解到的東西編織成具有因果關(guān)系的故事,并最終形成一個(gè)數(shù)學(xué)理論。當(dāng)在大數(shù)據(jù)中探索時(shí),你會(huì)不可避免地有一些發(fā)現(xiàn),例如,公海的海盜出現(xiàn)率和氣溫之間的相關(guān)性。這種探索性研究有時(shí)被稱為“無(wú)假設(shè)”研究,因?yàn)槲覀冇肋h(yuǎn)不知道會(huì)在數(shù)據(jù)中發(fā)現(xiàn)什么。但是,當(dāng)需要按照因果關(guān)系來(lái)解釋從數(shù)據(jù)中發(fā)現(xiàn)的相關(guān)性時(shí),大數(shù)據(jù)便顯得有些無(wú)能為力了。是海盜造成了全球變暖嗎?是炎熱的天氣使更多的人從事海盜行為的嗎?如果二者是不相關(guān)的,那么近幾年在全球變暖加劇的同時(shí),海盜的數(shù)目為什么會(huì)持續(xù)增加呢?我們難以解釋,而大數(shù)據(jù)往往卻能讓我們?nèi)ゲ孪脒@些事情中的因果鏈條。第10章導(dǎo)讀案例包羅一切的數(shù)字圖書館第三個(gè)主要挑戰(zhàn)是,數(shù)據(jù)產(chǎn)生和存儲(chǔ)的地方發(fā)生了變化。作為科學(xué)家,我們習(xí)慣于通過(guò)在實(shí)驗(yàn)室中做實(shí)驗(yàn)得到數(shù)據(jù),或者記錄對(duì)自然界的觀察數(shù)據(jù)。可以說(shuō),某種程度上,數(shù)據(jù)的獲取是在科學(xué)家的控制之下的。但是,在大數(shù)據(jù)的世界里,大型企業(yè)甚至政府擁有著最大規(guī)模的數(shù)據(jù)集。而它們自己、消費(fèi)者和公民們更關(guān)心的是如何使用數(shù)據(jù)。很少有人希望美國(guó)國(guó)家稅務(wù)局將報(bào)稅記錄共享給那些科學(xué)家,雖然科學(xué)家們使用這些數(shù)據(jù)是出于善意。eBay的商家不希望它們完整的交易數(shù)據(jù)被公開(kāi),或者讓研究生隨意使用。搜索引擎日志和電子郵件更是涉及個(gè)人隱私權(quán)和保密權(quán)。書和博客的作者則受到版權(quán)保護(hù)。各個(gè)公司對(duì)所控制的數(shù)據(jù)有著強(qiáng)烈的產(chǎn)權(quán)訴求,它們分析自己的數(shù)據(jù)是期望產(chǎn)生更多的收入和利潤(rùn),而不愿意和外人共享其核心競(jìng)爭(zhēng)力,學(xué)者和科學(xué)家更是如此。第10章導(dǎo)讀案例包羅一切的數(shù)字圖書館如果要分析谷歌的圖書館,我們就必須找到應(yīng)對(duì)上述挑戰(zhàn)的方法。數(shù)字圖書所面臨的挑戰(zhàn)并不是獨(dú)特的,只是今天大數(shù)據(jù)生態(tài)系統(tǒng)的一個(gè)縮影。第10章導(dǎo)讀案例包羅一切的數(shù)字圖書館目錄用戶角色分析的成功因素分析編程語(yǔ)言業(yè)務(wù)用戶工具1234用戶角色PART0110.110.1用戶角色在大多數(shù)組織中,分析的用戶角色有這樣幾種類型,即超級(jí)分析師、數(shù)據(jù)科學(xué)家、業(yè)務(wù)分析師和分析使用者。區(qū)分這些用戶角色并不能滿足所有分析需求,但會(huì)提供一個(gè)框架來(lái)幫助你理解實(shí)際用戶的需求。像超級(jí)分析師和數(shù)據(jù)科學(xué)家這樣有經(jīng)驗(yàn)的用戶,傾向于使用R、SAS或者SQL這樣的分析語(yǔ)言。而業(yè)務(wù)用戶,包括業(yè)務(wù)分析師和分析使用者,則傾向于使用商業(yè)化的交互型軟件。圖10-2用戶角色的區(qū)分10.1.3業(yè)務(wù)分析師10.1.1超級(jí)分析師10.1.4分析使用者10.1.2數(shù)據(jù)科學(xué)家區(qū)分用戶角色并不能滿足所有分析需求,但會(huì)提供一個(gè)框架來(lái)幫助你理解實(shí)際用戶的需求。10.1用戶角色10.1.1
超級(jí)分析師某大型企業(yè)有三位數(shù)據(jù)專家。一位A,36歲,另一位B,46歲,而C則更年輕,這說(shuō)明數(shù)據(jù)分析是一個(gè)新興行業(yè)。十多年前,數(shù)據(jù)分析的概念還很模糊,當(dāng)時(shí)如果有人把Excel表格玩得很溜就很厲害了。但是現(xiàn)在,如果去找一個(gè)數(shù)據(jù)分析的工作,自我表示對(duì)Excel的操作很精通,在面試官看來(lái)這是件很基礎(chǔ)的事——說(shuō)明這個(gè)行業(yè)變化很快。所謂超級(jí)分析師,是一個(gè)像統(tǒng)計(jì)師、精算師或者風(fēng)險(xiǎn)分析師一樣的專門職位,他們適合于在分析方面有巨大投資的團(tuán)隊(duì)中工作,或者在提供分析服務(wù)的組織中擔(dān)任咨詢師和開(kāi)發(fā)者。超級(jí)分析師了解傳統(tǒng)的統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí),并且在應(yīng)用分析方面有相當(dāng)多的工作經(jīng)驗(yàn)。10.1.1
超級(jí)分析師超級(jí)分析師更愿意使用分析編程語(yǔ)言這樣的工作,例如LegacySAS或者R。他們有豐富的訓(xùn)練和工作經(jīng)驗(yàn)來(lái)使編程語(yǔ)言能夠貼合生產(chǎn),并且認(rèn)為分析編程語(yǔ)言比圖形用戶界面的分析軟件包更靈活也更強(qiáng)大?!罢_的”分析方法對(duì)于超級(jí)分析師來(lái)說(shuō)尤其重要。他們會(huì)更加關(guān)注使用“對(duì)的”方法,而不是用不同方法得到商業(yè)結(jié)果的不同方面。這意味著,如果一個(gè)特定的分析問(wèn)題要求一個(gè)具體方法或者一類方法。如生存分析,超級(jí)分析師會(huì)花費(fèi)很大力氣來(lái)使用這種方法,即使這對(duì)于預(yù)測(cè)準(zhǔn)確的改善很少。10.1.1
超級(jí)分析師在實(shí)際工作中,由于超級(jí)分析師側(cè)重于處理高度多樣化的問(wèn)題,并且不能完全準(zhǔn)確地預(yù)測(cè)需要解決問(wèn)題的種類,他們更傾向于使用各種各樣的分析方法和技術(shù)。對(duì)于一種特定的方法和技術(shù)的需求即使非常少見(jiàn),但是如果需要,超級(jí)分析師也希望能夠用上它。因?yàn)閿?shù)據(jù)準(zhǔn)備對(duì)于成功的預(yù)測(cè)分析特別重要,超級(jí)分析師需要能夠解讀和控制他們所處理的數(shù)據(jù)。這不意味著超級(jí)分析師想要管理數(shù)據(jù)或者運(yùn)行ETL任務(wù),他們只是需要讓數(shù)據(jù)管理流程變得透明和可反饋。10.1.1
超級(jí)分析師ETL(抽取、轉(zhuǎn)換、加載)是數(shù)據(jù)倉(cāng)庫(kù)技術(shù),也是BI(商業(yè)智能)項(xiàng)目的一個(gè)重要環(huán)節(jié),它是將數(shù)據(jù)從來(lái)源端經(jīng)過(guò)抽取、轉(zhuǎn)換和加載至目的端的過(guò)程,其對(duì)象并不限于數(shù)據(jù)倉(cāng)庫(kù)。ETL所描述的過(guò)程一般包含ETL或是ELT(抽取、裝載、轉(zhuǎn)換)并且混合使用。通常愈大量的數(shù)據(jù)、復(fù)雜的轉(zhuǎn)換邏輯、目的端為較強(qiáng)運(yùn)算能力的數(shù)據(jù)庫(kù),愈偏向使用ELT,以便運(yùn)用目的端數(shù)據(jù)庫(kù)的平行處理能力。ETL(或ELT)的流程可以用任何編程語(yǔ)言開(kāi)發(fā)完成,由于ETL是極為復(fù)雜的過(guò)程,而手寫程序不易管理,有愈來(lái)愈多的企業(yè)采用工具協(xié)助ETL的開(kāi)發(fā),并運(yùn)用其內(nèi)置的元數(shù)據(jù)功能存儲(chǔ)來(lái)源與目的所對(duì)應(yīng)的轉(zhuǎn)換規(guī)則。10.1.1
超級(jí)分析師超級(jí)分析師的工作成果可能包括:·管理顯示分析結(jié)果的報(bào)告;·撰寫預(yù)測(cè)模型規(guī)范;·預(yù)測(cè)模型對(duì)象(例如PMML文件)。PMML(預(yù)測(cè)模型標(biāo)記語(yǔ)言)利用XML描述和存儲(chǔ)數(shù)據(jù)挖掘模型,是一個(gè)已經(jīng)被W3C所接受的標(biāo)準(zhǔn)。MML是一種基于XML的語(yǔ)言,用來(lái)定義預(yù)測(cè)模型?!び镁幊陶Z(yǔ)言(如Java或C)編寫的一個(gè)可執(zhí)行的評(píng)分函數(shù)。10.1.1
超級(jí)分析師超級(jí)分析師不想過(guò)多地參與生產(chǎn)部署或者導(dǎo)入模型評(píng)分,但如果該組織沒(méi)有投入用于模擬評(píng)分部署的工具,他們也可能執(zhí)行這個(gè)角色。超級(jí)分析師會(huì)更多地參與具體分析軟件的品牌、發(fā)布和版本的工作。在分析團(tuán)隊(duì)有著重要影響的組織里,他們?cè)谶x擇分析軟件上發(fā)揮了決定性的作用。他們也希望控制支持分析軟件的技術(shù)基礎(chǔ)設(shè)施,但往往不關(guān)心特定的硬件、數(shù)據(jù)庫(kù)、存儲(chǔ)等細(xì)節(jié)。10.1.2
數(shù)據(jù)科學(xué)家數(shù)據(jù)科學(xué)家在很多方面與超級(jí)分析師很相似,這兩個(gè)角色都對(duì)具體工具缺乏興趣,并且渴望參與有關(guān)數(shù)據(jù)的任何工作。數(shù)據(jù)科學(xué)家和超級(jí)分析師的主要不同在于背景、訓(xùn)練和方法上。一方面,超級(jí)分析師傾向于理解統(tǒng)計(jì)方法,將分析帶向統(tǒng)計(jì)方向,并且更喜歡使用高級(jí)語(yǔ)言與內(nèi)置的分析語(yǔ)法。另一方面,數(shù)據(jù)科學(xué)家往往具有機(jī)器學(xué)習(xí)、工程或計(jì)算機(jī)科學(xué)的背景。因此,他們傾向于選擇編程語(yǔ)言(如C、Java、Python),更擅長(zhǎng)用SQL和MapReduce工作。他們對(duì)用Hadoop工作有著豐富的經(jīng)驗(yàn),這是他們喜歡的工作環(huán)境。10.1.2
數(shù)據(jù)科學(xué)家數(shù)據(jù)科學(xué)家的機(jī)器學(xué)習(xí)淵源影響著他們的研究方法、技術(shù)和方法,從而影響他們對(duì)分析工具的需求。機(jī)器學(xué)習(xí)學(xué)科往往不是把重點(diǎn)放在選擇“正確的”分析方法上,而是放在預(yù)測(cè)分析過(guò)程的結(jié)果上,包括該過(guò)程產(chǎn)生模型的預(yù)測(cè)能力。因此,他們很容易接受各種暴力學(xué)習(xí)的方式,并且選擇可能在統(tǒng)計(jì)范式里很難實(shí)施的方法,但這些方法可以表現(xiàn)出良好的效果。數(shù)據(jù)科學(xué)家往往對(duì)現(xiàn)有的分析軟件供應(yīng)商熱情不高,尤其是那些喜歡通過(guò)軟推銷技術(shù)細(xì)節(jié)迎合企業(yè)客戶的軟件供應(yīng)商。相反,他們傾向于選擇開(kāi)源工具。他們尋求最好的“技術(shù)”解決方案,一個(gè)具有足夠的靈活性來(lái)支持創(chuàng)新的解決方案。數(shù)據(jù)科學(xué)家傾向于親手“生產(chǎn)”分析結(jié)果,而超級(jí)分析師則正好相反,更喜歡能夠在過(guò)程中完全放手的方式。10.1.3
業(yè)務(wù)分析師業(yè)務(wù)分析師在組織中以不同角色使用分析結(jié)果,對(duì)于他們來(lái)說(shuō),分析是重要的但不是唯一的責(zé)任。他們還需要應(yīng)付一系列其他工作,如貸款、市場(chǎng)分析或渠道等。業(yè)務(wù)分析師對(duì)分析非常熟悉,并且可能經(jīng)過(guò)一些培訓(xùn)和有一定經(jīng)驗(yàn)。不管怎么樣,他們更喜歡一個(gè)易于使用的界面和軟件,像SASEnterpriseGuide、SASEnterpriseMiner、SPSSStatistics,或者其他一些產(chǎn)品。與超級(jí)分析師非常關(guān)心選擇問(wèn)題的“正確”方法不同,業(yè)務(wù)分析師傾向于一種更簡(jiǎn)單的方法。例如他們可能對(duì)回歸分析很熟悉,但是對(duì)不同種類的回歸方法和如何計(jì)算回歸模型的細(xì)節(jié)并不感興趣。他們看重在解決問(wèn)題框架內(nèi)可以指導(dǎo)他們選擇方法和技術(shù)的“向?qū)А惫ぞ摺?0.1.3
業(yè)務(wù)分析師業(yè)務(wù)分析師知道數(shù)據(jù)對(duì)于分析的成功很重要,但是卻不想直接處理它們。相反,業(yè)務(wù)分析師更愿意使用已經(jīng)被組織中其他人修正過(guò)的數(shù)據(jù)。數(shù)據(jù)正確性對(duì)業(yè)務(wù)分析師非常重要,數(shù)據(jù)應(yīng)該在內(nèi)部是一致的,并與分析師所理解的業(yè)務(wù)一致。在大多數(shù)情況下,業(yè)務(wù)分析師的工作成果是一個(gè)總結(jié)分析結(jié)果的報(bào)告。工作成果也可能是一些決策,如關(guān)于一個(gè)復(fù)雜貸款決策的商品數(shù)量。業(yè)務(wù)分析師很少做生產(chǎn)部署的預(yù)測(cè)模型,因?yàn)樗麄兊墓ぷ鞣椒ㄍ狈Τ?jí)分析師的嚴(yán)謹(jǐn)性和高效性。業(yè)務(wù)分析師看重優(yōu)質(zhì)、客戶友好的技術(shù)支持,傾向于使用在分析中表現(xiàn)出可靠性的來(lái)自供應(yīng)商的軟件。10.1.4
分析使用者分析使用者通常僅僅是從事預(yù)測(cè)、自動(dòng)化決策等具體分析過(guò)程的非專業(yè)人員,他們專注于業(yè)務(wù)問(wèn)題和事件,不直接在生產(chǎn)中進(jìn)行分析工作,相反,他們以自動(dòng)化決策、預(yù)測(cè)或者其他智能的可嵌入到所參與業(yè)務(wù)流程的形式來(lái)使用分析結(jié)果。雖然分析使用者一般不會(huì)參與數(shù)學(xué)計(jì)算,但他們很關(guān)注總體效用、效果和所使用系統(tǒng)的可靠性。例如,信用卡呼叫中心的客戶服務(wù)代表可能不關(guān)心具體用于確定決策的分析方法,但非常關(guān)注該系統(tǒng)是否需要很長(zhǎng)時(shí)間才能達(dá)成決策。如果當(dāng)系統(tǒng)拒絕信用卡申請(qǐng)或拒絕了太多看似風(fēng)險(xiǎn)良好的客戶而無(wú)法提供合理的解釋時(shí),客戶代表就會(huì)拒絕這個(gè)系統(tǒng)。因?yàn)檎诳焖僭鲩L(zhǎng)的分析對(duì)業(yè)務(wù)流程產(chǎn)生積極影響的方法很多,并且嵌入式分析已經(jīng)幾乎沒(méi)有使用的障礙了,所以這類用戶將有最大的增長(zhǎng)潛力。10.1.4
分析使用者表10-1展示了適合每個(gè)用戶角色的不同工具。表10-1用于不同用戶的分析工具10.1.4
分析使用者企業(yè)應(yīng)該以協(xié)作和自定義的方式支持所有用戶角色的需求。不同角色的用戶不可能孤立地工作,有經(jīng)驗(yàn)的用戶應(yīng)該能夠與業(yè)務(wù)用戶分享應(yīng)用程序,反之亦然。數(shù)據(jù)的復(fù)雜性和不透明性往往會(huì)推動(dòng)用戶探索新的編程工具,而干凈透明的數(shù)據(jù)結(jié)構(gòu)是實(shí)現(xiàn)商業(yè)友好型分析的重要推動(dòng)者。分析的成功因素PART0210.210.2分析的成功因素組織為了使分析被廣泛接受,必須認(rèn)識(shí)到不同的用戶需求?,F(xiàn)代企業(yè)中的許多用戶都需要易使用且無(wú)需編程的用戶界面。然而,易于使用的工具可能缺乏復(fù)雜分析或自定義分析所需要的關(guān)鍵功能。10.2分析的成功因素為了獲得盡可能廣泛的影響,應(yīng)該重點(diǎn)關(guān)注以下三個(gè)重要的成功因素:(1)關(guān)注數(shù)據(jù)基礎(chǔ)設(shè)施。有經(jīng)驗(yàn)的分析師會(huì)把大量時(shí)間花在“數(shù)據(jù)糾紛”上,也就是采集、轉(zhuǎn)換和清理原始數(shù)據(jù)。企業(yè)用戶沒(méi)有多余的時(shí)間去清洗數(shù)據(jù),這些用戶需要一個(gè)易于訪問(wèn)的清潔、可靠的數(shù)據(jù)來(lái)源。(2)確保協(xié)作。有經(jīng)驗(yàn)的用戶在開(kāi)發(fā)、測(cè)試和驗(yàn)證分析應(yīng)用程序中起著關(guān)鍵作用,他們要確?;A(chǔ)的數(shù)學(xué)知識(shí)是正確的。商務(wù)用戶工具應(yīng)該直接使用和利用有經(jīng)驗(yàn)的分析師開(kāi)發(fā)的先進(jìn)分析工具。10.2分析的成功因素(3)為業(yè)務(wù)流程定制分析。當(dāng)分析直接影響一個(gè)業(yè)務(wù)流程時(shí)往往是最高效的。用戶不需要進(jìn)行“業(yè)務(wù)分析”,他們需要進(jìn)行信用分析、勞動(dòng)力分析或者其他利用數(shù)據(jù)和業(yè)務(wù)規(guī)則的任務(wù)。這些工具應(yīng)該支持針對(duì)特定業(yè)務(wù)流程、角色和任務(wù)的自定義應(yīng)用分析。為了最大化商業(yè)影響力,我們要開(kāi)發(fā)一種能夠支持組織中從新手到專家的各種用戶群體的分析方法。建立一個(gè)高效的數(shù)據(jù)平臺(tái),有著清潔、易獲取的數(shù)據(jù),確保用戶群體之間的協(xié)作,并且能夠定制支持業(yè)務(wù)流程的分析。這些是建立一個(gè)更有智慧的組織的關(guān)鍵。分析編程語(yǔ)言PART0310.310.3分析編程語(yǔ)言如果一種編程語(yǔ)言的主要用戶是分析師,并且該語(yǔ)言具有分析師所需的高級(jí)功能,我們就把它歸為“分析”語(yǔ)言。我們可以通過(guò)自定義代碼或外部分析庫(kù)來(lái)使用通用語(yǔ)言(如Python或者Java)進(jìn)行高級(jí)分析。數(shù)據(jù)科學(xué)家對(duì)使用Python進(jìn)行機(jī)器學(xué)習(xí)越來(lái)越感興趣。10.3.3SQL10.3.1R語(yǔ)言10.3.2SAS編程語(yǔ)言可以通過(guò)自定義代碼或外部分析庫(kù)來(lái)使用通用語(yǔ)言(如Python或者Java)進(jìn)行高級(jí)分析。數(shù)據(jù)科學(xué)家對(duì)使用Python進(jìn)行機(jī)器學(xué)習(xí)越來(lái)越感興趣。10.3分析編程語(yǔ)言10.3.1R語(yǔ)言R語(yǔ)言是一個(gè)面向?qū)ο?,主要用于統(tǒng)計(jì)和高級(jí)分析的開(kāi)源編程語(yǔ)言,它在高級(jí)分析中的使用率快速增長(zhǎng)。圖10-3R語(yǔ)言示例10.3.1R語(yǔ)言R語(yǔ)言是S語(yǔ)言的一種實(shí)現(xiàn)。S語(yǔ)言是1980年左右由AT&T貝爾實(shí)驗(yàn)室開(kāi)發(fā)的一種用來(lái)進(jìn)行數(shù)據(jù)探索、統(tǒng)計(jì)分析和作圖的解釋型語(yǔ)言。S語(yǔ)言最初的實(shí)現(xiàn)版本是S-PLUS商業(yè)軟件。新西蘭奧克蘭大學(xué)的羅伯特·紳士和羅斯·伊卡及其他志愿人員組成“R開(kāi)發(fā)核心團(tuán)隊(duì)”開(kāi)發(fā)了R系統(tǒng)。R和S語(yǔ)言在程序語(yǔ)法上可以說(shuō)幾乎一樣,只是在函數(shù)方面有細(xì)微差別。R的核心開(kāi)發(fā)團(tuán)隊(duì)引領(lǐng)對(duì)核心軟件環(huán)境的持續(xù)改善,同時(shí)R社區(qū)用戶可以貢獻(xiàn)支持特定任務(wù)的軟件包。10.3.1R語(yǔ)言R是一套完整的軟件系統(tǒng),支持:·數(shù)據(jù)處理和存儲(chǔ);·計(jì)算數(shù)組和矩陣的運(yùn)算符;·數(shù)據(jù)分析工具;·圖形設(shè)備;·編程功能像輸入和輸出、條件句、循環(huán)和遞歸運(yùn)算。10.3.1R語(yǔ)言R發(fā)行版本中包括支持基本統(tǒng)計(jì)、圖形和有價(jià)值的實(shí)用程序的14個(gè)基本包。用戶可以選擇從CRAN或其他庫(kù)中添加包。由于存在廣泛的開(kāi)發(fā)者社區(qū)和貢獻(xiàn)的低門檻,在R中可獲得的軟件功能遠(yuǎn)遠(yuǎn)超過(guò)了商業(yè)分析軟件。
圖10-4R語(yǔ)言可視化圖形示例10.3.1R語(yǔ)言雖然R核心開(kāi)發(fā)團(tuán)隊(duì)負(fù)責(zé)研發(fā)R基礎(chǔ)軟件,但每個(gè)包的開(kāi)發(fā)人員都負(fù)責(zé)各自軟件包的質(zhì)量。這意味著實(shí)際使用的編程語(yǔ)言和實(shí)施的質(zhì)量會(huì)有很大的不同。質(zhì)量保證以社區(qū)為基礎(chǔ),用戶可以而且的確會(huì)報(bào)告錯(cuò)誤。大多數(shù)提供商業(yè)分析軟件或數(shù)據(jù)管理平臺(tái)的供應(yīng)商都提供連接到R語(yǔ)言程序或?qū)語(yǔ)言腳本嵌入到其他功能中的能力。基本的R發(fā)行版本包括一個(gè)內(nèi)置的用于交互和腳本開(kāi)發(fā)的控制臺(tái)。然而,許多用戶更喜歡使用集成開(kāi)發(fā)環(huán)境(IDE)或GUI界面。R最著名的商業(yè)界面是RStudio。10.3.1R語(yǔ)言R語(yǔ)言的主要優(yōu)點(diǎn)是它的綜合功能性、可擴(kuò)展性和低成本,其主要弱點(diǎn)是多樣化和集市化開(kāi)發(fā)的方法,由此產(chǎn)生了大量的重疊功能、松散的標(biāo)準(zhǔn)和異構(gòu)的軟件質(zhì)量。商業(yè)化的發(fā)行版本通過(guò)質(zhì)量保證、培訓(xùn)和用戶支持來(lái)解決這些缺陷。它的另一個(gè)主要不足是無(wú)法處理超過(guò)單個(gè)機(jī)器存儲(chǔ)容量的數(shù)據(jù)集。有一些開(kāi)源軟件可以部分解決這個(gè)問(wèn)題,另外,RevolutionAnalytics的ScaleR軟件包支持針對(duì)大數(shù)據(jù)的分布式超存儲(chǔ)分析。10.3.2SAS編程語(yǔ)言SAS語(yǔ)言是SASInstitute(公司)開(kāi)發(fā)的命令式編程語(yǔ)言,該公司還利用SAS編程語(yǔ)言開(kāi)發(fā)工具和軟件。世界各地的組織都在使用SAS,大部分評(píng)估都認(rèn)為SAS是分析行業(yè)的領(lǐng)導(dǎo)者。然而,單就SAS編程語(yǔ)言本身難以衡量其使用方面的影響,在對(duì)分析師和數(shù)據(jù)挖掘師的大范圍調(diào)查中,SAS的評(píng)級(jí)低于R和其他開(kāi)源工具。圖10-5SAS統(tǒng)計(jì)分析結(jié)果10.3.2SAS編程語(yǔ)言SAS編程語(yǔ)言的編程步驟一般有兩種類型。SASDATA讀取數(shù)據(jù),以不同的方式操縱數(shù)據(jù),并創(chuàng)建SASDATA集,這是一個(gè)專有的數(shù)據(jù)結(jié)構(gòu)。SASPROC是使用SASDATA集生成用戶指定的特殊分析,它的結(jié)果可以是發(fā)布到文件的顯示或報(bào)告,或SASDATA集的形式。一個(gè)SASPROC的輸出可以作為另一個(gè)SASPROC輸入。大多數(shù)的SAS程序員在SAS軟件中運(yùn)行程序,然而也有一些其他的選擇。由杜勒斯研究所發(fā)布的一個(gè)商業(yè)軟件產(chǎn)品Carolina可以讓用戶將SAS程序轉(zhuǎn)化為Java語(yǔ)言。SAS為Windows、Linux、UNIX操作系統(tǒng)提供了相應(yīng)的編程語(yǔ)言運(yùn)行環(huán)境。除了這些平臺(tái),WPL支持MacOS上的WPS。大多數(shù)SAS編程步驟在SAS運(yùn)行環(huán)境中以單線程運(yùn)行,而相同的程序在WPS中以多線程運(yùn)行。10.3.2SAS編程語(yǔ)言為了改善在SASDATA步中的一些明顯的局限性,SAS開(kāi)發(fā)了DS2(一種面向?qū)ο蟮木幊陶Z(yǔ)言)以適合高級(jí)數(shù)據(jù)操作。SASDS2代碼在五種不支持標(biāo)準(zhǔn)SASDATA步的環(huán)境下運(yùn)行:·SAS聯(lián)邦服務(wù)器;·SASLASR分析服務(wù)器;·SAS嵌入式過(guò)程;·SAS企業(yè)挖掘器;·SAS決策服務(wù)。10.3.3SQLSQL(結(jié)構(gòu)化查詢語(yǔ)言)是一種關(guān)系數(shù)據(jù)庫(kù)語(yǔ)言。在對(duì)數(shù)據(jù)科學(xué)家的調(diào)查中,有71%的受訪者說(shuō)他們使用SQL的程度遠(yuǎn)超過(guò)其他任何語(yǔ)言。圖10-6OracleSQL示例10.3.3SQLSQL語(yǔ)言最初是在20世紀(jì)20年代早期由IBM研究者們開(kāi)發(fā)的,其應(yīng)用和使用在20世紀(jì)80年代隨著關(guān)系數(shù)據(jù)庫(kù)的廣泛使用得到了快速增長(zhǎng)。如今,SQL已經(jīng)從傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)擴(kuò)展到了數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用和軟件定義的SQL平臺(tái)(像是Hive或者Shark)。SQL是一套基于集合的聲明性語(yǔ)言而不是一個(gè)像SAS或BASIC的命令式程序語(yǔ)言。美國(guó)國(guó)家標(biāo)準(zhǔn)協(xié)會(huì)(ANSI)在1986年定義了一個(gè)SQL標(biāo)準(zhǔn),緊隨其后的是國(guó)際標(biāo)準(zhǔn)化組織(ISO)在1987年也制定了SQL標(biāo)準(zhǔn),但不同的數(shù)據(jù)庫(kù)廠商用各種方式限制了代碼從一個(gè)平臺(tái)到另一個(gè)平臺(tái)的可移植性。10.3.3SQL數(shù)據(jù)庫(kù)管理員使用SQL來(lái)創(chuàng)建和管理數(shù)據(jù)庫(kù),他們可以使用SQL創(chuàng)建表、刪除表、創(chuàng)建索引、插入數(shù)據(jù)到表中、更新表中的數(shù)據(jù)、刪除數(shù)據(jù)以及執(zhí)行其他操作。將關(guān)系型數(shù)據(jù)庫(kù)作為一個(gè)“沙盒”的分析師也可以使用這些SQL的功能。更為常見(jiàn)的是,分析師可以使用SQL從關(guān)系數(shù)據(jù)庫(kù)中選擇和恢復(fù)數(shù)據(jù),從而在其他分析操作中使用。ANSISQL包括一些基本的分析功能,包括標(biāo)量函數(shù)、聚合函數(shù)和窗口函數(shù)。標(biāo)量函數(shù)可以對(duì)單個(gè)值操作,包括數(shù)字運(yùn)算和字符串操作等。聚合函數(shù)對(duì)集合的值操作并且返回一個(gè)匯總值,它們包含常見(jiàn)的統(tǒng)計(jì)功能,如計(jì)數(shù)、總和、均值、方差、標(biāo)準(zhǔn)差、相關(guān)性和二元線性回歸。窗口函數(shù)類似于聚合函數(shù),但用戶可以將操作應(yīng)用于數(shù)據(jù)分區(qū),命令數(shù)據(jù)或定義帶有移動(dòng)“窗口”數(shù)值的組,這些函數(shù)支持如累積分布、排名和排序的操作。10.3.3SQL除了支持基礎(chǔ)統(tǒng)計(jì)(如聚合函數(shù)等),ANSISQL標(biāo)準(zhǔn)不包括高級(jí)分析。數(shù)據(jù)庫(kù)供應(yīng)商,如Oracle,提供特定平臺(tái)的SQL拓展用于分析。更多的支持表函數(shù)的高級(jí)數(shù)據(jù)庫(kù)可以嵌入用通用編程語(yǔ)言所寫的程序(如C、Java、Python或者R)并且使用這些語(yǔ)言寫的分析庫(kù)。SQL用于分析的最大優(yōu)勢(shì)是它的標(biāo)準(zhǔn)化、平臺(tái)中立性和對(duì)基本數(shù)據(jù)操作的實(shí)用性。雖然特定供應(yīng)商的SQL版本與ANSI標(biāo)準(zhǔn)偏差較大,大多數(shù)基本操作可以在不同平臺(tái)以一致的方式進(jìn)行。大部分有較強(qiáng)ANSISQL背景的用戶可以很快學(xué)會(huì)一個(gè)特定供應(yīng)商的SQL版本。因?yàn)樵诖笮推髽I(yè)中普遍使用SQL平臺(tái),對(duì)SQL有基本理解對(duì)試圖檢索和操作數(shù)據(jù)的分析師來(lái)說(shuō)十分重要。SQL用于分析的主要缺點(diǎn)是缺乏高級(jí)分析的標(biāo)準(zhǔn)算法。業(yè)務(wù)用戶工具PART0410.410.4業(yè)務(wù)用戶工具現(xiàn)在的組織需要用比以前更少的時(shí)間做出更多的決策。現(xiàn)代分析決策影響著短期業(yè)務(wù)的執(zhí)行以及企業(yè)的長(zhǎng)期競(jìng)爭(zhēng)力。正確的決策意味著競(jìng)爭(zhēng)力和盈利能力的飛躍,而錯(cuò)誤的決策能帶來(lái)毀滅性影響。在這種競(jìng)爭(zhēng)格局下,海量數(shù)據(jù)肯定會(huì)讓問(wèn)題更復(fù)雜。從即時(shí)社交媒體評(píng)論到上周的銷售交易數(shù)據(jù),再到數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的多年客戶購(gòu)買歷史數(shù)據(jù),即使是最小的決定,也必須考慮到數(shù)據(jù)量和數(shù)據(jù)的多樣性。10.4.3新的分析工具與方法10.4.1BI的常用技術(shù)10.4.2BI工具和方法的發(fā)展歷程現(xiàn)代分析決策影響著短期業(yè)務(wù)的執(zhí)行以及企業(yè)的長(zhǎng)期競(jìng)爭(zhēng)力。正確的決策意味著競(jìng)爭(zhēng)力和盈利能力的飛躍,而錯(cuò)誤的決策能帶來(lái)毀滅性影響。10.4業(yè)務(wù)用戶工具10.4.1BI的常用技術(shù)以下是商務(wù)智能中三種最常用的技術(shù):(1)報(bào)告和查詢。建立在一個(gè)傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)中,報(bào)告和查詢工具檢索、分析和報(bào)告存儲(chǔ)在基礎(chǔ)數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。報(bào)告和查詢工具的例子有SAPBusinessObjects和MicrosoftAccess/SQLServer。(2)線分析處理OLAP。允許用戶從多個(gè)維度來(lái)分析多維數(shù)據(jù),OLAP工具和應(yīng)用程序可以生成預(yù)制的數(shù)據(jù)集或信息“立方體”。OLAP工具的例子包括Essbase和CognosPowerPlay。10.4.1BI的常用技術(shù)(3)以電子表格為基礎(chǔ)的決策支持系統(tǒng)(DSS)。使用戶能夠分析數(shù)據(jù)的電子表格格式的專業(yè)應(yīng)用程序。以電子表格為基礎(chǔ)的DSS應(yīng)用的例子有MicrosoftExcel和企業(yè)績(jī)效管理(EPM)的解決方案,如OracleHyperion。數(shù)據(jù)分析師可以獲得功能強(qiáng)大的數(shù)據(jù)整合和分析工具,它們將不同來(lái)源的數(shù)據(jù)放入單一的工作流程中,可視化工具也使數(shù)據(jù)易于展示和使用——這些都是以前不一定能做到的。隨著商業(yè)進(jìn)程不斷加快,無(wú)論可用數(shù)據(jù)的數(shù)量還是種類都在呈指數(shù)級(jí)增長(zhǎng),傳統(tǒng)的商務(wù)智能(BI)工具未能以同樣的速度發(fā)展,數(shù)據(jù)分析師只能拼湊著定制解決方案和不同的工具,浪費(fèi)寶貴的時(shí)間和稀缺的預(yù)算。10.4.2BI工具和方法的發(fā)展歷程為了更好地理解傳統(tǒng)商務(wù)智能(BI)工具的局限性,我們來(lái)回顧一下BI工具和方法的發(fā)展歷程。在20世紀(jì)80年代初首次登上歷史舞臺(tái)后,早期的商務(wù)智能工具是建立在傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)之上的。利用ETL功能來(lái)將所需數(shù)據(jù)從原始形式(關(guān)系型或者其他形式)轉(zhuǎn)化為一個(gè)關(guān)系型數(shù)據(jù)模型,這樣分析師和其他用戶就可以使用報(bào)告和查詢工具對(duì)數(shù)據(jù)進(jìn)行檢索、分析和報(bào)告。
圖10-7傳統(tǒng)商務(wù)智能過(guò)程10.4.2BI工具和方法的發(fā)展歷程到20世紀(jì)90年代中期,數(shù)據(jù)量和速度的增長(zhǎng)比ETL工具的能力增長(zhǎng)更快,這產(chǎn)生了一個(gè)瓶頸。受數(shù)據(jù)復(fù)雜性所累,ETL工具艱難地在流程中做數(shù)據(jù)轉(zhuǎn)換,使得分析速度以及商業(yè)決策速度都變慢了。更麻煩的事情是,如果ETL邏輯里的任何一部分不正確,在這期間的所有轉(zhuǎn)換都需要重做,同時(shí)也要對(duì)新生成的數(shù)據(jù)進(jìn)行轉(zhuǎn)換。10.4.2BI工具和方法的發(fā)展歷程尋找規(guī)避ETL瓶頸的方法促使了一種新的商務(wù)智能范式的崛起,被稱為OLAP或聯(lián)機(jī)分析處理。OLAP工具允許用戶使用預(yù)制的數(shù)據(jù)集或信息“立方體”從幾個(gè)不同的角度來(lái)分析多維數(shù)據(jù)。立方體產(chǎn)生于一個(gè)數(shù)據(jù)庫(kù)中提取的相關(guān)信息,該數(shù)據(jù)庫(kù)采用有各種數(shù)據(jù)之間關(guān)系的多維數(shù)據(jù)模型,立方體允許用戶進(jìn)行復(fù)雜的分析和即席查詢,速度比以前快很多。
圖10-8OLAP多維數(shù)據(jù)集范例10.4.2BI工具和方法的發(fā)展歷程OLAP用戶將會(huì)使用三個(gè)基本操作中的一個(gè)或多個(gè)來(lái)分析立方體中的數(shù)據(jù)。(1)整合或匯總。在這些操作中,數(shù)據(jù)從一個(gè)或多個(gè)方面進(jìn)行匯總,例如,銷售部的所有銷售辦公室預(yù)測(cè)總體銷售趨勢(shì)和收入。(2)向下鉆取分析。相比于向上匯總,這些操作允許用戶對(duì)更具體的運(yùn)營(yíng)進(jìn)行分析,如確定每個(gè)單獨(dú)產(chǎn)品或SKU占公司總體銷售額的比例。(3)交叉分析。這些操作使得用戶能夠取出或切割來(lái)自于OLAP立方體和視圖,或不同角度子集的特定數(shù)據(jù)集來(lái)進(jìn)行各種分析。10.4.2BI工具和方法的發(fā)展歷程OLAP顯然已經(jīng)達(dá)到其能力極限。隨著商業(yè)進(jìn)程持續(xù)加快,需要快速進(jìn)行海量分析和快速場(chǎng)景的變換,OLAP在需要進(jìn)行快速?zèng)Q策的時(shí)代已經(jīng)變得不那么有用。為了適應(yīng)對(duì)分析速度和靈活性的要求,通過(guò)MicrosoftExcel發(fā)展出了一種可替代的方法。這種以電子表格為基礎(chǔ)的決策支持系統(tǒng)或DSS是一種使數(shù)據(jù)分析易于使用且高度靈活的專業(yè)應(yīng)用程序。它允許用戶手動(dòng)輸入數(shù)據(jù)或從數(shù)據(jù)庫(kù)中導(dǎo)出數(shù)據(jù),然后保存數(shù)據(jù)以便在工作表、宏和流程圖中的后續(xù)操作使用。這種靈活性的缺點(diǎn)是由于手動(dòng)數(shù)據(jù)輸入和剪切—粘貼信息會(huì)導(dǎo)致高錯(cuò)誤率。10.4.2BI工具和方法的發(fā)展歷程因?yàn)殪`活性高,電子表格決策支持系統(tǒng)的應(yīng)用程序仍然在使用。大多數(shù)數(shù)據(jù)分析師和他們的企業(yè)管理人員都同意這個(gè)觀點(diǎn),為了使決策支持系統(tǒng)應(yīng)用程序在尖端、高度復(fù)雜的分析中更有用,組織必須要招募昂貴而稀缺的分析師來(lái)編寫能在該表格數(shù)據(jù)上運(yùn)行的復(fù)雜代碼。通常這個(gè)代碼需要較長(zhǎng)的開(kāi)發(fā)周期,快速發(fā)展的企業(yè)沒(méi)有這么多時(shí)間來(lái)等待。10.4.2BI工具和方法的發(fā)展歷程許多需要進(jìn)行快速?zèng)Q策的組織意識(shí)到,上述舊范式已經(jīng)無(wú)法滿足他們目前的分析要求:·及時(shí)性——由于訪問(wèn)數(shù)據(jù)和迭代分析花了太長(zhǎng)時(shí)間,同時(shí)如果太昂貴以至于不能持續(xù)更新,大多數(shù)決策在做出時(shí)就已經(jīng)過(guò)時(shí)了。·準(zhǔn)確性——因?yàn)槟壳笆褂脷v史數(shù)據(jù)做出決策,而歷史數(shù)據(jù)并不是總能產(chǎn)生好的對(duì)未來(lái)的預(yù)測(cè),它們往往是不準(zhǔn)確的決策?!べ|(zhì)量——以質(zhì)量差的數(shù)據(jù)為核心,如果企業(yè)用戶沒(méi)有能力自己解決這些問(wèn)題,組織往往會(huì)做出質(zhì)量不好的決策?!は嚓P(guān)性——因?yàn)闆](méi)有現(xiàn)成
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年物業(yè)綠化管理外包合同
- 起床了小班主題教案
- 廣告招商合同范本
- 寄宿制工作計(jì)劃3篇
- 世說(shuō)新語(yǔ)讀書筆記范文800字左右
- 勵(lì)志題目演講稿300字10篇
- 創(chuàng)新網(wǎng)站建設(shè)方案5篇
- 《冬天》中班教案
- 2024年度工作總結(jié)
- 2025年系列活性精脫硫劑合作協(xié)議書
- 語(yǔ)言學(xué)綱要(學(xué)習(xí)指導(dǎo)修訂版)
- (2024年)常見(jiàn)傳染病診斷國(guó)家標(biāo)準(zhǔn)培訓(xùn)(完整版)
- 2023老年大學(xué)教師職責(zé)及選聘管理辦法
- 標(biāo)準(zhǔn)普爾家庭資產(chǎn)象限圖講解(四大賬戶)通用課件
- 干部基本信息審核認(rèn)定表
- 民間文學(xué)概論課件
- 響應(yīng)面分析軟件DesignExpert使用教程
- 2023-2024學(xué)年廣東省深圳市重點(diǎn)中學(xué)高考適應(yīng)性考試歷史試卷含解析
- 麻醉藥品管理培訓(xùn)課件
- 中建履約過(guò)程風(fēng)險(xiǎn)發(fā)函時(shí)點(diǎn)提示及函件指引(2023年)
- 不銹鋼管理制度
評(píng)論
0/150
提交評(píng)論