




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、干貨 :八個步驟讓你的企業(yè)全面“數(shù)據(jù)化”2016-05-24 數(shù)據(jù)分析什么樣的企業(yè)可以稱得上是大數(shù)據(jù)企業(yè)呢?恐怕沒有人能夠給出一個完美的答案。但是,直觀地,我們可能覺得Google 更像是一個大數(shù)據(jù)的企業(yè),阿里巴巴也像是一個大數(shù)據(jù)的企業(yè),而中國銀行似乎不太像一個大數(shù)據(jù)的企業(yè),盡管它每天也一樣浸泡在海量的數(shù)據(jù)中。除了具有處理大量數(shù)據(jù)的能力外,之所以Google 和阿里巴巴更像大數(shù)據(jù)的企業(yè),是因為他們有深入的數(shù)據(jù)分析工具,利用數(shù)據(jù)分析的結(jié)果直接指導決策,而且經(jīng)常推出基于數(shù)據(jù)分析的創(chuàng)新型應(yīng)用,這還不包括類似于AlphaGo 這樣的奇葩。這是我第三次以文字的形式談?wù)撊绾纬蔀橐粋€大數(shù)據(jù)企業(yè)。一
2、是很早以前在“科學網(wǎng)”上寫的一篇博客,二是為一本名為Code Halos 的書寫的序言。這個版本可以看作是上兩個版本的補充和擴充,同時也是本書一些重點內(nèi)容的重述(為了保證本文的獨立性,可以不依賴本書直接閱讀,少量書中給出過的文獻和注釋在本文中重復出現(xiàn)了)。然而遺憾的是,并沒有一條放之四海皆準的通往大數(shù)據(jù)企業(yè)的康莊大道,更沒有點石成金之術(shù)可以讓一個企業(yè)快速Google化。這篇結(jié)束語只是提出一些看得見摸得著的建議,藏在這些建議背后的大數(shù)據(jù)理念,或許更加重要。盡管我是用Step1、Step2 這樣的說法來列舉成為大數(shù)據(jù)企業(yè)的措施,但是這些步驟之間并沒有嚴格的邏輯上誰決定誰或者時間上誰先誰后的關(guān)系。舉
3、個例子來說,最好的辦法當然是先有了數(shù)據(jù)標準再整理采集數(shù)據(jù),這樣可以不走任何彎路,但實際上完全沒有數(shù)據(jù),企業(yè)不會有動力做標準建設(shè),做出來的標準也可能是紙上談兵,完全不實用。又比如,數(shù)據(jù)管理平臺的建設(shè)能夠幫助更好地進行全面數(shù)據(jù)化,但實際上它多半是全面數(shù)據(jù)化戰(zhàn)略進行了一定程度之后才開始啟動建設(shè)的??傮w來說,寫在更前面位置的,是更基礎(chǔ)的,但是沒有絕對的依賴關(guān)系。Step 1. 全面數(shù)據(jù)化“數(shù)據(jù)化”浪潮是整個大數(shù)據(jù)時代的起點,它強調(diào)數(shù)據(jù)就是資產(chǎn),記錄一切可以記錄的數(shù)據(jù),并相信這些數(shù)據(jù)一定會在某一天產(chǎn)生巨大的價值。顯然,數(shù)據(jù)化是一個企業(yè)能夠通過深入數(shù)據(jù)分析,實現(xiàn)自身優(yōu)化的基礎(chǔ)。我去長虹集團調(diào)研
4、的時候,他們告訴我,長虹電器在自己的生產(chǎn)線上,通過大量傳感器,記錄生產(chǎn)環(huán)境的溫度、濕度、粉塵度、振動強度和噪音強度,等等,通過這些量化指標與產(chǎn)品質(zhì)量的關(guān)聯(lián)分析,得到影響產(chǎn)品優(yōu)品率和良品率的關(guān)鍵因素,再進一步通過控制環(huán)境因素,明顯提高了產(chǎn)品的優(yōu)品率。企業(yè)在日常的經(jīng)營管理過程中,通過辦公自動化系統(tǒng)(OA系統(tǒng)),很多內(nèi)部即時通訊、郵件往來、工作分配和業(yè)務(wù)文件上傳下載等日志數(shù)據(jù)都被記錄下來了。這些數(shù)據(jù)就是寶貴的財富!我們通過對這些數(shù)據(jù)的分析,能夠更精確地預(yù)測員工的離職率和升職率,更精確地預(yù)測員工和部門的績效水平,幫助企業(yè)員工通過基于關(guān)聯(lián)用戶和文本智能匹配快速找到對自己現(xiàn)有業(yè)務(wù)和客戶有參考價值的案例和文
5、件,等等。但是這些提升,都是建立在企業(yè)擁有相應(yīng)數(shù)據(jù)的基礎(chǔ)上??偟膩碚f,全面數(shù)據(jù)化要求企業(yè)采集并存儲企業(yè)生產(chǎn)經(jīng)營中的一切數(shù)據(jù),形成企業(yè)數(shù)據(jù)資產(chǎn)的概念。Step 2. 整理數(shù)據(jù)資源,建立數(shù)據(jù)標準,形成管理規(guī)范很多企業(yè)已經(jīng)有了一些數(shù)據(jù)儲備,或者通過第一步,開始快速積累了一些數(shù)據(jù)。但是企業(yè)管理層,尤其是跨業(yè)態(tài)擁有多家子公司的集團運營的企業(yè),一般而言,對于自己到底有哪些數(shù)據(jù)資源是沒有清晰認識的,更拿不出一張較完備的數(shù)據(jù)目錄。企業(yè)要做的第一步,就是通過自頂向下的方式,成立數(shù)據(jù)委員會,在有必要的時候借助外部合作方的幫助,進行全面的數(shù)據(jù)調(diào)研,了解數(shù)據(jù)資源的整體情況并建立數(shù)據(jù)資源情況更新的流程和規(guī)范。數(shù)據(jù)資源最
6、基本的呈現(xiàn)方式是一個數(shù)據(jù)目錄,我認為,企業(yè)管理團隊至少要掌握整個企業(yè)數(shù)據(jù)的3級目錄,而企業(yè)的主要技術(shù)團隊應(yīng)該掌握到4級目錄。但數(shù)據(jù)資源又不僅僅是數(shù)據(jù)目錄,因為還涉及到每一個數(shù)據(jù)項的完備性、更新程度、有效性和噪音源等描述。掌握了數(shù)據(jù)資源后,企業(yè)要根據(jù)自己業(yè)務(wù)發(fā)展的需求,建立數(shù)據(jù)標準,使現(xiàn)有數(shù)據(jù)和未來所有的新增數(shù)據(jù)都能夠在同一個標準下統(tǒng)一管理,避免“信息系統(tǒng)建設(shè)越多,未來數(shù)據(jù)整合越難”的困境。業(yè)務(wù)中涉及大量數(shù)據(jù)的企業(yè),尤其是涉及到用戶隱私數(shù)據(jù)、國家安全數(shù)據(jù)和具有重要商業(yè)價值數(shù)據(jù)的企業(yè),要形成數(shù)據(jù)全流程管理的規(guī)范,因為絕大部分數(shù)據(jù)隱私和數(shù)據(jù)安全的事件,都不是從外部由黑客或者敵方特定人員通過技術(shù)手段獲
7、得的,而是本單位人員蓄意或無意泄露的。數(shù)據(jù)全流程管理的規(guī)范就是要做到企業(yè)能夠?qū)?shù)據(jù)進行分級分權(quán)限的管理,隨時了解敏感數(shù)據(jù)存儲在哪些服務(wù)器和終端設(shè)備上,對于敏感數(shù)據(jù)的任何處理,都能夠留下數(shù)據(jù)日志并打上唯一的數(shù)據(jù)水印,使任何可能的數(shù)據(jù)泄露之后,都能夠追根溯源知道是哪一位員工在什么時間點在哪一臺設(shè)備上運用何種權(quán)限下載的。對于一些操作過程中出現(xiàn)的風險點,良好的管理規(guī)范也能夠?qū)崟r發(fā)現(xiàn),防患于未然。Step 3. 建設(shè)數(shù)據(jù)管理平臺有的讀者一聽到數(shù)據(jù)管理平臺,就認為是要花一大筆錢建設(shè)數(shù)據(jù)中心,把數(shù)據(jù)存起來。數(shù)據(jù)管理平臺肯定要有數(shù)據(jù)中心的存儲災(zāi)備功能,但是它的作用遠不止此。首先,數(shù)據(jù)管理平臺要為企業(yè)量身定做一
8、套數(shù)據(jù)組織和管理的解決方案,特別是企業(yè)各部門之間數(shù)據(jù)的共融共通,以及企業(yè)數(shù)據(jù)怎么樣進行索引和關(guān)聯(lián)。很多大企業(yè),各部門之間數(shù)據(jù)的格式、形態(tài)和ID系統(tǒng)都不一致,部門之間無法交換數(shù)據(jù),甚至大部分的數(shù)據(jù)表連主鍵和外鍵都沒有,數(shù)據(jù)之間不可能形成有效的組織。這些都是數(shù)據(jù)管理平臺要做的事情。其次,數(shù)據(jù)管理平臺是由業(yè)務(wù)所引導的,先進的流數(shù)據(jù)智能處理系統(tǒng),要為業(yè)務(wù)提供直接的支撐。很多時候,數(shù)據(jù)管理平臺怎么搭建,需要深度了解企業(yè)最重要的核心業(yè)務(wù),通過有重大價值的示范性應(yīng)用來牽引數(shù)據(jù)管理平臺的建設(shè)。例如針對零售類的企業(yè),就應(yīng)該形成以消費者為中心的索引和畫像系統(tǒng),主要支持精準廣告、智能客服等核心業(yè)務(wù),其次才是以商品為
9、中心的索引系統(tǒng),主要支持物流和倉儲優(yōu)化等業(yè)務(wù)。最后,數(shù)據(jù)管理平臺的建設(shè)要量體裁衣,強調(diào)魯棒性和可擴展性,沒有必要一開始就投入大量經(jīng)費。因為硬件成本的下降也很快,不用想太多半年甚至一年以后的事情,只要架構(gòu)設(shè)計合理,到需要的時候擴充硬件是容易的。Step 4. 建立海量數(shù)據(jù)的深入分析能力要想建立針對多元異構(gòu)、跨域關(guān)聯(lián)的海量數(shù)據(jù),通過深度分析挖掘獲取價值的能力,主要要培養(yǎng)兩個方面的能力。第一,非結(jié)構(gòu)化數(shù)據(jù)的分析處理能力。包括文本、音頻、圖像、視頻、網(wǎng)絡(luò)和軌跡等數(shù)據(jù)。受過傳統(tǒng)商務(wù)智能和統(tǒng)計學訓練的人,對于處理結(jié)構(gòu)化數(shù)據(jù)非常在行,但是處理非結(jié)構(gòu)化數(shù)據(jù)往往比較頭痛比如分布好做抽樣,網(wǎng)絡(luò)怎么進行抽樣?所以,
10、對于常見的,特別是和企業(yè)自身業(yè)務(wù)有密切關(guān)系的非結(jié)構(gòu)化數(shù)據(jù),一定要有一支隊伍能夠挖掘其間價值,甚至將其轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù)。第二,大數(shù)據(jù)下的機器學習的能力。絕大部分我們可以想象到的應(yīng)用問題,其本質(zhì)都是分類或者預(yù)測問題,包括個性化推薦、精分營銷、員工績效管理、銀行信用卡征信、小微企業(yè)貸款、生產(chǎn)線控制、精準廣告和網(wǎng)點選擇,等等。解決這些問題最有力的武器就是機器學習!特別是在大數(shù)據(jù)環(huán)境下,很多高階的核函數(shù)慢得不行,大量的學習都必須采用線性學習器;而且數(shù)據(jù)非常多,很多時候都是在強噪音環(huán)境下尋找弱信號,單一分類器往往效果一般,必須要做集成學習。舉個例子,在Netflix舉辦的百萬美元電影個性化推薦大賽中,我
11、們做過一些很優(yōu)美的單模型,但是比起在比賽中最后獲勝的集成學習模型,至少從精度上來說是弱爆了!有的讀者要問了,高性能存儲計算難道不重要嗎?不得有一些懂Hadoop,懂Spark的技術(shù)高手嗎?要不要在CPU陣列里面加幾塊GPU甚至可編程邏輯陣列呢?這個也重要,但是企業(yè)如果實力足夠,可以采用成熟的解決方案,國際上頂尖的大數(shù)據(jù)服務(wù)商,例如IBM、HP和Intel都有不錯的方案。但是我說的上述兩點,是給企業(yè)培養(yǎng)人才和能力,而且至今也沒有特別好的成熟的解決方案,所以更重要。最后,企業(yè)怎么建立這樣的能力呢?首要辦法是能夠招聘到一流的大數(shù)據(jù)人才多花點錢和股票。第二選擇是以顯示度項目為牽引,通過外部合作,培養(yǎng)自
12、己的數(shù)據(jù)分析團隊,既解決問題,又學習能力。企業(yè)做這類的合作,不要老想著一次性把所有東西都外包出去,要探索新方式,看看能不能成立聯(lián)合小組共同進行研發(fā),多投入一些人去學習。有一些供應(yīng)商,特別是在某些方面有專長,但是還不屬于國際一流的供應(yīng)商,在發(fā)展過程中是能夠接受企業(yè)這種要求的。Step 5. 建設(shè)外部數(shù)據(jù)的戰(zhàn)略儲備企業(yè)走到這一步,就有點現(xiàn)代大數(shù)據(jù)企業(yè)的理念了,因為它不再僅僅局限于自己業(yè)務(wù)的數(shù)據(jù)了,開始看外面的世界了很多大數(shù)據(jù)的重大創(chuàng)新,都是來源于把數(shù)據(jù)放在產(chǎn)生數(shù)據(jù)的業(yè)務(wù)體系之外去應(yīng)用。舉個例子,一個服裝企業(yè)要解決設(shè)計生產(chǎn)的規(guī)劃問題,僅僅看自己的銷售記錄還不夠,要不要看看淘包、天貓和京東上服裝的整體
13、銷售,了解什么款式、什么顏色、什么價位的服裝在哪個地區(qū)最受歡迎呢?這就需要外部數(shù)據(jù)了!事實上,外部數(shù)據(jù)對于市場拓展、趨勢分析、競品分析、人才招聘、用戶畫像和產(chǎn)品推薦等意義重大,而網(wǎng)站、論壇、社交媒體和電商平臺上聚集了很多有重要價值的公開數(shù)據(jù),這些數(shù)據(jù)中的大部分可以通過分布式深網(wǎng)爬蟲技術(shù)直接高效采集。所以,企業(yè)要有意識地開始建立自己的外部數(shù)據(jù)戰(zhàn)略儲備,不要“數(shù)”到用時方恨少。一方面,企業(yè)可以自建具備采集、清洗、存儲和索引等功能的自動化系統(tǒng),自動積累外部數(shù)據(jù);另一方面,企業(yè)可以通過和數(shù)據(jù)供應(yīng)商合作,得到一些亟需的數(shù)據(jù)。Step 6. 建立數(shù)據(jù)的外部創(chuàng)新能力企業(yè)很容易局限在自己的業(yè)務(wù)中不能自拔。所以
14、,讓企業(yè)理解外面的數(shù)據(jù)能夠幫助解決自己業(yè)務(wù)遇到的問題比較容易,因為企業(yè)主和員工們每天都在想怎么解決這些問題,反過來,讓他們?nèi)ニ伎甲约簶I(yè)務(wù)的數(shù)據(jù)能不能在其他地方產(chǎn)生重大價值,幫到其他企業(yè),他們就沒有那么敏感了。其實,這些創(chuàng)新性的想法往往能夠帶來新的巨大價值。比如,Google利用自身搜索業(yè)務(wù)產(chǎn)生的數(shù)據(jù),進行電價和傳染病流行情況的預(yù)測,取得了巨大成功。事實上,企業(yè)通過智能終端、傳感網(wǎng)絡(luò)、物流記錄、網(wǎng)點記錄和電子商務(wù)平臺,等等,獲得的第一手數(shù)據(jù),很多都可以用于支持在跨領(lǐng)域交叉銷售、環(huán)境保護、健康管理、智慧城市、精準廣告和房地價預(yù)測等方面的創(chuàng)新型應(yīng)用。把握住這些機會,就能夠放大企業(yè)當前業(yè)務(wù)的價值,帶來
15、持久可觀的收益。Step 7. 推動自身數(shù)據(jù)的開放與共享偉大的企業(yè)懂得如何把最聰明的人集合起來,為自己服務(wù)。企業(yè)有了大量數(shù)據(jù)和一定的分析能力后,不能故步自封,而要充分借助社會的力量,盡最大可能發(fā)揮數(shù)據(jù)潛藏的價值。Netflix曾經(jīng)公開了包含50多萬用戶和17 770部電影的在線評分數(shù)據(jù),并懸賞100萬美元獎勵能夠?qū)etflix現(xiàn)有評分預(yù)測準確度提高10%的團隊?,F(xiàn)在的Netflix已經(jīng)不再是一家電影在線租賃公司,而是國際一流的大數(shù)據(jù)企業(yè)了。除了法律上因為安全和隱私不能開放共享的數(shù)據(jù),相當一部分都能夠以各種方式開放出來這種開放會帶來更大價值!國際化的如 Kaggle(英文平臺,),國內(nèi)如 Da
16、taCastle(中文平臺,),都是很有影響力的大數(shù)據(jù)創(chuàng)新競賽平臺。舉個例子,電子科技大學大數(shù)據(jù)研究中心曾經(jīng)在DataCastle上舉辦過學生成績預(yù)測的比賽,總獎金才50 000元,卻吸引了915支隊伍2 000余名參賽者參加比賽,其中200多只隊伍來自于“985”和“211”知名高校。這里面最佳解決方案的思路和方法已經(jīng)被應(yīng)用于教育大數(shù)據(jù)定量化管理的產(chǎn)品模塊中了。最近現(xiàn)金巴士推出的“微額借貸用戶人品預(yù)測大賽”更是吸引了1531支參賽隊伍。還有一種最近新出的比賽方式,就是企業(yè)給出數(shù)據(jù)集的描述和樣本數(shù)據(jù),參賽選手設(shè)計創(chuàng)新型商業(yè)應(yīng)用,提交產(chǎn)品說明或者商業(yè)計劃書。企業(yè)通過這些數(shù)據(jù)開放計劃,可以學習最先進的算法和最具創(chuàng)新性的數(shù)據(jù)應(yīng)用思路,實現(xiàn)自身數(shù)據(jù)的價值最大化。Step 8. 數(shù)據(jù)產(chǎn)業(yè)的戰(zhàn)略投資布局企業(yè)有了一定的規(guī)模,光靠自己的能力還不夠或者還太慢,就可以考慮通過投資的方式迅速形成自己的大數(shù)據(jù)能力甚至大數(shù)據(jù)產(chǎn)業(yè)布局。這類戰(zhàn)略型的投資,有三個可能的出發(fā)點:(1) 產(chǎn)業(yè)集成。從投資方原有優(yōu)勢產(chǎn)業(yè)或大數(shù)據(jù)前景廣闊的重點產(chǎn)業(yè)入手,進行全產(chǎn)業(yè)鏈布局,集中力量。(2) 技術(shù)集成。以數(shù)據(jù)采集、存儲、計算、分析和可視化的創(chuàng)新型工具為主要投資對象,提供具有普適性的解決方案。(3) 數(shù)據(jù)集成。以數(shù)據(jù)流動共享,發(fā)揮外部價
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 房地產(chǎn)行業(yè)投資發(fā)展部崗位職責
- 幼兒園學期體育鍛煉活動計劃
- 實踐活動說課課件
- 一年級語文詞匯量提升計劃
- 2025年蘇教版一年級數(shù)學上冊心理輔導計劃
- 小班傳統(tǒng)文化體驗活動安排
- 中國輪胎翻新加工項目創(chuàng)業(yè)計劃書
- 重慶中藥材項目可行性研究報告
- 制造業(yè)工程項目管理流程指南
- 中小學2025年適應(yīng)性應(yīng)急演練計劃
- 安徽省2024年普通高校招生普通本科批院校投檔分數(shù)及名次(物理科目組合)
- 第二講中國經(jīng)濟行穩(wěn)致遠-2025年春季學期 形勢與政策課件
- 二級建造師繼續(xù)教育題庫(帶答案)
- 通信四網(wǎng)合一施工方案
- 2025年全球及中國環(huán)模式RDF制粒機行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 市場監(jiān)管投訴舉報培訓
- 《新能源乘用車二手車鑒定評估技術(shù)規(guī)范 第1部分:純電動》
- 課題申報參考:西藏地方與祖國關(guān)系史融入當?shù)馗咝!爸腥A民族共同體概論”課教學研究
- 【MOOC】《C++程序設(shè)計基礎(chǔ)》(華中科技大學)章節(jié)作業(yè)中國大學慕課答案
- 《南方航空公司匯率風險管理策略案例分析》
- 防范化解矛盾糾紛安全
評論
0/150
提交評論