版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大數據運營概述本章知識點(1)理解大數據的概念(2)了解數據化運營的概念(3)掌握數據化運營的主要內容(4)掌握大數據運營的應用場景以及在企業(yè)中的運用案例01大數據及其特點02大數據的應用03數據化運營04數據化運營的意義PART01大數據及其特點大數據的概念數據數據是指對客觀事件進行記錄并可以鑒別的符號,是對客觀事物的性質、狀態(tài)以及相互關系等進行記載的物理符號或這些物理符號的組合。它是可識別的、抽象的符號。信息主要采用數據形式來表示信息與數據既有聯(lián)系,又有區(qū)別。數據是信息的載體,可以是符號、文字、數字、語音、圖像、視頻等。而信息是數據的內涵,信息是加載于數據之上,對數據做具有含義的解釋。數據和信息是不可分離的,信息依賴數據來表達,數據則生動具體地表達出信息。數據是符號,是物理性的,信息是對數據進行加工處理之后所得到的并對決策產生影影響的數據,是邏輯性和觀念性的;數據是信息的表現(xiàn)形式,信息是數據有意義的表示。數據本身沒有意義,只有對實體行為產生影響時數據才成為信息。大數據的概念大數據大數據是指在獲取、存儲、管理、分析等方面大大超出傳統(tǒng)數據庫軟件工具能力范圍的數據集合,并具有海量的數據規(guī)模、快速的數據流轉、多樣的數據類型和價值密度低等四大特征,在數據行業(yè),要實現(xiàn)數字產業(yè)化,產業(yè)數字化,前提是要有海量數據。大數據作為當今社會最先進的技術之一,已經深刻地影響和改變著當今人類社會。數據在我們的生活中無處不在,如清晨起床我們用手機打開新聞資訊,此時就產生了數據;早高峰乘坐地鐵,刷二維碼進站又產生了數據;打開購物網站,下單購買商品,還是會產生數據生活在當今這個高度信息化的社會:一切行為幾乎都可以用數據來描述,這種情況幾乎發(fā)生在每個人的身上(見圖)。每時每刻都有上億條數據產生,這些海量數據流入那些提供互聯(lián)網服務的公司,存儲在他們的系統(tǒng)中。如果不對其加以利用,這些數據只會給系統(tǒng)造成沉重的負擔,但如果善于挖掘,這些數據就可以產生巨大的商業(yè)價值。大數據的特征大數據的起始計量單位至少是P(1000個TE(100萬個T)或Z(10億個T)。截至目前,人類生產的所有印刷材料的數據量是200PB(1PB=210TB),當前,典型個人計算機硬盤的容量為TB量級,而一些大企業(yè)的數據量已經接近EB量級。根據國際數據資訊(IDC)公司監(jiān)測全球數據量大約每兩年就翻一番預計到2025年,全球數據使用量將達到163EB并且85%以上的數據是以非結構化或半結構化的形式存在的。
數據體量巨大Volume數據類型的多樣性也讓數據被分為結構化、半結構化和非結構化數據。相對于以往便于存儲的以文本為主的結構化數據,非結構化數據越來越多,包括網絡日志、音頻、視頻、圖片、地理位置信息等,這些多類型的數據對數據的處理能力提出了更高的要求。數據類型繁多Variety數據價值密度的高低與數據總量的大小成反比。在大數據時代,越來越多的數據都是半結構化和非結構化數據,比如網站訪問日志,里面大量的內容都是沒有價值的,真正有價值的數據比較少,雖然數據量比以前大了N倍,但價值密度確實低了很多。所以如何通過強大的機器算法更迅速地完成數據的價值“提純”成為目前大數據背景下待解決的難題。數據價值密度低Value隨著互聯(lián)網、計算機技術的發(fā)展,數據生成、存儲、分析、處理的速度遠遠超出人們的想象,這是大數據區(qū)別于傳統(tǒng)數據的顯著特征。隨著新數據的不斷出現(xiàn),人們對數據處理的速度提出了越來越高的要求,所以處理數據的效率就是企業(yè)的生命線。數據處理速度快Velocity業(yè)界通常用體量(volume)、種類(variety)、價值(value)、速度(velocity),即4v特征來概括大數據的特征大數據的發(fā)展歷程數據是通過觀察、實驗或計算得出的結果。數據和信息是兩個不同的概念。信息是較為宏觀的概念,它由數據的有序排列組合而成,傳達給讀者某個概念方法等;而數據則是構成信息的基本單位,離散的數據沒有任何實用價值。隨著人類社會信息化進程的加快,我們在日常生產和生活中每天都會產生大量的數據,比如商業(yè)網站、政務系統(tǒng)、零售系統(tǒng)、辦公系統(tǒng)、自動化生產系統(tǒng)等。數據已經滲透到當今每一個行業(yè)和業(yè)務職能領域,成為重要的生產因素,從新到所有決策,數據推動著企業(yè)的發(fā)展,并使得各級組織的運營更為高效,可以這樣說,數據已成為每個企業(yè)獲取核心競爭力的關鍵要素。數據資源已經和物質資源、人力資源一樣成為國家的重要戰(zhàn)略資源,影響著國家和社會的安全、穩(wěn)定與發(fā)展,因此,數據也可稱為“未來的石油”。數據產生方式的變革是促成大數據時代來臨的重要因素。大數據的發(fā)展歷程數據產生方式的變革,是促成大數據時代來臨的重要因素??傮w而言,人類社會的數據產生方式大致經歷了3個階段:運營式系統(tǒng)階段、用戶原創(chuàng)內容階段和感知式系統(tǒng)階段。運營式系統(tǒng)階段人類社會最早大規(guī)模管理和使用數據,是從數據庫的誕生開始的。大型零售超市銷售系統(tǒng)、銀行交易系統(tǒng)、股市交易系統(tǒng)、醫(yī)院醫(yī)療系統(tǒng)、企業(yè)客戶管理系統(tǒng)等大量運營式系統(tǒng),都是建立在數據庫基礎之上的,數據庫中保存了大量結構化的企業(yè)關鍵信息,用來滿足企業(yè)各種業(yè)務需求。在這個階段,數據的產生方式是被動的,只有當實際的企業(yè)業(yè)務發(fā)生時,才會產生新的記錄并存入數據庫。比如,對于股市交易系統(tǒng)而言,只有當發(fā)生一筆股票交易時,才會有相關記錄生成。用戶原創(chuàng)內容階段互聯(lián)網的出現(xiàn),使得數據傳播更加快捷,不需要借助于磁盤、磁帶等物理存儲介質傳播數據,網頁的出現(xiàn)進一步加速了大量網絡內容的產生,從而使得人類社會數據量開始呈現(xiàn)“井噴式”增長。但是,互聯(lián)網真正的數據爆發(fā)產生于以“用戶原創(chuàng)內容”為特征的Web2.0時代。Web1.0時代主要以門戶網站為代表,強調內容的組織與提供,大量上網用戶本身并不參與內容的產生。而Web2.0技術以Wiki、博客、微博、微信等自服務模式為主,強調自服務,大量上網用戶本身就是內容的生成者,尤其是隨著移動互聯(lián)網和智能手機終端的普及,人們更是可以隨時隨地使用手機發(fā)微博、傳照片,數據量開始急劇增加。感知式系統(tǒng)階段物聯(lián)網的發(fā)展最終導致了人類社會數據量的第三次躍升。物聯(lián)網中包含大量傳感器,如溫度傳感器、濕度傳感器、壓力傳感器、位移傳感器、光電傳感器等,此外,視頻監(jiān)控攝像頭也是物聯(lián)網的重要組成部分。物聯(lián)網中的這些設備,每時每刻都在自動產生大量數據,與Web2.0時代的人工數據產生方式相比,物聯(lián)網中的自動數據產生方式,將在短時間內生成更密集、更大量的數據,使得人類社會迅速步入“大數據時代”。大數據的發(fā)展歷程大數據的發(fā)展歷程總體上可以劃分為3個重要階段:萌芽期、成熟期和大規(guī)模應用期20世紀90年代至21世紀初隨著數據挖掘理論和數據庫技術的逐步成熟,一批商業(yè)智能工具和知識管理技術開始被應用,如數據倉庫、專家系統(tǒng)、知識管理系統(tǒng)等第一階段:萌芽期21世紀前10年Web2.0應用迅猛發(fā)展,非結構化數據大量產生,傳統(tǒng)處理方法難以應對,帶動了大數據技術的快速突破,大數據解決方案逐漸走向成熟形成了并行計算與分布式系統(tǒng)兩大核心技術,谷歌的GFS和MapReduce等大數據技術受到追捧,Hadoop平臺開始大行其道第二階段:成熟期2010年以后大數據應用滲透各行各業(yè),數據驅動決策,信息社會智能化程度大幅第三階段:大規(guī)模應用期大數據的發(fā)展歷程時間事件1980年著名未來學家阿爾文·托夫勒在《第三次浪潮》一書中,將大數據熱情地贊頌為“第三次浪潮的華彩樂章”。1997年10月邁克爾·考克斯和大衛(wèi)·埃爾斯沃思在第八屆美國電氣和電子工程師協(xié)會(IEEE)關于可視化的會議論文集中,發(fā)表了《為外存模型可視化而應用控制程序請求頁面調度》的文章,這是在美國計算機學會的數字圖書館中第一篇使用“大數據”這一術語的文章。1999年10月在美國電氣和電子工程師協(xié)會(IEEE)關于可視化的年會上,設置了名為“自動化或者交互:什么更適合大數據?”的專題討論小組,探討大數據問題。2001年2月梅塔集團分析師道格·萊尼發(fā)布題為《3D數據管理:控制數據容量、處理速度及數據種類》的研究報告。10年后,“3V”(Volume、Variety和Velocity)作為定義大數據的三個維度而被廣泛接受。2005年9月蒂姆·奧萊利發(fā)表了《什么是Web2.0》一文,并在文中指出“數據將是下一項技術核心”。2008年《自然》雜志推出大數據???;計算社區(qū)聯(lián)盟(ComputingCommunityConsortium)發(fā)表了報告《大數據計算:在商業(yè)、科學和社會領域的革命性突破》,闡述了大數據技術及其面臨的一些挑戰(zhàn)。2010年2月肯尼斯·庫克爾在《經濟學人》上發(fā)表了一份關于管理信息的特別報告《數據,無所不在的數據》。大數據的發(fā)展歷程時間事件2011年2月《科學》雜志推出??短幚頂祿?,討論了科學研究中的大數據問題。2011年維克托·邁爾·舍恩伯格出版著作《大數據時代:生活、工作與思維的大變革》,引起轟動。2011年5月麥肯錫全球研究院發(fā)布《大數據:下一個具有創(chuàng)新力、競爭力與生產力的前沿領域》,提出“大數據”時代到來。2012年3月美國奧巴馬政府發(fā)布了《大數據研究和發(fā)展倡議》,正式啟動“大數據發(fā)展計劃”,大數據上升為美國國家發(fā)展戰(zhàn)略,被視為美國政府繼信息高速公路計劃之后在信息科學領域的又一重大舉措。2013年12月中國計算機學會發(fā)布《中國大數據技術與產業(yè)發(fā)展白皮書》,系統(tǒng)總結了大數據的核心科學與技術問題,推動了我國大數據學科的建設與發(fā)展,并為政府部門提供了戰(zhàn)略性的意見與建議。2014年5月美國政府發(fā)布2014年全球“大數據”白皮書《大數據:抓住機遇、守護價值》,報告鼓勵使用數據來推動社會進步。2015年8月國務院印發(fā)《促進大數據發(fā)展行動綱要》,全面推進我國大數據發(fā)展和應用,加快建設數據強國。大數據的發(fā)展歷程時間事件2016年5月在“2016大數據產業(yè)峰會”上工信部透露,我國將制定出臺大數據產業(yè)“十三五”發(fā)展規(guī)劃,有力推進我國大數據技術創(chuàng)新和產業(yè)發(fā)展。2017年9月公安部第三研究所授予貴陽大數據交易所"eID網絡身份服務機構"資質證書成立國內首個數據交易合規(guī)化研究實驗項目。2018年2月,中國人民銀行正式下發(fā)銀征信許準予字2018第1號許可文件,設立首張經營個人征信業(yè)務的機構許可信息表。3月,我國數據管理領域首個國家標準《數據管理能力成熟度評估模型》正式發(fā)布。2019年10月在第六屆世界互聯(lián)網大會期間組織召開了“國家數字經濟創(chuàng)新發(fā)展試驗區(qū)啟動會”,并發(fā)布了《國家數字經濟創(chuàng)新發(fā)展試驗區(qū)實施方案》,正式啟動河北省(雄安新區(qū))、浙江省、福建省、廣東省、重慶市、四川省等6個國家數字經濟新發(fā)展試驗區(qū)建設工作。2020年突如其來的新冠肺炎疫情,為各行各業(yè)帶來了前所未有的挑戰(zhàn)。然而,在危機中,以大數據等為代表的新一代信息技術在疫情監(jiān)測分析、人員管控、醫(yī)療救治、復工復產等方面提供了強大支撐,各種新業(yè)態(tài)、新模式不斷涌現(xiàn)。數字化驅動的技術和產業(yè)變革加速發(fā)展,大數據技術、產業(yè)和應用逆勢而上,數據的作用在各行各業(yè)中大放異彩,“數據驅動”的價值深入人心。2021年3月,北京市經濟和信息化局會同北京市金融局、北京市商務局、北京市委網信辦等部門,組織北京金控集團牽頭發(fā)起成立北京國際大數據交易有限公司,這是國內首家基于“數據可用不可見,用途可控可計量”新型交易范式的數據交易所。2021年11月,工信部印發(fā)《“十四五”大數據產業(yè)發(fā)展規(guī)劃》,在響應國家“十四五”規(guī)劃的基礎上,圍繞“價值引領、基礎先行、系統(tǒng)推進、融合創(chuàng)新、安全發(fā)展、開放合作”六大基本原則,針對“十四五”期間大數據產業(yè)的發(fā)展制定了5個發(fā)展目標,大主要任務,6項具體行動以及6個方面的保障措施,同時指出在當前我國邁入數字經濟的關鍵時期,大數據產業(yè)將步入“集成創(chuàng)新、快速發(fā)展、深度應用、結構優(yōu)化”的高質量發(fā)展新階段。PART02大數據的應用大數據的應用隨著互聯(lián)網和智能設備的應用和普及,大量數據正在不斷產生,并呈爆發(fā)式增長趨勢。大數據對物理學、生物學、環(huán)境生態(tài)學等領域以及軍事、農業(yè)、金融、通信等行業(yè)已造成深刻影響,據調查,企業(yè)內部的運營交易信息、互聯(lián)網技術中的產品貨運物流信息、人和人之間互動信息、位置信息等數據,每2~3年時間便會成倍增加。信息是當代企業(yè)的關鍵資源,是企業(yè)應用創(chuàng)新管理、決策分析的基本。這種數據有著極大的經濟收益,可是企業(yè)所關心的數據一般只占總數據量的2%~4%,使企業(yè)無法最大化地運用已有的數據資源,以至于消耗了大量的時間和資產,也喪失制訂重要商業(yè)服務管理決策的最好時機,針對一般的企業(yè)來講,大數據的功效具體表現(xiàn)在兩個層面。協(xié)助企業(yè)搜集信息大數據可以根據相關分析,將顧客和商品、服務項目進行串聯(lián),對用戶的喜好開展精準定位,進而提供更精確、更有主導性的商品和服務項目,從而提高銷售額。典型性的案例如電子商務。像阿里巴巴淘寶網那樣的電商服務平臺,累積了很多的用戶選購數據。在初期,這些數據基本上是負累和壓力,因為存儲數據必須支付很高的硬件配置成本費。但是,如今這些數據全是阿里巴巴最珍貴的財富。大數據還可以對業(yè)績產生直接影響,它的高效率轉化和精確性,遠遠地超出傳統(tǒng)式的用戶調查。除了電子商務,還包含能源、影視、證券、金融、農業(yè)、工業(yè)、交通運輸、公共事業(yè)等行業(yè)都是大數據的用武之地。協(xié)助企業(yè)分析決策除幫助企業(yè)掌握用戶數據以外,大數據還能讓企業(yè)更加精準地認識自己。企業(yè)運營需要很多的資源,大數據能夠剖析和鎖住資源的詳細情況,比如儲藏量遍布和要求的發(fā)展趨勢。這種資源的數據可視化能夠協(xié)助企業(yè)管理人員更形象化地掌握企業(yè)的運行情況,迅速地發(fā)現(xiàn)問題,并立即調整運營策略,減少財務風險??偟膩碚f,“知彼知己,百戰(zhàn)不殆”,大數據是為管理者提供決策服務最有力的依據。對于企業(yè)來說,大數據服務的目標可以歸結為“降本增效”四個字。企業(yè)可以借助大數據服務做精準化營銷,將企業(yè)的產品有效地傳遞給有此需求的用戶,在為客戶創(chuàng)造價值的同時增加企業(yè)收入。企業(yè)還可以借助大數據了解客戶的偏好,從而更好地為客戶提供服務,提升客戶感知水平。雖然提升客戶服務體驗并沒有直接為企業(yè)帶來收入,但是通過這種方式提升了企業(yè)在客戶心中的形象,使得客戶獲取企業(yè)服務更加便捷、高效,客戶也因此更喜歡購買企業(yè)的產品,從而增加了企業(yè)的收入。企業(yè)可以借助大數據服務降低成本。從費用支出的類型角度看,成本消耗主要分為屬于投資建設的CAPAX資本性支出投資和業(yè)務運營的。PEX(運營資出)投資兩部分,因此企業(yè)可以借助大數據服務降低這兩部分投資,比如在降低CAPAX投資方面,可以以用戶價值為中心進行資源的建設,避免因為靠“假設”“猜想”而造成投資浪費。在降低OPEX投資方面,企業(yè)可以借助大數據服務來發(fā)現(xiàn)企業(yè)流程中存在的問題,通過流程優(yōu)化來提高運營效率,從而降低企業(yè)的整體運營成本。大數據的應用(1)大數據助力政府部門完成市場經濟體制管控、公共衛(wèi)生服務安全防護、災禍預警信息、社會發(fā)展輿論導向;協(xié)助城市犯罪預防,實現(xiàn)智慧交通,提高應急能力;電力企業(yè)會根據大數據實時做數據的檢測和預測分析,使我們更強、更便捷地做這類電力工程的生產調度。(2)大數據在醫(yī)療中也有比較廣泛的應用。例如,基因工程技術及其病癥的預測分析剖析、手術治療計劃方案等都會用到大數據。大數據協(xié)助定點醫(yī)療機構創(chuàng)建患者的病癥風險性追蹤體制,協(xié)助醫(yī)藥企業(yè)提高藥物臨床醫(yī)學的實際效果,協(xié)助科學研究組織為病人提供定制化的藥品。(3)大數據幫助電商公司向用戶推薦商品和服務旅行網站為游客提供心愛的旅游線路,二手市場的買賣方尋找最好的買賣總體目標,用戶可以更快尋找到最好的產品選購階段、店家及最優(yōu)惠價。(4)大數據助力企業(yè)提高營銷推廣的針對性,減少物流和庫存量的成本,降低項目投資的風險性,及其協(xié)助企業(yè)提高廣告營銷精確度。例如,云鯨大數據助力各行業(yè)直接獲得相關App/網站用戶的訪客信息,這在很大程度上減少了企業(yè)推廣或引流的成本,就可以直達意向用戶。PART03數據化運營數據化運營概況數據化運營是指通過數據化的工具、技術和方法,對運營過程中的各個環(huán)節(jié)進行科學的分析,為數據使用者提供專業(yè)、準確的行業(yè)數據解決方案,從而達到優(yōu)化運營效果和效率、降低運營成本、提高效益的目的。數據化運營的本質還是運營,“數據化”僅僅是方法和手段,“運營”才是核心和目的,用數據指導業(yè)務運營的決策,提升業(yè)務運營的效率,實現(xiàn)業(yè)務增長的目標。數據化運營不等于數據分析,數據分析僅僅是數據化運營的一個關鍵環(huán)節(jié)和重要手段。數據化運營是基于數據去發(fā)現(xiàn)問題,分析問題,然后通過運營的手段找到問題的解決辦法并付諸實踐的閉環(huán)工作。企業(yè)中的數據從產生到應用,需要經過數據源層、數據倉庫層、數據建模層、數據應用層,經過層層的加工,將原始數據經過數據清洗、數據建模、再到數據挖掘,最終在應用層產生價值,實現(xiàn)面向用戶的智能營銷和個性化內容的推薦,從而實現(xiàn)降本增效的運營目的。數據化運營基本概念數據化運營概況隨著信息化時代的來臨及全球數字化浪潮的推進,企業(yè)在運營中都產生海量的數據,這些數據是實現(xiàn)商業(yè)智能的基礎。例如,沃爾瑪“啤酒與尿布”的經典案例就是數據實現(xiàn)商業(yè)智能的一個體現(xiàn)。1987年,沃爾瑪完成了公司內部的衛(wèi)星系統(tǒng)的安裝,該系統(tǒng)使得總部,分銷中心和各個商場之間可以實現(xiàn)實時、雙向的數據和聲音傳輸,從運營數據中發(fā)現(xiàn)了“啤酒與尿布”關聯(lián)。如今,沃爾瑪的數據倉庫中存儲著沃爾瑪數千家連鎖店在65周內每一筆銷售的詳細記錄,通過這些數據,業(yè)務員可以分析顧客的購買行為,從而供應最佳的銷售服務。數據化運營基本概念數據化運營概況企業(yè)大數據發(fā)展的階段性根據企業(yè)的數據量、數據更新速度、數據應用程度、數據平臺建設及應用能力進行如下劃分:1)無平臺階段在該階段,企業(yè)的數據量較少,且數據腳本零散地存儲在不同的地方。信息處理主要靠人工進行,管理者和運營人員不會過多關注數據,有時階段性地觀察一下宏觀的數據而且企業(yè)也沒有數據平臺2)小型數據平臺階段處于小型數據平臺階段的企業(yè),擁有一些數據儲備,且各部門定期有數據需求,需要搭建小型數據平臺,用以獲取核心數據指標。小型數據平臺的開發(fā)周期較短,工作量也較少3)中型數據平臺階段處于中型數據平臺階段的企業(yè),數據量大且數據更新速度較快,管理者做出決策需要依靠數據,這個階段就需要一個中型數據平臺來支撐各部門的數據需求,同時建立起相應的信息處理系統(tǒng),且需要專業(yè)的團隊對系統(tǒng)進行維護。4)大型數據平臺階段隨著企業(yè)規(guī)模逐步增大,數據呈現(xiàn)爆發(fā)式增長、秒級更新、應用需求高的特點。處于這個階段的企業(yè),需要搭建大型數據平臺,投入足夠的人力、物力及資源去保障平臺的運作,數據倉庫也需要不定期地做升級和變遷。企業(yè)在這個階段需要有非常豐富的數據產品來支持業(yè)務的發(fā)展和運營數據化運營流程明確目標指標體系數據獲取數據分析策略建議評估優(yōu)化數據化運營第一步要搞清楚業(yè)務的核心目標是什么,用戶運營和產品運營有著不同的場景和目標,可以通過圍繞業(yè)務的關鍵績效指標(keyperformanceindicator,KPI)展開在業(yè)務目標確定后,基于目標進行數據指標的拆解,構建相應的用戶運營、產品運營業(yè)務的監(jiān)控和結果評價的指標體系。根據指標體系確定數據的采集點。對于流量、行為類的數據必須要先進行埋點,埋點是指在應用的特定流程中,收集用戶行為信息、還原用戶場景來指導產品功能改進,驗證客戶服務質量。在數據團隊經常遇到業(yè)務產品找項目管理(projectmanager,PM)要數據,最后卻發(fā)現(xiàn)都沒有埋點。利用相應的數學模型對收集的數據進行分析,并根據運營要求采用數據可視化方法對采集到的數據進行處理,形成分析報告?;跀祿治鰣蟾?,通過數理思維來推導、發(fā)現(xiàn)運營業(yè)務存在的問題或尋找潛在增長點,企業(yè)以此支撐業(yè)務決策,驅動產品流程改進優(yōu)化。分析結論或策略建議在產品或運營端實施之后,可通過AB測試對比、效果分析、持續(xù)優(yōu)化迭代等方法進行評估優(yōu)化。數據化運營的職業(yè)發(fā)展趨勢起初從事數據運營的人是企業(yè)的IT部門兼任,隨著數據在業(yè)務運營上占據越來越重要的地位,從事數據運營的專職崗位也應運而生。目前市面上數據人才是比較稀缺的,因為數據人才需要橫跨三個專業(yè):數學、商科、計算機,且該崗位培養(yǎng)周期長,需要在既懂業(yè)務,又能掌握計算機相關技能及工具實現(xiàn)數據分析與可視化。數據化運營的職業(yè)發(fā)展趨勢目前,中國高校正在開設數據科學與技術、數字經濟等新興專業(yè),培養(yǎng)社會上急需的大數據運營的人才。但高校人才培養(yǎng)往往受到培養(yǎng)周期長、產教融合脫節(jié)等諸多原因,而滯后于產業(yè)的人才需求,目前企業(yè)的數據技術人才依然處于稀缺狀態(tài),專家認為數字技術人才具有要求高供給少、需求大的特點,且未來10~20年都將處于稀缺狀態(tài)。數據化運營的職業(yè)發(fā)展趨勢數據化運營的崗位及崗位職責大型企業(yè)將數據運營部門設置為一級部門,設置數據運營部門負責人(總經理級)、數據運營高級總監(jiān)、數據運營總監(jiān)、數據運營高級經理、數據運營經理、數據運營主管及數據運營專員等七個職級。數據運營部門的整體職責如下:搭建全鏈路數據架構:梳理及重構供應鏈,基于供應鏈和業(yè)務需求節(jié)點進行數據需求架構;沉淀業(yè)務方法論,通過協(xié)同模式快速復制,對外賦能,提升行業(yè)效率。建立品類標準與商業(yè)規(guī)則:調研商品,并完成非標品的標準化工作,同時承擔新商品開發(fā)研究工作;制定自動化運營商業(yè)規(guī)則,承擔制定平臺商業(yè)制度的職責;統(tǒng)籌行業(yè)、品類、商品研究,建立標準化商品數據庫,進行商品管理和商品策略研究。通過數據運營提升內外部效率:打通銷售效率、物流效率、渠道商績效,需求預測數據等指標,建立關聯(lián),量化各個環(huán)節(jié)的效率提升點,并制定提升方案;研究、提供并推進B端和C端體驗和品質提升方案。行業(yè)研究與市場洞察:通過市場調查、情報收集及時掌握市場和行業(yè)動態(tài)。數據贖能BP:承擔各個BU、城市數據賦能BP的職責;清晰傳遞集閉戰(zhàn)略和執(zhí)行信息、建立各級數據看板,推動自動化決策分析,及時收集各城市的問題并向總部反饋。數據化運營的職業(yè)發(fā)展趨勢數據化運營的崗位及崗位職責部門負責人崗位職責全面負責公司的數據運營管理,完成業(yè)務規(guī)劃、平臺優(yōu)化、資源整合,確定核心產品和服務及對應的商業(yè)模式和盈利模式。研究運營數據和用戶反饋,挖掘用戶需求,發(fā)現(xiàn)運營中的問題并給出解決方案。構建全面、準確、能反映業(yè)務特征的監(jiān)控指標體系,并基于業(yè)務指標體系,及時發(fā)現(xiàn)和定位問題。通過專業(yè)分析,對業(yè)務問題進行深入分析,為公司的運營決策、產品方向、商業(yè)策略提供數據支持。對產品、運營、市場及客戶關系管理等領域提供業(yè)務支持。與內外部相關團隊協(xié)作,推動業(yè)務部門的數據化運背,技術產品開發(fā)、工具培訓等。產品發(fā)展方向進行預測,及時調整業(yè)務和產品策略,合理制定業(yè)務和產負責收集并研究行業(yè)及競爭對手信息,了解和分析客戶需求,對市場及品規(guī)劃。制定業(yè)務規(guī)則并對其進行管理,承擔制定平臺商業(yè)制度的職責,提升平臺業(yè)務品質。數據化運營的職業(yè)發(fā)展趨勢數據化運營的崗位及崗位職責部門負責人任職要求數據挖掘、機器學習、計算機、統(tǒng)計、數學等相關領域本科或以上學歷,至少擁有8年以上豐富的互聯(lián)網行業(yè)背景,3年以上運營經理/總監(jiān)崗位的經驗。能熟練地獨立建立商業(yè)數據分析框架,具有數據敏感度,能從海量數據中分析挖掘問題,并具備敏銳的商業(yè)洞察力。熟練運用數據分析工具(SQl、Exce、Access),以及數據可視化工具(Tableau、Microstrategy、Think-cell、PPT)對外演講能力優(yōu)秀。優(yōu)秀的分析問題和解決問題的能力,能夠把合理的思路成功應用于實踐中。有客戶關系管理分析或運營經驗、數據化運營經驗、數據型產品規(guī)劃經驗,有互聯(lián)網新零售相關領域經驗的優(yōu)先.PART04數據化運營的意義數據化運營的意義在數字經濟時代,人們生產、生活、工作、消費、娛樂方式都發(fā)生巨大變化,企業(yè)更需采用數字化技術實現(xiàn)數字化轉型,在產品升級、價值重塑、業(yè)務變革、商業(yè)模式創(chuàng)新、市場策略調整等方面,都提供了新的增長空間和發(fā)展機遇。數據化運營可以從四個維度具體幫助企業(yè)進行優(yōu)化和發(fā)展,如圖所示。數據化運營的意義業(yè)務指導通過對數據的收集、統(tǒng)計、追蹤和監(jiān)控搭建業(yè)務的管理模型來指導業(yè)務。例如,銷售業(yè)務中日銷售額、月銷售額、年銷售額的完成情況;電商營銷業(yè)務過程中的流量,新增用戶數,每日的成交量。運營分析運營分析更多注重對收集來的數據進行分析和管理,可歸納為人、貨、場、才的分析管理。例如客戶關系管理(CRM),財務分析管理,供應鏈分析管理等等。經營策略經營策略管理擁有一手的管理決斷,對各經營環(huán)節(jié)進行對應的數據分析來修改和制定策略,比如消費者購買行為的分析,會員顧客策略,是采用積分制還是打折制。戰(zhàn)略規(guī)劃戰(zhàn)略規(guī)劃需要通過企業(yè)內部和外部的市場外部數據制定長遠的規(guī)劃過程,如企業(yè)競爭力分析,行業(yè)環(huán)境分析,戰(zhàn)略目標規(guī)劃等。習題1.請描述數據化運營的概念,并舉列說明企業(yè)數據化運營的應用。2.數據化運營的關鍵步驟有哪些?3.什么是大數據?請描述云計算、物聯(lián)網、大數據、人工智能之間的關系?THANKYOU大數據運營技術體系本章知識點(1)掌握Hadoop、Spark、Flink3種主流技術的基本原理。(2)掌握數據處理的基本流程。(3)了解數據挖掘概論與數據挖掘的常用方法。(4)掌握數據可視化庫及可視化軟件的概念。01大數據技術概述02數據處理與數據挖掘概述03數據可視化概述PART01大數據技術概述Hadoo核心技術Hadoo核心技術Hadoop是Apache軟件基金會下用Java語言開發(fā)的一個開源分布式計算平臺,在大量計算機組成的集群中對海量數據進行分布式計算。它是一個適合大數據的分布式存儲和計算平臺。Hadoop最早起源于Nutch搜索引擎,Nutch是一個開源Java實現(xiàn)的搜索引擎Nutch的設計目標是構建一個大型的全網搜索引擎,包括網頁抓取、索引、查詢等功能,但隨著抓取網頁數量的增加,遇到了嚴重的可擴展性問題,即如何解決數十億網頁的存儲和索引問題。在Nutch的開發(fā)人員正一籌莫展之際谷歌發(fā)表的兩篇論文為該問題提供了可行的解決方案:分布式文件系統(tǒng)distributedfilesystem,DFS)可用于處理海量網頁的存儲;分布式計算框架MapReduce可用于處理海量網頁的索引計算問題。Hadoo核心技術Hadoop之父道格·卡廷(Dougcutting)帶領Nutch的開發(fā)人員基于Google的兩篇論文完成了相應的開源實現(xiàn)Hadoo分布式文件系統(tǒng)HadoopdistributedfilesystemHDFS)和MapReduce,并從Nutch中剝離成為獨立項目Hadoop,到2008年1月,Hadoop成為Apache頂級項目,迎來了它的快速發(fā)展期Hadoop的大象Logo靈感來源于道格·卡廷女兒的玩具大象。狹義上來說,Hadoop就是單獨指代hadoop這個計算框架。廣義上來說,Hadoop指代大數據的一個軟件生態(tài)圈,包括很多其他的軟件,如圖所示。MapReduc編程模型1)MapReduce的概念MapReduce是一種大規(guī)模數據處理編程模型,用于大規(guī)模數據集的并行運算,是Hadoop核心組件之一。MaReduce的核心功能是將用戶編寫的業(yè)務邏輯代碼和自帶默認組件整合成一個完整的分布式運算程序,并運行在Hadoop集群上。2)MapReduce的編程思想MapReduce的思想核心是“分而治之”適用于大量復雜的任務處理場景(大規(guī)模數據處理場景)。Map(映射)負責“分”,即把復雜的任務分解為若干個“簡單的任務”來并行處理??梢赃M行拆分的前提是這些小任務可以并行計算,彼此間幾乎沒有依賴關系Reduce(化簡)負責“合”,即對Map階段的結果進行全局匯總。這兩個階段合起來正是MapReduce思想的體現(xiàn)。舉例如下比如我們要統(tǒng)計圖書館所有類型的書,如果一個人統(tǒng)計的話,不知道要統(tǒng)計多久,如果人多點,你統(tǒng)計1號書架,我統(tǒng)計2號書架,他統(tǒng)計3號書架····.·人越多,統(tǒng)計的速度就越快。這就是Map階段,可以并行地做一件事,彼此之間并沒有依賴關系。數完之后,聚到一起,把所有人的統(tǒng)計數加在一起,就得出的圖書館書籍的總數。這就是Reduce階段。MapReduc編程模型3)MapReduce的框架結構一個完整的MapReduce程序在分布式運行時有三類實例進程:MRAppMaster:負責整個程序的過程調度及狀態(tài)協(xié)調。MapTask:負責Map階段整個數據處理流程。ReduceTask:負責reduce階段的整個數據處理流程。4)MapReduce的編程規(guī)范(1)用戶編寫的程序分成三個部分:Mapper,Reducer,Driver(提交運行mr程序的客戶端)。(2)Mapper的輸入數據是鍵值對的形式(鍵與值的類型可自定義)。(3)Mapper的輸出數據是鍵值對的形式(鍵與值的類型可自定義)。(4)Mapper中的業(yè)務邏輯寫在map()方法中。(5)map()方法(maptask進程)對每一個調用一次。(6)Reducer的輸入數據類型對應Mapper的輸出數據類型,也是鍵值對。(7)Reducer的業(yè)務邏輯寫在reduce()方法中。(8)Reducetask進程對每一組相同鍵的組調用一次reduce()方法。(9)用戶自定義的Mapper和Reducer都要繼承各自的父類。(10)整個程序需要一個Drvier來進行提交,提交的是一個描述了各種必要信息的job對象。Hadoop分布式文件系統(tǒng)HDFS1)HDFS的概念HDFS是一個可以運行在通用硬件上的分布式文件系統(tǒng)(DistributedFileSystem)。它和現(xiàn)有的分布式文件系統(tǒng)有很多共同點。但同時,它和其他的分布式文件系統(tǒng)的區(qū)別也是很明顯的。HDFS是一個高度容錯性的系統(tǒng),適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問,非常適合大規(guī)模數據集上的應用。2)HDFS的原理多臺計算機(集群)聯(lián)網協(xié)同工作就像單臺系統(tǒng)一樣解決某種問題,這樣的系統(tǒng)我們稱之為分布式系統(tǒng)。分布式文件系統(tǒng)是分布式系統(tǒng)的一個子集,它們解決的問題就是數據存儲。換句話說,它們是橫跨在多臺計算機上的存儲系統(tǒng)。存儲在分布式文件系統(tǒng)上的數據自動分布在不同的節(jié)點上。分布式文件系統(tǒng)在大數據時代有著廣泛的應用前景,它們?yōu)榇鎯吞幚韥碜跃W絡和其它地方的超大規(guī)模數據提供所需的擴展能力,為各類分布式運算框架(如:mapreduce,spark,……)提供數據存儲服務。Hadoop分布式文件系統(tǒng)HDFS3)HDFS設計思想分而治之:將大文件、大批量文件,分布式存放在同一集群中的不同服務器上,以便于采取分而治之的方式對海量數據進行運算分析。4)HDFS架構HDFS是一個塊結構的文件系統(tǒng),其中每個文件被分成預定大小的塊(Hadoop1.x版本塊大小為64M,2.x版本塊大小為128M),這些塊存儲在一臺或多臺機器的集群中。HDFS遵循主/從架構,其中集群包含單個NameNode(主節(jié)點),所有其他節(jié)點都是DataNode(從節(jié)點)。HDFS可以部署在支持Java的各種機器上。雖然可以在一臺機器上運行多個DataNode,但在實際應用中,這些DataNode分布在不同的機器上。Hadoop分布式文件系統(tǒng)HDFSNameNode在原生的Hadoop集群中,HDFS分為三個角色:NameNode、DataNode、SecondaryNameNode。DataNodeHDFS中的從屬節(jié)點。不具備高質量或高可用性,主要負責將數據落實到本地存儲,所以DataNode所在機器通常配置有大量的硬盤空間。DataNode會定期向NameNode發(fā)送心跳,如果NameNode長時間沒有接受到DataNode發(fā)送的心跳,NameNode就會認為該DataNode失效。SecondaryNameNode是NameNode的一個助手節(jié)點,來幫助NameNode更好的工作。它存在的目的就是為HDFS中提供一個檢查點,它會定時到NameNode去獲取editlogs,并更新到fsimage上,一旦它有了新的fsimage文件,它將其拷貝回NameNode中,當NameNode在下次重啟時會使用這個新的fsimage文件,從而減少重啟的時間。ApacheHadoopHDFS架構中的主節(jié)點,主要是用來保存HDFS的元數據信息,比如命名空間信息,塊信息等。當它運行的時候,這些信息是存在內存中的。但是這些信息也可以持久化到磁盤上。Hadoop分布式文件系統(tǒng)HDFS5)HDFS的優(yōu)缺點事物都具有兩面性,HDFS再強大也會存在一些缺點,下面讓我們了解一下HDFS的優(yōu)缺點,從而可以在不同的應用場景中更好的發(fā)揮HDFS的一些特性。優(yōu)點概述高容錯性數據自動保存多個副本(默認為3份,可通過修改配置文件來修改副本數),副本丟失后,自動恢復。適合批處理HDFS會將數據位置暴露給計算框架,通過移動計算而非移動數據的方式來減少文件I/O,從而提高計算效率。適合大規(guī)模數據處理適合GB,TB,甚至PB級數據的計算,百萬規(guī)模以上的文件處理??蓸嫿ㄔ诹畠r機器上HDFS通過多副本提高可靠性,提供了容錯和恢復機制。HDFS的存儲節(jié)點只需要提供磁盤存儲空間即可,對操作系統(tǒng)與其他硬件資源沒有要求。缺點概述不支持低延遲數據訪問毫秒級的數據訪問,HDFS是不支持的。所以說HDFS不能作為實時任務的數據源。小文件存儲HDFS上的每一個文件的元數據都由NameNode進行管理,如果有大量的小文件,將會占用NameNode大量內存,并且文件尋道時間超過讀取時間,所以HDFS建議將小文件進行合并或者說使用HDFS提供的archive檔案機制。文件只支持追加HDFS上的文件只支持追加操作,不支持修改。而且一個文件同一時間只能有一個用戶進行寫入操作。分布式資源調度管理系統(tǒng)分布式資源調度管理系統(tǒng),即另一種資源協(xié)調者(yetanotherresourcenegotiator,YARN)是Hadoop的資源管理器,它是一個分布式的資源管理系統(tǒng),用以提高分布式集群環(huán)境下的資源利用率,這些資源包括內存、輸入輸出、網絡、磁盤等,其產生的原因是為了解決原MapReduce框架的不足。1)YARN的概念我們先來了解一下在Yarn誕生之前,Hadoop是如何進行資源調度的。在Hadoop1.X版本,一個Hadoop集群可分解為兩個抽象實體:Mapreduce計算引擎和分布式文件系統(tǒng)。當一個客戶端向一個Hadoop集群發(fā)出一個請求時,此請求由Jobtracker管理。Jobtracker與Namenode聯(lián)合將任務分發(fā)到離它所處理的數據盡可能近的位置。然后Jobtracker將Map和Reduce任務安排到一個或多個Tasktracker上的可用插槽中。Tasktracker與Datanode一起對來自Datanode的數據執(zhí)行Map和Reduce任務。當Map和Reduce任務完成時,Tasktracker會告知Jobtracker,后者確定所有任務何時完成并最終告知客戶作業(yè)已完成。分布式資源調度管理系統(tǒng)在使用Jobtracker進行資源調度的時候,會存在如下問題:Jobtracker是集群事務的集中處理點,存在單點故障。Jobtracker需要完成的任務太多,既要維護Job的狀態(tài)又要維護Job的Task的狀態(tài),造成過多的資源消耗。在Tasktracker端,用Map/ReduceTask作為資源的表示過于簡單,沒有考慮到Cpu、內存等資源情況,當把兩個需要消耗大內存的Task調度到一起,很容易出現(xiàn)OOM(內存溢出)。把資源強制劃分為Map/ReduceSlot,當只有MapTask時,ReduceSlot不能用;當只有ReduceTask時,MapSlot不能用,容易造成資源利用不足。到了Hadoop2.X版本,Yarn作為Hadoop第三大核心組件橫空出世,為了解決了Hadoop1.X版本資源調度的問題,YARN將資源管理和作業(yè)監(jiān)控/調度這兩個功能拆分開來,交由不同的守護進程完成。具體來說就是有一個全局的資源管理者(Resourcemanager)和負責每一個應用的應用管理者(Applicationmaster)。分布式資源調度管理系統(tǒng)ResourceManager2)YARN的基本架構YARN是一個資源管理、任務調度的框架,主要包含三大模塊:ResourceManager(簡稱RM)、NodeManager(簡稱NM)、ApplicationMaster(簡稱AM)。NodeManager是每個節(jié)點上的資源和任務管理器,它是管理這臺機器的代理,負責該節(jié)點程序的運行,以及該節(jié)點資源的管理和監(jiān)控,YARN集群每個節(jié)點都會運行一個NodeManager。NodeManager會定時向ResourceManager匯報本節(jié)點資源(CPU、內存)的使用情況和Container的運行狀態(tài)。當ResourceManager宕機時NodeManager自動連接RM備用節(jié)點。ApplicationMaster用戶提交的每個應用程序均包含一個ApplicationMaster。ResourceManager會為應用分配一個Container(分配的資源)來運行ApplicationMaster,ApplicationMaster會將得到的任務進一步分配給內部的任務(資源的二次分配),還有就是負責監(jiān)控所有任務運行狀態(tài),并在任務運行失敗時重新為任務申請資源以重啟任務。負責整個集群的資源管理和分配,是一個全局的資源管理系統(tǒng)。NodeManager以心跳的方式向ResourceManager匯報資源使用情況(目前主要是CPU和內存的使用情況)。RM只接受NM的資源回報信息,對于具體的資源處理則交給NM自己處理。YARNScheduler根據application的請求為其分配資源,不負責applicationjob的監(jiān)控、追蹤、運行狀態(tài)反饋、啟動等工作。分布式資源調度管理系統(tǒng)3)YARN調度工作的流程(1)客戶端向RM提交應用程序,其中包括啟動該應用的AM所必需信息。例如AM程序、啟動AM的命令、用戶程序等。(2)RM啟動一個容器用于運行AM(3)啟動中的AM向RM注冊自己啟動成后與RM保持心跳(4)AM向RM發(fā)送請求,申請相應數目的容器(5)RM返回AM申請的容器信息。申請成功的容器,由AM進行初始化。容器的啟動信息初始化后,AM與對應的NM通信,要求NM啟動容器。AM與NM保持心跳,從而對NM上運行的任務進行監(jiān)控和管理(6)容器運行期間,AM對容器進行監(jiān)控。容器通過RPC協(xié)議向對應的AM匯報自己的進度和狀態(tài)等信息.(7)應用運行期間,客戶端直接與AM通信獲取應用的狀態(tài)、進度更新等信息。(8)應用運行結束后,AM向RM注銷自己,并允許屬于它的容器被收回。分布式資源調度管理系統(tǒng)4)YARN的調度策略在YARN中,負責給應用分配資源的就是調度器,調度本身就是一個難題,很難找到一個完美的策略可以解決所有的應用場景。為此YARN提供了3種調度器,也可以叫作調度策略如表所示。調度器分類策略特點先進先出調度器FIFOSchedulerFIFOScheduler把應用按提交的順序排成一個隊列,這是一個先進先出隊列,在進行資源分配的時候,先給隊列中最頭上的應用進行分配資源,待最頭上的應用需求滿足后再給下一個分配,以此類推。FIFOScheduler是最簡單也是最容易理解的調度器,也不需要任何配置,但它并不適用于共享集群。大的應用可能會占用所有集群資源,這就導致其它應用被阻塞公平調度器FairScheduler在Fair調度器中,我們不需要預先占用一定的系統(tǒng)資源,F(xiàn)air調度器會為所有運行的job動態(tài)的調整系統(tǒng)資源當第一個占用資源較大的job提交時,如果只有這一個job在運行,那么它會獲得所有的集群資源;此時,當第二個小任務提交后,F(xiàn)air調度器就會分配一半資源給這個小任務,讓這兩個任務公平的共享集群資源。容器調度器CapacitySchedulerCapacity調度器允許多個組織共享整個集群,每個組織可以獲得集群的一部分計算能力。通過為每個組織分配專門的隊列,然后再為每個隊列分配一定的集群資源,這樣整個集群就可以通過設置多個隊列的方式給多個組織提供服務了。除此之外,隊列內部又可以垂直劃分,這樣一個組織內部的多個成員就可以共享這個隊列資源了,在一個隊列內部,資源的調度是采用的是先進先出(FIFO)策略。高性能分布式協(xié)調服務高性能分布式協(xié)調服務(ZooKeeper)致力于為分布式應用提供一個高性能、高可用且具有嚴格順序訪問控制能力的分布式協(xié)調服務。ZooKeeper由雅虎研究院開發(fā),是GoogleChubby的開源實現(xiàn),后來托管到Apache,于2010年11月正式成為Apache的頂級項目。ZooKeeper的應用場景有很多,比如說HadoopHA(高可用)集群、KafkaHBase都強依賴于ZooKeeper,讓我們一起來看下ZooKeeper有哪些特性。1)zookeeper的五大特性特性概述順序一致性從同一個客戶端發(fā)起的事務請求,最終將會嚴格地按照其發(fā)起的順序被應用到Zookeeper去。原子性所有請求的響應結果在整個分布式集群環(huán)境中具備原子性,即要么整個集群中所有機器都成功的處理了某個請求,要么就都沒有處理,絕對不會出現(xiàn)集群中一部分機器處理了某一個請求,而另一部分機器卻沒有處理的情況。單一性無論客戶端連接到ZooKeeper集群中哪個服務器,每個客戶端所看到的服務端模型都是一致的,不可能出現(xiàn)兩種不同的數據狀態(tài),因為ZooKeeper集群中每臺服務器之間會進行數據同步??煽啃砸坏┓斩藬祿臓顟B(tài)發(fā)送了變化,就會立即存儲起來,除非此時有另一個請求對其進行了變更,否則數據一定是可靠的。實時性當某個請求被成功處理后,ZooKeeper僅僅保證在一定的時間段內,客戶端最終一定能從服務端上讀取到最新的數據狀態(tài),即ZooKeeper保證數據的最終一致性。Zookeeper具有嚴格的寫操作順序性,客戶端能夠基于zookeeper實現(xiàn)一些復雜的同步原語。對于來自客戶端的每個更新請求,都會分配一個全局唯一的遞增編號,這個編號反應了所有事物操作的先后順序。高性能分布式協(xié)調服務2)ZooKeeper的角色領導者(Leader)Leader是ZooKeeper集群工作的核心。主要負責調度工作,是事務請求的調度處理者和集群內部各服務器的調度。跟隨者(Follower)Follower是ZooKeeper集群的跟隨者。主要負責處理客戶端非事務性請求(讀取數據)并轉發(fā)事務請求給Leader服務器和參與Leader選舉投票。觀察者(Observer)Observer充當觀察者角色,觀察ZooKeeper集群的最新狀態(tài)變化并將這些狀態(tài)同步過來,其對于非事務請求可以進行獨立處理,對于事務請求,則會轉發(fā)給Leader服務器進行處理。Observer不會參與任何形式的投票,包括事務請求Proposal的投票和Leader選舉投票。HBase數據庫HBase是建立在HDFS之上,提供高可靠性、高性能、列存儲、可伸縮、實時讀寫的數據庫系統(tǒng)。它是ApacheHadoop生態(tài)系統(tǒng)中的重要一員,主要用于海量結構化和半結構化數據存儲,Hbase的Logo是一只鯨魚,如圖所示。HBase是GoogleBigtable的開源實現(xiàn),與GoogleBigtable利用GFS作為其文件存儲系統(tǒng)類似,HBase利用HadoopHDFS作為其文件存儲系統(tǒng);Google運行MapReduce來處理Bigtable中的海量數據,HBase同樣利用HadoopMapReduce來處理HBase中的海量數據;GoogleBigtable利用Chubby作為協(xié)同服務,HBase利用Zookeeper作為對應。HBase數據庫1)Hbase特性特點概述大一個表可以有上億行,上百萬列。面向列面向列表(簇)的存儲和權限控制,列(簇)獨立檢索。稀疏每個單元中的數據可以有多個版本,默認情況下,版本號自動分配,版本號就是單元格插入時的時間戳。數據多版本每個單元中的數據可以有多個版本,默認情況下,版本號自動分配,版本號就是單元格插入時的時間戳。數據類型單一HBase中的數據都是字符串,沒有類型。HBase數據庫2)Hbase與傳統(tǒng)數據庫對比對比傳統(tǒng)數據庫可能遇到的問題(1)數據量很大的時候無法存儲。(2)沒有很好的備份機制。(3)數據達到一定數量開始緩慢,很大的話基本無法支撐。Hbase的優(yōu)勢(1)線性擴展,隨著數據量增多可以通過節(jié)點擴展進行支撐。(2)數據存儲在hdfs上,備份機制健全。(3)通過zookeeper協(xié)調查找數據,訪問速度快。HBase數據庫3)zookeeper在HBase中的作用①可以保證在HBase集群中有且只有一個活躍的Master;②存儲所有Region的尋址入口;③實時監(jiān)控Regionserver的上線和下線信息,并實時通知給Master;④存儲HBase的schema和Table元數據。Region是HBase分布式存儲的最基本單元。它將一個數據表按Key值范圍橫向劃分為一個個的子表,實現(xiàn)分布式存儲。這個子表,在HBase中被稱作“Region”。每一個Region都關聯(lián)一個Key值范圍,即一個使用StartKey和EndKey描述的區(qū)間。HBase數據庫4)HBase的集群角色HBase的集群角色有兩種分別是HMaster和Regionserver。其中HMaster是主進程,負責管理所有的Regionserver;Regionserver是數據服務進程,負責處理用戶數據的讀寫請求。HMaster與Regionserver之間有著密切的關系,而Regionserver又與Region它是HBase中存儲數據的最小單元)密不可分,所以我們分別講解Region、Regionserver和HMaster的特點。(1)RegionRegionServer是HBase的數據服務進程。它負責處理用戶數據的讀寫請求,所有的Region都被交由RegionServer管理,包括執(zhí)行Flush、Compaction、Open、Close、Load等操作。實際上,所有用戶數據的讀寫請求,都是和RegionServer管理的Region進行交互。當某個RegionServer發(fā)生故障的時候,此RegionServer所管理Region就會轉移到其它RegionServer下。RegionServer需要定期向HMaster匯報自身的情況,包括內存使用狀態(tài)、在線狀態(tài)的Region等信息。RegionServer除此之外,還可以管理WAL,以及執(zhí)行數據插入、更新和刪除操作,并通過Metrics對外提供了衡量HBase內部服務狀況的參數。另外,RegionServer還內置了HttpServer,所以我們可以通過圖形界面的方式訪問Hbase。(2)RegionserverHMaster進程負責管理所有的RegionServer。包括新RegionServer的注冊;RegionServerFailover處理;負責建表/修改表/刪除表以及一些集群操作;新表創(chuàng)建時的Region分配;運行期間的負載均衡保障;負責所有Region的轉移操作,包括RegionServerFailover后的Region接管。(3)HMasterHBase數據庫4)HBase的集群角色HMaster進程有主備角色。集群可以配置多個HMaster角色,在集群啟動時,這些HMaster角色通過競爭獲得主HMaster角色。主HMaster只能有一個,所有的備HMaster進程在集群運行期間處于休眠狀態(tài),不干涉任何集群事務。為了方便理解HMaster、RegionServer和Region三者之間的關系,舉一個很形象的例子,你可以把HMaster理解為部門總經理,它管理了若干個項目經理(RegionServer),而每個項目經理都帶了若干個項目組成員(Region)。HBase有自己獨特的一套文件存儲架構和數據尋址機制,來保證在海量數據中快速檢索到需要的數據,有興趣的同學可以前往HBase官網(/)進行學習。Hive系統(tǒng)Hive是基于Hadoop構建的一套數據倉庫分析系統(tǒng),它提供了豐富的SQL查詢方式來分析存儲在Hadoop分布式文件系統(tǒng)(HDFS)中的數據:可以將結構化的數據文件映射為一張數據庫表,并提供完整的SQL查詢功能;可以將SQL語句轉換為MapReduce任務運行,通過自己的SQL查詢分析需要的內容,這套SQL簡稱HiveSQL,使不熟悉mapreduce的用戶可以很方便地利用SQL語言查詢、匯總和分析數據。而mapreduce開發(fā)人員可以把自己寫的mapper和reducer作為插件來支持hive做更復雜的數據分析。它與關系型數據庫的SQL略有不同,但支持了絕大多數的語句如DDL、DML以及常見的聚合函數、連接查詢、條件查詢。它還提供了一系列的工具進行數據提取轉化加載,用來存儲、查詢和分析存儲在Hadoop中的大規(guī)模數據集,并支持UDF(User-DefinedFunction)、UDAF(User-DefnesAggregateFunction)和UDTF(User-DefinedTable-GeneratingFunction),也可以實現(xiàn)對map和reduce函數的定制,為數據操作提供了良好的伸縮性和可擴展性。Hive系統(tǒng)1)什么是數據倉庫數據倉庫,英文名稱為DataWarehouse,可簡寫為DW或DWH。數據倉庫的目的是構建面向分析的集成化數據環(huán)境,為企業(yè)提供決策支持(DecisionSupport)。它出于分析性報告和決策支持目的而創(chuàng)建。數據倉庫本身并不“生產”任何數據,同時自身也不需要“消費”任何的數據,數據來源于外部,并且開放給外部應用,這也是為什么叫“倉庫”,而不叫“工廠”的原因。數據倉庫有四個特性:分別是主體性、集成性、非易失性(不可更新性)和時變性。Hive系統(tǒng)2)數據倉庫與數據庫的區(qū)別數據庫與數據倉庫的區(qū)別實際講的是OLTP與OLAP的區(qū)別,見表所示。處理方式概述OLTP聯(lián)機事務處理,也可以稱面向交易的處理系統(tǒng),它是針對具體業(yè)務在數據庫聯(lián)機的日常操作,通常對少數記錄進行查詢、修改。用戶較為關心操作的響應時間、數據的安全性、完整性和并發(fā)支持的用戶數等問題。傳統(tǒng)的數據庫系統(tǒng)作為數據管理的主要手段,主要用于操作型處理。OLAP聯(lián)機分析處理,一般針對某些主題的歷史數據進行分析,支持管理決策。數據倉庫的出現(xiàn),并不是要取代數據庫,兩者之間的區(qū)別如下表所示。差異數據庫數據倉庫面向方向面向事務面向主題數據存儲存儲業(yè)務數據存儲歷史數據表設計盡量避免冗余有意引入冗余,依照分析需求,分析維度、分析指標進行設計作用方向為捕獲數據而設計為分析數據而設計Hive系統(tǒng)以銀行業(yè)務為例。數據庫是事務系統(tǒng)的數據平臺,客戶在銀行做的每筆交易都會寫入數據庫,被記錄下來,這里,可以簡單地理解為用數據庫記賬。數據倉庫是分析系統(tǒng)的數據平臺,它從事務系統(tǒng)獲取數據,并做匯總、加工,為決策者提供決策的依據。比如,某銀行某分行一個月發(fā)生多少交易,該分行當前存款余額是多少。如果存款又多,消費交易又多,那么該地區(qū)就有必要設立ATM了。顯然,銀行的交易量是巨大的,通常以百萬甚至千萬次來計算。事務系統(tǒng)是實時的,這就要求時效性,客戶存一筆錢需要幾十秒是無法忍受的,這就要求數據庫只能存儲很短一段時間的數據。而分析系統(tǒng)是事后的,它要提供關注時間段內所有的有效數據。這些數據是海量的,匯總計算起來也要慢一些,但是,只要能夠提供有效的分析數據就達到目的了。數據倉庫,是在數據庫已經大量存在的情況下,為了進一步挖掘數據資源、為了決策需要而產生的,它決不是所謂的“大型數據庫”。Hive系統(tǒng)3)Hive的作用MapReduce使用起來學習難度大,成本高,坡度陡,并且MapReduce實現(xiàn)復雜查詢邏輯開發(fā)難度較大。而Hive可以把SQL語句轉化成Mapreduce代碼,操作接口內SQL語法,提升開發(fā)的效率;避免了去寫MapReduce,降低開發(fā)人員的學習成本;較強的擴展性,Hive支持用戶自定義函數,用戶可以根據自己的需求來實現(xiàn)自己的函數;良好的容錯性,節(jié)點出現(xiàn)問題SQL仍可完成執(zhí)行。關于Hive的使用方式與數據類型,會在第4章中詳細講解。Flume軟件Flume是Cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸的軟件。Flume的核心是把數據從數據源(source)收集過來,再將收集到的數據送到指定的目的地(sink)。為了保證輸送的過程一定成功,在送到目的地(sink)之前,會先緩存數據(channel),待數據真正到達目的地(sink)后,F(xiàn)lume在刪除自己緩存的數據。Flume支持定制各類數據發(fā)送方,用于收集各類型數據;同時,F(xiàn)lume支持定制各種數據接受方,用于最終存儲數據。一般的采集需求,通過對Flume的簡單配置即可實現(xiàn)。針對特殊場景也具備良好的自定義擴展能力。因此,F(xiàn)lume可以適用于大部分的日常數據采集場景。Flume軟件Flume系統(tǒng)中核心的角色是Agent,Agent本身是一個Java進程,一般運行在日志收集節(jié)點,執(zhí)行流程如圖所示。每一個Agent相當于一個數據傳遞員,內部有三個組件:Source:采集源,用于跟數據源對接,以獲取數據。Sink:下沉地,采集數據的傳送目的地,用于往下一級Agent傳遞數據或者往最終存儲系統(tǒng)傳遞數據。Channel:Agent內部的數據傳輸通道,用于從source將數據傳遞到sink;在整個數據的傳輸的過程中,流動的是Event,它是Flume內部數據傳輸的最基本單元。Event將傳輸的數據進行封裝。如果是文本文件,通常是一行記錄,Event也是事務的基本單位。Event從Source,流向Channel,再到Sink,本身為一個字節(jié)數組,并可攜帶headers(頭信息)信息。Event代表著一個數據的最小完整單元,從外部數據源來,向外部的目的地去。一個完整的Event包括:Eventheaders、Eventbody、Event信息,其中Event信息就是Flume收集到的日記記錄。kafka系統(tǒng)1)kafka的概念ApacheKafka是一個開源消息系統(tǒng),由Scala語言編寫,以可水平擴展和高吞吐率而被廣泛使用。Kafka最初是由Linkedin公司開發(fā),是一個分布式、分區(qū)的、多副本的、多訂閱者,基于Zookeeper協(xié)調的分布式消息系統(tǒng),Linkedin于2010年貢獻給了Apache基金會并成為頂級開源項目,KafkaLogo如圖所示。Kafka官網地址為:/kafka系統(tǒng)2)
Kafka的特性特性概述高吞吐量、低延遲kafka每秒可以處理幾十萬條消息,它的延遲最低只有幾毫秒,每個topic可以分多個partition,consumergroup對partition進行consume操作??蓴U展性Kafka集群支持熱擴展。持久性、可靠性消息被持久化到本地磁盤,并且支持數據備份防止數據丟失。容錯性允許集群中節(jié)點失敗(若副本數量為n,則允許n-1個節(jié)點失敗)。高并發(fā)支持數千個客戶端同時讀寫。kafka系統(tǒng)2)
Kafka的特性kafka中的相關組件如下(1)服務器節(jié)點(Broker)0102(2)主題(Topic)Kafka集群包含一個或多個服務器,服務器節(jié)點稱為Broker。Broker存儲Topic的數據。如果某Topic有N個Partition,集群有N個Broker,那么每個Broker存儲該Topic的一個Partition。如果某Topic有N個Partition,集群有(N+M)個Broker,那么其中有N個Broker存儲該Topic的一個Partition,剩下的M個Broker不存儲該Topic的Partition數據。如果某Topic有N個Partition,集群中Broker數目少于N個,那么一個Broker存儲該Topic的一個或多個Partition。在實際生產環(huán)境中,盡量避免這種情況的發(fā)生,這種情況容易導致Kafka集群數據不均衡。每條發(fā)布到Kafka集群的消息都有一個類別,這個類別被稱為Topic。(物理上不同Topic的消息分開存儲,邏輯上一個Topic的消息雖然保存于一個或多個broker上但用戶只需指定消息的Topic即可生產或消費數據而不必關心數據存于何處)類似于數據庫的表名。kafka系統(tǒng)2)
Kafka的特性kafka中的相關組件如下(3)分區(qū)(Partition)0304(4)生產者(Producer)Topic中的數據分割為一個或多個Partition。每個Topic至少有一個Partition。每個Partition中的數據使用多個Segment文件存儲。Partition中的數據是有序的,不同Partition間的數據丟失了數據的順序。如果Topic有多個Partition,消費數據時就不能保證數據的順序。在需要嚴格保證消息的消費順序的場景下,需要將Partition數目設為1。生產者即數據的發(fā)布者,該角色將消息發(fā)布到Kafka的Topic中。Broker接收到生產者發(fā)送的消息后,Broker將該消息追加到當前用于追加數據的Segment文件中。生產者發(fā)送的消息,存儲到一個Partition中,生產者也可以指定數據存儲的Partition。kafka系統(tǒng)2)
Kafka的特性kafka中的相關組件如下(5)消費者(Consumer)0304(6)消費者群ConsumerGroup)消費者可以從Broker中讀取數據。消費者可以消費多個Topic中的數據。每個Consumer屬于一個特定的ConsumerGroup(可為每個Consumer指定GroupName,若不指定GroupName則屬于默認的Group)。kafka系統(tǒng)3)Kafka與RabbitMQ的區(qū)別區(qū)別Kafka傳統(tǒng)消息隊列架構模型Kafka遵從一般的MQ結構,Producer,Broker,Consumer,以Consumer為中心,消息的消費信息保存的客戶端Consumer上,Consumer根據消費的點,從Broker上批量Pull數據;無消息確認機制。Rabbitmq遵循AMQP協(xié)議,Rabbitmq的Brokerexchange,Binding,Queue組成,其中Exchange和Binding組成了消息的路由鍵;客戶端Producer通過連接Channel和Server進行通信,Consumer從Queue獲取消息進行消費(長連接,Queue有消息會推送到Consumer端,Consumer循環(huán)從輸入流讀取數據)。Rabbitmq以Broker為中心;有消息的確認機制。吞吐量方面Kafka具有高的吞吐量,內部采用消息的批量處理,zero-copy機制,數據的存儲和獲取是本地磁盤順序批量操作,具有O(1)的復雜度,消息處理的效率很高。RabbitMQ在吞吐量方面稍遜于kafka,他們的出發(fā)點不一樣,rabbitMQ支持對消息的可靠的傳遞,支持事務,不支持批量的操作;基于存儲的可靠性的要求存儲可以采用內存或者硬盤??捎眯苑矫鍷afka的broker支持主備模式。Rabbitmq支持Miror的Queue,主Queue失效,MirorQueue接管。集群負載均衡Kafka采用Zookeeper對集群中的Broker、Consumer進行管理,可以注冊Topic到Zookeeper上;通過Zookeeper的協(xié)調機制,Producer保存對應Topic的Broker信息,可以隨機或者輪詢發(fā)送到Broker上;并且Producer可以基于語義指定分片,消息發(fā)送到Broker的某分片上。Rabbitmq支持集群模式,但不支持負載均衡。SqoopSqoop(SQL-to-Hadoop)項目旨在協(xié)助RDBMS與Hadoop之間進行高效的大數據交流,是一款基于MapReduce的數據遷移工具,同時也是一款開源的工具。它主要用在Hadoop(Hive)與非關系型數據庫(NoSQL、HBase等)間進行數據的傳遞,可以將一個關系型數據庫(MySQL,Oracle,PostgreSQL等)中的數據導人Hadoop的HDFS中,也可以將HDFS的數據導人關系型數據庫中。隨著聯(lián)網的普及,企業(yè)積累的數據量越來越大,傳統(tǒng)的數據庫已經無法滿足存儲需求,所以更多的用戶選擇使用Hadoop的HDFS來存儲數據。那么就需要將數據在傳統(tǒng)數據庫與HDFS之間進行轉移能夠幫助數據傳輸的工具變得更加重要。ApacheSqoop就是這樣一款開源工具,可以在Hadoop和關系型數據庫之間轉移大量數據。Sqoop項目開始于2009年,最早是作為Hadop的一個第三方模塊存在,后來為了讓使用者能夠快速部署,也為了讓開發(fā)人員能夠更快速地送代開發(fā),Sqoop獨立成為一個Apache項目。Sqoop本質其實是將導入或導出命令翻譯成MapReduce程序并執(zhí)行。在翻譯成MapReduce程序中主要是對InputFormat和OutputFormat進行定制。隨著Sqoop的使用者越來越多,舊版本的Sqoop已經漸漸暴露出一些缺點,開發(fā)人員優(yōu)化之后推出了一個新的系列版本Sqoop2。Sqoop1與Sqoop2是兩個完全不同的版本,它們并不兼容。Sqoopl通常是指1.4.x版本,Sqoop2是指1.99.x以后的版本。1)Sqoop的概念Sqoop(1)引入sqoopserver,集中化管理connector等。(2)多種訪問方式:CLI,WebUI,RESTAPI。(3)引入基于角色的安全機制。Sqoop2和Sqoop1的功能性對比,如下表所示:2)Sqoop2比sqoop1的改進:功能Sqoop1Sqoop2用于所有主要RDBMS的連接器支持不支持解決辦法:使用已在以下數據庫上執(zhí)行測試的通用JDBC連接器:Micros
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 餐飲意向合同范本
- 堅果收購合同范本
- 醫(yī)療系統(tǒng)技術服務合同范本
- 回收報廢船只合同范本
- 陳皮收購合同范本
- 比賽資金合同范本
- 房屋售賣合同范本
- bt施工合同范本
- 第18課《天下第一樓》課件-2023-2024學年統(tǒng)編版語文九年級下冊
- 單位鍋爐維保合同范本
- 護理管理文書質量督查表
- 《財政學》第八章 稅收
- 消化科常規(guī)用藥及注意事項
- 通常起病于兒童少年的行為和情緒障
- 電氣基礎知識考試題庫(完整版)
- 2023年校長競聘面試答辯題
- 學校制定校外供餐管理制度
- 統(tǒng)編版四年級上冊語文-梅蘭芳蓄須相關資料
- 職業(yè)衛(wèi)生評價考試計算題匯總
- 管道穿越高速涵洞施工方案
- 流浪動物收容留檢投標方案(技術方案)
評論
0/150
提交評論