版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、互聯(lián)網(wǎng)與大數(shù)據(jù)大數(shù)據(jù)概述01大數(shù)據(jù)分類(3種劃分方式)0203大數(shù)據(jù)的價值大數(shù)據(jù)概述數(shù)據(jù)量 2013 年中國產生的數(shù)據(jù)總量超過0.8ZB(相當于8億TB),2 倍于2012 年,相當于2009 年全球的數(shù)據(jù)總量。預計到2020 年,中國產生的數(shù)據(jù)總量將是2013年的10倍,超過8.5ZB。DNET數(shù)據(jù)中心2013:硬件重構與軟件定義年度技術報告大數(shù)據(jù)概述01大數(shù)據(jù)分類(3種劃分方式)0203大數(shù)據(jù)的價值大數(shù)據(jù)分類按產生主體劃分最里層:少量企業(yè)應用產生的數(shù)據(jù)關系型數(shù)據(jù)庫中的數(shù)據(jù)數(shù)據(jù)倉庫中的數(shù)據(jù)微博、微信電子商務在線交易日志數(shù)據(jù)呼叫中心評論、留言或者電話投訴等企業(yè)應用的相關評論數(shù)據(jù)應用服務器日志傳
2、感器數(shù)據(jù)(天氣、水、智能電網(wǎng)等)圖像和視頻(攝像頭監(jiān)控數(shù)據(jù)等)RFID、二維碼或條形碼掃描數(shù)據(jù)次外層:大量人產生的數(shù)據(jù)最外層:巨量機器產生的數(shù)據(jù)大數(shù)據(jù)分類按數(shù)據(jù)來源劃分 通過服務器和數(shù)據(jù)中心數(shù)量,以及各行業(yè)數(shù)據(jù)梳理,大致判斷國內2013年一年產生的數(shù)據(jù)總量以及大致分布,數(shù)據(jù)主要分布在以下行業(yè):1、BAT為代表的互聯(lián)網(wǎng)公司。2、電信、金融、保險、電力、石化系統(tǒng)。3、公共安全、醫(yī)療、交通領域。4、氣象、教育、地理、政務等。5、其他,商業(yè)銷售、制造業(yè)、農業(yè)、物流和流通等領域。阿里巴巴目前保存的數(shù)據(jù)量為近百PB擁有90%以上的電商數(shù)據(jù)交易數(shù)據(jù)、用戶瀏覽和點擊網(wǎng)頁數(shù)據(jù)、購物數(shù)據(jù)2013數(shù)據(jù)總量接近一千個
3、PB中文網(wǎng)頁、百度推廣、百度日志、UGC以70%以上的搜索市場份額坐擁龐大的搜索數(shù)據(jù)騰訊總存儲數(shù)據(jù)量經壓縮處理以后在100PB左右數(shù)據(jù)量月增10%大量社交、游戲等領域積累的文本、音頻、視頻和關系類數(shù)據(jù)添加標題百度BAT為代表的互聯(lián)網(wǎng)公司大數(shù)據(jù)分類按數(shù)據(jù)來源劃分電信行業(yè)用戶上網(wǎng)記錄、通話、信息、地理位置運營商擁有的數(shù)據(jù)數(shù)量都在10PB以上年度用戶數(shù)據(jù)增長約數(shù)十PB開戶信息數(shù)據(jù),銀行網(wǎng)點和在線交易數(shù)據(jù)、自身運營的數(shù)據(jù)金融系統(tǒng)每年產生數(shù)據(jù)達數(shù)十PB保險系統(tǒng)數(shù)據(jù)量也接近PB級別電力與石化僅國家電網(wǎng)采集獲得的數(shù)據(jù)總量就上10個PB級別石油化工、智能水表等領域每年產生和保存下來的數(shù)據(jù)量也達到數(shù)十PB級別。
4、金融與保險電信、金融、保險、電力、石化系統(tǒng)大數(shù)據(jù)分類按數(shù)據(jù)來源劃分公共安全北京:50萬個監(jiān)控攝像頭,每天采集視頻數(shù)據(jù)量約3PB整個視頻監(jiān)控每年保存下來的數(shù)據(jù)在數(shù)百PB以上僅廣州中山大學醫(yī)院2013年數(shù)據(jù)量為1000個TB整個醫(yī)療衛(wèi)生行業(yè)一年能夠保存下來的數(shù)據(jù)就可達到數(shù)百PB交通航班往返一次能產生數(shù)據(jù)就達到TB級別列車、水陸路運輸產生的各種視頻、文本類數(shù)據(jù),每年保存下來的也達到數(shù)十PB。添加標題醫(yī)療衛(wèi)生公共安全、醫(yī)療、交通領域大數(shù)據(jù)分類按數(shù)據(jù)來源劃分氣象與地理中國氣象局保存的數(shù)據(jù)約45PB,每年約增數(shù)百個TB各種地圖和地理位置信息每年約數(shù)十PB北京市政務數(shù)據(jù)資源網(wǎng)涵蓋旅游、教育、交通、醫(yī)療等門類
5、,一年上線公布了余個數(shù)據(jù)包政務數(shù)據(jù)多為結構化數(shù)據(jù)政務與教育氣象、教育、地理、政務等領域大數(shù)據(jù)分類按數(shù)據(jù)來源劃分商業(yè)銷售、制造業(yè)、農業(yè)、物流和流通等領域大數(shù)據(jù)分類按數(shù)據(jù)來源劃分其他傳統(tǒng)行業(yè)線下商業(yè)銷售、農林牧漁業(yè)、線下餐飲、食品、科研、物流運輸?shù)刃袠I(yè)數(shù)據(jù)量劇增行業(yè)數(shù)據(jù)量還處于積累期,整個體量都不算大,多則達到PB級別,少則百TB甚至數(shù)十TB級別。制造業(yè)制造業(yè)的存儲數(shù)據(jù)類型:產品設計數(shù)據(jù):以文件為主,非結構化,共享要求較高,保存時間較長。企業(yè)生產環(huán)節(jié)的業(yè)務數(shù)據(jù):數(shù)據(jù)庫結構化數(shù)據(jù)生產監(jiān)控數(shù)據(jù):數(shù)據(jù)量非常大大數(shù)據(jù)分類按存儲形式劃分 大數(shù)據(jù)不僅僅體現(xiàn)在數(shù)據(jù)量大,也體現(xiàn)在數(shù)據(jù)類型多。如此海量的數(shù)據(jù)中,僅有
6、20%左右屬于結構化的數(shù)據(jù),80%的數(shù)據(jù)屬于廣泛存在于社交網(wǎng)絡、物聯(lián)網(wǎng)、電子商務等領域的非結構化或半結構化的數(shù)據(jù)。大數(shù)據(jù)分類按存儲形式劃分結構化數(shù)據(jù)即行數(shù)據(jù),可用二維表結構來邏輯表達實現(xiàn)主要存儲在關系型數(shù)據(jù)庫中先有結構再有數(shù)據(jù),結構一般不變處理起來較方便大數(shù)據(jù)分類按存儲形式劃分非結構化數(shù)據(jù)相對于結構化數(shù)據(jù)而言,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)非純文本類數(shù)據(jù),沒有標準格式包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息存儲在非結構數(shù)據(jù)庫中非結構化WEB數(shù)據(jù)庫:突破了關系數(shù)據(jù)庫結構定義不易改變和數(shù)據(jù)定長的限制大數(shù)據(jù)分類按存儲形式劃分半結構化數(shù)據(jù)介于完全結構化數(shù)據(jù)和
7、完全無結構的數(shù)據(jù)之間格式較為規(guī)范,一般都是純文本數(shù)據(jù)包括日志數(shù)據(jù)、XML、JSON等格式的數(shù)據(jù)一般是自描述的,數(shù)據(jù)的結構和內容混在一起,沒有明顯的區(qū)分數(shù)據(jù)模型主要為樹和圖的形式。作為國內新銳媒體代表的“新周刊”是新浪微博的第一批受益媒體,他們開通了新浪微博后,截止到2010年11月19日,粉絲數(shù)已經達到了878966人,發(fā)表微博6488條。封新城新周刊主編、媒體微博交相呼應截止到2010年11月,封新城的微博粉絲數(shù)已接近36萬新周刊微博案例分享微博話題征集:都市快報通過在新浪微博上進行寫給100歲新中國的信,并通過整版選取內容刊登,極富新意版面整體合作:推出微生活欄目,此欄目是都市快報和新浪網(wǎng)
8、合作推出的版面。微生活的內容來自新浪微博。微生活和讀者分享的則是一周微博熱議、微博語錄、熱文微議等精彩內容。 都市快報微博案例分享微博節(jié)省溝通成本,新聞發(fā)布更為便捷,讓團隊的協(xié)同工作更為快速南京零距離微博案例分享廁所沒有紙了怎么辦?誰最先報道了綿陽地震?11除70的商的小數(shù)點后面的第200位上的數(shù)字是幾?大數(shù)據(jù)概述01大數(shù)據(jù)分類(3種劃分方式)0203大數(shù)據(jù)的價值大數(shù)據(jù)在宏觀經濟管理領域的應用IBM日本公司建立了一個經濟指標預測系統(tǒng),它從互聯(lián)網(wǎng)新聞中搜索出影響制造業(yè)的480項經濟數(shù)據(jù),再計算出PMI預測值,準確度相當高。印第安納大學學者利用Google提供的心情分析工具,根據(jù)用戶近千萬條短信、
9、微博留言中預測道瓊斯工業(yè)指數(shù)。準確率高達87%。淘寶網(wǎng)建立了“淘寶CPI”,它通過采集、編制淘寶網(wǎng)上390個類目的熱門商品價格來統(tǒng)計CPI,它比國家統(tǒng)計局公布的CPI還提前半個月預測經濟的走勢。大數(shù)據(jù)在農業(yè)領域的應用Google前雇員創(chuàng)辦Climate公司,從美國氣象局等數(shù)據(jù)庫中獲得幾十年的天氣數(shù)據(jù),將各地的降雨、氣溫和土壤狀況及歷年農作物產量做成精密圖表,從而能夠預測美國任一農場下一年的產量。任何一個農場主去他那里問明年種什么能賣出去、能賺錢,他能告訴你,說錯了他保證賠償,賠償比保險公司還要高,到現(xiàn)在為止他還沒有賠過。通過手機上農產品“移動支付”數(shù)據(jù)、“采購投入”數(shù)據(jù)和“補貼“數(shù)據(jù)分析,可準
10、確預測農產品生產趨勢,政府可依此決定出臺激勵措施和確定合適的作物存儲量,還可為農民提供服務。大數(shù)據(jù)在商業(yè)領域的應用沃爾瑪基于每個月4500萬的網(wǎng)絡購物數(shù)據(jù),并結合社交網(wǎng)絡上有關產品的大眾評分,開發(fā)機器學習語義搜索引擎“北極星“,方便瀏覽,在線購物者因此增加10%-15%,增加銷售十多億美元。當顧客在超市買東西時,通過手機定位,可以分析他們在貨柜前停留時間的長短,從而判斷顧客對什么感興趣。不僅僅是通過手機定位,實際上美國有的超市在購物推車上也安裝了位置傳感器,根據(jù)顧客在不同貨物前停留時間的長短來分析顧客可能的購物行為。在淘寶網(wǎng)上買東西時,消費者會在阿里的廣告交易平臺上留下記錄,阿里不僅從交易平臺
11、把消費記錄拿來自己使用,還會把消費記錄賣給其他商家。大數(shù)據(jù)在金融業(yè)的應用華爾街某公司通過分析全球3.4億微博賬戶留言來判斷民眾情緒,人們高興的時候會買股票,而焦慮的時候會拋售股票,它通過判斷全世界高興的人多還是焦慮的人多,依此決定公司股票的買入或賣出。阿里公司根據(jù)在淘寶網(wǎng)上中小企業(yè)的交易狀況篩選出財務健康和誠信經營的企業(yè),給他們提供貸款,并且不需要這些中小企業(yè)的擔保。目前阿里公司已放貸上千億元,壞帳率僅0.3%。2012年年底,四大商業(yè)銀行的壞賬率為1%左右,盡管四大銀行要求有擔保,但壞賬率仍然比阿里高出3倍。大數(shù)據(jù)在銀行業(yè)的應用實現(xiàn)方式第一步,利用移動互聯(lián)網(wǎng)技術,定位功能確定商圈,目前已實際
12、覆蓋全國161個商圈,累計服務千萬人次。第二步,利用用戶活動軌跡追蹤,確定高價值商圈,設計業(yè)務。第三步,再利用大數(shù)據(jù)進行客戶需求的體驗分析,既包括客戶的需要,也包括客戶的體驗(即用戶需要相對于用戶意義、目的、情感的關聯(lián)),最終實現(xiàn)用戶體驗的LIKE曲線。中信銀行將客戶使用信用卡加油與吃飯的信息關聯(lián)起來進行分析,通過數(shù)據(jù)的挖掘,卡中心發(fā)現(xiàn),在周末18:00之前加油的客戶,有60%會去吃飯;再結合LBS信息,分析客戶就餐區(qū)域,發(fā)現(xiàn)其中70%有去中心城區(qū)吃飯的習慣。于是信用卡中心與中心城區(qū)的漢拿山烤肉店合作,在每個周末17:30的時候,向駛出加油站的客戶,打出這樣的手機廣告:物超所值,美味、環(huán)境優(yōu)雅
13、,價格適中,朋友聚會的理想場所,持中信卡可享五折優(yōu)惠!信用卡服務大數(shù)據(jù)在保險領域的應用1、電話營銷利用數(shù)據(jù)挖掘對過去電話訪談、成交記錄建立預測模型,找出有購買意愿的潛在客戶4、交叉銷售美國保險公司利用數(shù)據(jù)挖掘技術對不同客戶的消費特征進行分析,制定交叉銷售策略,保證公司是在最能給公司創(chuàng)造收益的客戶集中地地區(qū)運營2、欺詐分析利用歷史數(shù)據(jù),尋找影響保險欺詐最為顯著的因素及量化取值區(qū)間,建立預測模型,快速將理賠案件依照欺詐可能性進行分類處理,協(xié)助無問題案件快速通過5、續(xù)保率維持澳大利亞的保險公司利用數(shù)據(jù)挖掘工具對客戶忠誠度、客戶細分和客戶保持進行分析,以減少客戶流失3、客戶體驗太平洋壽險發(fā)布大數(shù)據(jù)客戶
14、體驗指數(shù)(DEO指數(shù)), 其基于客戶與公司線上線下互動產生的全量數(shù)據(jù),DEO指數(shù)根據(jù)銷售、售后服務、理賠三大領域,誠信、品質、效率、期望值四個維度,選取保險監(jiān)管部門確定的行業(yè)標準12個服務評價定量指標,以及公司重點關注的另外8個客戶體驗指標,以報告期積累的全量實際數(shù)據(jù)為基準值計算得出。2013年各渠道與客戶交互數(shù)為2432萬人次。電話和柜面兩大傳統(tǒng)服務渠道占比達81%,新興移動渠道占比迅速攀升??蛻絷P注的十大熱點為退保利益、退保手續(xù)、分紅利益、產品咨詢、續(xù)期交費狀態(tài)、生存金領取手續(xù)、出險報案、續(xù)期交費憑證、續(xù)期交費時間期次、理賠責任保險領域數(shù)據(jù)挖掘應用現(xiàn)狀大數(shù)據(jù)在保險領域的應用保險領域應用方案
15、架構大數(shù)據(jù)在保險領域的應用保險領域應用方案示例:社交媒體信息交叉驗證欺詐行為交叉驗證大數(shù)據(jù)在醫(yī)療衛(wèi)生領域的應用Google通過用戶搜索與流感相關詞匯的頻率,判斷某個地方可能會發(fā)生流感。2009年在甲型H1N1流感爆發(fā)的幾周前,Google就做出預測,而且還判斷出了流感是從哪里來的。大數(shù)據(jù)在醫(yī)療衛(wèi)生領域的應用根據(jù)麥肯錫的報告,醫(yī)療大數(shù)據(jù)的分析將為美國產生3000億美元的價值,減少8%的國家醫(yī)療保健支出。大數(shù)據(jù)在醫(yī)療衛(wèi)生領域中的應用醫(yī)療服務的交付方式將發(fā)生重大變革,從患者對醫(yī)生信息的獲取,到醫(yī)生對患者的診療,到出院后的康復和回訪,數(shù)字醫(yī)療的沖擊將貫穿整個過程診療過程也會有巨大變革,國外已經有公司在
16、運營專門的遠程醫(yī)療醫(yī)院。美國某醫(yī)療機構,完全通過遠程的方式提供在線問診服務。而移動醫(yī)療對診療過程帶來的影響更是重大,通過可穿戴設備、植入式設備,方便獲取病人實時體征信息,這個在以前是不可能或者成本高昂,對于病情診斷意義重大。而體征獲取傳感器與植入式治療設備的配合對于部分疾病的治療將有劃時代的意義。移動網(wǎng)絡、社交媒體會改變顛覆醫(yī)療活動中各角色的地位,現(xiàn)在病人已經可以通過多渠道信息,對醫(yī)生處方提出質疑。未來基因技術的進展和消費級基因測序的普及也將對行業(yè)產生重大影響,基因測序的成本迅速下降,未來每個人只要愿意都可以擁有自己的基因測序結果。女星安吉麗娜-朱莉,通過檢查發(fā)現(xiàn)自身攜帶致癌基因BRCA1,其
17、患上乳腺癌及卵巢癌概率為87%,通過乳腺切除降低概率到5%。移動醫(yī)療是推動健康管理的重要手段,近期大火的大姨嗎便是抓住了女性群體的特定健康管理的需求。大數(shù)據(jù)在社會管理中的應用廣東東莞通過統(tǒng)計當?shù)厥雏}銷售量與上年同期比較,判斷農民工數(shù)量的變化。這與電信運營商根據(jù)活躍移動用戶數(shù)的變化所推出的數(shù)據(jù)幾乎相當。根據(jù)手機用戶從這個路口到那個路口所花費的時間,可以判斷馬路上是不是流量比較多,是否擁堵。根據(jù)有多少個手機在同時移動,大致可以了解發(fā)生突發(fā)事件時的人流聚集情況,還可以通過手機的注冊地進一步分析機主究竟是從哪里來的。騰訊為每個微博用戶建立了檔案,可以從微博帖子分析用戶的性格,提前關注可能引起社會不穩(wěn)定
18、的因素。大數(shù)據(jù)在智能搜索中的應用Web1.0信息分發(fā)技術連接信息Web2.0信息交互技術連接人Web3.0語義技術連接知識Web4.0智能應用技術連接智能19902000201020202030內容由網(wǎng)站專業(yè)人員產生 內容由網(wǎng)民產生內容還可由物件產生 自組織內容感知、自配置自治通信 Web瀏覽等 即時通信、 博客、微博等 語義搜索、語義圖書館、語義數(shù)據(jù)庫等 分布搜索、 智能個人代理 在電影中加入Google 知識圖譜的 Info Card后,當用戶暫停了正在播放的影片之時,程序就會彈出在該在畫面顯示的人物個人信息,包括實名、出生地點、歲數(shù)、角色名稱、他 / 她曾演出的電影,以及在 Google
19、 Play 上跟他 / 她相關的內容。大數(shù)據(jù)在電信運營管理中的應用據(jù)Sybase分析報告,在利用大數(shù)據(jù)挖掘提升企業(yè)銷售額方面,電信業(yè)在所有行業(yè)中名列第一,人均產值提升達到17%,大數(shù)據(jù)正在成為運營商發(fā)展的新動力。Smartfren是印尼本土最大的CDMA運營商,2013年5月,Samrtfren大數(shù)據(jù)精準營銷系統(tǒng)正式上線。在系統(tǒng)商用最初的兩個月,依托新型的大數(shù)據(jù)營銷平臺,實現(xiàn)了對目標市場和目標客戶群的精準細分,利用主動營銷、事件營銷、觸點營銷等豐富的營銷手段,有效開展市場營銷活動,使Smartfren的營銷轉化率提高到6.6%,月利潤增長了3.1%,離網(wǎng)率降低到0.8%,運營效益顯著提升。中國聯(lián)通基于對用戶上網(wǎng)數(shù)據(jù)的分析給出詳細賬單,避免了收費的糾紛,同時準確掌握基站的忙閑。 大數(shù)據(jù)在電信運營管理中的應用大數(shù)據(jù)在電子商務中的應用某用于為電子商務網(wǎng)站提供商品推薦服務的電商推薦系統(tǒng)。是一個基于大數(shù)據(jù)技術實現(xiàn)的軟硬一體系統(tǒng),它以數(shù)據(jù)挖掘、分析為基礎,收集網(wǎng)站訪客的點擊信息,并結合消費者相似的群體行為,模擬傳統(tǒng)賣場的銷售人員向顧客提供商品推薦,一方面幫助訪客找到所需信息,同時還可以通過推薦系統(tǒng)來提高網(wǎng)站的點擊率和用戶的忠誠度。蘭繆內衣采用其商品推薦系統(tǒng)之
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024納稅擔保合同范本:稅務事項擔保3篇
- 2024電力系統(tǒng)施工勞務分配具體協(xié)議范本版B版
- 2024物聯(lián)網(wǎng)技術研發(fā)合同-構建智能生活
- 專業(yè)健身私教服務協(xié)議范本版B版
- 2024鐵路貨運貨物運輸保險代理服務合同3篇
- 專業(yè)個人咨詢服務協(xié)議:2024收費標準版B版
- 2024投標書房地產開發(fā)合作協(xié)議范本3篇
- 2024酒店裝修工程施工合同
- 2024年規(guī)范三輪車買賣合同合同版B版
- 上海大廈物業(yè)前期管理專項協(xié)議2024版版
- 亞硝酸鈉安全標簽
- 土建工程定額計價之建筑工程定額
- 學校安全工作匯報PPT
- 成都大熊貓基地英文導游詞-四川大熊貓基地解說詞
- 一年級語文上冊《兩件寶》教案1
- 咨詢公司工作總結(共5篇)
- GB/T 38836-2020農村三格式戶廁建設技術規(guī)范
- 小品《天宮賀歲》臺詞劇本手稿
- 京東商業(yè)計劃書課件
- 肥料采購驗收單模板
- 部編版五年級下冊語文根據(jù)課文內容填空(常用)
評論
0/150
提交評論