大數(shù)據(jù)基礎(chǔ)和行業(yè)應(yīng)用講義版(PPT-78頁(yè))課件_第1頁(yè)
大數(shù)據(jù)基礎(chǔ)和行業(yè)應(yīng)用講義版(PPT-78頁(yè))課件_第2頁(yè)
大數(shù)據(jù)基礎(chǔ)和行業(yè)應(yīng)用講義版(PPT-78頁(yè))課件_第3頁(yè)
大數(shù)據(jù)基礎(chǔ)和行業(yè)應(yīng)用講義版(PPT-78頁(yè))課件_第4頁(yè)
大數(shù)據(jù)基礎(chǔ)和行業(yè)應(yīng)用講義版(PPT-78頁(yè))課件_第5頁(yè)
已閱讀5頁(yè),還剩74頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)基礎(chǔ)和行業(yè)應(yīng)用大數(shù)據(jù)Big Data大數(shù)據(jù)的定義理解什么是大數(shù)據(jù)大數(shù)據(jù)時(shí)代的背景1大數(shù)據(jù)的定義理解大數(shù)據(jù)的“4V”特征2大數(shù)據(jù)的構(gòu)成3大數(shù)據(jù)時(shí)代的背景 半個(gè)世紀(jì)以來(lái),隨著計(jì)算機(jī)技術(shù)全面融入社會(huì)生活,信息爆炸已經(jīng)積累到了一個(gè)開(kāi)始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長(zhǎng)速度也在加快。互聯(lián)網(wǎng)(社交、搜索、電商)、移動(dòng)互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、保險(xiǎn))、電信(通話、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)。數(shù)據(jù)量增加TBPBZBEB根據(jù)IDC 監(jiān)測(cè),人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級(jí)增長(zhǎng),大約每?jī)赡攴环?,這個(gè)速度在2020

2、年之前會(huì)繼續(xù)保持下去。這意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量。數(shù)據(jù)結(jié)構(gòu)日趨復(fù)雜大量新數(shù)據(jù)源的出現(xiàn)則導(dǎo)致了非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)爆發(fā)式的增長(zhǎng)這些由我們創(chuàng)造的信息背后產(chǎn)生的這些數(shù)據(jù)早已經(jīng)遠(yuǎn)遠(yuǎn)超越了目前人力所能處理的范疇大數(shù)據(jù)時(shí)代正在來(lái)臨大數(shù)據(jù)時(shí)代的背景YBNBBB20世紀(jì)90年代,數(shù)據(jù)倉(cāng)庫(kù)之父的Bill Inmon就經(jīng)常提及Big Data。2011年5月,在“云計(jì)算相遇大數(shù)據(jù)”為主題的EMC World 2011 會(huì)議中,EMC 拋出了Big Data概念。大數(shù)據(jù)時(shí)代的背景體量Volume多樣性Variety價(jià)值密度Value速度Velocity非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長(zhǎng)

3、占總數(shù)據(jù)量的8090%比結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的10倍到50倍大數(shù)據(jù)的異構(gòu)和多樣性很多不同形式(文本、圖像、視頻、機(jī)器數(shù)據(jù))無(wú)模式或者模式不明顯不連貫的語(yǔ)法或句義大量的不相關(guān)信息對(duì)未來(lái)趨勢(shì)與模式的可預(yù)測(cè)分析深度復(fù)雜分析(機(jī)器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智能(咨詢、報(bào)告等)實(shí)時(shí)分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見(jiàn)影而非事后見(jiàn)效大數(shù)據(jù)的4V特征“大量化(Volume)、多樣化(Variety)、快速化(Velocity)、價(jià)值密度低(Value)”就是“大數(shù)據(jù)”的顯著特征,或者說(shuō),只有具備這些特點(diǎn)的數(shù)據(jù),才是大數(shù)據(jù)。大數(shù)據(jù) = 海量數(shù)據(jù) + 復(fù)雜類型的數(shù)據(jù)海量交易數(shù)據(jù):

4、企業(yè)內(nèi)部的經(jīng)營(yíng)交易信息主要包括聯(lián)機(jī)交易數(shù)據(jù)和聯(lián)機(jī)分析數(shù)據(jù),是結(jié)構(gòu)化的、通過(guò)關(guān)系數(shù)據(jù)庫(kù)進(jìn)行管理和訪問(wèn)的靜態(tài)、歷史數(shù)據(jù)。通過(guò)這些數(shù)據(jù),我們能了解過(guò)去發(fā)生了什么。大數(shù)據(jù)包括:交易數(shù)據(jù)和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集海量交互數(shù)據(jù):源于各種網(wǎng)絡(luò)和社交媒體。它包括了呼叫詳細(xì)記錄、設(shè)備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、通過(guò)管理文件傳輸協(xié)議傳送的海量圖像文件、Web文本和點(diǎn)擊流數(shù)據(jù)、評(píng)價(jià)數(shù)據(jù)、科學(xué)信息、電子郵件等等??梢愿嬖V我們未來(lái)會(huì)發(fā)生什么。大數(shù)據(jù)的構(gòu)成大數(shù)據(jù)的技術(shù)與應(yīng)用大數(shù)據(jù)怎么用大數(shù)據(jù)技術(shù)要解決的問(wèn)題1大數(shù)據(jù)的技術(shù)與應(yīng)用大數(shù)據(jù)的相關(guān)技術(shù)2大數(shù)據(jù)的應(yīng)用實(shí)例3Volume海量的數(shù)據(jù)規(guī)模Variety多樣的

5、數(shù)據(jù)類型StreamsReal timeNear timeBatchTBPBEBStructuredUnstructuredSemi-structuredAll the aboveValueVelocity快速的數(shù)據(jù)流轉(zhuǎn)發(fā)現(xiàn)數(shù)據(jù)價(jià)值大數(shù)據(jù)技術(shù)要解決的問(wèn)題大數(shù)據(jù)技術(shù)被設(shè)計(jì)用于在成本可承受的條件下,通過(guò)非??焖伲╲elocity)地采集、發(fā)現(xiàn)和分析,從大量(volumes)、多類別(variety)的數(shù)據(jù)中提取價(jià)值(value),將是IT 領(lǐng)域新一代的技術(shù)與架構(gòu)。企業(yè)用以分析的數(shù)據(jù)越全面,分析的結(jié)果就越接近于真實(shí)。大數(shù)據(jù)分析意味著企業(yè)能夠從這些新的數(shù)據(jù)中獲取新的洞察力,并將其與已知業(yè)務(wù)的各個(gè)細(xì)節(jié)相

6、融合。大數(shù)據(jù)技術(shù)要解決的問(wèn)題技術(shù)領(lǐng)域的挑戰(zhàn)傳統(tǒng)的數(shù)據(jù)庫(kù)部署不能處理數(shù)TB 級(jí)別的數(shù)據(jù),也不能很好的支持高級(jí)別的數(shù)據(jù)分析,急速膨脹的數(shù)據(jù)體量即將超越傳統(tǒng)數(shù)據(jù)庫(kù)的管理能力。因此,需要構(gòu)建全球級(jí)的分布式數(shù)據(jù)庫(kù),可以擴(kuò)展到數(shù)百萬(wàn)的機(jī)器,數(shù)已百計(jì)的數(shù)據(jù)中心,上萬(wàn)億的行數(shù)據(jù)。經(jīng)典數(shù)據(jù)庫(kù)技術(shù)并沒(méi)有考慮數(shù)據(jù)的多類別(variety),SQL在設(shè)計(jì)的一開(kāi)始是沒(méi)有考慮非結(jié)構(gòu)化數(shù)據(jù)的。一般而言,像數(shù)據(jù)倉(cāng)庫(kù)、BI等,對(duì)處理時(shí)間的要求并不高。因此這類應(yīng)用如果運(yùn)行1、2天獲得結(jié)果依然可行的。但大數(shù)據(jù)應(yīng)用要求實(shí)時(shí)處理,這是其區(qū)別于傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)、BI技術(shù)的關(guān)鍵差別之一。數(shù)據(jù)采集數(shù)據(jù)儲(chǔ)存與管理數(shù)據(jù)分析與挖掘計(jì)算結(jié)果展示大數(shù)

7、據(jù)的相關(guān)技術(shù)ETL數(shù)據(jù)眾包(CrowdSouring)數(shù)據(jù)眾包數(shù)據(jù)眾包是一種新的數(shù)據(jù)采集方式,由企業(yè)方通過(guò)平臺(tái)把數(shù)據(jù)采集任務(wù)外包給非特定的大眾網(wǎng)絡(luò)。數(shù)據(jù)采集數(shù)據(jù)儲(chǔ)存與管理數(shù)據(jù)分析與挖掘計(jì)算結(jié)果展示大數(shù)據(jù)的相關(guān)技術(shù)ETL數(shù)據(jù)眾包(CrowdSouring)結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)分布式文件系統(tǒng)關(guān)系數(shù)據(jù)庫(kù)非關(guān)系數(shù)據(jù)庫(kù)(NoSQL)數(shù)據(jù)倉(cāng)庫(kù)云計(jì)算和云存儲(chǔ)實(shí)時(shí)流處理分布式文件系統(tǒng)分布式文件系統(tǒng)(Distributed File System)是指文件系統(tǒng)管理的物理存儲(chǔ)資源不一定直接連接在本地節(jié)點(diǎn)上,而是通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)與節(jié)點(diǎn)相連。分布式文件系統(tǒng)Google文件系統(tǒng)(Google File Syst

8、em,GFS)是一個(gè)可擴(kuò)展的分布式文件系統(tǒng),用于大型的、分布式的、對(duì)大量數(shù)據(jù)進(jìn)行訪問(wèn)的應(yīng)用。它運(yùn)行于廉價(jià)的普通硬件上,將服務(wù)器故障視為正?,F(xiàn)象,通過(guò)軟件的方式自動(dòng)容錯(cuò),在保證系統(tǒng)可靠性和可用性的同時(shí),大大減少了系統(tǒng)的成本。分布式文件系統(tǒng)Hadoop是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),由Apache基金會(huì)開(kāi)發(fā)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開(kāi)發(fā)分布式程序,充分利用集群的威力高速運(yùn)算和存儲(chǔ)。Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(Hadoop Distributed File System),簡(jiǎn)稱HDFS。HDFS有著高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來(lái)部署在低廉的硬件上。分布式文件系統(tǒng)一個(gè)HDFS集群是由

9、一個(gè)Namenode和一定數(shù)目的Datanodes組成。非關(guān)系型數(shù)據(jù)庫(kù)NoSQL關(guān)系型數(shù)據(jù)庫(kù)的局限性難以滿足高并發(fā)讀寫(xiě)的需求難以滿足對(duì)海量數(shù)據(jù)高效率存儲(chǔ)和訪問(wèn)的需求難以滿足對(duì)數(shù)據(jù)庫(kù)高可擴(kuò)展性和高可用性的需求NoSQL=非關(guān)系型數(shù)據(jù)庫(kù)NoSQLNoSQL 數(shù)據(jù)存儲(chǔ)不需要固定的表結(jié)構(gòu),通常也不存在連接操作。在大數(shù)據(jù)存取上具備關(guān)系型數(shù)據(jù)庫(kù)無(wú)法比擬的性能優(yōu)勢(shì)。關(guān)系型數(shù)據(jù)庫(kù)中的表都是存儲(chǔ)一些格式化的數(shù)據(jù)結(jié)構(gòu),每個(gè)元組字段的組成都一樣,即使不是每個(gè)元組都需要所有的字段,但數(shù)據(jù)庫(kù)會(huì)為每個(gè)元組分配所有的字段。非關(guān)系型數(shù)據(jù)庫(kù)以鍵值對(duì)存儲(chǔ),它的結(jié)構(gòu)不固定,每一個(gè)元組可以有不一樣的字段,每個(gè)元組可以根據(jù)需要增加一些

10、自己的鍵值對(duì),這樣就不會(huì)局限于固定的結(jié)構(gòu),可以減少一些時(shí)間和空間的開(kāi)銷。非關(guān)系型數(shù)據(jù)庫(kù)NoSQL云計(jì)算和云存儲(chǔ)云計(jì)算(cloud computing),是分布式計(jì)算技術(shù)的一種,其最基本的概念,是透過(guò)網(wǎng)絡(luò)將龐大的計(jì)算處理程序自動(dòng)分拆成無(wú)數(shù)個(gè)較小的子程序,再交由多部服務(wù)器所組成的龐大系統(tǒng)經(jīng)搜尋、計(jì)算分析之后將處理結(jié)果回傳給用戶。透過(guò)這項(xiàng)技術(shù),網(wǎng)絡(luò)服務(wù)提供者可以在數(shù)秒之內(nèi),達(dá)成處理數(shù)以千萬(wàn)計(jì)甚至億計(jì)的信息,達(dá)到和“超級(jí)計(jì)算機(jī)”同樣強(qiáng)大效能的網(wǎng)絡(luò)服務(wù)。云計(jì)算是一種資源交付和使用模式,指通過(guò)網(wǎng)絡(luò)獲得應(yīng)用所需的資源(硬件、平臺(tái)、軟件)。提供資源的網(wǎng)絡(luò)被稱為“云”。白云下面數(shù)據(jù)跑藍(lán)藍(lán)的天上白云飄如果數(shù)據(jù)是財(cái)

11、富,那么大數(shù)據(jù)就是寶藏,而云計(jì)算就是挖掘和利用寶藏的利器。沒(méi)有強(qiáng)大的計(jì)算能力,數(shù)據(jù)寶藏終究是鏡中花;沒(méi)有大數(shù)據(jù)的積淀,云計(jì)算也只能是殺雞用的宰牛刀。云計(jì)算和云存儲(chǔ)云計(jì)算和云存儲(chǔ)云存儲(chǔ)是在云計(jì)算(cloud computing)概念上延伸和發(fā)展出來(lái)的一個(gè)新概念,是指通過(guò)集群應(yīng)用、網(wǎng)格技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量各種不同類型的存儲(chǔ)設(shè)備通過(guò)應(yīng)用軟件集合起來(lái)協(xié)同工作,共同對(duì)外提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問(wèn)功能的一個(gè)系統(tǒng)。當(dāng)云計(jì)算系統(tǒng)運(yùn)算和處理的核心是大量數(shù)據(jù)的存儲(chǔ)和管理時(shí),云計(jì)算系統(tǒng)中就需要配置大量的存儲(chǔ)設(shè)備,那么云計(jì)算系統(tǒng)就轉(zhuǎn)變成為一個(gè)云存儲(chǔ)系統(tǒng),所以云存儲(chǔ)是一個(gè)以數(shù)據(jù)存儲(chǔ)和管理為核心的云計(jì)算系

12、統(tǒng)。實(shí)時(shí)流處理傳統(tǒng)的分布式計(jì)算往往是先積累大量的數(shù)據(jù),再進(jìn)行數(shù)據(jù)拆分和聚合。而實(shí)時(shí)流處理則是讓數(shù)據(jù)流動(dòng)起來(lái),數(shù)據(jù)從內(nèi)存中流過(guò),截取需要的數(shù)據(jù),進(jìn)行實(shí)時(shí)分析計(jì)算。實(shí)時(shí)流處理傳統(tǒng)的分布式計(jì)算往往是先積累大量的數(shù)據(jù),再進(jìn)行數(shù)據(jù)拆分和聚合。而實(shí)時(shí)流處理則是讓數(shù)據(jù)流動(dòng)起來(lái),數(shù)據(jù)從內(nèi)存中流過(guò),截取需要的數(shù)據(jù),進(jìn)行實(shí)時(shí)分析計(jì)算。數(shù)據(jù)采集數(shù)據(jù)儲(chǔ)存與管理數(shù)據(jù)分析與挖掘計(jì)算結(jié)果展示大數(shù)據(jù)的相關(guān)技術(shù)ETL數(shù)據(jù)眾包(CrowdSouring)結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)分布式文件系統(tǒng)關(guān)系數(shù)據(jù)庫(kù)非關(guān)系數(shù)據(jù)庫(kù)(NoSQL)數(shù)據(jù)倉(cāng)庫(kù)云計(jì)算和云存儲(chǔ)實(shí)時(shí)流處理A/B Testing關(guān)聯(lián)規(guī)則分析分類聚類遺傳算法神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型

13、模式識(shí)別時(shí)間序列分析回歸分析系統(tǒng)仿真機(jī)器學(xué)習(xí)優(yōu)化空間分析社會(huì)網(wǎng)絡(luò)分析自然語(yǔ)言分析MapReduceR語(yǔ)言A/B TestingA/B測(cè)試是可用性測(cè)試的一個(gè)方法,其核心為:同時(shí)實(shí)驗(yàn)兩個(gè)元素或版本(A和B),確定哪個(gè)更好。注冊(cè)按鈕由綠色改成紅色提高轉(zhuǎn)化率34%人性化的表格提高11%的轉(zhuǎn)化率。MapReduceMapReduce是Google提出的一個(gè)軟件架構(gòu),用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。它使編程人員在不了解分布式并行編程的情況下,能將自己的程序運(yùn)行在分布式系統(tǒng)上。Map=映射Reduce=規(guī)約或化簡(jiǎn)MapReduceR語(yǔ)言R語(yǔ)言是一種自由軟件編程語(yǔ)言與操作環(huán)境,主要用于統(tǒng)計(jì)分析、繪圖

14、、數(shù)據(jù)挖掘。R語(yǔ)言擅長(zhǎng)在Hadoop分布式文件系統(tǒng)中存儲(chǔ)的非結(jié)構(gòu)化數(shù)據(jù)上的分析。R現(xiàn)在還可以運(yùn)行在HBase這種非關(guān)系型的數(shù)據(jù)庫(kù)以及面向列的分布式數(shù)據(jù)存儲(chǔ)之上。數(shù)據(jù)采集數(shù)據(jù)儲(chǔ)存與管理數(shù)據(jù)分析與挖掘計(jì)算結(jié)果展示大數(shù)據(jù)的相關(guān)技術(shù)ETL數(shù)據(jù)眾包(CrowdSouring)結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)分布式文件系統(tǒng)關(guān)系數(shù)據(jù)庫(kù)非關(guān)系數(shù)據(jù)庫(kù)(NoSQL)數(shù)據(jù)倉(cāng)庫(kù)云計(jì)算和云存儲(chǔ)實(shí)時(shí)流處理A/B Testing關(guān)聯(lián)規(guī)則分析分類聚類遺傳算法神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型模式識(shí)別時(shí)間序列分析回歸分析系統(tǒng)仿真機(jī)器學(xué)習(xí)優(yōu)化空間分析社會(huì)網(wǎng)絡(luò)分析自然語(yǔ)言分析MapReduceR語(yǔ)言標(biāo)簽云(Tag Cloud)聚類圖(Clusterg

15、ram)空間信息流(Spatial information flow)熱圖(Heatmap)標(biāo)簽云標(biāo)簽云(Tag Cloud)是一套相關(guān)的標(biāo)簽以及與此相應(yīng)的權(quán)重。權(quán)值影響標(biāo)簽的字體大小、顏色或其他視覺(jué)效果。典型的標(biāo)簽云有30至150個(gè)標(biāo)簽,用以表示一個(gè)網(wǎng)站中的內(nèi)容及其熱門(mén)程度。標(biāo)簽通常是超鏈接,指向分類頁(yè)面。標(biāo)簽云奧巴馬布什克林頓林肯聚類圖聚類圖(Clustergram)是指用圖形方式展示聚類分析結(jié)果的技術(shù),可以有助于判斷簇?cái)?shù)量不同時(shí)的聚類效果??臻g信息流空間信息流(Spatial information flow)是展示信息空間狀態(tài)的一種可視化技術(shù)。熱圖熱圖(Heatmap)是一項(xiàng)數(shù)據(jù)展示技

16、術(shù),將變量值用不同的顏色或高亮形式描繪出來(lái)。可以非常直觀的呈現(xiàn)一些原本不易理解或表達(dá)的數(shù)據(jù),比如密度、頻率、溫度等。熱圖大數(shù)據(jù)的應(yīng)用實(shí)例電商數(shù)據(jù)中心(一)HadoopHiveHBASE(NoSQL)指標(biāo)體系TMSWMSERP交易DataXStorm報(bào)表體系報(bào)告體系運(yùn)營(yíng)體系監(jiān)控體系UDFile移動(dòng)端關(guān)系數(shù)據(jù)庫(kù)與Hadoop混搭技術(shù)混搭、理念融合電商基本系統(tǒng)名稱CMSFMSOMSPMSWMSTMSAMSSCMCRM44軟件的功能:為了測(cè)試用戶數(shù)據(jù)業(yè)務(wù)的QOE,得出用戶上網(wǎng)的真實(shí)評(píng)價(jià)主動(dòng)測(cè)試部分:用戶主動(dòng)上網(wǎng)行為的模擬(上傳、下載和時(shí)延)打開(kāi)網(wǎng)頁(yè)的模擬(網(wǎng)站響應(yīng)的時(shí)延、速度測(cè)試)對(duì)于軟件的監(jiān)控:流量

17、和使用時(shí)長(zhǎng)的監(jiān)控測(cè)試的地圖展示北郵APP采集數(shù)據(jù)分析 我們的軟件Anttest45手推車速度自行車速度小汽車速度火車速度飛機(jī)速度火箭速度沖浪速度網(wǎng)速評(píng)價(jià)指標(biāo)我們的軟件Anttest46要獲得用戶真正的QOE只有主動(dòng)測(cè)試是遠(yuǎn)遠(yuǎn)不夠的,還需要對(duì)用戶的APP使用和上網(wǎng)情況,進(jìn)行被動(dòng)的監(jiān)控,獲取真實(shí)的數(shù)據(jù),進(jìn)行分析。我們的軟件Anttest47測(cè)試的數(shù)據(jù)來(lái)源:主動(dòng)測(cè)試的收集和被動(dòng)監(jiān)控的收集推廣方式:各大android市場(chǎng)發(fā)布和北京各高校論壇推廣測(cè)試用戶: android市場(chǎng)下載使用者和校內(nèi)友好用戶數(shù)據(jù)的收集48校園大規(guī)模測(cè)試 時(shí)間: 2013.7.10- 2013.7.20 8days上午: 9:00

18、-11:30下午: 14:00-17:00晚上: 19:30-21:00搜集:主動(dòng)測(cè)試的信息被動(dòng)監(jiān)控的信息3. 數(shù)據(jù)的收集49移動(dòng) (1746)聯(lián)通 (2060)電信 (2094)3. 數(shù)據(jù)的收集50上傳平均速度下載平均速度平均時(shí)延3. 數(shù)據(jù)的收集51CMCC 強(qiáng)度(dBm)CUCC 強(qiáng)度(dBm)CTCC 強(qiáng)度(dBm)3. 數(shù)據(jù)的收集52CMCCCUCCCTCCCMCCCUCCCTCC3. 數(shù)據(jù)的收集53移動(dòng)聯(lián)通電信數(shù)據(jù)聯(lián)通性測(cè)試:時(shí)間:2013-10-15 2013-10-18(4 天)搜集:北郵校內(nèi)的 數(shù)據(jù)聯(lián)通率移動(dòng): 15,857聯(lián)通: 3,713電信: 3,252WI-FI: 3,

19、061總計(jì): 31,899說(shuō)明:紅色的點(diǎn)代表數(shù)據(jù)聯(lián)通性出現(xiàn)問(wèn)題,藍(lán)色的點(diǎn)代表數(shù)據(jù)聯(lián)通性正常3. 數(shù)據(jù)的收集54數(shù)據(jù)表數(shù)據(jù)條目主動(dòng)測(cè)試數(shù)據(jù)25,420小區(qū)強(qiáng)度數(shù)據(jù)5,116,604數(shù)據(jù)聯(lián)通性數(shù)據(jù)32,851APP流量數(shù)據(jù)26,433,4893. 數(shù)據(jù)的收集目前為止,Mysql數(shù)據(jù)庫(kù)大小,超過(guò)10GB。當(dāng)數(shù)據(jù)表超過(guò)1300百萬(wàn)條時(shí)Mysql計(jì)算均值,平均響應(yīng)在30s左右555.2 大數(shù)據(jù)分析結(jié)果示例-1使用不同網(wǎng)絡(luò)的人數(shù)對(duì)比,發(fā)現(xiàn)在使用我們軟件的人數(shù)中,2G網(wǎng)絡(luò)的用戶還是占了一大部分呢,大概在50%左右。LTE手機(jī)上市還沒(méi)有多久,也有LTE的手機(jī)在使用我們的軟件565.2 大數(shù)據(jù)分析結(jié)果示例-2從

20、統(tǒng)計(jì)的總體流量來(lái)看,Wi-Fi的總流量遠(yuǎn)遠(yuǎn)超出了其他網(wǎng)絡(luò)的用戶流量數(shù),上行統(tǒng)計(jì)達(dá)到1690.6GB,下行統(tǒng)計(jì)達(dá)到3031.9GB,圖中1xRTT上行流量統(tǒng)計(jì)只有0.21GB。57使用移動(dòng)網(wǎng)絡(luò)2.45%0.06%42.18%42.47%12.84%分析發(fā)現(xiàn),我們?nèi)粘J褂玫囊苿?dòng)網(wǎng)絡(luò),85%的用戶數(shù)平均下載速度是在1KB/s-100KB/s區(qū)間,難怪用戶經(jīng)常抱怨網(wǎng)速不給力。5.2 大數(shù)據(jù)分析結(jié)果示例-358對(duì)于一天24小時(shí),各個(gè)時(shí)間段的上行和下行流量對(duì)比。12:00左右會(huì)達(dá)到一個(gè)小高峰,但是不是很明顯。每天20:00之后,使用Wi-Fi的流量持續(xù),增長(zhǎng)到23:00-24:00期間,達(dá)到最高峰。每天早

21、晨5:00-6:00是Wi-Fi流量使用的最低谷。5.2 大數(shù)據(jù)分析結(jié)果示例-459對(duì)于一天24小時(shí),各個(gè)時(shí)間段的上行和下行流量對(duì)比。使用移動(dòng)網(wǎng)絡(luò)和Wi-Fi的流量圖有著明顯的區(qū)別,在8:00、10:00、13:00左右出現(xiàn)三個(gè)高峰,8:00左右是在上班的路上,在地鐵和公交上的人會(huì)習(xí)慣性使用手機(jī)打發(fā)時(shí)間。10:00是工作開(kāi)始后的第一個(gè)小時(shí),13:00是在午休期間。5.2 大數(shù)據(jù)分析結(jié)果示例-560不同流量的人數(shù)分布,比如說(shuō)有多少人用了1G,有多少人用了2G,等等只使用10M的有幾人,能用到100M總流量的有幾人,上G的又有幾人。分為日均,周均和月均。使用移動(dòng)網(wǎng)絡(luò),低流量用戶還是占了絕大多數(shù)。5

22、.2 大數(shù)據(jù)分析結(jié)果示例-6615.2 大數(shù)據(jù)分析結(jié)果示例-762平均每個(gè)人每天上網(wǎng)時(shí)間的分布,看看多少用戶每天用多少時(shí)間上網(wǎng)。每天使用網(wǎng)10分鐘的有幾人,一小時(shí)的有幾人,3小時(shí)的有幾人。絕大多數(shù)用戶日均上網(wǎng)時(shí)間在2-15min和15min到2.5小時(shí)這兩個(gè)段內(nèi)。5.2 大數(shù)據(jù)分析結(jié)果示例-863App網(wǎng)絡(luò)活躍度時(shí)間統(tǒng)計(jì),比如日均上網(wǎng)使用了10分鐘的app有多少,一小時(shí)的app有多少。5.2 大數(shù)據(jù)分析結(jié)果示例-964App日均消耗流量分布圖,日均消耗1KB10KB的App有多少款,消耗10KB1MB的App有多少款。使用移動(dòng)網(wǎng)絡(luò)使用Wi-Fi網(wǎng)絡(luò)43.62%39.93%10.96%3.19%

23、1.70%0.52%0.07%57.68%32.40%8.09%1.27%0.50%0.05%5.2 大數(shù)據(jù)分析結(jié)果示例-95.2 大數(shù)據(jù)分析結(jié)果示例-流量變化不同類型應(yīng)用用戶數(shù)量隨時(shí)間變化橫坐標(biāo)是時(shí)間,縱坐標(biāo)是用戶數(shù)量不同類型應(yīng)用用戶之間的連接數(shù)隨時(shí)間變化橫坐標(biāo)是時(shí)間,縱坐標(biāo)是用戶數(shù)量用戶數(shù)量、連接數(shù)在一天內(nèi)的變化與人的作息相似。不同類型應(yīng)用用戶平均度隨時(shí)間變化橫坐標(biāo)是時(shí)間,縱坐標(biāo)是用戶平均度不同類型應(yīng)用用戶平均流量隨時(shí)間變化橫坐標(biāo)是時(shí)間,縱坐標(biāo)是用戶平均流量不同類型的相互比較顯示,Web用戶平均連接數(shù)最大,Video Stream 用戶的平均流量最大。Web用戶的平均連接數(shù)在一天內(nèi)不斷變化

24、,并在2-5時(shí)達(dá)到最小。Video Stream 用戶的用戶平均流量在2-5時(shí)達(dá)到最大。653小時(shí)內(nèi)使用兩種應(yīng)用的用戶比例例如:使用Web的用戶同時(shí)有58.3%使用了P2PD,51.6%使用了P2PS等。比較突出是既使用Web又使用Video應(yīng)用的用戶占了所有使用Video用戶的90.1%。5.2 大數(shù)據(jù)分析結(jié)果示例- 社團(tuán)結(jié)構(gòu)-交叉用戶66用戶平均應(yīng)用數(shù)橫坐標(biāo)是時(shí)間,每小時(shí)統(tǒng)計(jì)一次??v坐標(biāo)是用戶平均使用應(yīng)用數(shù)??梢钥吹接脩粼诓煌囊恍r(shí)時(shí)間段內(nèi)使用應(yīng)用的平均數(shù)為1.3到1.65.2 大數(shù)據(jù)分析結(jié)果示例:社團(tuán)結(jié)構(gòu)-交叉用戶67使用同種類型應(yīng)用的用戶之間的關(guān)聯(lián)性橫坐標(biāo)為圖中點(diǎn)的個(gè)數(shù),代表網(wǎng)絡(luò)中用

25、戶的數(shù)量。縱坐標(biāo)為模塊度,代表了同種應(yīng)用內(nèi)部關(guān)聯(lián)度與不同應(yīng)用之間的關(guān)聯(lián)度的差。隨著用戶數(shù)量的增加,模塊度降低,表示越來(lái)越多的用戶會(huì)同時(shí)使用不止一種應(yīng)用。5.2 大數(shù)據(jù)分析結(jié)果示例:社團(tuán)結(jié)構(gòu)-連接緊密性68根據(jù)圖的結(jié)構(gòu)信息,判定節(jié)點(diǎn)的重要性。PageRank是google用來(lái)根據(jù)結(jié)構(gòu)信息判定網(wǎng)頁(yè)重要性的算法。入選2006年十大數(shù)據(jù)挖掘經(jīng)典算法如果一個(gè)頁(yè)面被多次引用,那么這個(gè)頁(yè)面很可能是重要的。如果一個(gè)頁(yè)面被重要的頁(yè)面 引用,那么這個(gè)頁(yè)面很可能 是重要的。一個(gè)頁(yè)面的重要性被均分并 傳遞到它所引用的頁(yè)面。 大圖數(shù)據(jù)的概念運(yùn)營(yíng)商CDR 分析案例接通率Answer Service Rate (ASR &

26、 Adjusted ASR)完成的呼叫路由嘗試(與供應(yīng)商的表現(xiàn))完成呼叫與呼叫嘗試(客戶滿意度)盈虧分析計(jì)算由呼叫路由路徑選擇所引起的利潤(rùn)盈虧撥號(hào)后延遲 Post Dial Delay (PDD)Annoying delay until path through network selected近實(shí)時(shí)通話質(zhì)量分析通話時(shí)長(zhǎng),抖動(dòng)和丟包所有以上參數(shù)的歷史趨勢(shì)分析與預(yù)測(cè)70CDR 分析71近實(shí)時(shí)監(jiān)控潛在的問(wèn)題點(diǎn)CDR 分析72下鉆尋找造成低接通率(ASR)的供應(yīng)商實(shí)時(shí)將低接通率的供應(yīng)商移出路由表操作員聯(lián)系供應(yīng)商修正錯(cuò)誤(很多時(shí)候供應(yīng)商并不知道發(fā)生問(wèn)題)供應(yīng)商接通率 按區(qū)域代碼排序?qū)崟r(shí)經(jīng)分的應(yīng)用-淘寶

27、雙11交易情況現(xiàn)場(chǎng)直播重慶實(shí)時(shí)經(jīng)營(yíng)分析系統(tǒng)河北網(wǎng)格化分析系統(tǒng)(信令數(shù)據(jù)字段有(MC口信令):號(hào)碼、lac、cell、進(jìn)入時(shí)間、離開(kāi)時(shí)間、imsi、imei)wlan精準(zhǔn)分流:在用戶進(jìn)入wlan停留一定時(shí)長(zhǎng),進(jìn)行訂購(gòu)營(yíng)銷或服務(wù)提醒寬帶營(yíng)銷:實(shí)時(shí)獲取小區(qū)當(dāng)前用戶,可群發(fā)短信提醒ICT應(yīng)用:可對(duì)商戶附近進(jìn)行分析,旅游景區(qū)分析:可以分析景區(qū)的總?cè)藬?shù),監(jiān)控線路的人數(shù)等。集團(tuán)客戶真實(shí)性核查:結(jié)合經(jīng)分系統(tǒng)其他數(shù)據(jù),核查集團(tuán)客戶資料的真實(shí)性。安徽公司信令數(shù)據(jù)的利用方案機(jī)遇與挑戰(zhàn)感謝聆聽(tīng)?。ǖ?4講)考場(chǎng)作文開(kāi)拓文路能力分解層次(網(wǎng)友來(lái)稿)江蘇省鎮(zhèn)江中學(xué) 陳乃香說(shuō)明:本系列稿共24講,20XX年1月6日開(kāi)始在資

28、源上連載【要義解說(shuō)】文章主旨確立以后,就應(yīng)該恰當(dāng)?shù)胤纸鈱哟危箮讉€(gè)層次構(gòu)成一個(gè)有機(jī)的整體,形成一篇完整的文章。如何分解層次主要取決于表現(xiàn)主旨的需要?!静呗越庾x】一般說(shuō)來(lái),記人敘事的文章常按時(shí)間順序分解層次,寫(xiě)景狀物的文章常按時(shí)間順序、空間順序分解層次;說(shuō)明文根據(jù)說(shuō)明對(duì)象的特點(diǎn),可按時(shí)間順序、空間順序或邏輯順序分解層次;議論文主要根據(jù)“提出問(wèn)題分析問(wèn)題解決問(wèn)題”順序來(lái)分解層次。當(dāng)然,分解層次不是一層不變的固定模式,而應(yīng)該富于變化。文章的層次,也常常有些外在的形式:1小標(biāo)題式。即圍繞話題把一篇文章劃分為幾個(gè)相對(duì)獨(dú)立的部分,再給它們加上一個(gè)簡(jiǎn)潔、恰當(dāng)?shù)男?biāo)題。如世界改變了模樣四個(gè)小標(biāo)題:壽命變“長(zhǎng)”

29、了、世界變“小”了、勞動(dòng)變“輕”了、文明變“綠”了。 2序號(hào)式。序號(hào)式作文與小標(biāo)題作文有相同的特點(diǎn)。序號(hào)可以是“一、二、三”,可以是“A、B、C”,也可以是“甲、乙、丙”從全文看,序號(hào)式干凈、明快;但從題目上看,卻看不出文章內(nèi)容,只是標(biāo)明了層次與部分。有時(shí)序號(hào)式作文,也適用于敘述性文章,為故事情節(jié)的展開(kāi),提供了明晰的層次。 3總分式。如高考佳作人生也是一張答卷。開(kāi)頭:“人生就是一張答卷。它上面有選擇題、填空題、判斷題和問(wèn)答題,但它又不同于一般的答卷。一般的答卷用手來(lái)書(shū)寫(xiě),人生的答卷卻要用行動(dòng)來(lái)書(shū)寫(xiě)?!敝黧w部分每段首句分別為:選擇題是對(duì)人生進(jìn)行正確的取舍,填空題是充實(shí)自己的人生,判斷題是表明自己

30、的人生態(tài)度,問(wèn)答題是考驗(yàn)自己解決問(wèn)題的能力。這份“試卷”設(shè)計(jì)得合理而且實(shí)在,每個(gè)人的人生都是不同的,這就意味著這份人生試卷的“答案是豐富多彩的”。分解層次,應(yīng)追求作文美學(xué)的三個(gè)價(jià)值取向:一要?jiǎng)蚍Q美。什么材料在前,什么材料在后,要合理安排;什么材料詳寫(xiě),什么材料略寫(xiě),要通盤(pán)考慮。自然段是構(gòu)成文章的基本單位,恰當(dāng)劃分自然段,自然就成為分解層次的基本要求。該分段處就分段,不要老是開(kāi)頭、正文、結(jié)尾“三段式”,這種老套的層次顯得呆板。二要波瀾美。文章內(nèi)容應(yīng)該有張有弛,有起有伏,如波如瀾。只有這樣才能使文章起伏錯(cuò)落,一波三折,吸引讀者。三要圓合美。文章的開(kāi)頭與結(jié)尾要遙相照應(yīng),把開(kāi)頭描寫(xiě)的事物或提出的問(wèn)題,

31、在結(jié)尾處用各種方式加以深化或回答,給人首尾圓合的感覺(jué)?!纠慕馄省?話題:忙忙,不亦樂(lè)乎 忙,是人生中一個(gè)個(gè)步驟,每個(gè)人所忙的事務(wù)不同,但是不能是碌碌無(wú)為地白忙,要忙就忙得精彩,忙得不亦樂(lè)乎。 忙是問(wèn)號(hào)。忙看似簡(jiǎn)單,但其中卻大有學(xué)問(wèn)。忙是人生中不可缺少的一部分,但是怎么才能忙出精彩,忙得不亦樂(lè)乎,卻并不簡(jiǎn)單。人生如同一張地圖,我們一直在自己的地圖上行走,時(shí)不時(shí)我們眼前就出現(xiàn)一個(gè)十字路口,我們?cè)撓蚰膬?,面?duì)那縱軸橫軸相交的十字路口,我們?cè)撛鯓舆x擇?不急,靜下心來(lái)分析一下,選擇適合自己的坐標(biāo)軸才是最重要的。忙就是如此,選擇自己該忙的才能忙得有意義。忙是問(wèn)號(hào),這個(gè)問(wèn)號(hào)一直提醒我們要忙得有意義,忙得不

32、亦樂(lè)乎。 忙是省略號(hào)。四季在有規(guī)律地進(jìn)行著冷暖交替,大自然就一直按照這樣的規(guī)律不停地忙,人們亦如此。為自己找一個(gè)目標(biāo),為目標(biāo)而不停地忙,讓這種忙一直忙下去。當(dāng)目標(biāo)已達(dá)成,那么再找一個(gè)目標(biāo),繼續(xù)這樣忙,就像省略號(hào)一樣,毫無(wú)休止地忙下去,翻開(kāi)歷史的長(zhǎng)卷,我們看到牛頓在忙著他的實(shí)驗(yàn);愛(ài)迪生在忙著思考;徐霞客在忙著記載游玩;李時(shí)珍在忙著編寫(xiě)本草綱目。再看那位以筆為刀槍的充滿著朝氣與力量的文學(xué)泰斗魯迅,他正忙著用他獨(dú)有的刀和槍在不停地奮斗。忙是省略號(hào),確定了一個(gè)目標(biāo)那么就一直忙下去吧!這樣的忙一定會(huì)忙出生命靈動(dòng)的色彩。 忙是驚嘆號(hào)。世界上的人都在忙著自己的事,大自然亦如此,小蜜蜂在忙,以蜂蜜為回報(bào)。那么人呢?居里夫人的忙,以放射性元素的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論