版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
05二月2023大數(shù)據(jù)分析和內(nèi)存計算第一講:課程介紹李國良清華大學(xué)計算機系提綱大數(shù)據(jù)背景大數(shù)據(jù)由來大數(shù)據(jù)定義大數(shù)據(jù)與相關(guān)領(lǐng)域的關(guān)系大數(shù)據(jù)挑戰(zhàn)大數(shù)據(jù)現(xiàn)有系統(tǒng)大數(shù)據(jù)現(xiàn)有關(guān)鍵技術(shù)課程介紹課程考核05二月202305二月2023大數(shù)據(jù)(BigData)時代來臨移動互聯(lián)網(wǎng)Mobile
Internet物聯(lián)網(wǎng)InternetofThings新量級、新處理模式、新企業(yè)智能05二月2023在Web2.0時代,人們從信息的被動接受者變成了主動創(chuàng)造者大數(shù)據(jù)舉例互聯(lián)網(wǎng):社交網(wǎng)絡(luò)、視頻、圖片、電子商務(wù)物聯(lián)網(wǎng):移動設(shè)備、傳感器天文、地理、環(huán)境、氣象、交通信息掃描書籍、歷史文獻、社會交互信息醫(yī)療掃描、電子病歷05二月2023大數(shù)據(jù)典型應(yīng)用搜索引擎:Google、Bing、Baidu、…電子商務(wù):淘寶、京東、Amazon、eBay…零售業(yè):Walmart可能凈利潤增長水平為60%或以上政府公共服務(wù)歐洲政府部門每年3500億美元,大約每年0.5%的增長率醫(yī)療服務(wù)美國每年3000億美元,大約每年0.7%的增長率制造業(yè)產(chǎn)品開發(fā)、組裝成本降低50%05二月202305二月2023大數(shù)據(jù)潛力不同行業(yè)中,企業(yè)信息化成熟度差異明顯政府等行業(yè)的信息化成熟度明顯領(lǐng)先,總體處于擴展和整合優(yōu)化階段;除金融和電信之外的服務(wù)行業(yè)的信息化建設(shè)成熟度相對較低,仍處在成長階段。對大數(shù)據(jù)的處理需求將啟發(fā)對于IT系統(tǒng)投資新熱點,證實IT推動業(yè)務(wù)發(fā)展,增加對IT投資。從IT系統(tǒng)走向大數(shù)據(jù)決策分析未來著眼點在于服務(wù)2000制造業(yè)金融電信政府互聯(lián)網(wǎng)企業(yè)自動化走向初步信息化快速發(fā)展整體解決方案需求年600億投資規(guī)模信息化走向移動互聯(lián)化基本架構(gòu)已經(jīng)建立相對成熟500億以上投資規(guī)模手工化向自動化轉(zhuǎn)型:成熟度低成長階段中國建筑信息化投入占總收入0.03%建筑流通移動互聯(lián)化數(shù)據(jù)智能化大數(shù)據(jù)05二月2023大數(shù)據(jù)潛力05二月2023國外大公司的角逐Google:滿足用戶需求,將互聯(lián)網(wǎng)將變得越來越智能。Facebook:人際網(wǎng)絡(luò),創(chuàng)造新的需求。Google利用好用的、免費得軟件產(chǎn)品,換取對用戶的理解;通過精準的廣告,找到生財之道,顛覆了微軟賣軟件拷貝賺錢的模式?;ヂ?lián)網(wǎng)越來越智能Google精確掌握用戶行為、獲取需求05二月2023國內(nèi)大數(shù)據(jù)計劃國內(nèi)各地制定云計算“十二五”規(guī)劃云計算、物聯(lián)網(wǎng)園區(qū)中國各地制定或公布了云計算、物聯(lián)網(wǎng)等產(chǎn)業(yè)規(guī)劃;這些工程的初始著眼點在房地產(chǎn),政績工程居多,大數(shù)據(jù)作為核心內(nèi)容端,使得政績工程變?yōu)槭褂霉こ獭?/p>
云計算、物聯(lián)網(wǎng)、社交化媒體、GIS為大數(shù)據(jù)提供了豐富的數(shù)據(jù)來源。因此大數(shù)據(jù)中包括的每個用戶的身份、地點、時間、喜好、厭惡、社會關(guān)系等等大量的信息。伴隨數(shù)據(jù)挖掘和分析的技術(shù)發(fā)展,我們即將步入基于大數(shù)據(jù)的智能化時代。提綱大數(shù)據(jù)背景大數(shù)據(jù)由來大數(shù)據(jù)定義大數(shù)據(jù)與相關(guān)領(lǐng)域的關(guān)系大數(shù)據(jù)挑戰(zhàn)大數(shù)據(jù)現(xiàn)有系統(tǒng)大數(shù)據(jù)現(xiàn)有關(guān)鍵技術(shù)課程介紹課程考核05二月2023大數(shù)據(jù)誕生BigData??疘T企業(yè)研究報告科學(xué)研究“第四范式”“十二五”規(guī)劃美國重大研究計劃DealingwithData??髷?shù)據(jù)計算輔助社會管理促進民生改善支持商業(yè)決策推動科技進步傳染病預(yù)測海嘯實時預(yù)警搜索與電子商務(wù)大數(shù)據(jù)研究意義智能交通大數(shù)據(jù)研究意義
居民消費價格指數(shù)(CPI)CPI意義:與民生密切相關(guān)的國家
經(jīng)濟決策重要指標反映通貨膨脹率
目前存在問題:“滯后、不科學(xué)”—原社科院金融發(fā)展室主任易憲容“86%認為CPI與消費感受不符合”—中國政協(xié)網(wǎng)如何準確計算分析CPI大數(shù)據(jù)計算大數(shù)據(jù)定義及特點大數(shù)據(jù)是通過傳統(tǒng)數(shù)據(jù)庫技術(shù)和數(shù)據(jù)處理工具不能處理的龐大而復(fù)雜的數(shù)據(jù)集合。規(guī)模大(Volume)
速度快(Velocity)類型多(Variety)
價值密度低(Value)
5億用戶8億商品20億PV/天用戶評論3萬條/秒5萬訂單/分鐘提綱大數(shù)據(jù)背景大數(shù)據(jù)由來大數(shù)據(jù)定義大數(shù)據(jù)與相關(guān)領(lǐng)域的關(guān)系大數(shù)據(jù)挑戰(zhàn)大數(shù)據(jù)現(xiàn)有系統(tǒng)大數(shù)據(jù)現(xiàn)有關(guān)鍵技術(shù)課程介紹課程考核05二月202305二月2023什么是“大數(shù)據(jù)”?海量數(shù)據(jù)(信息)非結(jié)構(gòu)化數(shù)據(jù)Hadoop+Map/Reduce云計算數(shù)據(jù)(CloudData)數(shù)據(jù)密集型計算數(shù)據(jù)(DICData)05二月2023大數(shù)據(jù)的性質(zhì)(4V)Volume海量的數(shù)據(jù)規(guī)模Variety多樣的數(shù)據(jù)類型ValueVelocity快速的數(shù)據(jù)流轉(zhuǎn)巨大的數(shù)據(jù)價值05二月2023大數(shù)據(jù)的性質(zhì)實例——城市計算速度快(Velocity)北京出租車每分鐘400萬條定位數(shù)據(jù)類型多(Variety)POI、路網(wǎng)、軌跡、路況、評論價值密度低(Value)特殊事件(賽事、事故)用戶評論(污染、堵塞)規(guī)模大(Volume)街旁網(wǎng)有1億次簽到數(shù)據(jù)機器&人工05二月2023大數(shù)據(jù)——外延與應(yīng)用密切相關(guān)的各類數(shù)據(jù),強調(diào)對于支持實際應(yīng)用所涉及到的多個來源且相互關(guān)聯(lián)的大量、高速、異構(gòu)、質(zhì)量差的數(shù)據(jù)生產(chǎn)數(shù)據(jù)、設(shè)計數(shù)據(jù)、統(tǒng)計數(shù)據(jù)文本、多媒體數(shù)據(jù)、各種文檔數(shù)據(jù)HeterogeneousInformationNetwork世界上的數(shù)據(jù)80%是非結(jié)構(gòu)化數(shù)據(jù)80-20規(guī)則提綱大數(shù)據(jù)背景大數(shù)據(jù)由來大數(shù)據(jù)定義大數(shù)據(jù)與相關(guān)領(lǐng)域的關(guān)系大數(shù)據(jù)挑戰(zhàn)大數(shù)據(jù)現(xiàn)有系統(tǒng)大數(shù)據(jù)現(xiàn)有關(guān)鍵技術(shù)課程介紹課程考核05二月202305二月2023與大數(shù)據(jù)相關(guān)的幾個熱點問題非結(jié)構(gòu)化數(shù)據(jù)云計算與大數(shù)據(jù)Hadoop+HDFS+Map/ReduceNoSQL05二月2023什么是半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)23SocialMediaMachine/SensorDOC/MediaWebClickstreamAppsCallLogLog05二月2023云計算與大數(shù)據(jù)云計算是一種通過Internet以服務(wù)的方式提供動態(tài)可伸縮的虛擬化的資源的計算模式云計算是繼大型主機、PC、互聯(lián)網(wǎng)之后的IT領(lǐng)域的最新一次重大變革Amazon和Google是始作俑者雖然云計算和大數(shù)據(jù)是沿著不同的道路發(fā)展而來的,兩者在技術(shù)和應(yīng)用上相輔相成云計算提供的服務(wù)離不開它所能承載的大數(shù)據(jù)解決大數(shù)據(jù)的挑戰(zhàn),云計算模式是可行的方案云計算遭遇大數(shù)據(jù)是發(fā)展的必然趨勢云計算與大數(shù)據(jù)云計算是一種通過Internet以服務(wù)的方式提供動態(tài)可伸縮的虛擬化資源的計算模式云計算是繼大型主機、PC、互聯(lián)網(wǎng)之后的IT領(lǐng)域的最新一次重大變革Amazon和Google是始作俑者云計算技術(shù)、CTO、成本大數(shù)據(jù)業(yè)務(wù)、CEO、價值云計算遭遇大數(shù)據(jù)是發(fā)展的必然趨勢05二月2023Amazon云服務(wù)彈性計算云EC2簡單存儲服務(wù)S3簡單數(shù)據(jù)庫服務(wù)SimpleDB簡單隊列服務(wù)SQS彈性MapReduce服務(wù)內(nèi)容推送服務(wù)CloudFront電子商務(wù)服務(wù)DevPay靈活支付服務(wù)FPS05二月2023大數(shù)據(jù)技術(shù)就是Hadoop+M/R?來源于Google,在類似搜索引擎的查詢并行化分析處理領(lǐng)域取得極大成功針對大規(guī)模數(shù)據(jù)密集型應(yīng)用的編程范式(programmingparadigm)所基于的BigTable和HDFS是非常質(zhì)樸的數(shù)據(jù)模型和存儲系統(tǒng)適用領(lǐng)域有限,為大數(shù)據(jù)研究打開了思路,但絕不代表大數(shù)據(jù)技術(shù)全部回到起點來重新審視數(shù)據(jù)管理之目的MapReduceMapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(一般大于1TB)的并行運算的實現(xiàn)特性用戶自定義函數(shù)自動并行化容錯I/O調(diào)度監(jiān)聽05二月2023MapReduceHadoop一個分布式系統(tǒng)和并行執(zhí)行環(huán)境Hadoop這個框架實現(xiàn)了MapReduce,方便用戶海量處理數(shù)據(jù)特點:擴容能力強成本低高效率可靠性適合場景大數(shù)據(jù)分析離線分析不適合場景少量數(shù)據(jù)復(fù)雜數(shù)據(jù)在線分析05二月2023大數(shù)據(jù)和數(shù)據(jù)庫的關(guān)系數(shù)據(jù)庫界從一開始就探索過,但還是過于保守忘不掉ACID,舍不得Relation,忽視實際應(yīng)用沉浸在自己的世界里空值理論(NullValue),泛關(guān)系(UniversalRelation)數(shù)據(jù)庫設(shè)計的范式理論(FD,MVD,4NF,5NF,……)潛意識地奉行“一招鮮”(OneSizeFitsAll,OSFA)Hadoop+Map/Reduce+Bigtable+HDFS響亮一擊回到起點來考慮數(shù)據(jù)管理問題,豁然開朗大數(shù)據(jù)是數(shù)據(jù)庫的自然延伸數(shù)據(jù)庫關(guān)系代數(shù)索引查詢優(yōu)化事務(wù)處理05二月2023姓名學(xué)號班級年齡性別住址籍貫電話張三100計9120男北京海淀北京89150李四200計9219男北京東城北京88888王五300計9318女北京西城北京77777趙六400計9419女北京朝陽北京99999劉七500計9521男北京豐臺北京88666課程名課程號地點教師DB15101李國良DB25102馮建華DM35103王建勇學(xué)號課程號分數(shù)10019920019830029705二月202305二月2023事務(wù)處理原子性(Atomicity)
-不可分割
一致性(Consistency)-前后一致隔離性(Isolation)-并發(fā)持久性(Durability)-永久05二月202305二月2023大數(shù)據(jù)的系統(tǒng)需求Highperformance–高并發(fā)讀寫的需求
高并發(fā)、實時動態(tài)獲取和更新數(shù)據(jù)HugeStorage–海量數(shù)據(jù)的高效率存儲和訪問的需求
類似SNS網(wǎng)站,海量用戶信息的高效率實時存儲和查詢HighScalability&&HighAvailability–高可擴展性和高可用性的需求
需要擁有快速橫向擴展能力、提供7*24小時不間斷服務(wù)高并發(fā)讀寫大數(shù)據(jù)存儲的核心需求高效率存儲和訪問高可擴展性和高可用性低成本建設(shè)運維保證一致性的開銷過大,難以實現(xiàn)高并發(fā)存儲性能受限于控制器,性能難以保證關(guān)系型表單存儲難以適應(yīng)不同數(shù)據(jù)類型上億行數(shù)據(jù)的超級達標效率極低傳統(tǒng)基于盤陣的存儲設(shè)備,造價昂貴,且市場壟斷嚴重,建設(shè)成本居高不下,擴容成本尤其高許可和維護花費高昂無法簡單的通過添加服務(wù)節(jié)點來擴展數(shù)據(jù)容量和負載能力,難以進行橫向擴展數(shù)據(jù)庫升級需要停機維護和數(shù)據(jù)遷移,導(dǎo)致服務(wù)中斷不保證遵循ACID原則,提高并發(fā)讀寫性能
Schema-Free存儲適應(yīng)不同數(shù)據(jù)類型舍棄SQL標準功能,盡量簡化數(shù)據(jù)操作,提升效率MapReduce實現(xiàn)高效訪問基于X86設(shè)備,價格低廉開源系統(tǒng),節(jié)省許可費用支持水平擴展,可簡單的通過添加服務(wù)節(jié)點來擴展數(shù)據(jù)容量和負載能力數(shù)據(jù)庫升級不影響服務(wù)持續(xù)RDMSNoSQL05二月202305二月2023大數(shù)據(jù)管理三個層次Web數(shù)據(jù)管理決策數(shù)據(jù)管理科學(xué)數(shù)據(jù)管理05二月2023Web數(shù)據(jù)管理數(shù)據(jù)處理檢索實時檢索查詢連續(xù)查詢分析文本結(jié)構(gòu)化數(shù)據(jù)圖搜索引擎BigQuery(Google)Pregel,TrinityGoogleAlertG.R-T.search,FBSearchGoogleTrends/AnalyticsPageRanketc.YahooPipes通常依賴于廉價PC機所搭建的集群05二月2023Web數(shù)據(jù)管理示例:社交媒體數(shù)據(jù)管理關(guān)注列表join活動列表活動列表join活動列表實時統(tǒng)計推送系統(tǒng)的行為用戶頁面獲取個性化內(nèi)容展示“消息鏈”豐富信息量節(jié)省通訊目的看似簡單的頁面顯示需要后臺的大量查詢處理支持05二月2023Web數(shù)據(jù)管理示例:社交媒體數(shù)據(jù)管理難點T:110M條消息/天≈1200條/秒
19GB/天(文本)W:峰值32312條/秒W:平均每個人關(guān)注540人
T:平均每個人關(guān)注36人W:轉(zhuǎn)發(fā)超過1000的微博中,超過80%的轉(zhuǎn)發(fā)發(fā)生在1個小時之內(nèi)的占59%要求:(準)實時,大規(guī)模并發(fā)計算:查詢,連接,統(tǒng)計關(guān)注列表join活動列表活動列表join活動列表實時統(tǒng)計推送T:W:05二月2023決策數(shù)據(jù)管理數(shù)據(jù)處理檢索實時檢索查詢連續(xù)查詢分析文本結(jié)構(gòu)化數(shù)據(jù)圖QA、
技術(shù)支持、
專家系統(tǒng)/
知識庫構(gòu)造OLAP報表物流優(yōu)化通常使用高性能服務(wù)器和專用存儲設(shè)備決策數(shù)據(jù)管理傳統(tǒng)DBMS秉承的one-size-fits-all的理念不合適OLAP和數(shù)據(jù)倉庫技術(shù)在新的硬件和體系結(jié)構(gòu)情形下有新的發(fā)展機遇高可靠的MPP架構(gòu)內(nèi)存計算列存儲應(yīng)用:實時商務(wù)智能研究問題內(nèi)存數(shù)據(jù)庫,廉價高性能集群,優(yōu)化分析05二月2023決策數(shù)據(jù)管理示例:商務(wù)智能(BI)傳統(tǒng)處理方式離線:ETL,物化視圖,報表生成,規(guī)則提取/模型訓(xùn)練在線:OLAP新問題:實時決策分析數(shù)據(jù)來源于各種傳感器GPS,RFID,…即時處理,即時響應(yīng)離線ETL不能滿足需要應(yīng)用:智能電網(wǎng)、供應(yīng)鏈管理、物流優(yōu)化、…05二月202305二月2023科學(xué)數(shù)據(jù)管理數(shù)據(jù)處理檢索實時檢索查詢連續(xù)查詢分析文本結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)/
半結(jié)構(gòu)數(shù)據(jù)文獻檢索內(nèi)容訂閱自動綜述,知識庫構(gòu)建實驗數(shù)據(jù)/觀測數(shù)據(jù)/檢測數(shù)據(jù)管理實驗數(shù)據(jù)分析生物/…
數(shù)據(jù)分析異構(gòu)、分布式系統(tǒng)05二月2023新型信息服務(wù)的商業(yè)模式互聯(lián)網(wǎng)廣告:Web+BI05二月2023新型信息服務(wù):互聯(lián)網(wǎng)廣告數(shù)據(jù)處理檢索實時檢索查詢連續(xù)查詢分析文本結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)/
半結(jié)構(gòu)數(shù)據(jù)廣告選擇請求解析廣告檢索在線更新提綱大數(shù)據(jù)背景大數(shù)據(jù)由來大數(shù)據(jù)定義大數(shù)據(jù)與相關(guān)領(lǐng)域的關(guān)系大數(shù)據(jù)挑戰(zhàn)大數(shù)據(jù)現(xiàn)有系統(tǒng)大數(shù)據(jù)現(xiàn)有關(guān)鍵技術(shù)課程介紹課程考核05二月202305二月2023BigData帶來的挑戰(zhàn)不同“看”數(shù)據(jù)的方式需要更高性價比的數(shù)據(jù)計算與儲存方式不同的數(shù)據(jù)管理策略超越企業(yè)現(xiàn)有IT的數(shù)據(jù)解決能量05二月2023超越企業(yè)現(xiàn)有IT數(shù)據(jù)解決能量每天幾百GB、幾TB的資料,且持續(xù)成長中儲存Storing在收數(shù)據(jù)的同時做必要的前置處理(pre-processing),并區(qū)分數(shù)據(jù)處理的優(yōu)先等級(prioritizing)計算Processing如何有效的避免因硬件毀壞所導(dǎo)致的資料損毀管理Managing如何從中挖掘出所關(guān)注事件的pattern或behavior分析Analyzing50大數(shù)據(jù)研究挑戰(zhàn)全面考量高可擴展性高性能高度容錯多類型傳統(tǒng)數(shù)據(jù)倉庫無法存儲日益增長的海量數(shù)據(jù)傳統(tǒng)數(shù)據(jù)倉庫無法有效處理新型業(yè)務(wù)的數(shù)據(jù)05二月2023提綱大數(shù)據(jù)背景大數(shù)據(jù)由來大數(shù)據(jù)定義大數(shù)據(jù)與相關(guān)領(lǐng)域的關(guān)系大數(shù)據(jù)挑戰(zhàn)大數(shù)據(jù)現(xiàn)有系統(tǒng)大數(shù)據(jù)現(xiàn)有關(guān)鍵技術(shù)課程介紹課程考核05二月202305二月2023大數(shù)據(jù)處理平臺MapReduceHadoopSparkNoSQLKey-valueColumnAmazonEC2S3Mturk提綱大數(shù)據(jù)背景大數(shù)據(jù)由來大數(shù)據(jù)定義大數(shù)據(jù)與相關(guān)領(lǐng)域的關(guān)系大數(shù)據(jù)挑戰(zhàn)大數(shù)據(jù)現(xiàn)有系統(tǒng)大數(shù)據(jù)現(xiàn)有關(guān)鍵技術(shù)課程介紹課程考核05二月202305二月2023大數(shù)據(jù)管理模型軟件即服務(wù)——多租戶模型大規(guī)模并行數(shù)據(jù)管理——MapReduce編程模型NoSQL數(shù)據(jù)模型CAP理論05二月2023多租戶(Multi-Tenancy)多租戶是服務(wù)提供商來提供軟件和硬件在數(shù)據(jù)庫層面實現(xiàn)虛擬化用戶將軟件、硬件、維護移交給第三方用戶只需與第三方提供的服務(wù)交互05二月2023抓住長尾大型用戶$/用戶
運營成本長尾理論獲利#用戶數(shù)長尾市場>>現(xiàn)有市場05二月2023大數(shù)據(jù)管理模型軟件即服務(wù)——多租戶模型大規(guī)模并行數(shù)據(jù)管理——MapReduce編程模型NoSQL數(shù)據(jù)庫CAP理論05二月2023MapReduceMapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(一般大于1TB)的并行運算的實現(xiàn)特性用戶自定義函數(shù)自動并行化容錯I/O調(diào)度監(jiān)聽05二月2023MapReduce步驟Key-value05二月2023Hadoop一個分布式系統(tǒng)和并行執(zhí)行環(huán)境Hadoop這個框架實現(xiàn)了MapReduce,方便用戶海量處理數(shù)據(jù)特點:擴容能力強成本低高效率可靠性適合場景大數(shù)據(jù)分析離線分析不適合場景少量數(shù)據(jù)復(fù)雜數(shù)據(jù)在線分析05二月2023大數(shù)據(jù)管理模型軟件即服務(wù)——多租戶模型大規(guī)模并行數(shù)據(jù)管理——MapReduce編程模型NoSQLCAP理論NoSQL簡介NotOnlySQL,non-relationaldatabases處理超大數(shù)據(jù)量,TBorPB級別(Search)高并發(fā)(萬/s),不注重事務(wù)(CAP原則)易部署、易擴展、易開發(fā)(透明)便宜05二月202305二月2023NoSQL背景大數(shù)據(jù)時代下的系統(tǒng)需求Highperformance–高并發(fā)讀寫的需求
高并發(fā)、實時動態(tài)獲取和更新數(shù)據(jù)HugeStorage–海量數(shù)據(jù)的高效率存儲和訪問的需求
類似SNS網(wǎng)站,海量用戶信息的高效率實時存儲和查詢HighScalability&&HighAvailability–高可擴展性和高可用性的需求
需要擁有快速橫向擴展能力、提供7*24小時不間斷服務(wù)05二月2023NoSQL數(shù)據(jù)庫分類Key/ValueStores(鍵/值存儲庫)AmazonSimpleDB/simpledb/BerkeleyDB/database/berkeley-db/db/index.htmlMemcacheDB/Redis/p/redis/DocumentStores(文檔庫)CouchDB/MongoDB/GraphDatabase(圖形數(shù)據(jù)庫)Neo4j/WideColumnStores(列存儲庫)Hadoop/Cassandra/cassandra/大數(shù)據(jù)管理模型軟件即服務(wù)——多租戶模型大規(guī)模并行數(shù)據(jù)管理——MapReduce編程模型NoSQLCAP理論05二月2023CAP理論一致性(Consistenc)可用性(Availability)分區(qū)容錯性(PartitionTolerance)三者只能滿足2個05二月2023Availability可用性傳統(tǒng)關(guān)系數(shù)據(jù)庫Key-value數(shù)據(jù)庫Consistency一致性Partitiontolerance分區(qū)容錯性05二月2023大數(shù)據(jù)應(yīng)用舉例移動互聯(lián)網(wǎng)大數(shù)據(jù)時空大數(shù)據(jù)移動互聯(lián)網(wǎng)擁有大數(shù)據(jù)大量用戶大量數(shù)據(jù)用戶通話信息用戶喜好位置信息網(wǎng)絡(luò)訪問電子交易用戶行為分析05二月202305二月2023大數(shù)據(jù)給移動互聯(lián)網(wǎng)帶來的機遇大數(shù)據(jù)分析平臺,通過挖掘海量用戶信息,提供更好服務(wù)用戶,更好創(chuàng)造價值更好的引入新客戶移動廣告推送在線應(yīng)用平臺–applestore軟件即服務(wù)應(yīng)用平臺–amazon05二月2023移動網(wǎng)絡(luò)中用戶行為分析數(shù)據(jù)來源更多,除傳統(tǒng)數(shù)據(jù)外,我們還關(guān)注:用戶的通訊信息:電話、短信、數(shù)據(jù)服務(wù)基于位置的信息:GPS、WiFi、傳感器基于時間的信息:具體時間或日期05二月2023移動網(wǎng)絡(luò)中用戶行為分析05二月2023個性化推薦的相關(guān)技術(shù)研究用戶用戶研究,用戶網(wǎng)上行為分析,用戶消費心理社會化網(wǎng)絡(luò)分析研究商品文本挖掘圖像識別數(shù)據(jù)挖掘,機器學(xué)習(xí),模式識別,人工智能相關(guān)性算法,Behavior Targeting概率統(tǒng)計,因子分析,主成分分析分布式計算因分析實時計算,實時推薦,事件營銷知識提取情境感知表示度量定量度量獲取融合劣質(zhì)容忍總體研究方案大規(guī)模多源異構(gòu)數(shù)據(jù)能效優(yōu)化能耗復(fù)雜性能耗機理眾包、知識圖譜、情境感知能耗數(shù)學(xué)原理抽樣鄰域理論分析決策城市大數(shù)據(jù)挖掘分析數(shù)據(jù)獲取城市大數(shù)據(jù)深度理解與融合城市大數(shù)據(jù)知識圖譜構(gòu)建城市大數(shù)據(jù)的挖掘與分析實時智能交通城市設(shè)施規(guī)劃移動用戶分析結(jié)構(gòu)化數(shù)據(jù)資源半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)資源大數(shù)據(jù)實例——城市計算速度快(Velocity)北京出租車每分鐘400萬條定位數(shù)據(jù)類型多(Variety)POI、路網(wǎng)、軌跡、路況、評論價值密度低(Value
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年物業(yè)清潔與維護服務(wù)合同3篇
- 2024年檢測領(lǐng)域咨詢服務(wù)協(xié)議精簡版版
- 2024年協(xié)議離婚合作的藝術(shù)與法律框架3篇
- 2024事業(yè)單位青年英才招聘合同3篇
- 2025營業(yè)執(zhí)照抵押合同范本格式
- 2024年新型城鎮(zhèn)化建設(shè)項目投標書范本合同3篇
- 2025年開封貨運上崗資格證模擬考試
- 洛陽師范學(xué)院《包裝材料學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 房地產(chǎn)銷售顧問聘用合同樣本
- 環(huán)保產(chǎn)業(yè)授權(quán)經(jīng)營的管理辦法
- 樂山大佛介紹課件
- 血透室運用PDCA循環(huán)降低血透病人長期深靜脈留置導(dǎo)管的感染率品管圈成果匯報
- 云南省昆明一中2024年高二上數(shù)學(xué)期末質(zhì)量檢測試題含解析
- 網(wǎng)絡(luò)安全攻防演練防守方方案
- 初中語文人教七年級上冊群文閱讀 -
- 教育政策與法規(guī)全套完整教學(xué)課件
- 關(guān)注心靈快樂成長心理健康教育主題班會
- 數(shù)胎動那些事兒胎動與胎兒安全孕婦學(xué)校課件PPT
- 沖刺高考主題班會
- 小型谷物烘干機設(shè)計
- 英語四級詞匯表帶音標(免費下載)
評論
0/150
提交評論