新生研討課程互聯網與數據利用_第1頁
新生研討課程互聯網與數據利用_第2頁
新生研討課程互聯網與數據利用_第3頁
新生研討課程互聯網與數據利用_第4頁
新生研討課程互聯網與數據利用_第5頁
已閱讀5頁,還剩35頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

互聯網與數據利用當前第1頁\共有40頁\編于星期五\1點互聯網與數據利用教學目標與教學內容綜述當前第2頁\共有40頁\編于星期五\1點01大數據分析的背景教學目的:互聯網等信息技術的飛躍發(fā)展,改變了人們的生活方式,改變了組織運作模型,改變了社會。信息作為一種社會資源,幾何級增長。當前第3頁\共有40頁\編于星期五\1點01大數據分析的背景教學目的:聯通:用戶上網記錄83萬條/秒,對應數據量3.6PB/年;工商銀行累計存儲數據已經超過4.9PB,農業(yè)銀行每年結構化及非結構化數據歸檔量分別突破100TP及1PB,交通銀行每日處理約600GB數據,存量數據超過70TB非結構化數據呈指數倍增長;當前第4頁\共有40頁\編于星期五\1點01大數據分析的背景教學目的:如能有效的處理和分析,非結構數據中也富含了對企業(yè)非常有價值的信息。在歐洲公共事業(yè)管理中,基于大數據分析的智能交通、智能電表、遠程教育等領域每年創(chuàng)造價值2千5百億歐元。在通信運營商中,通過基于客戶位置數據、網絡日志數據和社交網絡數據,對客戶的消費行為、流失情況、交往圈、欺詐情況進行分析,提升了客戶的忠誠度和保有率。當前第5頁\共有40頁\編于星期五\1點01大數據分析的背景教學目的:如何利用這些海量信息,獲得有價值的知識,用于醫(yī)療、軍事、電子商務等行業(yè)企業(yè)的科學決策等。由于數據來源、存儲形式、特征發(fā)生了根本性的變化,以往的數據采集、分析、挖掘的方法不能與之適應。本課程,教授結構化數據的高維數據降維(遙感圖像);基于網絡爬蟲工具的自動化網絡數據采集;文本信息的知識獲?。ǚ衷~、特征提?。⒒陬I域本體的語義網構建和知識推理通過應用分析和綜合應用案例,告知同學們互聯網環(huán)境下的大數據下如何發(fā)現大價值。當前第6頁\共有40頁\編于星期五\1點01大數據分析的背景基本要求:教師引導學生閱讀大量案例;具備尋找網絡下數據分析工具的能力;具有一定觀察分析能力。教學方法:(1)以應用案例為切入點,引導同學們觀察某種現狀,感受其帶來的價值,機遇與挑戰(zhàn)。

(2)價值背后的支撐:數據資源,提出產生背景、獲取方式、特點

(3)什么樣的先進技術和手段能夠找到大價值

(4)如何發(fā)現數據、處理數據、分析數據

(5)每種方法都給出一個解決方案。

(6)學生自主提出解決方案

引用案例啟發(fā),導師引導給出解決方案、學生自主進行策劃和方案選擇。

由于課時少,每次要求課后要求學生搜集素材,下次課程,針對應用問題教師和學生共同討論給出解決方案(在教師的引導和啟發(fā)下完成)。當前第7頁\共有40頁\編于星期五\1點01大數據分析的背景課程進度表第一講互聯網環(huán)境下的數據來源(遙感衛(wèi)星、電子商務交易、醫(yī)療、社交媒體)、特征(結構化、非結構化、視頻、圖像)及其存儲形式討論:寶貴的數據資源在哪里,你了解多少生活中互聯網下的信息,是否有價值。第二講互聯網環(huán)境下的社會問題討論:美國棱鏡門事件給你什么啟示,從數據利用的視角談體會第三講互聯網環(huán)境下的社交媒體信息能帶來什么,怎么尋找,有好的方法么?討論:你對網絡爬蟲工具的理解,能做什么第四講你在互聯網上看過電影或者新聞,為什么會有類似的電影內容向你推薦討論:當網絡下有電影、產品等推薦時,你有怎樣的聯想,是否希望也嘗試做。第五講基于GIS的圖像大數據的數據挖掘方法及應用(圖像識別和圖像匹配)討論:GIS是什么工具?能做什么?第六講在微博、微信上發(fā)帖子么,會產生怎樣的效應討論:你的行為是否會被跟蹤,如何實現的第七講互聯網下的網絡新聞內容分析討論:輿情分析的目的和價值第八講各類網絡數據案例分析(基于行為、情感分析的綜合案例)

當前第8頁\共有40頁\編于星期五\1點1.1信息通信技術進入新時代當前第9頁\共有40頁\編于星期五\1點1.2Internet的發(fā)展互聯網上的一分鐘當前第10頁\共有40頁\編于星期五\1點1.2Internet的發(fā)展互聯網上的一分鐘當前第11頁\共有40頁\編于星期五\1點1.2Internet的發(fā)展互聯網上的一天Twitter---2億條,7TB;50億個單詞,幾乎是60年來紐約時報單詞量的兩倍Facebook---2.5億張照片,300TBYoutube---7萬小時視頻美國國家安全局電話監(jiān)控---30TB淘寶網站---完成數千萬筆交易,20TB全球互聯網上一天的信息量可以刻滿1.58.億張DVD,80萬個硬盤,約為800EB單就中文信息而言,每天產生數億萬個新網頁當前第12頁\共有40頁\編于星期五\1點1.2Internet的發(fā)展2011年4月美國國會圖書館收集了235TB數據全球新產生的數據年增40%,全球信息總量每兩年就可以翻番!而對新數據的處理能力以及其利用率的增長則不足5%百度CEO:過去兩年人類產生的數據占到全部人類文明的90%。預測未來人類身體狀況。當前第13頁\共有40頁\編于星期五\1點1.3大數據的定義大數據是指無法在限定時間內用常規(guī)軟件工具對其內容進行抓取、管理和處理的數據集合,大數據規(guī)模的標準是持續(xù)變化的,當前泛指單一數據集的大小在幾十TB和數PB之間?!S基百科定義當前第14頁\共有40頁\編于星期五\1點1.3大數據的特點進入新時代大數據(BigData)是指“無法用現有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復雜的數據集合。”業(yè)界通常用4個V(即Volume、Variety、Value、Velocity)來概括大數據的特征。

一是數據體量巨大(Volume)。截至目前,人類生產的所有印刷材料的數據量是200PB(1PB=210TB),而歷史上全人類說過的所有的話的數據量大約是5EB(1EB=210PB)。當前,典型個人計算機硬盤的容量為TB量級,而一些大企業(yè)的數據量已經接近EB量級。

二是數據類型繁多(Variety)。這種類型的多樣性也讓數據被分為結構化數據和非結構化數據。相對于以往便于存儲的以文本為主的結構化數據,非結構化數據越來越多,包括網絡日志、音頻、視頻、圖片、地理位置信息等,這些多類型的數據對數據的處理能力提出了更高要求。

三是價值密度低(Value)。價值密度的高低與數據總量的大小成反比。以視頻為例,一部1小時的視頻,在連續(xù)不間斷的監(jiān)控中,有用數據可能僅有一二秒。如何通過強大的機器算法更迅速地完成數據的價值“提純”成為目前大數據背景下亟待解決的難題。

四是處理速度快(Velocity)。這是大數據區(qū)分于傳統數據挖掘的最顯著特征。根據IDC的“數字宇宙”的報告,預計到2020年,全球數據使用量將達到35.2ZB。在如此海量的數據面前,處理數據的效率就是企業(yè)的生命。當前第15頁\共有40頁\編于星期五\1點1.4大數據時代即將來臨物聯網的應用安全監(jiān)控的數據環(huán)境監(jiān)視的數據遠程醫(yī)療與居家監(jiān)控電子病歷隱藏數據企業(yè)數據存儲量互聯網海量數據當前第16頁\共有40頁\編于星期五\1點互聯網業(yè)交通業(yè)……行業(yè)數據全球每秒鐘發(fā)送290萬封

電子郵件,一分鐘讀一篇的話,足夠一個人晝夜不息的讀5.5年…亞馬遜每天產生近630萬筆訂單…Google上每天需要處理24PB的數據…聯通:用戶上網記錄83萬條/秒,對應數據量3.6PB/年金融業(yè)北京公交一卡通每天刷卡4000萬次,地鐵1000萬次農夫山泉每天從銷售其礦泉水的超市回傳10張照片,每月3TB工商銀行累計存儲數據已經超過4.9PB,農業(yè)銀行每年結構化及非結構化數據歸檔量分別突破100TP及1PB,交通銀行每日處理約600GB數據,存量數據超過70TB通信業(yè)飲料企業(yè)1.4大數據時代即將來臨當前第17頁\共有40頁\編于星期五\1點1.4大數據時代即將來臨物聯網的應用安全監(jiān)控的數據環(huán)境監(jiān)視的數據遠程醫(yī)療與居家監(jiān)控電子病歷隱藏數據企業(yè)數據存儲量互聯網海量數據當前第18頁\共有40頁\編于星期五\1點01大數據分析的背景02大數據分析的價值與技術03

大數據在各個行業(yè)的應用當前第19頁\共有40頁\編于星期五\1點2.1大數據分析的價值非結構化數據呈指數倍增長,如能有效的處理和分析,非結構數據中也富含了對企業(yè)非常有價值的信息。在歐洲公共事業(yè)管理中,基于大數據分析的智能交通、智能電表、遠程教育等領域每年創(chuàng)造價值2千5百億歐元。在通信運營商中,通過基于客戶位置數據、網絡日志數據和社交網絡數據,對客戶的消費行為、流失情況、交往圈、欺詐情況進行分析,提升了客戶的忠誠度和保有率。Source:McKinseyGlobalInstituteAnalysis半結構化數據結構化數據非結構化數據企業(yè)非結構化數據越來越多當前第20頁\共有40頁\編于星期五\1點2.1大數據分析的技術當前第21頁\共有40頁\編于星期五\1點03大數據在各個行業(yè)的應用01大數據分析的背景02大數據分析的價值與技術當前第22頁\共有40頁\編于星期五\1點3.1大數據在宏觀經濟管理領域的應用IBM日本公司建立了一個經濟指標預測系統,它從互聯網新聞中搜索出影響制造業(yè)的480項經濟數據,再計算出PMI預測值,準確度相當高。印第安納大學學者利用Google提供的心情分析工具,根據用戶近千萬條短信、微博留言中預測道瓊斯工業(yè)指數。準確率高達87%。淘寶網建立了“淘寶CPI”,它通過采集、編制淘寶網上390個類目的熱門商品價格來統計CPI,它比國家統計局公布的CPI還提前半個月預測經濟的走勢。當前第23頁\共有40頁\編于星期五\1點3.2大數據在農業(yè)領域的應用Google前雇員創(chuàng)辦Climate公司,從美國氣象局等數據庫中獲得幾十年的天氣數據,將各地的降雨、氣溫和土壤狀況及歷年農作物產量做成精密圖表,從而能夠預測美國任一農場下一年的產量。任何一個農場主去他那里問明年種什么能賣出去、能賺錢,他能告訴你,說錯了他保證賠償,賠償比保險公司還要高,到現在為止他還沒有賠過。通過手機上農產品“移動支付”數據、“采購投入”數據和“補貼“數據分析,可準確預測農產品生產趨勢,政府可依此決定出臺激勵措施和確定合適的作物存儲量,還可為農民提供服務。當前第24頁\共有40頁\編于星期五\1點3.3大數據在商業(yè)領域的應用沃爾瑪基于每個月4500萬的網絡購物數據,并結合社交網絡上有關產品的大眾評分,開發(fā)機器學習語義搜索引擎“北極星“,方便瀏覽,在線購物者因此增加10%-15%,增加銷售十多億美元。當顧客在超市買東西時,通過手機定位,可以分析他們在貨柜前停留時間的長短,從而判斷顧客對什么感興趣。不僅僅是通過手機定位,實際上美國有的超市在購物推車上也安裝了位置傳感器,根據顧客在不同貨物前停留時間的長短來分析顧客可能的購物行為。在淘寶網上買東西時,消費者會在阿里的廣告交易平臺上留下記錄,阿里不僅從交易平臺把消費記錄拿來自己使用,還會把消費記錄賣給其他商家。當前第25頁\共有40頁\編于星期五\1點3.4大數據在金融業(yè)的應用華爾街某公司通過分析全球3.4億微博賬戶留言來判斷民眾情緒,人們高興的時候會買股票,而焦慮的時候會拋售股票,它通過判斷全世界高興的人多還是焦慮的人多,依此決定公司股票的買入或賣出。阿里公司根據在淘寶網上中小企業(yè)的交易狀況篩選出財務健康和誠信經營的企業(yè),給他們提供貸款,并且不需要這些中小企業(yè)的擔保。目前阿里公司已放貸上千億元,壞帳率僅0.3%。2012年年底,四大商業(yè)銀行的壞賬率為1%左右,盡管四大銀行要求有擔保,但壞賬率仍然比阿里高出3倍。?當前第26頁\共有40頁\編于星期五\1點3.5大數據在銀行業(yè)的應用實現方式第一步,利用移動互聯網技術,定位功能確定商圈,目前已實際覆蓋全國161個商圈,累計服務千萬人次。第二步,利用用戶活動軌跡追蹤,確定高價值商圈,設計業(yè)務。第三步,再利用大數據進行客戶需求的體驗分析,既包括客戶的需要,也包括客戶的體驗(即用戶需要相對于用戶意義、目的、情感的關聯),最終實現用戶體驗的LIKE曲線。中信銀行將客戶使用信用卡加油與吃飯的信息關聯起來進行分析,通過數據的挖掘,卡中心發(fā)現,在周末18:00之前加油的客戶,有60%會去吃飯;再結合LBS信息,分析客戶就餐區(qū)域,發(fā)現其中70%有去中心城區(qū)吃飯的習慣。于是信用卡中心與中心城區(qū)的漢拿山烤肉店合作,在每個周末17:30的時候,向駛出加油站的客戶,打出這樣的手機廣告:"物超所值,美味、環(huán)境優(yōu)雅,價格適中,朋友聚會的理想場所,持中信卡可享五折優(yōu)惠!"?信用卡服務當前第27頁\共有40頁\編于星期五\1點3.6大數據在保險領域的應用1、電話營銷利用數據挖掘對過去電話訪談、成交記錄建立預測模型,找出有購買意愿的潛在客戶4、交叉銷售美國保險公司利用數據挖掘技術對不同客戶的消費特征進行分析,制定交叉銷售策略,保證公司是在最能給公司創(chuàng)造收益的客戶集中地地區(qū)運營2、欺詐分析利用歷史數據,尋找影響保險欺詐最為顯著的因素及量化取值區(qū)間,建立預測模型,快速將理賠案件依照欺詐可能性進行分類處理,協助無問題案件快速通過5、續(xù)保率維持澳大利亞的保險公司利用數據挖掘工具對客戶忠誠度、客戶細分和客戶保持進行分析,以減少客戶流失3、客戶體驗太平洋壽險發(fā)布大數據客戶體驗指數(DEO指數),其基于客戶與公司線上線下互動產生的全量數據,DEO指數根據銷售、售后服務、理賠三大領域,誠信、品質、效率、期望值四個維度,選取保險監(jiān)管部門確定的行業(yè)標準12個服務評價定量指標,以及公司重點關注的另外8個客戶體驗指標,以報告期積累的全量實際數據為基準值計算得出。2013年各渠道與客戶交互數為2432萬人次。電話和柜面兩大傳統服務渠道占比達81%,新興移動渠道占比迅速攀升??蛻絷P注的十大熱點為退保利益、退保手續(xù)、分紅利益、產品咨詢、續(xù)期交費狀態(tài)、生存金領取手續(xù)、出險報案、續(xù)期交費憑證、續(xù)期交費時間期次、理賠責任保險領域數據挖掘應用現狀當前第28頁\共有40頁\編于星期五\1點3.6大數據在保險領域的應用保險領域應用方案——架構當前第29頁\共有40頁\編于星期五\1點3.6大數據在保險領域的應用保險領域應用方案——示例:社交媒體信息交叉驗證欺詐行為交叉驗證當前第30頁\共有40頁\編于星期五\1點3.7大數據在醫(yī)療衛(wèi)生領域的應用Google通過用戶搜索與流感相關詞匯的頻率,判斷某個地方可能會發(fā)生流感。2009年在甲型H1N1流感爆發(fā)的幾周前,Google就做出預測,而且還判斷出了流感是從哪里來的。當前第31頁\共有40頁\編于星期五\1點3.7大數據在醫(yī)療衛(wèi)生領域的應用根據麥肯錫的報告,醫(yī)療大數據的分析將為美國產生3000億美元的價值,減少8%的國家醫(yī)療保健支出。當前第32頁\共有40頁\編于星期五\1點3.7大數據在醫(yī)療衛(wèi)生領域中的應用醫(yī)療服務的交付方式將發(fā)生重大變革,從患者對醫(yī)生信息的獲取,到醫(yī)生對患者的診療,到出院后的康復和回訪,數字醫(yī)療的沖擊將貫穿整個過程。診療過程也會有巨大變革,國外已經有公司在運營專門的遠程醫(yī)療醫(yī)院。美國某醫(yī)療機構,完全通過遠程的方式提供在線問診服務。而移動醫(yī)療對診療過程帶來的影響更是重大,通過可穿戴設備、植入式設備,方便獲取病人實時體征信息,這個在以前是不可能或者成本高昂,對于病情診斷意義重大。而體征獲取傳感器與植入式治療設備的配合對于部分疾病的治療將有劃時代的意義。移動網絡、社交媒體會改變顛覆醫(yī)療活動中各角色的地位,現在病人已經可以通過多渠道信息,對醫(yī)生處方提出質疑。未來基因技術的進展和消費級基因測序的普及也將對行業(yè)產生重大影響,基因測序的成本迅速下降,未來每個人只要愿意都可以擁有自己的基因測序結果。女星安吉麗娜-朱莉,通過檢查發(fā)現自身攜帶致癌基因BRCA1,其患上乳腺癌及卵巢癌概率為87%,通過乳腺切除降低概率到5%。移動醫(yī)療是推動健康管理的重要手段,近期大火的大姨嗎便是抓住了女性群體的特定健康管理的需求。當前第33頁\共有40頁\編于星期五\1點3.8大數據在社會管理中的應用廣東東莞通過統計當地食鹽銷售量與上年同期比較,判斷農民工數量的變化。這與電信運營商根據活躍移動用戶數的變化所推出的數據幾乎相當。根據手機用戶從這個路口到那個路口所花費的時間,可以判斷馬路上是不是流量比較多,是否擁堵。根據有多少個手機在同時移動,大致可以了解發(fā)生突發(fā)事件時的人流聚集情況,還可以通過手機的注冊地進一步分析機主究竟是從哪里來的。騰訊為每個微博用戶建立了檔案,可以從微博帖子分析用戶的性格,提前關注可能引起社會不穩(wěn)定的因素。當前第34頁\共有40頁\編于星期五\1點3.9大數據在智能搜索中的應用19902000201020202030內容由網站專業(yè)人員產生內容由網民產生內容還可由物件產生自組織內容感知、自配置自治通信Web瀏覽等即時通信、博客、微博等語義搜索、語義圖書館、語義數據庫等分布搜索、智能個人代理在電影中加入Google知識圖譜的InfoCard后,當用戶暫停了正在播放的影片之時,程序就會彈出在該在畫面顯示的人物個人信息,包括實名、出生地點、歲數、角色名稱、他/她曾演出的電影,以及在GooglePlay上跟他/她相關的內容。當前第35頁\共有40頁\編于星期五\1點3.10大數據在電信運營管理中的應用據Sybase分析報告,在利用大數據挖掘提升企業(yè)銷售額方面,電信業(yè)在所有行業(yè)中名列第一,人均產值提升達到17%,大數據正在成為運營商發(fā)展的新動力。Smartfren是印尼本土最大的CDMA運營商,2013年5月,Samrtfren大數據精準營銷系統正式上線。在系統商用最初的兩個月,依托新型的大數據營銷平臺,實現了對目標市場和目標客戶群的精準細分,利用主動營銷、事件營銷、觸點營銷等豐富的營銷手段,有效開展市場營銷活動,使Smartfren的營銷轉化率提高到6.6%,月利潤增長了3.1%,離網率降低到0.8%,運營效益顯著提升。中國聯通基于對用戶上網數據的分析給出詳細賬單,避免了收費的糾紛,同時準確掌握基站的忙閑。當前第36頁\共有40頁\編于星期五\1點3.11大數據在電子商務中的應用某用于為電子商務網站提供商品推薦服務的電商推薦系統。是一個基于大數據技術實現的軟硬一體系統,它以數據挖掘、分析為基礎,收集網站訪客的點擊信息,并結合消

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論