版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
四大經(jīng)典大數(shù)據(jù)應(yīng)用案例解析什么是數(shù)據(jù)挖掘(DataMining)?簡(jiǎn)而言之,就是有組織有目的地收集數(shù)據(jù),通過(guò)分析數(shù)據(jù)使之成為信息,從而在大量數(shù)據(jù)中尋找潛在規(guī)律以形成規(guī)則或知識(shí)的技術(shù)。在本文中,我們從數(shù)據(jù)挖掘的實(shí)例出發(fā),并以數(shù)據(jù)挖掘中比較經(jīng)典的分類算法入手,給讀者介紹我們?cè)鯓永脭?shù)據(jù)挖掘的技術(shù)解決現(xiàn)實(shí)中出現(xiàn)的問(wèn)題。數(shù)據(jù)挖掘是如何解決問(wèn)題的?本節(jié)通過(guò)幾個(gè)數(shù)據(jù)挖掘?qū)嶋H案例來(lái)詮釋如何通過(guò)數(shù)據(jù)挖掘解決商業(yè)中遇到的問(wèn)題。下面關(guān)于“啤酒和尿不濕”的故事是數(shù)據(jù)挖掘中最經(jīng)典的案例。而Target公司通過(guò)“懷孕預(yù)測(cè)指數(shù)”來(lái)預(yù)測(cè)女顧客是否懷孕的案例也是近來(lái)為數(shù)據(jù)挖掘?qū)W者最津津樂(lè)道的一個(gè)話題。一、尿不濕和啤酒很多人會(huì)問(wèn),究竟數(shù)據(jù)挖掘能夠?yàn)槠髽I(yè)做些什么?下面我們通過(guò)一個(gè)在數(shù)據(jù)挖掘中最經(jīng)典的案例來(lái)解釋這個(gè)問(wèn)題——一個(gè)關(guān)于尿不濕與啤酒的故事。超級(jí)商業(yè)零售連鎖巨無(wú)霸沃爾瑪公司(WalMart)擁有世上最大的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)之一。為了能夠準(zhǔn)確了解顧客在其門店的購(gòu)買習(xí)慣,沃爾瑪對(duì)其顧客的購(gòu)物行為進(jìn)行了購(gòu)物籃關(guān)聯(lián)規(guī)則分析,從而知道顧客經(jīng)常一起購(gòu)買的商品有哪些。在沃爾瑪龐大的數(shù)據(jù)倉(cāng)庫(kù)里集合了其所有門店的詳細(xì)原始交易數(shù)據(jù),在這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘工具對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘。一個(gè)令人驚奇和意外的結(jié)果出現(xiàn)了:“跟尿不濕一起購(gòu)買最多的商品竟是啤酒”!這是數(shù)據(jù)挖掘技術(shù)對(duì)歷史數(shù)據(jù)進(jìn)行分析的結(jié)果,反映的是數(shù)據(jù)的內(nèi)在規(guī)律。那么這個(gè)結(jié)果符合現(xiàn)實(shí)情況嗎?是否是一個(gè)有用的知識(shí)?是否有利用價(jià)值?為了驗(yàn)證這一結(jié)果,沃爾瑪派出市場(chǎng)調(diào)查人員和分析師對(duì)這一結(jié)果進(jìn)行調(diào)查分析。經(jīng)過(guò)大量實(shí)際調(diào)查和分析,他們揭示了一個(gè)隱藏在“尿不濕與啤酒”背后的美國(guó)消費(fèi)者的一種行為模式:在美國(guó),到超市去買嬰兒尿不濕是一些年輕的父親下班后的日常工作,而他們中有30%~40%的人同時(shí)也會(huì)為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原因是:美國(guó)的太太們常叮囑她們的丈夫不要忘了下班后為小孩買尿不濕,而丈夫們?cè)谫I尿不濕后又隨手帶回了他們喜歡的啤酒。另一種情況是丈夫們?cè)谫I啤酒時(shí)突然記起他們的責(zé)任,又去買了尿不濕。既然尿不濕與啤酒一起被購(gòu)買的機(jī)會(huì)很多,那么沃爾瑪就在他們所有的門店里將尿不濕與啤酒并排擺放在一起,結(jié)果是得到了尿不濕與啤酒的銷售量雙雙增長(zhǎng)。按常規(guī)思維,尿不濕與啤酒風(fēng)馬牛不相及,若不是訪客的總鏈接機(jī)會(huì)(提供給訪客的超級(jí)鏈接)。
訪客總的訪問(wèn)時(shí)間。
訪客所瀏覽的全部網(wǎng)頁(yè)。
訪客每次會(huì)話的產(chǎn)出利潤(rùn)。
訪客每個(gè)月的訪問(wèn)次數(shù)及上一次的訪問(wèn)時(shí)間等。
訪客對(duì)于商標(biāo)總體正面或負(fù)面的評(píng)價(jià)。四、分類:從人臉識(shí)別系統(tǒng)說(shuō)起美國(guó)電視劇《反恐24小時(shí)》中有一集,當(dāng)一個(gè)恐怖分子用手機(jī)撥打了一個(gè)電話,從CTU(反恐部隊(duì))的計(jì)算機(jī)系統(tǒng)中便立刻發(fā)出恐怖分子出現(xiàn)的預(yù)警。很多好萊塢的大片中此類智能系統(tǒng)的應(yīng)用也比比皆是,它能從茫茫人群中實(shí)時(shí)找出正在苦苦追蹤的恐怖分子或間諜。而在2008年北京奧運(yùn)會(huì)上,最引人注意的IT熱點(diǎn)莫過(guò)于“實(shí)時(shí)人臉識(shí)別技術(shù)”在奧運(yùn)會(huì)安檢系統(tǒng)中的應(yīng)用,這種技術(shù)通過(guò)對(duì)人臉關(guān)鍵部位的數(shù)據(jù)采集,讓系統(tǒng)能夠精確地識(shí)別出所有進(jìn)出奧運(yùn)場(chǎng)館的觀眾身份。目前人臉識(shí)別技術(shù)正廣泛的應(yīng)用于各種安檢系統(tǒng)中,警方只需將犯罪分子的臉部數(shù)據(jù)采集到安檢數(shù)據(jù)庫(kù),那么只要犯罪分子一出現(xiàn),系統(tǒng)就能精確地將其識(shí)別出來(lái)?,F(xiàn)如今人臉識(shí)別技術(shù)已經(jīng)相對(duì)成熟,谷歌在Picasa照片分享軟件的工具中就已經(jīng)加入了人臉識(shí)別功能。當(dāng)然,人臉識(shí)別技術(shù)牽涉到隱私,是把雙刃劍,谷歌在谷歌街景地圖中故意將人臉模糊化,變得無(wú)法識(shí)別就是這個(gè)原因。如圖所示為人臉識(shí)別示意圖。人臉識(shí)別示意圖雖然需要借力于其他技術(shù),但是人臉識(shí)別中的主要技術(shù)還是來(lái)自于數(shù)據(jù)挖掘中的分類算法(Classification)。讓我們從一個(gè)最簡(jiǎn)單的事實(shí)來(lái)解釋分類的思想。設(shè)想一下,一天中午,你第一次到三里屯,站在幾家以前從未去過(guò)的餐廳門前,現(xiàn)在的問(wèn)題是該選擇哪家餐廳用餐。應(yīng)該怎樣選擇呢?假設(shè)您沒(méi)有帶手機(jī),無(wú)法上網(wǎng)查詢,那么可能會(huì)出現(xiàn)如下兩種情況:一種,你記起某位朋友去過(guò)其中一家,并且好像他對(duì)這家的評(píng)價(jià)還不錯(cuò),這時(shí),你很有可能就直接去這家了。第二種,沒(méi)有類似朋友推薦這類先驗(yàn)知識(shí),你就只能從自己以往的用餐經(jīng)歷中來(lái)選擇了,例如你可能會(huì)比較餐廳的品牌和用餐環(huán)境,因?yàn)樗坪跻郧暗慕?jīng)歷告訴自己,品牌響、用餐環(huán)境好的餐廳可能味道也會(huì)好。不管是否意識(shí)得到,在最終決定去哪家吃的時(shí)候,我們已經(jīng)根據(jù)自己的判斷標(biāo)準(zhǔn)把候選的這幾家餐廳分類了,可能分成好、中、差三類或者值得去、不值得去兩類。而最終去了自己選擇的那家餐廳,吃完過(guò)后我們自然也會(huì)根據(jù)自己的真實(shí)體驗(yàn)來(lái)判定我們的判斷準(zhǔn)則是否正確,同時(shí)根據(jù)這次的體驗(yàn)來(lái)修正或改進(jìn)自己的判斷準(zhǔn)則,決定下次是否還會(huì)來(lái)這家餐廳或者是否把它推薦給朋友。選擇餐廳的過(guò)程其實(shí)就是一個(gè)分類的過(guò)程,此類分類例子是屢見(jiàn)不鮮的。在古時(shí),司天監(jiān)會(huì)依賴長(zhǎng)時(shí)間積累的信息,通過(guò)觀察天象對(duì)是否會(huì)有天災(zāi)做出分類預(yù)測(cè)。古人則通過(guò)對(duì)四季氣候雨水的常年觀察,總結(jié)出農(nóng)作物最佳播種時(shí)間。在伯樂(lè)的《相馬經(jīng)》中,就通過(guò)簡(jiǎn)單分類區(qū)分出羸馬的三條標(biāo)準(zhǔn):“大頭小頸,弱脊大腹,小頸大蹄”。其實(shí)在數(shù)據(jù)挖掘領(lǐng)域,有大量基于海量數(shù)據(jù)的分類問(wèn)題。通常,我們先把數(shù)據(jù)分成訓(xùn)練集(TrainingSet)和測(cè)試集(TestingSet),通過(guò)對(duì)歷史訓(xùn)練集的訓(xùn)練,生成一個(gè)或多個(gè)分類器(Classifier),將這些分
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025下半年四川省自貢市大安區(qū)事業(yè)單位招聘50人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025下半年四川內(nèi)江威遠(yuǎn)縣考試招聘衛(wèi)生健康事業(yè)單位工作人員90人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025上海司法局事業(yè)單位招聘9人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025上半年福建福鼎事業(yè)單位招聘245人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025上半年四川省政府直屬部分事業(yè)單位招聘546人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025上半年四川廣元旺蒼縣事業(yè)單位考試招聘25人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025《中國(guó)能源報(bào)》社限公司招聘11人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 醫(yī)療設(shè)備賠償協(xié)議
- 建筑項(xiàng)目班組施工合同
- 醫(yī)藥招投標(biāo)中的誠(chéng)信體系建設(shè)
- 蘇教版(2024新版)七年級(jí)上冊(cè)生物期末學(xué)情評(píng)估模擬試卷(含答案)
- 職業(yè)技術(shù)學(xué)院《藥用植物學(xué)》課程標(biāo)準(zhǔn)
- NBT-電力用直流電源系統(tǒng)驗(yàn)收規(guī)范編制說(shuō)明
- 計(jì)算機(jī)及外部設(shè)備裝配調(diào)試員理論考試復(fù)習(xí)題庫(kù)(含答案)
- 深植心中的勞動(dòng)教育(2023年黑龍江齊齊哈爾中考語(yǔ)文試卷議論文閱讀題及答案)
- 城市合伙人合同協(xié)議書
- 完整版金蝶EAS財(cái)務(wù)系統(tǒng)操作手冊(cè)
- 2024村居后備干部試題庫(kù)及答案(完整版)
- 醫(yī)院題材小品劇本;瘋子當(dāng)醫(yī)生
- 動(dòng)物遺傳學(xué)智慧樹(shù)知到期末考試答案章節(jié)答案2024年西南大學(xué)
- 2024年7月國(guó)家開(kāi)放大學(xué)??啤缎姓M織學(xué)》期末紙質(zhì)考試試題及答案
評(píng)論
0/150
提交評(píng)論