數(shù)據(jù)挖掘?qū)W習(xí)匯報_第1頁
數(shù)據(jù)挖掘?qū)W習(xí)匯報_第2頁
數(shù)據(jù)挖掘?qū)W習(xí)匯報_第3頁
數(shù)據(jù)挖掘?qū)W習(xí)匯報_第4頁
數(shù)據(jù)挖掘?qū)W習(xí)匯報_第5頁
已閱讀5頁,還剩27頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

2016/11/15秦華妮五邑大學(xué)數(shù)學(xué)與計算科學(xué)學(xué)院關(guān)于數(shù)據(jù)挖掘的學(xué)習(xí)匯報當(dāng)前第1頁\共有32頁\編于星期五\0點(diǎn)一暑期學(xué)習(xí)介紹二數(shù)據(jù)科學(xué)三案例當(dāng)前第2頁\共有32頁\編于星期五\0點(diǎn)1.1課程名稱和主講教師(北京大數(shù)據(jù)研究院暑期學(xué)校)一、暑期學(xué)習(xí)介紹當(dāng)前第3頁\共有32頁\編于星期五\0點(diǎn)1.2專題:fundamentaltechniquesinBigData(李平)當(dāng)前第4頁\共有32頁\編于星期五\0點(diǎn)當(dāng)前第5頁\共有32頁\編于星期五\0點(diǎn)當(dāng)前第6頁\共有32頁\編于星期五\0點(diǎn)當(dāng)前第7頁\共有32頁\編于星期五\0點(diǎn)用數(shù)據(jù)的方法研究科學(xué)的最典型的例子:開普勒的關(guān)于行星運(yùn)動的三大定律二、數(shù)據(jù)科學(xué)開普勒模式與牛頓模式當(dāng)前第8頁\共有32頁\編于星期五\0點(diǎn)2.2從數(shù)學(xué)的角度研究數(shù)據(jù)?數(shù)據(jù)數(shù)據(jù)建模整個數(shù)學(xué)模型相關(guān)性、排序、分類、聚類度量結(jié)構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)代數(shù)結(jié)構(gòu)拓?fù)浣Y(jié)構(gòu)函數(shù)結(jié)構(gòu)表格、點(diǎn)集、時間序列、圖像、視頻、文本等概率分布、隨機(jī)過程、隨機(jī)場、圖模型等算法及實(shí)現(xiàn)(數(shù)據(jù)分析的困難)降低算法的復(fù)雜度分布式計算當(dāng)前第9頁\共有32頁\編于星期五\0點(diǎn)數(shù)據(jù)科學(xué)數(shù)學(xué)統(tǒng)計學(xué)行業(yè)知識機(jī)器學(xué)習(xí)物聯(lián)網(wǎng)云計算數(shù)據(jù)挖掘2.3數(shù)據(jù)挖掘的綜合技能當(dāng)前第10頁\共有32頁\編于星期五\0點(diǎn)數(shù)學(xué)的基礎(chǔ)知識計算機(jī)科學(xué)的基礎(chǔ)知識算法方面的基本知識數(shù)據(jù)的模型專業(yè)課程其它專業(yè)課程微積分計算機(jī)語言數(shù)值代數(shù)回歸圖像處理生物信息學(xué)線性代數(shù)數(shù)據(jù)庫函數(shù)逼近分類時間序列分析天體信息學(xué)概率論數(shù)據(jù)結(jié)構(gòu)優(yōu)化理論聚類視頻處理金融數(shù)據(jù)分析可視化技術(shù)蒙特卡洛方法參數(shù)估計自然語言處理網(wǎng)絡(luò)算法文本處理計算幾何語音識別推薦系統(tǒng)另外,隨機(jī)過程、函數(shù)逼近論、圖論、拓?fù)鋵W(xué)、幾何、變分法、群論的基礎(chǔ)知識。

數(shù)學(xué)系不需要一門一門的開設(shè),而是可以開設(shè)一些新的“高等數(shù)學(xué)”課程來覆蓋這些方面的內(nèi)容2.4北大數(shù)據(jù)科學(xué)專業(yè)的探索當(dāng)前第11頁\共有32頁\編于星期五\0點(diǎn)2.5數(shù)據(jù)挖掘的10個重要算法(1)K均值(K-means)方法(2)支持向量機(jī)(SVM)方法(3)期望最大化(EM)算法

(4)網(wǎng)頁排序算法(PageRank)(5)貝葉斯方法(6)K近鄰方法(7)AdaBoost(8)決策樹算法(9)關(guān)聯(lián)規(guī)則Apriori算法(10)協(xié)同過濾方法(CollaborativeFiltering)其他數(shù)據(jù)分析過程中常用的方法還有:降維(主成分分析、線性判別分析)、隨機(jī)森林、Bagging方法、序列標(biāo)注模型(隱馬模型、條件隨機(jī)場)、EM和高斯混合模型(2006年IEEE國際挖掘會議選出)當(dāng)前第12頁\共有32頁\編于星期五\0點(diǎn)2.6數(shù)據(jù)挖掘的一般過程:數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)規(guī)約分類與預(yù)測聚類分析關(guān)聯(lián)規(guī)則時序模型預(yù)測正確率模型解釋性數(shù)據(jù)預(yù)處理數(shù)據(jù)模型訓(xùn)練模型性能評估當(dāng)前第13頁\共有32頁\編于星期五\0點(diǎn)三、案例案例1、

智慧餐飲案例2

、中醫(yī)輔助決策案例3、商圈分析當(dāng)前第14頁\共有32頁\編于星期五\0點(diǎn)餐飲企業(yè)的信息化管理(傳統(tǒng)部分):(1)客戶關(guān)系管理(2)前廳管理系統(tǒng)(3)后廚管理系統(tǒng)(4)財務(wù)管理系統(tǒng)(5)物資管理系統(tǒng)

餐飲企業(yè)的數(shù)據(jù)挖掘(創(chuàng)新部分):菜品智能推薦、客戶價值分析、新店選點(diǎn)優(yōu)化、熱銷/滯銷菜品分析銷量趨勢預(yù)測案例1、智慧餐飲當(dāng)前第15頁\共有32頁\編于星期五\0點(diǎn)餐飲企業(yè)某一個月菜品的銷售數(shù)據(jù)如下:當(dāng)前第16頁\共有32頁\編于星期五\0點(diǎn)(1)銷售數(shù)據(jù)的帕累托柱狀圖:分析可知:暢銷菜:A1,A2,A3;滯銷菜:A8,A9,A10;并且,A1~A7占菜品份額的70%,但是總盈利占月盈利額的85.0033%,可以增加投入。當(dāng)前第17頁\共有32頁\編于星期五\0點(diǎn)結(jié)果第一行解釋為:客戶同時點(diǎn)e與a的概率時30%,而點(diǎn)了e必點(diǎn)a的概率是100%.

餐飲企業(yè)某段時間的點(diǎn)餐清單:(2)根據(jù)Apriori算法,可得如下規(guī)則:當(dāng)前第18頁\共有32頁\編于星期五\0點(diǎn)消費(fèi)行為特征數(shù)據(jù)如下:(3)消費(fèi)客戶群的價值分析:當(dāng)前第19頁\共有32頁\編于星期五\0點(diǎn)客戶群體1的R、F、M的概率密度函數(shù)圖:客戶群體1特點(diǎn):R間隔相對較小,主要集中在0~30天;消費(fèi)次數(shù)集中在10~25次,消費(fèi)金額在500~2000元當(dāng)前第20頁\共有32頁\編于星期五\0點(diǎn)客戶群體2的R、F、M的概率密度函數(shù)圖:客戶群體2特點(diǎn):R間隔相對較小,主要集中在0~30天;消費(fèi)次數(shù)集中在0~12次,消費(fèi)金額在0~1800元當(dāng)前第21頁\共有32頁\編于星期五\0點(diǎn)客戶群體3的R、F、M的概率密度函數(shù)圖:客戶群體3特點(diǎn):R間隔相對較大,主要集中在30~80天;消費(fèi)次數(shù)集中在0~15次,消費(fèi)金額在0~2000元當(dāng)前第22頁\共有32頁\編于星期五\0點(diǎn)客戶價值分析如下:智慧營銷策略:客戶群體1:資源優(yōu)先保持,差異化管理,提高這類客戶的忠誠度與滿意度,盡可能延長這類客戶的高水平消費(fèi);

客戶群體2:加強(qiáng)促銷手段,加強(qiáng)滿意度,提高他們轉(zhuǎn)向競爭對手的轉(zhuǎn)移成本,逐漸使其成為忠誠客戶;

客戶群體3:采取一定的營銷手段,重點(diǎn)聯(lián)系,爭取延長客戶的生命周期??蛻羧后w1:高消費(fèi)、高價值人群;客戶群體2:一般客戶人群;客戶群體3:價值較低的客戶群體。當(dāng)前第23頁\共有32頁\編于星期五\0點(diǎn)采用TSNE數(shù)據(jù)降維將數(shù)據(jù)進(jìn)行可視化其中紅色代表客戶群體1,綠色代表客戶群體2,藍(lán)色代表客戶群體3當(dāng)前第24頁\共有32頁\編于星期五\0點(diǎn)案例2、中醫(yī)輔助決策肝氣郁結(jié)證型系數(shù)熱毒蘊(yùn)結(jié)證型系數(shù)沖任失調(diào)證型系數(shù)氣血兩虛證型系數(shù)脾胃虛弱證型系數(shù)肝腎陰虛證型系數(shù)0.1750.6820.1710.5350.4190.4470.30.7730.2930.3720.4420.132………………………………0.10.0910.2930.2790.1630.395證型系數(shù)=各證型得分/各證型總分患者編號肝氣郁結(jié)熱毒蘊(yùn)結(jié)沖任失調(diào)氣血兩虛脾胃虛弱肝腎陰虛TMT分期0017307231817H400212341216195H4…………………………………………930441212715H4當(dāng)前第25頁\共有32頁\編于星期五\0點(diǎn)模型構(gòu)建:1.中醫(yī)證型關(guān)聯(lián)規(guī)則模型(1)設(shè)置參數(shù):最小支持度、最小置信度,讀入數(shù)據(jù)(2)以關(guān)聯(lián)規(guī)則算法對建模數(shù)據(jù)進(jìn)行分析,調(diào)參運(yùn)行結(jié)果:當(dāng)前第26頁\共有32頁\編于星期五\0點(diǎn)2.模型分析XX=>Y規(guī)則編號范圍標(biāo)識1范圍表示2支持度(%)置信度(%)1A3F47.8587.962C3F47.5387.53B2F46.2479.45結(jié)果分析:(1)說明肝氣郁結(jié)證型系數(shù)處于(0.258,0.35],肝腎陰虛證型系數(shù)處于(0.353,0.607]范圍內(nèi),TMT診斷為H4的可能性為87.96%,這種情況發(fā)生的可能性為7.85%(2)C3、F4=>H4支持度為7.53%,置信度為87.5%,分析類似(3)B2、F4=>H4支持度為6.24%,置信度為79.45%,分析類似當(dāng)前第27頁\共有32頁\編于星期五\0點(diǎn)案例3、基于移動通信基站定位數(shù)據(jù)的商圈分析基站小區(qū)為六邊形歷史定位數(shù)據(jù)整理得到樣本數(shù)據(jù):當(dāng)前第28頁\共有32頁\編于星期五\0點(diǎn)譜系聚類圖:可將數(shù)據(jù)分成3類,即三個商圈當(dāng)前第29頁\共有32頁\編于星期五\0點(diǎn)商圈類別1分析:工作日人均停留的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論