




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
2016/11/15秦華妮五邑大學(xué)數(shù)學(xué)與計算科學(xué)學(xué)院關(guān)于數(shù)據(jù)挖掘的學(xué)習(xí)匯報當(dāng)前第1頁\共有32頁\編于星期五\0點一暑期學(xué)習(xí)介紹二數(shù)據(jù)科學(xué)三案例當(dāng)前第2頁\共有32頁\編于星期五\0點1.1課程名稱和主講教師(北京大數(shù)據(jù)研究院暑期學(xué)校)一、暑期學(xué)習(xí)介紹當(dāng)前第3頁\共有32頁\編于星期五\0點1.2專題:fundamentaltechniquesinBigData(李平)當(dāng)前第4頁\共有32頁\編于星期五\0點當(dāng)前第5頁\共有32頁\編于星期五\0點當(dāng)前第6頁\共有32頁\編于星期五\0點當(dāng)前第7頁\共有32頁\編于星期五\0點用數(shù)據(jù)的方法研究科學(xué)的最典型的例子:開普勒的關(guān)于行星運(yùn)動的三大定律二、數(shù)據(jù)科學(xué)開普勒模式與牛頓模式當(dāng)前第8頁\共有32頁\編于星期五\0點2.2從數(shù)學(xué)的角度研究數(shù)據(jù)?數(shù)據(jù)數(shù)據(jù)建模整個數(shù)學(xué)模型相關(guān)性、排序、分類、聚類度量結(jié)構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)代數(shù)結(jié)構(gòu)拓?fù)浣Y(jié)構(gòu)函數(shù)結(jié)構(gòu)表格、點集、時間序列、圖像、視頻、文本等概率分布、隨機(jī)過程、隨機(jī)場、圖模型等算法及實現(xiàn)(數(shù)據(jù)分析的困難)降低算法的復(fù)雜度分布式計算當(dāng)前第9頁\共有32頁\編于星期五\0點數(shù)據(jù)科學(xué)數(shù)學(xué)統(tǒng)計學(xué)行業(yè)知識機(jī)器學(xué)習(xí)物聯(lián)網(wǎng)云計算數(shù)據(jù)挖掘2.3數(shù)據(jù)挖掘的綜合技能當(dāng)前第10頁\共有32頁\編于星期五\0點數(shù)學(xué)的基礎(chǔ)知識計算機(jī)科學(xué)的基礎(chǔ)知識算法方面的基本知識數(shù)據(jù)的模型專業(yè)課程其它專業(yè)課程微積分計算機(jī)語言數(shù)值代數(shù)回歸圖像處理生物信息學(xué)線性代數(shù)數(shù)據(jù)庫函數(shù)逼近分類時間序列分析天體信息學(xué)概率論數(shù)據(jù)結(jié)構(gòu)優(yōu)化理論聚類視頻處理金融數(shù)據(jù)分析可視化技術(shù)蒙特卡洛方法參數(shù)估計自然語言處理網(wǎng)絡(luò)算法文本處理計算幾何語音識別推薦系統(tǒng)另外,隨機(jī)過程、函數(shù)逼近論、圖論、拓?fù)鋵W(xué)、幾何、變分法、群論的基礎(chǔ)知識。
數(shù)學(xué)系不需要一門一門的開設(shè),而是可以開設(shè)一些新的“高等數(shù)學(xué)”課程來覆蓋這些方面的內(nèi)容2.4北大數(shù)據(jù)科學(xué)專業(yè)的探索當(dāng)前第11頁\共有32頁\編于星期五\0點2.5數(shù)據(jù)挖掘的10個重要算法(1)K均值(K-means)方法(2)支持向量機(jī)(SVM)方法(3)期望最大化(EM)算法
(4)網(wǎng)頁排序算法(PageRank)(5)貝葉斯方法(6)K近鄰方法(7)AdaBoost(8)決策樹算法(9)關(guān)聯(lián)規(guī)則Apriori算法(10)協(xié)同過濾方法(CollaborativeFiltering)其他數(shù)據(jù)分析過程中常用的方法還有:降維(主成分分析、線性判別分析)、隨機(jī)森林、Bagging方法、序列標(biāo)注模型(隱馬模型、條件隨機(jī)場)、EM和高斯混合模型(2006年IEEE國際挖掘會議選出)當(dāng)前第12頁\共有32頁\編于星期五\0點2.6數(shù)據(jù)挖掘的一般過程:數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)規(guī)約分類與預(yù)測聚類分析關(guān)聯(lián)規(guī)則時序模型預(yù)測正確率模型解釋性數(shù)據(jù)預(yù)處理數(shù)據(jù)模型訓(xùn)練模型性能評估當(dāng)前第13頁\共有32頁\編于星期五\0點三、案例案例1、
智慧餐飲案例2
、中醫(yī)輔助決策案例3、商圈分析當(dāng)前第14頁\共有32頁\編于星期五\0點餐飲企業(yè)的信息化管理(傳統(tǒng)部分):(1)客戶關(guān)系管理(2)前廳管理系統(tǒng)(3)后廚管理系統(tǒng)(4)財務(wù)管理系統(tǒng)(5)物資管理系統(tǒng)
餐飲企業(yè)的數(shù)據(jù)挖掘(創(chuàng)新部分):菜品智能推薦、客戶價值分析、新店選點優(yōu)化、熱銷/滯銷菜品分析銷量趨勢預(yù)測案例1、智慧餐飲當(dāng)前第15頁\共有32頁\編于星期五\0點餐飲企業(yè)某一個月菜品的銷售數(shù)據(jù)如下:當(dāng)前第16頁\共有32頁\編于星期五\0點(1)銷售數(shù)據(jù)的帕累托柱狀圖:分析可知:暢銷菜:A1,A2,A3;滯銷菜:A8,A9,A10;并且,A1~A7占菜品份額的70%,但是總盈利占月盈利額的85.0033%,可以增加投入。當(dāng)前第17頁\共有32頁\編于星期五\0點結(jié)果第一行解釋為:客戶同時點e與a的概率時30%,而點了e必點a的概率是100%.
餐飲企業(yè)某段時間的點餐清單:(2)根據(jù)Apriori算法,可得如下規(guī)則:當(dāng)前第18頁\共有32頁\編于星期五\0點消費行為特征數(shù)據(jù)如下:(3)消費客戶群的價值分析:當(dāng)前第19頁\共有32頁\編于星期五\0點客戶群體1的R、F、M的概率密度函數(shù)圖:客戶群體1特點:R間隔相對較小,主要集中在0~30天;消費次數(shù)集中在10~25次,消費金額在500~2000元當(dāng)前第20頁\共有32頁\編于星期五\0點客戶群體2的R、F、M的概率密度函數(shù)圖:客戶群體2特點:R間隔相對較小,主要集中在0~30天;消費次數(shù)集中在0~12次,消費金額在0~1800元當(dāng)前第21頁\共有32頁\編于星期五\0點客戶群體3的R、F、M的概率密度函數(shù)圖:客戶群體3特點:R間隔相對較大,主要集中在30~80天;消費次數(shù)集中在0~15次,消費金額在0~2000元當(dāng)前第22頁\共有32頁\編于星期五\0點客戶價值分析如下:智慧營銷策略:客戶群體1:資源優(yōu)先保持,差異化管理,提高這類客戶的忠誠度與滿意度,盡可能延長這類客戶的高水平消費;
客戶群體2:加強(qiáng)促銷手段,加強(qiáng)滿意度,提高他們轉(zhuǎn)向競爭對手的轉(zhuǎn)移成本,逐漸使其成為忠誠客戶;
客戶群體3:采取一定的營銷手段,重點聯(lián)系,爭取延長客戶的生命周期??蛻羧后w1:高消費、高價值人群;客戶群體2:一般客戶人群;客戶群體3:價值較低的客戶群體。當(dāng)前第23頁\共有32頁\編于星期五\0點采用TSNE數(shù)據(jù)降維將數(shù)據(jù)進(jìn)行可視化其中紅色代表客戶群體1,綠色代表客戶群體2,藍(lán)色代表客戶群體3當(dāng)前第24頁\共有32頁\編于星期五\0點案例2、中醫(yī)輔助決策肝氣郁結(jié)證型系數(shù)熱毒蘊(yùn)結(jié)證型系數(shù)沖任失調(diào)證型系數(shù)氣血兩虛證型系數(shù)脾胃虛弱證型系數(shù)肝腎陰虛證型系數(shù)0.1750.6820.1710.5350.4190.4470.30.7730.2930.3720.4420.132………………………………0.10.0910.2930.2790.1630.395證型系數(shù)=各證型得分/各證型總分患者編號肝氣郁結(jié)熱毒蘊(yùn)結(jié)沖任失調(diào)氣血兩虛脾胃虛弱肝腎陰虛TMT分期0017307231817H400212341216195H4…………………………………………930441212715H4當(dāng)前第25頁\共有32頁\編于星期五\0點模型構(gòu)建:1.中醫(yī)證型關(guān)聯(lián)規(guī)則模型(1)設(shè)置參數(shù):最小支持度、最小置信度,讀入數(shù)據(jù)(2)以關(guān)聯(lián)規(guī)則算法對建模數(shù)據(jù)進(jìn)行分析,調(diào)參運(yùn)行結(jié)果:當(dāng)前第26頁\共有32頁\編于星期五\0點2.模型分析XX=>Y規(guī)則編號范圍標(biāo)識1范圍表示2支持度(%)置信度(%)1A3F47.8587.962C3F47.5387.53B2F46.2479.45結(jié)果分析:(1)說明肝氣郁結(jié)證型系數(shù)處于(0.258,0.35],肝腎陰虛證型系數(shù)處于(0.353,0.607]范圍內(nèi),TMT診斷為H4的可能性為87.96%,這種情況發(fā)生的可能性為7.85%(2)C3、F4=>H4支持度為7.53%,置信度為87.5%,分析類似(3)B2、F4=>H4支持度為6.24%,置信度為79.45%,分析類似當(dāng)前第27頁\共有32頁\編于星期五\0點案例3、基于移動通信基站定位數(shù)據(jù)的商圈分析基站小區(qū)為六邊形歷史定位數(shù)據(jù)整理得到樣本數(shù)據(jù):當(dāng)前第28頁\共有32頁\編于星期五\0點譜系聚類圖:可將數(shù)據(jù)分成3類,即三個商圈當(dāng)前第29頁\共有32頁\編于星期五\0點商圈類別1分析:工作日人均停留的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 分析項目管理考試的評分標(biāo)準(zhǔn)試題及答案
- 江蘇省贛榆縣海頭高級中學(xué)2024-2025學(xué)年高一生物上學(xué)期周練練習(xí)1無答案
- 微生物檢驗過程中的常見問題試題及答案
- 未來項目管理考試評估標(biāo)準(zhǔn)試題及答案
- 微生物檢驗師的責(zé)任與使命試題及答案
- 課題申報書參考
- 重要考點2025年注冊會計師考試總結(jié)試題及答案
- 學(xué)術(shù)課題申報書
- 證券從業(yè)資格證考試相關(guān)法律條款試題及答案
- 對項目實施過程的反思與總結(jié)方式試題及答案
- 2025年濮陽職業(yè)技術(shù)學(xué)院高職單招語文2019-2024歷年真題考點試卷含答案解析
- 農(nóng)田水土保持的技術(shù)與治理策略研究試題及答案
- 2024農(nóng)業(yè)考試重要措施試題及答案
- 2025年安徽滁州中鹽東興鹽化股份有限公司招聘筆試參考題庫含答案解析
- 國際貿(mào)易實務(wù)與案例教程題庫及答案
- 2025新能源考試試題及答案
- 小學(xué)思政教育主題班會
- “良知與悲憫”高頻素材積累-2024-2025學(xué)年高一語文單元寫作深度指導(dǎo)(統(tǒng)編版必修下冊)
- 2024山西三支一扶真題及答案
- 技術(shù)經(jīng)紀(jì)人(初級)考試試題(附答案)
- 2025年江蘇省南通啟東市江海產(chǎn)業(yè)園招聘1人歷年高頻重點提升(共500題)附帶答案詳解
評論
0/150
提交評論