




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、大數(shù)據(jù)挖掘與統(tǒng)計機器學(xué)習(xí)1大數(shù)據(jù)挖掘與統(tǒng)計機器學(xué)習(xí)、宋捷(2016),大數(shù)據(jù)挖掘與統(tǒng)計機器學(xué)習(xí),中國人民大學(xué)出版社第一章:概述第二章:線性回歸方法第三章:線性分類方法第四章:模型評價與選擇第五章:決策樹與組合方法第六章:神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)第七章:支持向量機第八章:聚類分析第九章:推薦系統(tǒng)第十章:大數(shù)據(jù)案例分析R、Python上機實踐大數(shù)據(jù)案例分析: 單機及分布式實現(xiàn)2主要參考書Hastie, Tibshirani, Friedman (2008), The Elements of Statistical Learning Data Mining, Inference and Predictio
2、n, Second Edition, SpringerJames, Witten, Hastie and Tibshirani (2013), An Introduction to Statistical Learning with Applications in R, SpringerHastie, Tibshirani, and Wainwright (2015), Statistical Learning with Sparsity The Lasso and Generalizations, CRC Press34第1章 概述1.統(tǒng)計學(xué)統(tǒng)計學(xué)是一門科學(xué),應(yīng)該是以分析數(shù)據(jù)、解決問題為導(dǎo)向
3、,不斷的提出新方法,并探討其理論性質(zhì)。2.數(shù)據(jù)智慧郁彬(2016),數(shù)據(jù)科學(xué)中的數(shù)據(jù)智慧,中國計算機學(xué)會通訊(中譯稿)將統(tǒng)計學(xué)核心部分重新定義為“數(shù)據(jù)智慧”非常必要,因為它比“應(yīng)用統(tǒng)計學(xué)”這個術(shù)語起到更好的概括作用?!皵?shù)據(jù)智慧”是將領(lǐng)域知識、數(shù)學(xué)和方法論與經(jīng)驗、理解、常識、洞察力以及良好的判斷力相結(jié)合,思辨性地理解數(shù)據(jù)并依據(jù)數(shù)據(jù)做決策的一種能力。十個基本問題(1)要回答的問題(2)數(shù)據(jù)收集(3)數(shù)據(jù)的含義(4)相關(guān)性(5)問題的轉(zhuǎn)化(6)可比性:數(shù)據(jù)變換(7)可視化(8)隨機性:數(shù)據(jù)的代表性、結(jié)果的不確定性(9)穩(wěn)定性:結(jié)果的可解釋性、可重復(fù)性(10)結(jié)果驗證5第2章 線性回歸方法2.1 多元
4、線性回歸(1)多元線性回歸模型及其矩陣表示(2)最小二乘估計及其性質(zhì) 最小方差線性無偏估計(BLUE)(3)變量選擇方法 前進法、后退法和逐步回歸法672.2 壓縮方法:嶺回歸與Lasso 2.2.1 嶺回歸 嶺回歸最初提出是為了解決回歸中的多重共線性問題,也就是 不滿秩,不是正定矩陣的情形。 這時有學(xué)者提出給 加上一個正常數(shù)矩陣kI(k0),那么 。其中,k是一個待估參數(shù),需要使用一些方法來決定。嶺估計的性質(zhì): 嶺估計是有偏估計,但存在k0使得嶺回歸的均方誤差小于最小二乘估計的均方誤差。 嶺回歸的系數(shù)估計值的絕對值小于最小二乘估計的絕對值。因此稱嶺回歸為一種壓縮估計。8另一種角度看待嶺回歸:
5、 現(xiàn)代統(tǒng)計從損失函數(shù)加罰的角度看待嶺回歸,可以證明嶺回歸等價于在最小二乘估計的基礎(chǔ)上對估計值的大小增加一個約束(也叫懲罰,有時也稱為正則化)。 注意,這里只對自變量的系數(shù)施加了約束,并沒有考慮截距項 。一般可以通過數(shù)據(jù)中心化(因變量減去自身均值)消除 的作用。 上式稱為的嶺回歸估計,其中,k稱為嶺參數(shù)。k=0時(此時對應(yīng)t=)的嶺回歸估計 就是普通的最小二乘估計。 嶺參數(shù)k不是唯一確定的,所以得到的嶺回歸估計 實際是回歸參數(shù)的一個估計族。9 2.2.2 Lasso Lasso回歸(Tibshirani, 1996)和嶺回歸類似(但又有著很重要的不同),是另一種壓縮估計。與嶺回歸很重要的不同是,
6、它在參數(shù)估計的同時既可以對估計值進行壓縮,又可以讓一些不重要的變量的估計值恰好為零,從而起到自動進行變量選擇的功能。 Lasso回歸等價于在最小二乘估計的基礎(chǔ)上對估計值的大小增加一個不同于嶺回歸的約束(懲罰):注意:范數(shù)的概念是線性空間中向量長度概念的推廣。10 2.2.3 一張圖看懂嶺回歸和Lasso回歸 嶺回歸和Lasso回歸中的參數(shù)k或稱為調(diào)節(jié)參數(shù),需要估計。實際上不同的調(diào)節(jié)參數(shù)的取值對應(yīng)不同的模型。因此,可以把調(diào)節(jié)參數(shù)的估計看成模型選擇問題。111213142.3 Lasso模型的求解與理論性質(zhì) 2.3.1 解Lasso Lasso問題是一個凸優(yōu)化問題,是一個平方損失加凸懲罰的優(yōu)化問題
7、。單變量Lasso目標函數(shù):解析解: 其中,15161718 2.3.3 SCAD回歸與Oracle性質(zhì) Fan and Li(2001)從懲罰函數(shù)的角度出發(fā),認為一個好的懲罰函數(shù)應(yīng)使得模型中的解具有以下三個理論性質(zhì):(1)無偏性:當未知參數(shù)真值較大時,估計值應(yīng)該幾乎無偏。(2)稀疏性:有某個閾值準則自動將較小的估計系數(shù)降至0,以降低模型復(fù)雜度。(3)連續(xù)性:為避免模型在預(yù)測時的不穩(wěn)定性,估計值應(yīng)該是最小二乘估計值的某種連續(xù)函數(shù)。1920 Fan and Li(2001)證明,SCAD回歸在一定條件下滿足神諭性(oracle property),即SCAD估計的表現(xiàn)與真實模型已知時(假定已知真
8、實模型中參數(shù)為零的系數(shù))的表現(xiàn)一樣好,也就是說,SCAD估計能準確地進行變量選擇。21222.4.2 最小一乘回歸與分位回歸232.4.3 其他罰函數(shù)Grouped Lasso彈性網(wǎng)懲罰24第3章 線性分類方法25 3.1.2 評價準則 混淆矩陣、準確率、召回率。2627283.2.3 正則化的Logistic回歸變量選擇普通逐步回歸L1正規(guī)化邏輯回歸模型(Lasso-LR)293031 3.3.2 二次判別函數(shù)和正則化判別函數(shù) 假設(shè)各個類別的 不相等,關(guān)于x的二次項保留在公式中。我們得到的二次判別函數(shù)(quadratic discriminant analysis,QDA)為: Friedm
9、an(1989)提出一個將LDA和QDA結(jié)合的方法,假定將QDA不同類別不同的方差壓縮到和LDA相同的方差。這和上一部分介紹的壓縮方法相似。具體來講,正則化的方差協(xié)方差矩陣有如下形式:式中, 是LDA中假定的統(tǒng)一的方差; 表示一系列介于LDA和QDA之間的模型,實際應(yīng)用中,使用下一部分將要介紹的交叉驗證等方法估計。32333435第4章 模型評價與選擇36模型復(fù)雜度與模型預(yù)測誤差之間的關(guān)系: 隨著模型復(fù)雜度的增加,測試誤差先下降,后升高(此時模型過擬合),不論是欠擬合還是過擬合,模型推廣預(yù)測的能力都差。因此存在一個中等復(fù)雜度的模型使得期望測試誤差達到最小,我們的目標就是找到這個最優(yōu)模型。373
10、839404142 4.2.2 AIC準則 AIC與 近似但應(yīng)用更廣泛,它是基于負對數(shù)似然損失的。它的一般公式是: 與 相比,上式等號右邊第一項是負對數(shù)似然損失,第二項是對模型參數(shù)個數(shù)(模型復(fù)雜度)的懲罰。 使用AIC選擇模型,我們選取AIC取值最小的那個,對于非線性或者更復(fù)雜的模型,要用衡量模型復(fù)雜度的值代替p。43 4.2.3 BIC準則 BIC準則與AIC相似,都是用于最大化似然函數(shù)的擬合。BIC的一般公式為: 式中,L是似然函數(shù); 是參數(shù) 的最大似然估計量;p是參數(shù)的個數(shù)。 BIC統(tǒng)計量乘以1/2也叫做施瓦茲準則。 可以看出BIC與AIC非常類似,只是把AIC中的2換成了 。當 時,B
11、IC對復(fù)雜模型的懲罰更大,更傾向于選取簡單的模型。 使用BIC選擇模型,我們選取BIC取值最小的那個模型。44454647484950五、決策樹與組合方法5.1.決策樹 5.1.1 決策樹的基本知識 常用算法ID3C4.5CART核心歸納算法51二分類示意需要說明的一些問題1.二叉樹還是多叉樹2.自變量的進一步處理3. 其他的決策樹算法4.決策樹的一些問題57 5.2.4 討論Bagging算法在基預(yù)測器不穩(wěn)定的情況下很有用,而當基預(yù)測器穩(wěn)定時,Bagging算法并不有效。 Bagging算法可以讓好的分類器(錯分率e0.5)效果更壞。 對于回歸問題,M的值可以取得小一些,對于分類問題,尤其是
12、當y的類別比較多的時候,M的取值應(yīng)該大一些。 每次進行Bootstrap抽樣時,我們選擇的樣本量都等于原始訓(xùn)練集的樣本量n。當提高Bootstrap抽樣樣本量的個數(shù)至2n后,大約有14%的樣本點沒有被抽中,但是Bagging算法的精度并沒有提高。 如果從偏差方差分解的角度理解Bagging算法,它可以提高不穩(wěn)定基預(yù)測器的預(yù)測精度,實質(zhì)上是減小了預(yù)測的方差(variance),但并沒有降低偏差(bias)。所以通常Bagging不剪枝的決策樹。 61625.3.2 可加模型:從統(tǒng)計的角度看Adaboost各種理論解釋偏差-方差分解減小偏差,boosting樹樁或者很小的樹提升邊際博弈論可加模型可
13、以證明二分類AdaBoost算法是最小化指數(shù)損失L(y, f(x)=exp(-yf(x) 的分步向前可加模型y取值+1或-1636667六、神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)6.1.神經(jīng)網(wǎng)絡(luò) 6.1.1 人工神經(jīng)元的模型 (1)生物神經(jīng)元68#截取一部分點進行分析t matplotlib.patches as patchesfig1 = plt.figure(figsize=(6,10)ax1 = fig1.add_subplot(1,1,1, aspect=equal)ax1.add_patch(patches.Rectangle(-74.0,40.66),0.05,0.045,fill=False,edg
14、ecolor=r,linewidth=3)72神經(jīng)元的常用激活函數(shù) 6.1.2 人工神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu) (1)前向網(wǎng)絡(luò) 前向網(wǎng)絡(luò)中神經(jīng)元是分層排列的,每層神經(jīng)元只接收來自前一層神經(jīng)元的輸入信號,并將信號處理后輸出至下一層,網(wǎng)絡(luò)中沒有任何回環(huán)和反饋。前向網(wǎng)絡(luò)的層按功能可分為輸入層、隱層和輸出層。 (2)反饋網(wǎng)絡(luò) 反饋網(wǎng)絡(luò)又稱遞歸網(wǎng)絡(luò)、回歸網(wǎng)絡(luò),它和前向網(wǎng)絡(luò)的區(qū)別在于它至少有一個反饋環(huán),形成封閉回路,即反饋網(wǎng)絡(luò)中至少有一個神經(jīng)元將自身的輸出信號作為輸入信號反饋給自身或其他神經(jīng)元。 6.1.3 人工神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí) (1)學(xué)習(xí)方式有監(jiān)督學(xué)習(xí)(有導(dǎo)師學(xué)習(xí)) 無監(jiān)督學(xué)習(xí)(無導(dǎo)師學(xué)習(xí)) 強化學(xué)習(xí) (2)學(xué)習(xí)規(guī)則
15、誤差糾正學(xué)習(xí)規(guī)則 Hebb學(xué)習(xí)規(guī)則 6.1.4 感知機 感知器神經(jīng)網(wǎng)絡(luò)是一種典型的前向神經(jīng)網(wǎng)絡(luò),具有分層結(jié)構(gòu),信息從輸入層進入網(wǎng)絡(luò)并逐層向前傳遞至輸出層。 (1)單層感知器(2)多層感知器 由于單層感知器只能處理線性可分的數(shù)據(jù),而現(xiàn)實世界中的數(shù)據(jù)大多不是線性可分的,因此相關(guān)研究者提出在單層感知器的輸入層和輸出層之間增加一個或多個隱層,由此構(gòu)成多層感知器,也稱為多層前向神經(jīng)網(wǎng)絡(luò)。反向傳播算法(Back Propagation Algorithm,簡稱BP算法): BP算法由信號的正向傳播與誤差的反向傳播兩部分組成。在正向傳播過程中,信號由網(wǎng)絡(luò)的輸入層經(jīng)隱層逐層傳遞至輸出層,得到網(wǎng)絡(luò)的實際輸出。若
16、此實際輸出與期望輸出不一致,則轉(zhuǎn)入誤差反向傳播階段。在反向傳播階段,將輸出誤差經(jīng)由隱層向輸入層反傳,從而獲得各層各單元的誤差信號,依此信號對網(wǎng)絡(luò)連接權(quán)值進行調(diào)整。反復(fù)執(zhí)行信號的正向傳播與誤差的反向傳播這兩個過程,直至網(wǎng)絡(luò)輸出誤差小于預(yù)先設(shè)定的閾值,或進行到預(yù)先設(shè)定的學(xué)習(xí)次數(shù)為止。 BP網(wǎng)絡(luò)的輸入層與輸出層的節(jié)點數(shù)依據(jù)所處理的任務(wù)確定后,還需確定隱層數(shù)和隱層節(jié)點數(shù)。 確定隱層節(jié)點數(shù)的最基本原則是:在滿足精度要求的前提下取盡可能緊湊的結(jié)構(gòu),即取盡可能少的隱層節(jié)點數(shù)。這意味著可以先從隱層節(jié)點數(shù)少的神經(jīng)網(wǎng)絡(luò)開始訓(xùn)練,然后增加節(jié)點數(shù),選取網(wǎng)絡(luò)誤差最小時對應(yīng)的節(jié)點數(shù);也可一開始加入足夠多的隱層節(jié)點數(shù),通過
17、學(xué)習(xí)把不太起作用的隱層節(jié)點刪去。 796.2.深度學(xué)習(xí) 深度神經(jīng)網(wǎng)絡(luò)是指含有多個隱層的神經(jīng)網(wǎng)絡(luò),與含有一個隱層的淺層神經(jīng)網(wǎng)絡(luò)相對應(yīng)。它模仿大腦皮層的深度架構(gòu)來處理數(shù)據(jù)。 對含有一個隱層的淺層網(wǎng)絡(luò)使用BP算法能獲得較好效果,對深度神經(jīng)網(wǎng)絡(luò)使用BP算法進行訓(xùn)練存在一定的問題: 梯度彌散問題局部極值問題數(shù)據(jù)獲取問題深度學(xué)習(xí)方法:卷積神經(jīng)網(wǎng)絡(luò)(Convolutioal Neural Networks,CNN)深度玻爾茲曼機(Deep Boltzmann Machine,DBM)深度信念網(wǎng)棧式自編碼網(wǎng)絡(luò)(Stacked Autoencoder)806.2.2 深度信念網(wǎng) DBN最頂部兩層間的連接是無向的
18、,它們的聯(lián)合分布形成一個RBM; 較低的其他層構(gòu)成有向的圖模型。DBN可作為一個生成模型,頂層RBM與具有P()分布的實線箭頭構(gòu)成生成路徑。DBN也可提取數(shù)據(jù)的多層次的表示進行推理與識別,具有Q()分布的虛線箭頭與頂層RBM構(gòu)成識別路徑。當自下而上進行學(xué)習(xí)時,頂層RBM 從隱層學(xué)習(xí);當自上而下學(xué)習(xí)時,頂層RBM作為生成模型的起始器。鑒于傳統(tǒng)的梯度下降算法針對多隱層網(wǎng)絡(luò)訓(xùn)練效果不佳,Hinton 等人提出了深度信念網(wǎng)的貪婪逐層預(yù)訓(xùn)練學(xué)習(xí)方法(greedy layer-wise training), 獲得較好的效果。貪婪逐層預(yù)訓(xùn)練學(xué)習(xí)的基本思想為:每次只訓(xùn)練網(wǎng)絡(luò)中的一層,以此得到網(wǎng)絡(luò)的初始參數(shù)值。
19、具體而言,首先訓(xùn)練只含一個隱層的網(wǎng)絡(luò),得到其初始參數(shù)值,接著訓(xùn)練含兩個隱層的網(wǎng)絡(luò),隨后訓(xùn)練含三個隱層的網(wǎng)絡(luò),依此類推。在訓(xùn)練含k個隱層的網(wǎng)絡(luò)時,固定已經(jīng)訓(xùn)練好的前k-1個隱層的初始參數(shù)值,將其輸出作為新加入的第k個隱層的輸入進行訓(xùn)練,得到該層的初始化參數(shù)。在對多層進行訓(xùn)練得到初始化參數(shù)后,對整個深度結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)的參數(shù)進行微調(diào)(fine-tuning),所得網(wǎng)絡(luò)的學(xué)習(xí)性能會有很大提高。通過貪婪逐層預(yù)訓(xùn)練學(xué)習(xí)方法所獲得的DBN參數(shù)并不是最優(yōu)的,因此DBN對預(yù)訓(xùn)練得到的各層參數(shù)進一步微調(diào),得到整個多層模型的參數(shù)。例如,Hinton于2006年提出使用Up-down算法(Wake-sleep算法的一個
20、變形)繼續(xù)進行無監(jiān)督訓(xùn)練,以得到更好的生成模型。DBN中自下而上的權(quán)值用于“認知”,并獲得輸入數(shù)據(jù)在各隱層的表示;自上而下的權(quán)值用于“生成”,利用輸入數(shù)據(jù)的潛在表示進行重構(gòu),得到近似的輸入數(shù)據(jù)。Up-down算法的目的是獲得數(shù)據(jù)的簡潔表示,同時希望輸入數(shù)據(jù)能夠被準確地重構(gòu)。Up-down算法分為三個階段:第一階段,通過使用認知權(quán)值進行隨機自下向上的傳播, 然后修改生成權(quán)值使得更好地重構(gòu)下面層中的特征激活值;第二階段,在頂層RBM中進行多次迭代采樣,然后通過CD算法調(diào)整RBM的權(quán)值;第三階段,通過生成權(quán)值進行自上向下的隨機傳播,然后修改認知權(quán)值使得更好地重構(gòu)上面層中的特征激活值。七、支持向量機
21、在眾多分類方法中,支持向量機(Support Vector Machine, SVM)是非常重要的一種,它于20世紀90年代由Vapnik 等人提出,開始主要用于二分類,后來擴展到模式識別、多分類及回歸等。支持向量機是一種典型的監(jiān)督學(xué)習(xí)模型,從幾何的角度來看,它的學(xué)習(xí)策略是間隔最大化,可化成一個凸二次規(guī)劃的問題。從代數(shù)的角度來看,支持向量機是一種損失函數(shù)加罰的模型。867.1.線性可分支持向量機 7.1.1 簡介如果兩類點可以用一條直線或一個超平面分開,則稱這些點是線性可分(linearly separable)模式;如果這兩類點不能用一條直線或者一個超平面分開,那么這些點是線性不可分模式。
22、線性可分支持向量機:87在現(xiàn)有的訓(xùn)練數(shù)據(jù)下,無疑同時遠離兩類數(shù)據(jù)點的直線是最好的。因此問題變成如何度量點到直線的距離,然后最大化這些距離的和。這就是所謂的最大間隔原則。我們所要求的最寬的隔離帶實際上并不是由所有樣本點決定的,而僅僅是由訓(xùn)練集中的三個點,即第4,8,30個觀測點確定的,這三個點(當然也是向量)就稱為支持向量(support vector),它們剛好在隔離帶的邊界(margin)上。88899091929394959697八、聚類分析 聚類分析屬于無監(jiān)督的統(tǒng)計學(xué)習(xí)的一種,是在沒有訓(xùn)練目標的情況下將樣本劃分為若干類的方法。通過聚類分析, 使得同一個類中的對象有很大的相似性,而不同類的
23、對象有很大的相異性。聚類分析廣泛用于客戶細分、 結(jié)構(gòu)分組和行為跟蹤等問題,取得了很好的效果。 98991001011028.1.3 K均值聚類 K-means算法的基本思想簡單直觀,以空間中K個點為中心進行聚類,對最靠近它們的對象進行歸類。通過迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結(jié)果。 在算法開始前,需要輸入?yún)?shù)K, 然后將事先輸入的n個數(shù)據(jù)對象劃分為K 個聚類, 使得最終聚類結(jié)果具有以下性質(zhì):在同一聚類中的對象相似度較高,而不同聚類中的對象相似度較小。優(yōu)點:簡潔和快速。算法的關(guān)鍵在于初始中心的選擇和距離公式。缺點:需要一個輸入?yún)?shù),不合適的K 值可能返回較差的結(jié)果。1031
24、041051061071081091101111121138.4.雙向聚類 之前介紹的聚類方法是根據(jù)變量的取值對觀測進行聚類。本節(jié)介紹的雙向聚類同時考慮觀測與變量的差異。114用戶,產(chǎn)品V1V2VmU1101U2011 Un100115BIMAX的迭代算法:第一步: 重排行和列, 使得1集中在矩陣的右上角。第二步: 將矩陣分為兩個子矩陣,若一個子矩陣中只有1, 則返回該子矩陣。為了得到一個令人滿意的結(jié)果, 該方法需要從不同的起點重復(fù)幾次。BIMAX嘗試識別出E中只包含0的區(qū)域,可以在進一步的分析中排除這些區(qū)域。因此當E為稀疏矩陣時,BIMAX具有獨特的優(yōu)勢。此外,BIMAX需要的存儲空間和運算
25、時間都較少。116九、推薦系統(tǒng) 推薦系統(tǒng)是在信息過載時信息擁有者向它的受眾進行有選擇的推送的系統(tǒng)。 9.1.基于鄰居的推薦 9.1.1 基于鄰居的預(yù)測算法 總體來看,基于用戶或者物品的推薦屬于基于鄰居的推薦方法。所謂鄰居,是指與一個對象比較近的其他對象。所謂物以類聚、人以群分,距離比較近的對象往往具有相近的特征。1171181191201211221231241259.2.潛在因子與矩陣分解算法 潛在因子方法是一種矩陣分解算法,又叫隱因子模型(Koren et al.,2009),本質(zhì)上是一種降維方法。 9.2.1 基于矩陣分解的推薦算法 已有的很多協(xié)同過濾方法或者不能處理非常大的數(shù)據(jù)集,或者
26、處理不好用戶評價非常少的情況。矩陣分解方法可以方便地隨著觀測數(shù)線性擴展。概率矩陣分解方法還可以加上限制,比如可以假定那些對相似物品進行評分的用戶具有相似的品位。1261271281299.2.2 基于隱因子的概率矩陣分解推薦算法 假定隱因子是一個隨機變量,通常再假定服從一個已知分布,比如正態(tài)分布。最后從似然函數(shù)的角度來重新研究這個矩陣分解的結(jié)果。這就是基于隱因子的概率矩陣分解推薦算法.130131132133上機實踐第四章4.4.1 模擬研究14.4.2 模擬研究2第五章5.5.3 Boosting方法的進一步研究第二版新增RPython第十章:大數(shù)據(jù)案例1.手機APP2.美國航空3.紐約自行
27、車(第二版新增)134第10章、大數(shù)據(jù)案例分析1. 智能手機用戶監(jiān)測數(shù)據(jù)案例分析(1)數(shù)據(jù)簡介來自QM公司連續(xù)30天4萬多智能手機用戶的監(jiān)測數(shù)據(jù)APP使用記錄數(shù)據(jù)(脫敏后):表10-1輔助數(shù)據(jù)app_class.csv: 4000多常用APP所屬類別135136(2)單機實現(xiàn)描述性分析:用戶記錄的有效情況137APP使用情況預(yù)測分析因變量:最后一周是否會使用第i類APP(分類問題)及使用強度(回歸問題)自變量:前23天的使用情況138模型:隨機森林139用戶行為聚類分析用戶APP使用差異的K均值聚類雙向聚類140RFM聚類Recency:最近一次消費Frequency:消費頻率Monetary
28、:消費金額141142推薦系統(tǒng)143(3)分布式實現(xiàn)數(shù)據(jù)預(yù)處理與描述統(tǒng)計基于Spark的模型分析分類、回歸;聚類;推薦系統(tǒng)1442. 美國航空數(shù)據(jù)案例分析(1)數(shù)據(jù)簡介美國境內(nèi)1988-2008年各機場航班起降記錄:表10-16145146機場信息:表10-17;航空公司信息:表10-18147天氣數(shù)據(jù):表10-19148149(2)單機實現(xiàn)基于Mysql的數(shù)據(jù)預(yù)處理與描述分析150洛杉磯到波士頓航線的延誤分析151機場聚類分析152153最短路徑154(3)分布式實現(xiàn)基于Hive的數(shù)據(jù)預(yù)處理2000-2008年全部航班的起飛延誤機場聚類用Spark建立分類模型2000-2008年全部航班的起飛延誤隨機森林1553. 美國紐約公共自行車數(shù)據(jù)案例分析(1)數(shù)據(jù)簡介2013年7月1日至2016年8月31日共38個月(1158天)的交易流水數(shù)據(jù)156變量編號變量名變量含義變量取值及說明1tripduration旅行時長騎行時間,數(shù)值型,秒2starttime出發(fā)時間借車時間,字符串,m/d/YYYY HH:MM:SS3stoptime結(jié)束時間還車時間,字符串,m/d/YYYY HH:MM:SS4start station id借車站點編號定性變量,站點
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2020-2021深圳寶安區(qū)展華實驗學(xué)校小學(xué)三年級數(shù)學(xué)下期末第一次模擬試題(含答案)
- 2020-2021北京第一零五中學(xué)小學(xué)三年級數(shù)學(xué)下期末一模試題(及答案)
- 單軌空中列車施工方案
- 2025年新高考地理全真模擬試卷 5套(含答案解析)
- 2024年河南省中考滿分作文《不畏困難勇攀高峰》
- 專題01 地球和地圖-2025年中考地理一輪復(fù)習(xí)知識清單(背誦版)
- 個人購買柴油合同范例
- 財務(wù)業(yè)務(wù)合規(guī)程序計劃
- 手工制作社團活動計劃
- 學(xué)習(xí)困難學(xué)生幫扶方案計劃
- 人教版小學(xué)三年級數(shù)學(xué)下冊《復(fù)式統(tǒng)計表》名師公開課獲獎?wù)n件百校聯(lián)賽一等獎?wù)n件
- 心衰護理課件教學(xué)課件
- 基于人工智能的供應(yīng)鏈協(xié)同優(yōu)化平臺建設(shè)方案
- 《大學(xué)語文》普通高等院校語文課程完整全套教學(xué)課件
- 預(yù)防校園欺凌主題班會課件(共36張課件)
- 伸縮臂式22m高空作業(yè)車安全操作規(guī)程
- 全國國家版圖知識競賽題庫及答案(中小學(xué)組)
- 顧客滿意度調(diào)查分析報告表
- 《托育服務(wù)政策法規(guī)與職業(yè)倫理》全套教學(xué)課件
- 湖北省武漢市實驗外國語學(xué)校小學(xué)部小學(xué)六年級小升初期末語文試題(含答案)
- 山東省專升本綜合一(機械設(shè)計制造及其自動化)模擬試卷1(共264題)
評論
0/150
提交評論