基于Spark的機器學習資料43、其它SparkML算法簡單介紹_第1頁
基于Spark的機器學習資料43、其它SparkML算法簡單介紹_第2頁
基于Spark的機器學習資料43、其它SparkML算法簡單介紹_第3頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、Spark ML 算法簡單介紹一、線性回歸算法線性回歸Regression),的一種統(tǒng)計分析方法,其表達形式為y = 為誤差服從均值為 0 的正態(tài)分布,其中只有一個自變量的情況稱為簡單回歸,多個自變量的情況叫多元回歸。這個例子中近簡化使用房屋面積一個因子作為自變量,y 軸對應其因變量房屋價格。所以我們機器學習的線性回歸就變?yōu)閷τ诮o定有限的數(shù)據(jù)集,進行一元線性回歸,即找到一個一次函數(shù)y=y(x) + e,使得y 滿足當 x=2104, 1600, 2400, 1416, 3000, . , y=400, 330, 369, 232, 540, . 如下圖所示:至于公式的求解,大家可以自己去看一下

2、源碼或者方程求解,這里就不講解了。二、邏輯回歸算法logistic 回歸本質上是線性回歸,只是在特征到結果的映射中加入了一層函數(shù)映射,即先把特征線性求和,然后使用函數(shù)g(z)將最為假設函數(shù)來預測。g(z)可以將連續(xù)值映射到 0 和 1 上。它與線性回歸的不同點在于:為了將線性回歸輸出的很大范圍的數(shù),例如從負無窮到正無窮,壓縮到0 和 1 處,就是可以消除特別冒尖的變量的影響。三、貝葉斯分類算法貝葉斯定理貝葉斯定理解決的是這樣一個問題:已知在事件B 發(fā)生的條件下,事件A 的發(fā)生概率P(A|B),怎樣得到事件 A 發(fā)生的條件下,事件B 的發(fā)生概率 P(B|A)?貝葉斯定理為我們打通了從 P(A|B

3、) 到 P(B|A) 的道路。P(B|A) = P(A|B) P(B) / P(A)舉例說明,假設已經(jīng)有了 100 個 email,其中: 垃圾郵件占比 60%,即 P(Spam) = 0.680%的垃圾郵件包含關鍵字“buy”,即 P(Buy|Spam) = 0.820%的垃圾郵件不包含關鍵字“buy”正常郵件占比 40%,即 P(NotSpam) = 0.410%的正常郵件包含關鍵字“buy”,即 P(Buy|NotSpam) = 0.190%的正常郵件不包含關鍵字“buy”現(xiàn)在,第 101 個 email 進來了,它包含關鍵字“buy”,那么它是垃圾郵件的概率 P(Spam|Buy) 是

4、多少? P(Spam|Buy) = P(Buy|Spam) P(Spam) / P(Buy)P(Buy) = P(Buy|Spam) P(Spam) + P(Buy|NotSpam) P(NotSpam) P(Spam|Buy) = (0.8 0.6) / (0.8 0.6 + 0.1 0.4) = 0.48 / 0.52 = 0.923由此得出,這個 email 有 92.3%的可能是一個垃圾郵件。四、SVM 支持向量機算法 算法輸出一個最優(yōu)化的分隔超平面。五、決策樹算法量的,回歸樹是處理連續(xù)變量。樣本一般都有很多個特征,有的特征對分類起很大的作用,有的特征對分類作用很小,甚至沒有作用。如決

5、 定是否對一個人貸款是,這個人的信用記錄、收入等就是主要的判斷依據(jù),而性別、婚姻狀況等等就是次要 的判斷依據(jù)。決策樹構建的過程,就是根據(jù)特征的決定性程度,先使用決定性程度高的特征分類,再使用決 2)剪枝,為了預防和消除過擬合,需要對決策樹剪枝。六、 Kmeans 聚類算法聚類(clustering)與分類(classification)的不同之處在于:分類是一種示例式的有監(jiān)督學習算法,它要求必 七、LDA主題模型算法隱含狄利克雷分配(LDA,Latent Dirichlet Allocation)(Topic Model,即從所收集的文檔中推 測主題)。 甚至可以說LDA 模型現(xiàn)在已經(jīng)成為了主

6、題建模中的一個標準,是實踐中最成功的主題模型之一。那么何謂“主題”呢?,就是諸如一篇文章、一段話、一個句子所表達的中心思想。不過從統(tǒng)計模型的角度 來說, 我們是用一個特定的詞頻分布來刻畫主題的,并認為一篇文章、一段話、一個句子是從一個概率模型LDA 可以用來識別大規(guī)模文檔集(document collection)或語料庫(corpus)中潛藏的主題信息。它采用了詞袋of words)的方法,這種方法將每一篇文檔視為一個詞頻向量,從而將文本信息轉化為了易于建模的LDA 可以被認為是如下的一個聚類過程:各個主題(Topics)對應于各類的“質心”,每一篇文檔被視為數(shù)據(jù)集中的一個樣本。主題和文檔都

7、被認為存在一個向量空間中,這個向量空間中的每個特征向量都是詞頻(詞袋模型) 使用一個基于統(tǒng)計模型的方程八、FPGrowth關聯(lián)規(guī)則算法關聯(lián)規(guī)則挖掘的一個典型例子是購物籃分析。關聯(lián)規(guī)則研究有助于發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品(項)局、貨存安排以及根據(jù)購買模式對用戶進行分類。九、 ALS 交替最小二乘算法ALS(Alternating Least 表示商品,用戶給商品打分,但是并不是每一個用戶都會給每一種商品打分。比如用戶u6 就沒有給商品v3 打分,需要我們推斷出來,這就是機器學習的任務。由于并不是每個用戶給每種商品都打了分,可以假設ALS 矩陣是低秩的,即一個m*n 的矩陣,是由m*k 和k*n 兩

8、個矩陣相乘得到的,其中km,n。Amn=UmkVkn料就相當于一個隱藏特征。上面的公式中的程度。機器學習的任務就是求出Umk 和Vkn??芍猽iTvj 是用戶i 對商品j 的偏好,使用Frobenius 范數(shù)來量化重構U 和V 產(chǎn)生的誤差。由于矩陣中很多地方都是空白的,即用戶沒有對商品打分,對于這種 情。這樣就將協(xié)同推薦問題轉換成了一個優(yōu)化問題。目標函數(shù)中U 和V即先假設U 的初始值U(0)可以計算出 V(0)計算出U(1),這樣迭代下去,直到迭代了一定的次數(shù),或者收斂為止。雖然不能保證收斂的全局最優(yōu)解,但是影響不大。十、協(xié)同過濾推薦算法別新的 user-item 關系。協(xié)同過濾領域主要的兩種方式是最近鄰方法和潛在因子 factor)要集中在 ite

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論