大數(shù)據(jù)分析的案例、方法與挑戰(zhàn)47_第1頁
大數(shù)據(jù)分析的案例、方法與挑戰(zhàn)47_第2頁
大數(shù)據(jù)分析的案例、方法與挑戰(zhàn)47_第3頁
大數(shù)據(jù)分析的案例、方法與挑戰(zhàn)47_第4頁
大數(shù)據(jù)分析的案例、方法與挑戰(zhàn)47_第5頁
已閱讀5頁,還剩51頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、大數(shù)據(jù)分析的案例、方法與挑戰(zhàn)中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC2012數(shù)據(jù)分析者面臨的問題 數(shù)據(jù)日趨龐大,無論是入庫和查詢,都出現(xiàn)性能瓶頸 用戶的應(yīng)用和分析結(jié)果呈整合趨勢,對實時性和響應(yīng)時間要求越來越高 使用的模型越來越復(fù)雜,計算量指數(shù)級上升 傳統(tǒng)技能無法應(yīng)對大數(shù)據(jù):R、SAS、SQL中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC20122場景介紹 信令監(jiān)測是做什么的?中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC2012體系架構(gòu) 數(shù)據(jù)庫服務(wù)器:HP小型機,128G內(nèi)存,48顆CPU,2節(jié)點RAC,其中一個節(jié)點用于入庫,另外一個節(jié)點用于查詢

2、 存儲:HP虛擬化存儲,1000個盤 入庫節(jié)點 入庫方式常規(guī)路徑sqlldr 大量使用表分區(qū)設(shè)計 數(shù)據(jù)量:每小時寫入200G左右數(shù)據(jù)磁盤物理寫大約為450G每小時問題:1 入庫瓶頸 2 查詢瓶頸中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC2012數(shù)據(jù)庫設(shè)計 物理上采用ASM 大表全部按時間分區(qū),開始時按小時分區(qū),但由于數(shù)據(jù)量龐大,后來改成15分鐘分區(qū),最后變成每分鐘切換1個分區(qū) 采用sqlldr方式入庫中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC20125入庫故障描述 由于數(shù)據(jù)量太大,不得不同時啟用多個處理機,產(chǎn)生了多個入庫節(jié)點 當(dāng)入庫節(jié)點分別增加到2節(jié)點和4節(jié)

3、點以后,sqlldr出現(xiàn)停頓現(xiàn)象中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC2012AWR報告中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC2012AWR報告中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC2012AWR報告中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC2012關(guān)于Buffer Cache中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC2012Latch中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC2012尋找Buffer busy wait的根源 Sqlldr和OCI方式同時insert 多個節(jié)

4、點同時insert 解決辦法1 放棄使用OCI2 對sqlldr進(jìn)行垂直切分,盡量避免同時多進(jìn)程插入同一張表中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC2012再看AWR中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC2012新的故障現(xiàn)象 Sqlldr依然有停頓,次數(shù)較為頻密而持續(xù)時間較短 HWM沖突問題中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC2012關(guān)于HWM中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC2012針對HWM沖突的優(yōu)化措施 對于無法垂直切分的特大表,按照入庫節(jié)點號作子分區(qū)中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪201

5、2.4DTCC2012再看AWR HWM沖突已經(jīng)被消除 Sqlldr頻密周期性短暫停頓的問題依舊中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC2012最終問題根源 AWR報告的提示文件頭部競爭 表空間大小與自動擴(kuò)展是問題根源 修正表空間設(shè)置后問題消失中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC201218備選方案犧牲實時性換取直接路徑插入直接路徑插入有什么好處? 為什么沒有采用直接路徑插入?中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC201219備選方案交換分區(qū)中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC201220備選方案外部表中

6、山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC201221使用傳統(tǒng)關(guān)系型數(shù)據(jù)庫遇到的困難 All in one,并非專門針對數(shù)據(jù)分析設(shè)計和優(yōu)化 設(shè)計復(fù)雜,調(diào)優(yōu)復(fù)雜,數(shù)據(jù)分析師兼任DBA 當(dāng)數(shù)據(jù)規(guī)模增加時,需要擴(kuò)展硬件,邊際成本指數(shù)級上升,存在無法突破的物理瓶頸中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC201222解決方案 列式數(shù)據(jù)庫,實時數(shù)據(jù)庫等新的數(shù)據(jù)庫技術(shù) 分布式集群:Hadoop,NoSQL及其它分布式數(shù)據(jù)庫技術(shù) 混合使用各種專業(yè)分析產(chǎn)品中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC201223場景:行為指紋識別當(dāng)當(dāng)為0 時,AC兩個矢量完全相

7、關(guān),即兩個號碼的交往圈相似度最高當(dāng)越接近0,說明兩個號碼的交往圈越相似2012.4DTCC2012中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪25為 90 時,AC兩個矢量完全不相關(guān),即兩個號碼的交往圈相似度最低基于分布式平臺運行海量數(shù)據(jù)移動客戶數(shù)據(jù)量達(dá)到TB級云化Oracle數(shù)據(jù)庫中sql語句可以得到結(jié)果,但希望進(jìn)一步提高效率MapReduce方法希望嘗試多個相似度計算結(jié)果中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC2012云計算網(wǎng)絡(luò)發(fā)展的必然結(jié)果中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC2012Hadoop Hadoop的主要功能:HDFS和Map-Reduc

8、e HDFS實現(xiàn)數(shù)據(jù)的分布式存儲,并且實現(xiàn)冗余備份 Map-Reduce實現(xiàn)計算任務(wù)的分布化,盡量使到某個節(jié)點的計算任務(wù)主要面對存儲在本地的數(shù)據(jù),以減少跨節(jié)點的網(wǎng)絡(luò)數(shù)據(jù)傳送中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC201228HDFS結(jié)構(gòu)示意圖中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC201229Map-Reduce示意圖中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC201230HDFS與Map-Reduce一起工作中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC201231Hive 基于Hadoop的常用數(shù)據(jù)分析工具 可以看成是S

9、QL到Map-Reduce的轉(zhuǎn)換器 HiveQL尚未能完全支持SQL 92 外部應(yīng)用可以通過hive客戶端、JDBC、ODBC等方式訪問Hive中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC201232HBase 列式數(shù)據(jù)庫,特別適合作為數(shù)據(jù)分析的場景,可以減少I/O 無真正索引 自動分區(qū) 增加新節(jié)點時自動線性擴(kuò)展 使用Hbase命令而非SQL 可以通過Java,REST,thrift等接口訪問HBase中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC201233Hadoop體系圖中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC201234NoSQL No

10、SQL = Not Only SQL High performance, Huge Storage, High Scalability & High Availability NoSQL面向的場景:事務(wù)性要求不高,實時性要求不高,查詢較為簡單,數(shù)據(jù)海量 可分布化,運行在廉價的PC集群上 典型的NoSQL產(chǎn)品,通常某種產(chǎn)品只適合某種特定場景,常要配搭使用中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC201235基于Hadoop的用戶指紋識別算法 求某個客戶最相似客戶的MapReduce化(以相關(guān)系數(shù)為例): Map() Input: 某客戶數(shù)值、所有客戶數(shù)值 將所有客戶隨機平分到

11、k臺機器 Output: k 個最大相關(guān)系數(shù)(local) Emit the k 個跟某客戶最相似的客戶 Reduce( ) Input: Key: null; values: k 個最大相關(guān)系數(shù)(local) Output: 最大相關(guān)系數(shù)(global) Emit the 最大相關(guān)系數(shù)、與某客戶最相似客戶中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC201236數(shù)據(jù)分析者期待的解決方案 完美解決性能瓶頸,在可見未來不容易出現(xiàn)新瓶頸 過去所擁有的技能可以平穩(wěn)過渡。比如SQL、R 轉(zhuǎn)移平臺的成本有多高?平臺軟硬件成本,再開發(fā)成本,技能再培養(yǎng)成本,維護(hù)成本中山大學(xué)海量數(shù)據(jù)與云計算研究

12、中心 黃志洪2012.4DTCC201237一種新的普適性關(guān)聯(lián)挖掘方法 海量,不一定是指數(shù)據(jù)記錄多,有時可能是變量很多 觀察變量之間是否具有聯(lián)系的傳統(tǒng)回歸方法中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC201238傳統(tǒng)回歸模型的困難 為什么一定是線性?或某種非線性模型? 過分依賴于分析者的經(jīng)驗 對于非連續(xù)的離散數(shù)據(jù)難以處理中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC201239網(wǎng)格方法 Science上的文章Detecting Novel Associations in Large Data Sets 方法概要:用網(wǎng)格判斷數(shù)據(jù)的集中程度,集中程度意味著是否有關(guān)聯(lián)

13、關(guān)系 方法具有一般性,即無論數(shù)據(jù)是怎樣分布的,不限于特定的關(guān)聯(lián)函數(shù)類型,此判斷方法都是有效 方法具有等效性,計算的熵值和噪音的程度有關(guān),跟關(guān)聯(lián)的類型無關(guān) MIC:the Maximal Information Coefficient MINE:Maximal Information-based Nonparametric Exploration中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC201240MIC值計算 坐標(biāo)平面被劃分為(x,y)網(wǎng)格G(未必等寬),其中xyn0.6 在G上可以誘導(dǎo)出“自然概率密度函數(shù)”p(x,y),任何一個方格(box)內(nèi)的概率密度函數(shù)值為這個方格所

14、包含的樣本點數(shù)量占全體樣本點的比例 計算網(wǎng)格劃分G下的 mutual information值 IG中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC201241MIC值計算 構(gòu)造特征矩陣mxy,矩陣的元素mxy=maxIG/log minx,y。max取遍所有可能的(x,y)網(wǎng)格G MIC=max mxy。Max取遍所有可能的(x,y)對中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC201242MIC值計算 Mxy的計算是個難點,數(shù)據(jù)科學(xué)家構(gòu)造了一個近似的逼近算法以提高效率 HYPERLINK /content/suppl/2011/12/14/334.6062.15

15、18.DC1 /content/suppl/2011/12/14/334.6062.1518.DC1在作者的網(wǎng)站上,可以下載MINE計算MIC的程序(Java和R)以及測試用數(shù)據(jù)集 HYPERLINK /Downloads /Downloads實驗:WHO數(shù)據(jù)集,壘球數(shù)據(jù)集中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC201243MIC的性質(zhì) 如果變量對x,y存在函數(shù)關(guān)系,則當(dāng)樣本數(shù)增加時,MIC必然趨向于1 如果變量對x,y可以由參數(shù)方程c(t)=x(t),y(t)所表達(dá)的曲線描畫,則當(dāng)樣本數(shù)增加時,MIC必然趨于1 如果變量對x,y在統(tǒng)計意義下互相獨立,則當(dāng)樣本數(shù)增加時,MI

16、C趨于0中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC201244MIC觀察中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC201245MIC與線性回歸模型對比中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC201246對基因數(shù)據(jù)集spellman的探索 數(shù)據(jù)集包含6223組基因數(shù)據(jù) MINE對關(guān)聯(lián)關(guān)系的辨認(rèn)力明顯強于以往的方法,例如雙方都發(fā)現(xiàn)了HTB1,但MINE方法挖出了過去未被發(fā)現(xiàn)的HSP12中山大學(xué)海量數(shù)據(jù)與云計算研究中心 黃志洪2012.4DTCC201247歡迎交流:stswzhQQ:1829118中山大學(xué)海量數(shù)據(jù)與云計算研究中心微博:/hao

17、lan2011DTCC201248附錄資料:不需要的可以自行刪除大數(shù)據(jù)挖掘技術(shù)之DM經(jīng)典模型(下)數(shù)據(jù)分析微信公眾號datadw關(guān)注你想了解的,分享你需要的。接著上篇大數(shù)據(jù)挖掘技術(shù)之DM經(jīng)典模型(上)文章,接下來我們將探討樸素貝葉斯模型、線性回歸、多元回歸、邏輯回歸分析等模型。4、樸素貝葉斯模型表查詢模型簡單有效,但是存在一個問題。隨著輸入數(shù)量的額增加,每個單元格中訓(xùn)練樣本的數(shù)量會迅速減少。如果維度為2,且每一維有10個不同的變量,那么就需要100個單元格,而當(dāng)有3個維度時,就需要1000個單元格,4個維度就是10000.這樣成指數(shù)級的增長,哪怕的傳統(tǒng)數(shù)據(jù)挖掘中都會遇到明顯瓶頸。當(dāng)試圖預(yù)測某一

18、個概率值時,樸素貝葉斯模型就提供這一辦法。基本思想:每個輸入變量本身就包含一些預(yù)測需要的信息。比如目標(biāo)變量是取消業(yè)務(wù)的概率,解釋變量是市場、獲取渠道、初始信用評分、利率計劃、電話號碼類型、手機號以及客戶年齡。這些變量都具有預(yù)測能力。根據(jù)取消率的顯著差異性,可將每個變量劃分在不同的范圍中。簡單理解:條件概率是指給定B的條件下A的概率以及給定A的條件下B的概率。解釋:給定B的條件下A發(fā)生的概率,等于給定A的條件下B發(fā)生的概率乘以A和B發(fā)生的概率的比例。如果A代表停止續(xù)簽,B代表使用黑莓手機,然后給定使用黑莓手機的條件下停止續(xù)簽的概率,就是給定停止續(xù)簽的條件下使用黑莓手機的概率乘以總體停止續(xù)簽的概率

19、與總體使用黑莓手機的概率之比。4.1、概率、幾率和釋然概率:0到1之間的一個數(shù)字,表示一個特定結(jié)果發(fā)生的可能性。一種估計結(jié)果概率的方法是計算樣本數(shù)據(jù)中出現(xiàn)結(jié)果次數(shù)的百分比。幾率:某一特定結(jié)果發(fā)生于不發(fā)生的概率比。如果一個事件發(fā)生的概率是0.2,那么不發(fā)生的概率是0.8。那么其發(fā)生的幾率就是1/4。幾率的取值是0到無窮。似然:兩個相關(guān)的條件概率比。即給定B發(fā)生的情況下,某一特定結(jié)果A發(fā)生的概率和給定B不發(fā)生的情況下A發(fā)生的概率之比。4.2、樸素貝葉斯計算對任意數(shù)量屬性中的每一個屬性,樸素貝葉斯公式都將目標(biāo)事件的幾率與該事件的似然聯(lián)系起來。回到基于營銷市場、渠道獲取、最初信用評分、費率計算、電話號

20、碼類型、手機型號以及客戶年齡來預(yù)測客戶流失的例子。例如上面談到的黑莓手機續(xù)簽的案例,我們關(guān)注的是。1、停止續(xù)簽的總體幾率。2、黑莓手機用戶停止的似然。3、在整個州市場停止續(xù)簽的似然。之所以定義為“樸素”,是基于所有似然相乘都基于輸入變量相互獨立的假設(shè)。在這個案例中,假設(shè)的是使用黑莓手機的似然與市場獨立(并且存在于該州的似然與手機類型獨立)。而在實際中,這種真正相互獨立的情況很少見。樸素貝葉斯模型最吸引人的點:對于待評分的觀測,如果缺失某些輸入值,可以簡單地將缺失的似然從模型中去掉。意味著,包含那些并不是對所有有用都可用的輸入(用戶年齡),但如果知道這些變量,它們就有用。給定不同輸入的概率,且這

21、些輸入與停止續(xù)簽相關(guān),樸素貝葉斯公式就可以計算停止續(xù)簽的幾率,而公司對這種停止續(xù)簽的用戶更感興趣。4.3、樸素與表查詢模型的比較對于概率型目標(biāo)來說,樸素貝葉斯模型和表查詢模型密切相關(guān)。兩者之間的主要區(qū)別就在于如何使用維度。在表查詢模型中,使用所有維度依次定義單元格,然后計算每一個單元格的目標(biāo)概率。因此,表查詢模型可以獲取變量之間的相互作用。在樸素中,需要為每一個維度單獨計算似然,之后組合這些似然,從而計算出目標(biāo)概率。似然的組合有一個假設(shè):各維度關(guān)于目標(biāo)彼此獨立。表查詢沒有說明這樣一類屬性的組合關(guān)系,即由于在訓(xùn)練數(shù)據(jù)中出現(xiàn)的頻率很低,導(dǎo)致這些概率很低的屬性就不會出現(xiàn)。在樸素模型中可以預(yù)測任何從未

22、出現(xiàn)過的組合,但要這樣做,就必須假設(shè)這些輸入所造成的影響彼此獨立。表查詢模型沒有這樣的假設(shè),所以當(dāng)數(shù)據(jù)多到可以支持一個可信的估計模型時,表查詢模型也許會做的更好。5、線性回歸回歸模型也是一種預(yù)測建模技術(shù)。在Excel中就可以使用線性回歸?;貧w模型也很復(fù)雜,這里談到最佳擬合曲線。輸入變量和目標(biāo)變量必須都是數(shù)值變量,回歸方程描述了兩者之間的一種算術(shù)關(guān)系?!白罴训摹标P(guān)系是指最大限度地減少了從數(shù)據(jù)點到擬合曲線的垂直距離的平方和。5.1最佳擬合曲線如下圖,顯示了一個知名博主發(fā)表的一篇文章日瀏覽率隨著時間和被關(guān)注度之間的關(guān)系。圖中使用描點的符號是空心圓,它有助于清楚的顯示各點之間的聚集情況。例如,在較短時

23、間內(nèi)用戶的關(guān)注度分布非常密集。當(dāng)使用不同的顏色比較不同的客戶組時,這種散點圖尤其有用。隨著時間的增加,博客的日訪問量會越來越低,最后維持到一個水平。畫出來的曲線更像是一個雙曲線。根據(jù)X軸,時間的遞增。Y軸,日訪問量的增加。我們可以模擬出這個博主的訪問量隨時間變化的曲線。如果在保證博客質(zhì)量的同時,我們就可以預(yù)測博主的一篇博客的訪問量大致在什么范圍??赡苓@里有很多的誤差或不精確的地方。但是通過擬合曲線,我們更能從直觀上看到,曲線的走勢。如果曲線更精確的化,我們甚至可以模擬出曲線的函數(shù)表達(dá)式。如果用作數(shù)據(jù)點的標(biāo)記并沒有完全擬合,散點圖可以傳遞出更多的信息。最佳擬合曲線的性質(zhì):在所有可能的曲線中,最佳

24、擬合曲線指的是從觀察點到曲線垂直距離的平方最下的那條曲線,散點圖顯示了每個點到曲線之間的距離。最佳擬合曲線的定義就是最小二乘法的定義。歐式距離公式對該值進(jìn)行了開方,在沒有計算機的年代,計算歐式距離非常困難。當(dāng)時,高斯提出這一觀點,就是利用計算平方和,代替計算距離之和。這樣做的目的,就使最佳擬合曲線系數(shù)很容易計算。這里談到的是線性回歸,其實回歸模型是一個直線方程,這里只是來描述一個擬合曲線,其實算不上一個回歸曲線。在現(xiàn)實之中,更多線性回歸的模型很少見,更多的是曲線擬合。5.2擬合的優(yōu)點對于一個給定的數(shù)據(jù)集,總是可以找到一條最佳的擬合曲線。但是,存在很多條曲線,哪條才是最佳的。這里引入“殘差”,就

25、是度量預(yù)測值與實際值之差。還有一個標(biāo)準(zhǔn)方法,成為,用來衡量描述曲線對觀測數(shù)據(jù)的擬合程度。(1)殘差如圖,身高與體重模型的殘差。一個無偏模型在丟失高值點方面應(yīng)與丟失低值點類似。在殘差圖中,最重要的一點就是,這些值是位于擬合曲線之上的可能性與之下的可能性是否一樣。從圖中我們也可以看到在曲線上與在曲線下的樣本點是不一樣的。一個良好的模型所產(chǎn)生的估計值應(yīng)該接近真實值,所以殘差應(yīng)該集中于曲線軸附近。如圖中也是可以看到拋離曲線的一些孤立點。這些點出現(xiàn)的原因,可能是由于一些人為記錄的原因造成的。在統(tǒng)計學(xué)中,殘差在回歸方程中要考慮誤差項。最佳擬合曲線的方程是:Y=aX+b但該曲線,不是完整的模型。統(tǒng)計人員會將

26、模型方程表示為:代表誤差項,因為X并不能完美的展示Y。誤差項表示模型無法解釋的Y的部分。Y=aX +b+(2)R(R這里代表是R的平方)對于最佳擬合曲線,R的取值始終在01之間。當(dāng)該值接近1時,說明該曲線在捕獲輸入和目標(biāo)之間的關(guān)系方面表現(xiàn)很好。若接近于0,則說明最佳擬合曲線的表現(xiàn)很差。在01的范圍內(nèi),值越大表明兩者之間存在很強的關(guān)系,越下其關(guān)系越下。相比于隨機猜測的平均值,模型的估計值有多好。定義簡單,但計算起來復(fù)雜。R要比較最佳擬合曲線與y平均值的水平線。1減去兩個誤差的比值可以計算出R。分子式最佳擬合曲線殘差的平方和。分母是水平線的殘差平方和。R度量了最佳擬合曲線優(yōu)于均值作為估計的程度。R

27、度量了數(shù)據(jù)的穩(wěn)定性。同一數(shù)據(jù)集中不同的樣本是否會生成相似的模型。當(dāng)R值較低時,不同的樣本可能會表現(xiàn)出非常不同的行為?;蛘?,在此基礎(chǔ)上,再加入少量觀察值可能會極大地改變模型的系數(shù)。當(dāng)R值較高時,再加入少量觀察值就不會有上述的改變。5.3全局效應(yīng)回歸方程能發(fā)現(xiàn)數(shù)據(jù)中的全局模式。即,方程系數(shù)應(yīng)該對范圍內(nèi)的所有輸入變量都起作用。這表明回歸模型善于捕獲那些總是正確的模式,不是產(chǎn)于處理局部模式。例如,考慮不同年齡的汽車保險購買人的風(fēng)險。年輕司機的風(fēng)險較高。隨著駕駛?cè)藛T經(jīng)驗的不斷增加,風(fēng)險會逐步降低。而對年齡很大的駕駛者,風(fēng)險又會增加。因為年齡很難作為回歸方程的輸入。因為沒有全局模式,對于不同的年齡組,年齡

28、的影響變化又會不同。在很多程度上,這個需要根據(jù)建模人員的熟悉程度,可以使用那些在不同取值范圍的變量作為輸入?yún)?shù)。但是,回歸方程本身不會發(fā)現(xiàn)局部模式。6、多元回歸引入線性回歸的那個例子使用了單一的輸入持續(xù)期來解釋日訪問量隨時間的變化。當(dāng)一個回歸模型有多個輸入時,就稱其為多元回歸。6.1、等式線性回歸模型的一般形式(沒有誤差項)是:Y=a+a1x1+a2x2+a3x3+.+anxn。這個方程通過添加更多變量,并為每個變量選定系數(shù),對最佳曲線方程進(jìn)行了擴(kuò)展。盡管通過引入更多維度,可以將線性回歸的幾何解釋擴(kuò)展到多元回歸曲線變?yōu)槠矫嬖僮兊匠矫???紤]到每個字變量對因變量估計值的貢獻(xiàn)會更容易些,即可以由系

29、數(shù)決定自變量貢獻(xiàn)的大小和方向。6.2、目標(biāo)變量的范圍一個回歸方程可以產(chǎn)生任何值。如果對X沒有限制,那么Y也是沒有限制的。對 Y=aX+b 就可以說明這一點,該方程是一條簡單的直線,取值隨之X的取值而邊變化,從負(fù)無窮到正無窮。但實際情況非如此。許多目標(biāo)變量的范圍并不是無窮的,甚至不是連續(xù)的。對于這些情況,統(tǒng)計學(xué)家引入了一個鏈接函數(shù)將回歸方程產(chǎn)生的Y值映射到目標(biāo)變量的一個適合的范圍。當(dāng)目標(biāo)遵循某一已知的分布時,就可以選擇一個鏈接函數(shù),它產(chǎn)生的值與目標(biāo)的平均值相同,同時也會產(chǎn)生一個類似的分布。即使不知道確切的分布,也可以引入鏈接函數(shù)將估計映射到目標(biāo)的一個適當(dāng)?shù)姆秶?。后面我們會介紹邏輯回歸分析,那里使

30、用一個鏈接函數(shù)將線性回歸的無窮范圍映射到01的區(qū)間,該區(qū)間等價于概率估計。6.3、使用多元回歸的其他注意事項回歸模型中有多個輸入變量時,會產(chǎn)生一些在單一輸入中不存在的問題。理想情況下,所有輸入之間應(yīng)該線性無關(guān)。被模型顯示地包含的輸入之間可能存在相互。添加一個新輸入將會改變所有原輸入的系值取值。(1)線性無關(guān)與樸素貝葉斯類似,多元模型的輸入之間應(yīng)該線性無關(guān)。這一位置改變其中一個輸入值應(yīng)該對其他輸入值沒有影響。實際情況很難實現(xiàn)真正獨立性。一般情況,注意不要包含彼此密切相關(guān)的自變量就可以。如果包含這些變量,往往會導(dǎo)致模型的一個輸入變量有較大的正系數(shù)而另一個輸入變量有較大的負(fù)系數(shù)。兩個變量本質(zhì)上相互抵

31、消,因此這兩個系數(shù)的取值并不會對任何變量有真正意義上的影響。(2)交互即使兩個變量是完全獨立的,它們對目標(biāo)的影響也可能是相關(guān)的。一個冰淇淋的吸引力可能依賴于價格和天氣尤其是某天的炎熱程度。這些變量可以認(rèn)為是獨立的(當(dāng)然,冰淇淋的價格并不取決于溫度,溫度可能會影響冰淇淋的價格,但是這里假設(shè)不會)。盡管這些變量相互獨立,價格對目標(biāo)的影響扔可能受溫度的影響。當(dāng)天氣炎熱的時候,人民不是在意冰淇淋的價額都會購買。當(dāng)天氣寒冷的時候,只有真正物美價廉才可能會吸引人民購買。類似的,價格的變化對住戶率的影響可能會隨著距離市中心的遠(yuǎn)近不同而不同。這就是交互的例子。當(dāng)認(rèn)為交互很重要時,一般情況下,可以通過添加新變量

32、引入這些交互,而這些新變量是標(biāo)準(zhǔn)化交互中涉及變量值的產(chǎn)物。(3)添加變量可以改變模型中的原有變量的取值一種很自然的模型開發(fā)方法從一個僅有一個輸入的簡單模型開始,然后通過增加變量逐步提高其復(fù)雜性。如果所有輸入變量都是完全獨立的,那么添加或刪除其中一個變量不會更改模型中的其他變量的系數(shù)。但是輸入變量幾乎不可能完全獨立,所有包含另一個變量會改變系數(shù)的大小,甚至可能改變模型中其他原有變量系數(shù)的正負(fù)值。6.4、多元回歸的變量選擇多元回歸模型在有大量輸入時,它的表現(xiàn)并不理想。選擇正確的輸入變量對任何建模而言都是最重要的部分。這里談到“領(lǐng)域知識”,就是首先要考慮的是對該問題所知道的一些先驗知識以及以往人民解

33、決此類問題的額方法。有的時候領(lǐng)域知識對一時模型的預(yù)測可以提供一個很好的指標(biāo)指向。當(dāng)使用領(lǐng)域知識和常識創(chuàng)建了一張候選變量列表后,用于創(chuàng)建回歸模型的軟件通常可以幫助使用者選擇出模型所需的最好變量。使用的方法:(1)前向選擇前向現(xiàn)在開始使用一組輸入變量,其中一些變量或全部變量都可以出現(xiàn)在最終模型里。第一步是為每一個輸入變量創(chuàng)建一個單獨的回歸模型;如果有n個輸入變量,那么第一步會考慮具有一個輸入變量的n個不同的回歸模型。選擇測試得分最高的模型所對應(yīng)的變量作為前向選擇模型中的第一個變量。選擇最佳模型的一種方法是選擇R值最低的模型。另一種方法是使用統(tǒng)計檢驗中F-檢驗的方法。最好的模型是在驗證集上的誤差最小

34、的模型。這看上去更像是數(shù)據(jù)挖掘,因為它使用了驗證集,并沒有對輸入或目標(biāo)值做出任何假設(shè)。選定了第一個變量后,這以過程會在此重復(fù)進(jìn)行。第二次通過將每個剩余變量與第一步已選定的變量組合以創(chuàng)建包含有兩個輸入變量的n-1個回歸模型。這些模型中最好的模型將會是下一次迭代的基礎(chǔ),下次迭代會測試帶有三個變量的多元回歸模型。持續(xù)這一過程直到滿足某些停止條件為止。終止條件可以是到達(dá)最大的選擇變量個數(shù),或者繼續(xù)增加變量不能在繼續(xù)提高模型的某個閾值。(2)逐步選擇逐步選擇與前向選擇非常類似,只有一點不同。在每個步驟中除了增加一個變量外,還可以刪除一個變量,較早進(jìn)入模型的一個變量可能由于后續(xù)變量的聯(lián)合作用而不再是有效變

35、量。(3)后向消去后向消去選擇變量的方法首先使用所有的n個輸入變量創(chuàng)建了一個多元回歸模型。使用統(tǒng)計檢驗,消去較糟糕的變量,然后重置該模型。持續(xù)該過程直到滿足某些停止條件,比如到達(dá)理想變量的最小數(shù)目。7、邏輯回歸分析線性回歸模型有一種特殊的形式。該形式對任意數(shù)量的輸入變量都可用,但當(dāng)只有一個輸入變量時,效果最明顯?;貧w公式是一條直線方程。直線的一個屬性是它可以向兩端無限延伸。除與X軸平行的直線外,回歸模型沒有最大值和最小值。這些屬性使得線性回歸模型適用于估計那些取值范圍可能很廣的連續(xù)變量。相同的屬性使得線性回歸模型適用于建模無界的、連續(xù)的目標(biāo),而不適于建模二元結(jié)果,比如是否或好壞。因為二元問題是

36、極其常見的,這就邏輯回歸分析模型。7.1建模二元輸出建模二元輸出似乎不像是一個評估任務(wù)。有兩個類別的,任務(wù)是將每條記錄分配到其中的一個類。這就是一個分類任務(wù)。然而,該任務(wù)可以重述為“某個記錄屬于其中一個類的概率是多少?”,因為概率是數(shù)字,這個問題就轉(zhuǎn)化為一項評估任務(wù)。(1)使用線性回歸評估概率在談到基于客戶的持續(xù)期估計訂閱在報紙上的支付額度模型上。呼叫中心通過與用戶取得聯(lián)系,其中一些客戶同意簽訂訂閱協(xié)議。簽訂合約不久后他們便開始接收報紙,隨后他們要支付一筆賬單。一些新用戶不會抽時間來支付這第一張訂單,從而消減了報紙的收入。一段時間后,沒有支付訂單的客戶被停止收到報紙,其中一些支付賬單的新客戶并

37、有可能在很長時間后成為良好的客戶。不過在前面幾個星期,客戶不愿意付款的可能性非常大。目標(biāo)值為0可以表示為從未付款的客戶,為1的表示付過款的客戶,所有這里會存在一條最佳擬合曲線。但不能保證這是一個好的模型。因為在超過一定天后,這一概率軌跡值大于1,而且這一估計值會隨著持續(xù)期的增加而無限的增加。這就是直線的性質(zhì):顯然存在弊端,沒有最大值或最小值。(2)將回歸直線彎成曲線顯然,直線不是一個估計概率的合適形狀。邏輯回歸分析通過將回歸直線彎成一個更合適的形狀來解決這一問題。我們要獲得一個取值范圍在01之間的函數(shù)。這就是邏輯函數(shù)。7.2、邏輯函數(shù)樸素貝葉斯模型是乘以一串似然來估計幾率,然后將其轉(zhuǎn)換成概率。把線性回歸轉(zhuǎn)換成邏輯回歸也使用了這類技巧。第一步:通過P與1-P之間將概率P轉(zhuǎn)換為幾率。幾率和概率表示

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論