數(shù)據(jù)挖掘與機器學(xué)習(xí)(非參數(shù)統(tǒng)計)課件_第1頁
數(shù)據(jù)挖掘與機器學(xué)習(xí)(非參數(shù)統(tǒng)計)課件_第2頁
數(shù)據(jù)挖掘與機器學(xué)習(xí)(非參數(shù)統(tǒng)計)課件_第3頁
數(shù)據(jù)挖掘與機器學(xué)習(xí)(非參數(shù)統(tǒng)計)課件_第4頁
數(shù)據(jù)挖掘與機器學(xué)習(xí)(非參數(shù)統(tǒng)計)課件_第5頁
已閱讀5頁,還剩123頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第10章

數(shù)據(jù)挖掘與機器學(xué)習(xí)1

第10章

數(shù)據(jù)挖掘與機器學(xué)習(xí)1概念:數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中,抽取出潛在的、有價值的知識(模型或規(guī)則)的過程2概念:數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中,抽取出潛在的、有價值的知識(工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘--從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),是統(tǒng)計學(xué)、數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的綜合。數(shù)據(jù)挖掘是從數(shù)據(jù)中自動地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu);數(shù)據(jù)挖掘大部分的價值在于利用數(shù)據(jù)挖掘技術(shù)改善預(yù)測模型。工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘--從大量數(shù)據(jù)中尋找其工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘的社會需求國民經(jīng)濟和社會的信息化社會信息化后,社會的運轉(zhuǎn)是軟件的運轉(zhuǎn)社會信息化后,社會的歷史是數(shù)據(jù)的歷史工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘的社會需求國民經(jīng)濟和社會的信息化社工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘的社會需求數(shù)據(jù)挖掘數(shù)據(jù)庫越來越大有價值的知識可怕的數(shù)據(jù)工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘的社會需求數(shù)據(jù)挖掘數(shù)據(jù)庫越來越大有工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘的社會需求數(shù)據(jù)爆炸,知識貧乏

苦惱:淹沒在數(shù)據(jù)中;不能制定合適的決策!數(shù)據(jù)知識決策模式趨勢事實關(guān)系模型關(guān)聯(lián)規(guī)則序列目標(biāo)市場資金分配貿(mào)易選擇在哪兒做廣告銷售的地理位置金融經(jīng)濟政府POS.人口統(tǒng)計生命周期工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘的社會需求數(shù)據(jù)爆炸,知識貧乏苦惱數(shù)據(jù)挖掘功能

數(shù)據(jù)挖掘任務(wù)有兩類:第一類是描述性挖掘任務(wù):刻劃數(shù)據(jù)庫中數(shù)據(jù)的一般特性;第二類是預(yù)測性挖掘任務(wù):在當(dāng)前數(shù)據(jù)上進行推斷,以進行預(yù)測。數(shù)據(jù)挖掘功能 數(shù)據(jù)挖掘任務(wù)有兩類:工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘技術(shù)技術(shù)分類預(yù)言(Predication):用歷史預(yù)測未來描述(Description):了解數(shù)據(jù)中潛在的規(guī)律數(shù)據(jù)挖掘技術(shù)關(guān)聯(lián)分析序列模式分類(預(yù)言)聚集異常檢測工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘技術(shù)技術(shù)分類工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘系統(tǒng)的特征數(shù)據(jù)的特征知識的特征算法的特征礦山(數(shù)據(jù))挖掘工具(算法)金子(知識)工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘系統(tǒng)的特征數(shù)據(jù)的特征礦山(數(shù)據(jù))挖工業(yè)控制技術(shù)研究所數(shù)據(jù)的特征大容量POS數(shù)據(jù)(某個超市每天要處理高達2000萬筆交易)衛(wèi)星圖象(NASA的地球觀測衛(wèi)星以每小時50GB的速度發(fā)回數(shù)據(jù))互聯(lián)網(wǎng)數(shù)據(jù)含噪音(不完全、不正確)異質(zhì)數(shù)據(jù)(多種數(shù)據(jù)類型混合的數(shù)據(jù)源,來自互聯(lián)網(wǎng)的數(shù)據(jù)是典型的例子)工業(yè)控制技術(shù)研究所數(shù)據(jù)的特征大容量工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘算法的特征構(gòu)成數(shù)據(jù)挖掘算法的三要素模式記述語言:反映了算法可以發(fā)現(xiàn)什么樣的知識模式評價:反映了什么樣的模式可以稱為知識模式探索:包括針對某一特定模式對參數(shù)空間的探索和對模式空間的探索工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘算法的特征構(gòu)成數(shù)據(jù)挖掘算法的三要素工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘的主要方法分類(Classification)聚類(Clustering)相關(guān)規(guī)則(AssociationRule)回歸(Regression)其他工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘的主要方法分類(Classific工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘系統(tǒng)代特征數(shù)據(jù)挖掘算法集成分布計算模型數(shù)據(jù)模型第一代數(shù)據(jù)挖掘作為一個獨立的應(yīng)用支持一個或者多個算法獨立的系統(tǒng)單個機器向量數(shù)據(jù)第二代和數(shù)據(jù)庫以及數(shù)據(jù)倉庫集成多個算法:能夠挖掘一次不能放進內(nèi)存的數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫和數(shù)據(jù)倉庫同質(zhì)/局部區(qū)域的計算機群集有些系統(tǒng)支持對象、文本、和連續(xù)的媒體數(shù)據(jù)第三代和預(yù)言模型系統(tǒng)集成多個算法數(shù)據(jù)管理和預(yù)言模型系統(tǒng)intranet/extranet網(wǎng)絡(luò)計算支持半結(jié)構(gòu)化數(shù)據(jù)和web數(shù)據(jù)第四代和移動數(shù)據(jù)/各種計算數(shù)據(jù)聯(lián)合多個算法數(shù)據(jù)管理、預(yù)言模型、移動系統(tǒng)移動和各種計算設(shè)備普遍存在的計算模型工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘系統(tǒng)代特征數(shù)據(jù)挖掘算法集成分布計算工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘系統(tǒng)第一代數(shù)據(jù)挖掘系統(tǒng)

支持一個或少數(shù)幾個數(shù)據(jù)挖掘算法,這些算法設(shè)計用來挖掘向量數(shù)據(jù)(vector-valueddata),這些數(shù)據(jù)模型在挖掘時候,一般一次性調(diào)進內(nèi)存進行處理。許多這樣的系統(tǒng)已經(jīng)商業(yè)化。第二代數(shù)據(jù)挖掘系統(tǒng)

目前的研究,是改善第一代數(shù)據(jù)挖掘系統(tǒng),開發(fā)第二代數(shù)據(jù)挖掘系統(tǒng)。第二代數(shù)據(jù)挖掘系統(tǒng)支持數(shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具有高的可擴展性。例如,第二代系統(tǒng)能夠挖掘大數(shù)據(jù)集、更復(fù)雜的數(shù)據(jù)集、以及高維數(shù)據(jù)。這一代系統(tǒng)通過支持數(shù)據(jù)挖掘模式(dataminingschema)和數(shù)據(jù)挖掘查詢語言(DMQL)增加系統(tǒng)的靈活性。

工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘系統(tǒng)第一代數(shù)據(jù)挖掘系統(tǒng)工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘系統(tǒng)第三代數(shù)據(jù)挖掘系統(tǒng)

第三代的特征是能夠挖掘Internet/Extranet的分布式和高度異質(zhì)的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成。這一代數(shù)據(jù)挖掘系統(tǒng)關(guān)鍵的技術(shù)之一是提供對建立在異質(zhì)系統(tǒng)上的多個預(yù)言模型以及管理這些預(yù)言模型的元數(shù)據(jù)提供第一級別(firstclass)的支持。

第四代數(shù)據(jù)挖掘系統(tǒng)

第四代數(shù)據(jù)挖掘系統(tǒng)能夠挖掘嵌入式系統(tǒng)、移動系統(tǒng)、和普遍存在(ubiquitous)計算設(shè)備產(chǎn)生的各種類型的數(shù)據(jù)。工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘系統(tǒng)第三代數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)挖掘的功能/算法/應(yīng)用的比較數(shù)據(jù)挖掘的功能/算法/應(yīng)用的比較數(shù)據(jù)挖掘常用方法的綜合比較*數(shù)據(jù)挖掘常用方法的綜合比較*數(shù)據(jù)挖掘的具體應(yīng)用市場--購物藍分析客戶關(guān)系管理尋找潛在客戶提高客戶終生價值保持客戶忠誠度行銷活動規(guī)劃預(yù)測金融市場方向保險欺詐偵察客戶信用風(fēng)險評級電話盜打NBA球員強弱分析信用卡可能呆帳預(yù)警星際星體分類數(shù)據(jù)挖掘的具體應(yīng)用市場--購物藍分析保險欺詐偵察數(shù)據(jù)挖掘的步驟*一種步驟劃分方式理解資料與進行的工作獲取相關(guān)知識與技術(shù)(Acquisition)整合與查核資料(Integrationandchecking)去除錯誤、不一致的資料(Datacleaning)模式與假設(shè)的演化(Modelandhypothesisdevelopment)實際數(shù)據(jù)挖掘工作測試與核查所分析的資料(Testingandverification)解釋與運用(Interpretationanduse)數(shù)據(jù)挖掘的步驟*一種步驟劃分方式工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第一代數(shù)據(jù)挖掘軟件

CBA

新加坡國立大學(xué)?;陉P(guān)聯(lián)規(guī)則的分類算法,能從關(guān)系數(shù)據(jù)或者交易數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則,使用關(guān)聯(lián)規(guī)則進行分類和預(yù)測工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第一代數(shù)據(jù)挖掘軟件工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件特點與數(shù)據(jù)庫管理系統(tǒng)(DBMS)集成

支持數(shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具有高的可擴展性

能夠挖掘大數(shù)據(jù)集、以及更復(fù)雜的數(shù)據(jù)集

通過支持數(shù)據(jù)挖掘模式(dataminingschema)和數(shù)據(jù)挖掘查詢語言增加系統(tǒng)的靈活性

典型的系統(tǒng)如DBMiner,能通過DMQL挖掘語言進行挖掘操作缺陷只注重模型的生成,如何和預(yù)言模型系統(tǒng)集成導(dǎo)致了第三代數(shù)據(jù)挖掘系統(tǒng)的開發(fā)工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件特點工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件DBMiner工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第二代軟件SASEnterpriseMiner工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第二代軟件SASE工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第三代數(shù)據(jù)挖掘軟件特點和預(yù)言模型系統(tǒng)之間能夠無縫的集成,使得由數(shù)據(jù)挖掘軟件產(chǎn)生的模型的變化能夠及時反映到預(yù)言模型系統(tǒng)中

由數(shù)據(jù)挖掘軟件產(chǎn)生的預(yù)言模型能夠自動地被操作型系統(tǒng)吸收,從而與操作型系統(tǒng)中的預(yù)言模型相聯(lián)合提供決策支持的功能

能夠挖掘網(wǎng)絡(luò)環(huán)境下(Internet/Extranet)的分布式和高度異質(zhì)的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成

缺陷不能支持移動環(huán)境工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第三代數(shù)據(jù)挖掘軟件特點工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第三代軟件SPSSClementine以PMML的格式提供與預(yù)言模型系統(tǒng)的接口工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第三代軟件SPSS工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第四代數(shù)據(jù)挖掘軟件特點目前移動計算越發(fā)顯得重要,將數(shù)據(jù)挖掘和移動計算相結(jié)合是當(dāng)前的一個研究領(lǐng)域。

第四代軟件能夠挖掘嵌入式系統(tǒng)、移動系統(tǒng)、和普遍存在(ubiquitous)計算設(shè)備產(chǎn)生的各種類型的數(shù)據(jù)第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報導(dǎo),PKDD2001上Kargupta發(fā)表了一篇在移動環(huán)境下挖掘決策樹的論文,Kargupta是馬里蘭巴爾的摩州立大學(xué)(UniversityofMarylandBaltimoreCounty)正在研制的CAREER數(shù)據(jù)挖掘項目的負責(zé)人,該項目研究期限是2001年4月到2006年4月,目的是開發(fā)挖掘分布式和異質(zhì)數(shù)據(jù)(Ubiquitous設(shè)備)的第四代數(shù)據(jù)挖掘系統(tǒng)。

工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第四代數(shù)據(jù)挖掘軟件特點工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第一代系統(tǒng)與第二代相比因為不具有和數(shù)據(jù)管理系統(tǒng)之間有效的接口,所以在數(shù)據(jù)預(yù)處理方面有一定缺陷

第三、四代系統(tǒng)強調(diào)預(yù)測模型的使用和操作型環(huán)境的部署

第二代系統(tǒng)提供數(shù)據(jù)管理系統(tǒng)和數(shù)據(jù)挖掘系統(tǒng)之間的有效接口

第三代系統(tǒng)另外還提供數(shù)據(jù)挖掘系統(tǒng)和預(yù)言模型系統(tǒng)之間的有效的接口

目前,隨著新的挖掘算法的研究和開發(fā),第一代數(shù)據(jù)挖掘系統(tǒng)仍然會出現(xiàn),第二代系統(tǒng)是商業(yè)軟件的主流,部分第二代系統(tǒng)開發(fā)商開始研制相應(yīng)的第三代數(shù)據(jù)挖掘系統(tǒng),比如IBMIntelligentScoreService。第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報導(dǎo)

工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第一代系統(tǒng)與第二代相比因工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展數(shù)據(jù)挖掘軟件發(fā)展的三個階段獨立的數(shù)據(jù)挖掘軟件橫向的數(shù)據(jù)挖掘工具集縱向的數(shù)據(jù)挖掘解決方案工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展數(shù)據(jù)挖掘軟件發(fā)展的三個階工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的現(xiàn)狀國內(nèi)大部分處于科研階段各大學(xué)和科研機構(gòu)從事數(shù)據(jù)挖掘算法的研究國內(nèi)著作的數(shù)據(jù)挖掘方面的書較少(翻譯的有)數(shù)據(jù)挖掘討論組()有一些公司在國外產(chǎn)品基礎(chǔ)上開發(fā)的特定的應(yīng)用IBMIntelligentMinerSASEnterpriseMiner自主知識產(chǎn)權(quán)的數(shù)據(jù)挖掘軟件復(fù)旦德門()等工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的現(xiàn)狀國內(nèi)大部分處于科研階段工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘應(yīng)用Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40KQQQQII123456factor1factor2factorn神經(jīng)網(wǎng)絡(luò)NeuralNetworks聚類分析ClusteringOpenAccn’tAddNewProductDecreaseUsage???Time序列分析SequenceAnalysis決策樹DecisionTrees

傾向性分析

客戶保留客戶生命周期管理目標(biāo)市場價格彈性分析

客戶細分市場細分

傾向性分析客戶保留目標(biāo)市場欺詐檢測關(guān)聯(lián)分析Association

市場組合分析套裝產(chǎn)品分析目錄設(shè)計交叉銷售工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘應(yīng)用Debt<10%ofInc10.1分類一般問題定義:給定,為離散值,表示每個樣例的分類,目標(biāo)是找到一個函數(shù),對于新觀測點,能夠用預(yù)測分類。10.1分類一般問題定義:工業(yè)控制技術(shù)研究所分類VS.預(yù)測分類:(與回歸相比較)預(yù)測分類標(biāo)號(或離散值)(特點)根據(jù)訓(xùn)練數(shù)據(jù)集和類標(biāo)號屬性,構(gòu)建模型來分類現(xiàn)有數(shù)據(jù),并用來分類新數(shù)據(jù)預(yù)測:建立連續(xù)函數(shù)值模型,比如預(yù)測空缺值典型應(yīng)用信譽證實目標(biāo)市場醫(yī)療診斷性能預(yù)測工業(yè)控制技術(shù)研究所分類VS.預(yù)測分類:(與回歸相比較)工業(yè)控制技術(shù)研究所數(shù)據(jù)分類:兩步過程第一步,建立一個模型,描述預(yù)定數(shù)據(jù)類集和概念集假定每個元組屬于一個預(yù)定義的類,由一個類標(biāo)號屬性確定基本概念訓(xùn)練數(shù)據(jù)集:由為建立模型而被分析的數(shù)據(jù)元組形成訓(xùn)練樣本:訓(xùn)練數(shù)據(jù)集中的單個樣本(元組)學(xué)習(xí)模型可以用分類規(guī)則、判定樹或數(shù)學(xué)公式的形式提供第二步,使用模型,對將來的或未知的對象進行分類首先評估模型的預(yù)測準確率對每個測試樣本,將已知的類標(biāo)號和該樣本的學(xué)習(xí)模型類預(yù)測比較模型在給定測試集上的準確率是正確被模型分類的測試樣本的百分比測試集要獨立于訓(xùn)練樣本集,否則會出現(xiàn)“過分適應(yīng)數(shù)據(jù)”的情況工業(yè)控制技術(shù)研究所數(shù)據(jù)分類:兩步過程第一步,建立一個模型,描工業(yè)控制技術(shù)研究所第一步:建立模型訓(xùn)練數(shù)據(jù)集分類算法IFrank=‘professor’ORyears>6THENtenured=‘yes’分類規(guī)則工業(yè)控制技術(shù)研究所第一步:建立模型訓(xùn)練數(shù)分類算法IFran工業(yè)控制技術(shù)研究所第二步:用模型進行分類分類規(guī)則測試集未知數(shù)據(jù)(Jeff,Professor,4)Tenured?工業(yè)控制技術(shù)研究所第二步:用模型進行分類分類規(guī)則測試集未知數(shù)損失函數(shù)損失函數(shù)評價法損失函數(shù)為,擬合函數(shù)的預(yù)測風(fēng)險定義為

估計方法為

,由于數(shù)據(jù)聯(lián)合分布未知,無法用E

計算。故用風(fēng)險的矩

估計經(jīng)驗風(fēng)險(代替預(yù)測風(fēng)險)

36損失函數(shù)損失函數(shù)評價法36估計方法為

,如果,期望風(fēng)險經(jīng)驗風(fēng)險,當(dāng)不滿足,37估計方法為根據(jù)VladimirN.Vapnik(1995)估算:在時,38根據(jù)VladimirN.Vapnik(1995)估算:3以上給出了期望風(fēng)險與經(jīng)驗風(fēng)險之間的關(guān)系。結(jié)構(gòu)風(fēng)險最小化定義統(tǒng)計學(xué)習(xí)理論提出了一種新的策略,即把函數(shù)集構(gòu)造為一個函數(shù)子集序列,使各個子集按照VC維的大小排列;在每個子集中尋找最小經(jīng)驗風(fēng)險,在子集間折衷考慮經(jīng)驗風(fēng)險和置信范圍,取得實際風(fēng)險的最小。這種思想稱作結(jié)構(gòu)風(fēng)險最小化(StructuralRiskMinimization),即SRM準則。39以上給出了期望風(fēng)險與經(jīng)驗風(fēng)險之間的關(guān)系。39vc維VC維(Vapnik-ChervonenkisDimension)的概念是為了研究學(xué)習(xí)過程一致收斂的速度和推廣性,由統(tǒng)計學(xué)習(xí)理論定義的有關(guān)函數(shù)集學(xué)習(xí)性能的一個重要指標(biāo)。40vc維40結(jié)構(gòu)風(fēng)險最小化(SRM)的

基本思想所謂的結(jié)構(gòu)風(fēng)險最小化就是在保證分類精度(經(jīng)驗風(fēng)險)的同時,降低學(xué)習(xí)機器的VC維,可以使學(xué)習(xí)機器在整個樣本集上的期望風(fēng)險得到控制。傳統(tǒng)機器學(xué)習(xí)方法中普遍采用的經(jīng)驗風(fēng)險最小化原則在樣本數(shù)目有限時是不合理的,因此,需要同時最小化經(jīng)驗風(fēng)險和置信范圍。機器學(xué)習(xí)過程不但要使經(jīng)驗風(fēng)險最小,還要使VC維盡量小以縮小置信范圍,才能取得較小的實際風(fēng)險,即對未來樣本有較好的推廣性。41結(jié)構(gòu)風(fēng)險最小化(SRM)的

基本思想所謂的結(jié)構(gòu)風(fēng)險最小化就是在有限訓(xùn)練樣本下,學(xué)習(xí)機器的VC維越高則置信范圍越大,真實風(fēng)險與經(jīng)驗風(fēng)險之間可能的差別越大.這就是為什么會出現(xiàn)過學(xué)習(xí)現(xiàn)象的原因。實現(xiàn)SRM的思路之一就是設(shè)計函數(shù)集的某種結(jié)構(gòu)使每個子集中都能取得最小的經(jīng)驗風(fēng)險(如使訓(xùn)練誤差為0),然后只需選擇適當(dāng)?shù)淖蛹怪眯欧秶钚?,則這個子集中使經(jīng)驗風(fēng)險最小的函數(shù)就是最優(yōu)函數(shù)。SVM方法實際上就是這種思想的具體實現(xiàn)。42在有限訓(xùn)練樣本下,學(xué)習(xí)機器的VC維越高則置信范圍越大,真實風(fēng)10.2Logistic回歸普通回歸是對連續(xù)變量依賴關(guān)系建模的過程。然而,分類在現(xiàn)實中經(jīng)常發(fā)生。典型的是兩類問題(0-1)變量。如發(fā)病,與不發(fā)病。4310.2Logistic回歸普通回歸是對連續(xù)變量依賴關(guān)系建44(一)基本概念和原理

1.應(yīng)用背景

Logistic回歸模型是一種概率模型,適合于病例—對照研究、隨訪研究和橫斷面研究,且結(jié)果發(fā)生的變量取值必須是二分的或多項分類??捎糜绊懡Y(jié)果變量發(fā)生的因素為自變量與因變量,建立回歸方程。44(一)基本概念和原理

1.應(yīng)用背景

45

設(shè)資料中有一個因變量y、p個自變量x1,x2,…,xp,對每個實驗對象共有n次觀測結(jié)果,可將原始資料列成表2形式。2、Logistic回歸模型的數(shù)據(jù)結(jié)構(gòu)452、Logistic回歸模型的數(shù)據(jù)結(jié)構(gòu)46

表2Logistic回歸模型的數(shù)據(jù)結(jié)構(gòu)實驗對象y

X1X2X3

….XP

1y1a11a12a13

…a1p

2y2a21a22a23

…a2p

3y3a31a32a33

…a3p

nynan1an2an3

…anp

━━━━━━━━━━━━━━━━━━其中:y取值是二值或多項分類46表2Logistic回歸模型的數(shù)據(jù)結(jié)構(gòu)

表3肺癌與危險因素的調(diào)查分析例號是否患病性別吸煙年齡地區(qū)

111030021014613000351………………30000261

注:是否患病中,‘0’代表否,‘1’代表是。性別中‘1’代表男,‘0’代表女,吸煙中‘1’代表吸煙,‘0’代表不吸煙。地區(qū)中,‘1’代表農(nóng)村,‘0’代表城市。

數(shù)據(jù)挖掘與機器學(xué)習(xí)(非參數(shù)統(tǒng)計)課件

表4配對資料(1:1)對子號病例對照

x1x2x3x1x2x3113010120311303012020…10222000注:X1蛋白質(zhì)攝入量,取值:0,1,2,3X2不良飲食習(xí)慣,取值:0,1,2,3X3精神狀況,取值:0,1,2

數(shù)據(jù)挖掘與機器學(xué)習(xí)(非參數(shù)統(tǒng)計)課件49Logistic回歸

--Logistic回歸與多重線性回歸聯(lián)系與區(qū)別聯(lián)系:

用于分析多個自變量與一個因變量的關(guān)系,目的是矯正混雜因素、篩選自變量和更精確地對因變量作預(yù)測等。區(qū)別:

線性模型中因變量為連續(xù)性隨機變量,且要求呈正態(tài)分布.Logistic回歸因變量的取值僅有兩個,不滿足正態(tài)分布。49Logistic回歸

--Logistic回歸與多重線503、Logistic回歸模型

令:y=1發(fā)?。栃浴⑺劳?、治愈等)

y=0未發(fā)病(陰性、生存、未治愈等)將發(fā)病的概率記為P,它與自變量x1,x2,…,xp之間的Logistic回歸模型為:(10.4)P(Y=1|X)=可知,不發(fā)病的概率為:

503、Logistic回歸模型令:y=1

經(jīng)數(shù)學(xué)變換得:定義:為Logistic變換,即:

經(jīng)數(shù)學(xué)變換得:10.2.2

Logistic回歸模型的極大似然估計Logistic回歸模型是通過極大似然估計法得到的,應(yīng)變量

取值為0和1,設(shè)事件發(fā)生記為y=1,否則為0,設(shè)自變量

,n組觀測數(shù)據(jù)記為

,

。記

,則

的Logistic回歸模型是:16十二月2022DataMining:ConceptsandTechniques5210.2.2

Logistic回歸模型的極大似然估計Logi易知,

是均值為

的0-1型分布,其分布律為

,則

的似然函數(shù)和對數(shù)似然函數(shù)分別為:

16十二月2022DataMining:ConceptsandTechniques53易知,是均值為的0-1型分布,其分布律為12十代入

,得記

,選取

的估計

使得

達到極大,這就是Logistic回歸模型的極大似然估,該過程的求解需要采用牛頓(Newton-Raphson)迭代法。

16十二月2022DataMining:ConceptsandTechniques5412十二月2022DataMining:Concep構(gòu)造得分函數(shù)

,共k+1個非線性方程組,令其=0求解

,其中16十二月20225512十二月202255構(gòu)造得分函數(shù)

,共k+1個非線性方程組,令其=0求解

,其中16十二月20225612十二月202256構(gòu)造信息矩陣

,即

二階導(dǎo)矩陣的負矩陣,其中很明顯

,故

是一個對稱矩陣。16十二月202257構(gòu)造信息矩陣構(gòu)造信息矩陣

,即

二階導(dǎo)矩陣的負矩陣,其中很明顯

,故

是一個對稱矩陣。16十二月202258構(gòu)造信息矩陣牛頓(Newton-Raphson)迭代法為16十二月202259牛頓(Newton-Raphson)迭代法為12十二月210.2.3

Logistic回歸和線性判別函數(shù)LDA的比較LDA16十二月20226010.2.3

Logistic回歸和線性判別函數(shù)LDA的牛頓(Newton-Raphson)迭代法16十二月202261牛頓(Newton-Raphson)迭代法12十二月206262用決策樹歸納分類決策樹一個類似于流程圖的數(shù)結(jié)構(gòu)內(nèi)部節(jié)點表示一個屬性上的測試每個分支代表一個測試的輸出葉結(jié)點代表類或類分布決策樹的生成包括兩個過程樹的建構(gòu)首先所有的訓(xùn)練樣本都在根結(jié)點基于所選的屬性循環(huán)的劃分樣本樹剪枝識別和刪除哪些反應(yīng)映噪聲或孤立點的分支決策樹的使用:為一個未知的樣本分類在決策樹上測試樣本的屬性值16十二月2022DataMining:ConceptsandTechniques63用決策樹歸納分類決策樹12十二月2022DataMin16十二月2022DataMining:ConceptsandTechniques64決策樹歸納的算法基本算法以自頂向下遞歸的各個擊破方式構(gòu)造決策樹首先,所有的訓(xùn)練樣本都在根結(jié)點所有屬性都是分類的(如果值是連續(xù)的,它們應(yīng)預(yù)先被離散化)基于所選屬性遞歸的劃分樣本在啟發(fā)式或統(tǒng)計度量的基礎(chǔ)上選擇測試屬性(例如,信息增益)停止劃分的條件給定節(jié)點的所有樣本屬于同一個類沒有剩余屬性可以用來進一步劃分樣本-使用多數(shù)表決來分類葉節(jié)點沒有剩余的樣本12十二月2022DataMining:Concep

第10章

數(shù)據(jù)挖掘與機器學(xué)習(xí)65

第10章

數(shù)據(jù)挖掘與機器學(xué)習(xí)1概念:數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中,抽取出潛在的、有價值的知識(模型或規(guī)則)的過程66概念:數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中,抽取出潛在的、有價值的知識(工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘--從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),是統(tǒng)計學(xué)、數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的綜合。數(shù)據(jù)挖掘是從數(shù)據(jù)中自動地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu);數(shù)據(jù)挖掘大部分的價值在于利用數(shù)據(jù)挖掘技術(shù)改善預(yù)測模型。工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘--從大量數(shù)據(jù)中尋找其工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘的社會需求國民經(jīng)濟和社會的信息化社會信息化后,社會的運轉(zhuǎn)是軟件的運轉(zhuǎn)社會信息化后,社會的歷史是數(shù)據(jù)的歷史工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘的社會需求國民經(jīng)濟和社會的信息化社工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘的社會需求數(shù)據(jù)挖掘數(shù)據(jù)庫越來越大有價值的知識可怕的數(shù)據(jù)工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘的社會需求數(shù)據(jù)挖掘數(shù)據(jù)庫越來越大有工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘的社會需求數(shù)據(jù)爆炸,知識貧乏

苦惱:淹沒在數(shù)據(jù)中;不能制定合適的決策!數(shù)據(jù)知識決策模式趨勢事實關(guān)系模型關(guān)聯(lián)規(guī)則序列目標(biāo)市場資金分配貿(mào)易選擇在哪兒做廣告銷售的地理位置金融經(jīng)濟政府POS.人口統(tǒng)計生命周期工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘的社會需求數(shù)據(jù)爆炸,知識貧乏苦惱數(shù)據(jù)挖掘功能

數(shù)據(jù)挖掘任務(wù)有兩類:第一類是描述性挖掘任務(wù):刻劃數(shù)據(jù)庫中數(shù)據(jù)的一般特性;第二類是預(yù)測性挖掘任務(wù):在當(dāng)前數(shù)據(jù)上進行推斷,以進行預(yù)測。數(shù)據(jù)挖掘功能 數(shù)據(jù)挖掘任務(wù)有兩類:工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘技術(shù)技術(shù)分類預(yù)言(Predication):用歷史預(yù)測未來描述(Description):了解數(shù)據(jù)中潛在的規(guī)律數(shù)據(jù)挖掘技術(shù)關(guān)聯(lián)分析序列模式分類(預(yù)言)聚集異常檢測工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘技術(shù)技術(shù)分類工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘系統(tǒng)的特征數(shù)據(jù)的特征知識的特征算法的特征礦山(數(shù)據(jù))挖掘工具(算法)金子(知識)工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘系統(tǒng)的特征數(shù)據(jù)的特征礦山(數(shù)據(jù))挖工業(yè)控制技術(shù)研究所數(shù)據(jù)的特征大容量POS數(shù)據(jù)(某個超市每天要處理高達2000萬筆交易)衛(wèi)星圖象(NASA的地球觀測衛(wèi)星以每小時50GB的速度發(fā)回數(shù)據(jù))互聯(lián)網(wǎng)數(shù)據(jù)含噪音(不完全、不正確)異質(zhì)數(shù)據(jù)(多種數(shù)據(jù)類型混合的數(shù)據(jù)源,來自互聯(lián)網(wǎng)的數(shù)據(jù)是典型的例子)工業(yè)控制技術(shù)研究所數(shù)據(jù)的特征大容量工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘算法的特征構(gòu)成數(shù)據(jù)挖掘算法的三要素模式記述語言:反映了算法可以發(fā)現(xiàn)什么樣的知識模式評價:反映了什么樣的模式可以稱為知識模式探索:包括針對某一特定模式對參數(shù)空間的探索和對模式空間的探索工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘算法的特征構(gòu)成數(shù)據(jù)挖掘算法的三要素工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘的主要方法分類(Classification)聚類(Clustering)相關(guān)規(guī)則(AssociationRule)回歸(Regression)其他工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘的主要方法分類(Classific工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘系統(tǒng)代特征數(shù)據(jù)挖掘算法集成分布計算模型數(shù)據(jù)模型第一代數(shù)據(jù)挖掘作為一個獨立的應(yīng)用支持一個或者多個算法獨立的系統(tǒng)單個機器向量數(shù)據(jù)第二代和數(shù)據(jù)庫以及數(shù)據(jù)倉庫集成多個算法:能夠挖掘一次不能放進內(nèi)存的數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫和數(shù)據(jù)倉庫同質(zhì)/局部區(qū)域的計算機群集有些系統(tǒng)支持對象、文本、和連續(xù)的媒體數(shù)據(jù)第三代和預(yù)言模型系統(tǒng)集成多個算法數(shù)據(jù)管理和預(yù)言模型系統(tǒng)intranet/extranet網(wǎng)絡(luò)計算支持半結(jié)構(gòu)化數(shù)據(jù)和web數(shù)據(jù)第四代和移動數(shù)據(jù)/各種計算數(shù)據(jù)聯(lián)合多個算法數(shù)據(jù)管理、預(yù)言模型、移動系統(tǒng)移動和各種計算設(shè)備普遍存在的計算模型工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘系統(tǒng)代特征數(shù)據(jù)挖掘算法集成分布計算工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘系統(tǒng)第一代數(shù)據(jù)挖掘系統(tǒng)

支持一個或少數(shù)幾個數(shù)據(jù)挖掘算法,這些算法設(shè)計用來挖掘向量數(shù)據(jù)(vector-valueddata),這些數(shù)據(jù)模型在挖掘時候,一般一次性調(diào)進內(nèi)存進行處理。許多這樣的系統(tǒng)已經(jīng)商業(yè)化。第二代數(shù)據(jù)挖掘系統(tǒng)

目前的研究,是改善第一代數(shù)據(jù)挖掘系統(tǒng),開發(fā)第二代數(shù)據(jù)挖掘系統(tǒng)。第二代數(shù)據(jù)挖掘系統(tǒng)支持數(shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具有高的可擴展性。例如,第二代系統(tǒng)能夠挖掘大數(shù)據(jù)集、更復(fù)雜的數(shù)據(jù)集、以及高維數(shù)據(jù)。這一代系統(tǒng)通過支持數(shù)據(jù)挖掘模式(dataminingschema)和數(shù)據(jù)挖掘查詢語言(DMQL)增加系統(tǒng)的靈活性。

工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘系統(tǒng)第一代數(shù)據(jù)挖掘系統(tǒng)工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘系統(tǒng)第三代數(shù)據(jù)挖掘系統(tǒng)

第三代的特征是能夠挖掘Internet/Extranet的分布式和高度異質(zhì)的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成。這一代數(shù)據(jù)挖掘系統(tǒng)關(guān)鍵的技術(shù)之一是提供對建立在異質(zhì)系統(tǒng)上的多個預(yù)言模型以及管理這些預(yù)言模型的元數(shù)據(jù)提供第一級別(firstclass)的支持。

第四代數(shù)據(jù)挖掘系統(tǒng)

第四代數(shù)據(jù)挖掘系統(tǒng)能夠挖掘嵌入式系統(tǒng)、移動系統(tǒng)、和普遍存在(ubiquitous)計算設(shè)備產(chǎn)生的各種類型的數(shù)據(jù)。工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘系統(tǒng)第三代數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)挖掘的功能/算法/應(yīng)用的比較數(shù)據(jù)挖掘的功能/算法/應(yīng)用的比較數(shù)據(jù)挖掘常用方法的綜合比較*數(shù)據(jù)挖掘常用方法的綜合比較*數(shù)據(jù)挖掘的具體應(yīng)用市場--購物藍分析客戶關(guān)系管理尋找潛在客戶提高客戶終生價值保持客戶忠誠度行銷活動規(guī)劃預(yù)測金融市場方向保險欺詐偵察客戶信用風(fēng)險評級電話盜打NBA球員強弱分析信用卡可能呆帳預(yù)警星際星體分類數(shù)據(jù)挖掘的具體應(yīng)用市場--購物藍分析保險欺詐偵察數(shù)據(jù)挖掘的步驟*一種步驟劃分方式理解資料與進行的工作獲取相關(guān)知識與技術(shù)(Acquisition)整合與查核資料(Integrationandchecking)去除錯誤、不一致的資料(Datacleaning)模式與假設(shè)的演化(Modelandhypothesisdevelopment)實際數(shù)據(jù)挖掘工作測試與核查所分析的資料(Testingandverification)解釋與運用(Interpretationanduse)數(shù)據(jù)挖掘的步驟*一種步驟劃分方式工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第一代數(shù)據(jù)挖掘軟件

CBA

新加坡國立大學(xué)。基于關(guān)聯(lián)規(guī)則的分類算法,能從關(guān)系數(shù)據(jù)或者交易數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則,使用關(guān)聯(lián)規(guī)則進行分類和預(yù)測工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第一代數(shù)據(jù)挖掘軟件工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件特點與數(shù)據(jù)庫管理系統(tǒng)(DBMS)集成

支持數(shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具有高的可擴展性

能夠挖掘大數(shù)據(jù)集、以及更復(fù)雜的數(shù)據(jù)集

通過支持數(shù)據(jù)挖掘模式(dataminingschema)和數(shù)據(jù)挖掘查詢語言增加系統(tǒng)的靈活性

典型的系統(tǒng)如DBMiner,能通過DMQL挖掘語言進行挖掘操作缺陷只注重模型的生成,如何和預(yù)言模型系統(tǒng)集成導(dǎo)致了第三代數(shù)據(jù)挖掘系統(tǒng)的開發(fā)工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件特點工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件DBMiner工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第二代軟件SASEnterpriseMiner工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第二代軟件SASE工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第三代數(shù)據(jù)挖掘軟件特點和預(yù)言模型系統(tǒng)之間能夠無縫的集成,使得由數(shù)據(jù)挖掘軟件產(chǎn)生的模型的變化能夠及時反映到預(yù)言模型系統(tǒng)中

由數(shù)據(jù)挖掘軟件產(chǎn)生的預(yù)言模型能夠自動地被操作型系統(tǒng)吸收,從而與操作型系統(tǒng)中的預(yù)言模型相聯(lián)合提供決策支持的功能

能夠挖掘網(wǎng)絡(luò)環(huán)境下(Internet/Extranet)的分布式和高度異質(zhì)的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成

缺陷不能支持移動環(huán)境工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第三代數(shù)據(jù)挖掘軟件特點工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第三代軟件SPSSClementine以PMML的格式提供與預(yù)言模型系統(tǒng)的接口工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第三代軟件SPSS工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第四代數(shù)據(jù)挖掘軟件特點目前移動計算越發(fā)顯得重要,將數(shù)據(jù)挖掘和移動計算相結(jié)合是當(dāng)前的一個研究領(lǐng)域。

第四代軟件能夠挖掘嵌入式系統(tǒng)、移動系統(tǒng)、和普遍存在(ubiquitous)計算設(shè)備產(chǎn)生的各種類型的數(shù)據(jù)第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報導(dǎo),PKDD2001上Kargupta發(fā)表了一篇在移動環(huán)境下挖掘決策樹的論文,Kargupta是馬里蘭巴爾的摩州立大學(xué)(UniversityofMarylandBaltimoreCounty)正在研制的CAREER數(shù)據(jù)挖掘項目的負責(zé)人,該項目研究期限是2001年4月到2006年4月,目的是開發(fā)挖掘分布式和異質(zhì)數(shù)據(jù)(Ubiquitous設(shè)備)的第四代數(shù)據(jù)挖掘系統(tǒng)。

工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第四代數(shù)據(jù)挖掘軟件特點工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第一代系統(tǒng)與第二代相比因為不具有和數(shù)據(jù)管理系統(tǒng)之間有效的接口,所以在數(shù)據(jù)預(yù)處理方面有一定缺陷

第三、四代系統(tǒng)強調(diào)預(yù)測模型的使用和操作型環(huán)境的部署

第二代系統(tǒng)提供數(shù)據(jù)管理系統(tǒng)和數(shù)據(jù)挖掘系統(tǒng)之間的有效接口

第三代系統(tǒng)另外還提供數(shù)據(jù)挖掘系統(tǒng)和預(yù)言模型系統(tǒng)之間的有效的接口

目前,隨著新的挖掘算法的研究和開發(fā),第一代數(shù)據(jù)挖掘系統(tǒng)仍然會出現(xiàn),第二代系統(tǒng)是商業(yè)軟件的主流,部分第二代系統(tǒng)開發(fā)商開始研制相應(yīng)的第三代數(shù)據(jù)挖掘系統(tǒng),比如IBMIntelligentScoreService。第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報導(dǎo)

工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展第一代系統(tǒng)與第二代相比因工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展數(shù)據(jù)挖掘軟件發(fā)展的三個階段獨立的數(shù)據(jù)挖掘軟件橫向的數(shù)據(jù)挖掘工具集縱向的數(shù)據(jù)挖掘解決方案工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的發(fā)展數(shù)據(jù)挖掘軟件發(fā)展的三個階工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的現(xiàn)狀國內(nèi)大部分處于科研階段各大學(xué)和科研機構(gòu)從事數(shù)據(jù)挖掘算法的研究國內(nèi)著作的數(shù)據(jù)挖掘方面的書較少(翻譯的有)數(shù)據(jù)挖掘討論組()有一些公司在國外產(chǎn)品基礎(chǔ)上開發(fā)的特定的應(yīng)用IBMIntelligentMinerSASEnterpriseMiner自主知識產(chǎn)權(quán)的數(shù)據(jù)挖掘軟件復(fù)旦德門()等工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘軟件的現(xiàn)狀國內(nèi)大部分處于科研階段工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘應(yīng)用Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40KQQQQII123456factor1factor2factorn神經(jīng)網(wǎng)絡(luò)NeuralNetworks聚類分析ClusteringOpenAccn’tAddNewProductDecreaseUsage???Time序列分析SequenceAnalysis決策樹DecisionTrees

傾向性分析

客戶保留客戶生命周期管理目標(biāo)市場價格彈性分析

客戶細分市場細分

傾向性分析客戶保留目標(biāo)市場欺詐檢測關(guān)聯(lián)分析Association

市場組合分析套裝產(chǎn)品分析目錄設(shè)計交叉銷售工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘應(yīng)用Debt<10%ofInc10.1分類一般問題定義:給定,為離散值,表示每個樣例的分類,目標(biāo)是找到一個函數(shù),對于新觀測點,能夠用預(yù)測分類。10.1分類一般問題定義:工業(yè)控制技術(shù)研究所分類VS.預(yù)測分類:(與回歸相比較)預(yù)測分類標(biāo)號(或離散值)(特點)根據(jù)訓(xùn)練數(shù)據(jù)集和類標(biāo)號屬性,構(gòu)建模型來分類現(xiàn)有數(shù)據(jù),并用來分類新數(shù)據(jù)預(yù)測:建立連續(xù)函數(shù)值模型,比如預(yù)測空缺值典型應(yīng)用信譽證實目標(biāo)市場醫(yī)療診斷性能預(yù)測工業(yè)控制技術(shù)研究所分類VS.預(yù)測分類:(與回歸相比較)工業(yè)控制技術(shù)研究所數(shù)據(jù)分類:兩步過程第一步,建立一個模型,描述預(yù)定數(shù)據(jù)類集和概念集假定每個元組屬于一個預(yù)定義的類,由一個類標(biāo)號屬性確定基本概念訓(xùn)練數(shù)據(jù)集:由為建立模型而被分析的數(shù)據(jù)元組形成訓(xùn)練樣本:訓(xùn)練數(shù)據(jù)集中的單個樣本(元組)學(xué)習(xí)模型可以用分類規(guī)則、判定樹或數(shù)學(xué)公式的形式提供第二步,使用模型,對將來的或未知的對象進行分類首先評估模型的預(yù)測準確率對每個測試樣本,將已知的類標(biāo)號和該樣本的學(xué)習(xí)模型類預(yù)測比較模型在給定測試集上的準確率是正確被模型分類的測試樣本的百分比測試集要獨立于訓(xùn)練樣本集,否則會出現(xiàn)“過分適應(yīng)數(shù)據(jù)”的情況工業(yè)控制技術(shù)研究所數(shù)據(jù)分類:兩步過程第一步,建立一個模型,描工業(yè)控制技術(shù)研究所第一步:建立模型訓(xùn)練數(shù)據(jù)集分類算法IFrank=‘professor’ORyears>6THENtenured=‘yes’分類規(guī)則工業(yè)控制技術(shù)研究所第一步:建立模型訓(xùn)練數(shù)分類算法IFran工業(yè)控制技術(shù)研究所第二步:用模型進行分類分類規(guī)則測試集未知數(shù)據(jù)(Jeff,Professor,4)Tenured?工業(yè)控制技術(shù)研究所第二步:用模型進行分類分類規(guī)則測試集未知數(shù)損失函數(shù)損失函數(shù)評價法損失函數(shù)為,擬合函數(shù)的預(yù)測風(fēng)險定義為

估計方法為

,由于數(shù)據(jù)聯(lián)合分布未知,無法用E

計算。故用風(fēng)險的矩

估計經(jīng)驗風(fēng)險(代替預(yù)測風(fēng)險)

100損失函數(shù)損失函數(shù)評價法36估計方法為

,如果,期望風(fēng)險經(jīng)驗風(fēng)險,當(dāng)不滿足,101估計方法為根據(jù)VladimirN.Vapnik(1995)估算:在時,102根據(jù)VladimirN.Vapnik(1995)估算:3以上給出了期望風(fēng)險與經(jīng)驗風(fēng)險之間的關(guān)系。結(jié)構(gòu)風(fēng)險最小化定義統(tǒng)計學(xué)習(xí)理論提出了一種新的策略,即把函數(shù)集構(gòu)造為一個函數(shù)子集序列,使各個子集按照VC維的大小排列;在每個子集中尋找最小經(jīng)驗風(fēng)險,在子集間折衷考慮經(jīng)驗風(fēng)險和置信范圍,取得實際風(fēng)險的最小。這種思想稱作結(jié)構(gòu)風(fēng)險最小化(StructuralRiskMinimization),即SRM準則。103以上給出了期望風(fēng)險與經(jīng)驗風(fēng)險之間的關(guān)系。39vc維VC維(Vapnik-ChervonenkisDimension)的概念是為了研究學(xué)習(xí)過程一致收斂的速度和推廣性,由統(tǒng)計學(xué)習(xí)理論定義的有關(guān)函數(shù)集學(xué)習(xí)性能的一個重要指標(biāo)。104vc維40結(jié)構(gòu)風(fēng)險最小化(SRM)的

基本思想所謂的結(jié)構(gòu)風(fēng)險最小化就是在保證分類精度(經(jīng)驗風(fēng)險)的同時,降低學(xué)習(xí)機器的VC維,可以使學(xué)習(xí)機器在整個樣本集上的期望風(fēng)險得到控制。傳統(tǒng)機器學(xué)習(xí)方法中普遍采用的經(jīng)驗風(fēng)險最小化原則在樣本數(shù)目有限時是不合理的,因此,需要同時最小化經(jīng)驗風(fēng)險和置信范圍。機器學(xué)習(xí)過程不但要使經(jīng)驗風(fēng)險最小,還要使VC維盡量小以縮小置信范圍,才能取得較小的實際風(fēng)險,即對未來樣本有較好的推廣性。105結(jié)構(gòu)風(fēng)險最小化(SRM)的

基本思想所謂的結(jié)構(gòu)風(fēng)險最小化就是在有限訓(xùn)練樣本下,學(xué)習(xí)機器的VC維越高則置信范圍越大,真實風(fēng)險與經(jīng)驗風(fēng)險之間可能的差別越大.這就是為什么會出現(xiàn)過學(xué)習(xí)現(xiàn)象的原因。實現(xiàn)SRM的思路之一就是設(shè)計函數(shù)集的某種結(jié)構(gòu)使每個子集中都能取得最小的經(jīng)驗風(fēng)險(如使訓(xùn)練誤差為0),然后只需選擇適當(dāng)?shù)淖蛹怪眯欧秶钚。瑒t這個子集中使經(jīng)驗風(fēng)險最小的函數(shù)就是最優(yōu)函數(shù)。SVM方法實際上就是這種思想的具體實現(xiàn)。106在有限訓(xùn)練樣本下,學(xué)習(xí)機器的VC維越高則置信范圍越大,真實風(fēng)10.2Logistic回歸普通回歸是對連續(xù)變量依賴關(guān)系建模的過程。然而,分類在現(xiàn)實中經(jīng)常發(fā)生。典型的是兩類問題(0-1)變量。如發(fā)病,與不發(fā)病。10710.2Logistic回歸普通回歸是對連續(xù)變量依賴關(guān)系建108(一)基本概念和原理

1.應(yīng)用背景

Logistic回歸模型是一種概率模型,適合于病例—對照研究、隨訪研究和橫斷面研究,且結(jié)果發(fā)生的變量取值必須是二分的或多項分類??捎糜绊懡Y(jié)果變量發(fā)生的因素為自變量與因變量,建立回歸方程。44(一)基本概念和原理

1.應(yīng)用背景

109

設(shè)資料中有一個因變量y、p個自變量x1,x2,…,xp,對每個實驗對象共有n次觀測結(jié)果,可將原始資料列成表2形式。2、Logistic回歸模型的數(shù)據(jù)結(jié)構(gòu)452、Logistic回歸模型的數(shù)據(jù)結(jié)構(gòu)110

表2Logistic回歸模型的數(shù)據(jù)結(jié)構(gòu)實驗對象y

X1X2X3

….XP

1y1a11a12a13

…a1p

2y2a21a22a23

…a2p

3y3a31a32a33

…a3p

nynan1an2an3

…anp

━━━━━━━━━━━━━━━━━━其中:y取值是二值或多項分類46表2Logistic回歸模型的數(shù)據(jù)結(jié)構(gòu)

表3肺癌與危險因素的調(diào)查分析例號是否患病性別吸煙年齡地區(qū)

111030021014613000351………………30000261

注:是否患病中,‘0’代表否,‘1’代表是。性別中‘1’代表男,‘0’代表女,吸煙中‘1’代表吸煙,‘0’代表不吸煙。地區(qū)中,‘1’代表農(nóng)村,‘0’代表城市。

數(shù)據(jù)挖掘與機器學(xué)習(xí)(非參數(shù)統(tǒng)計)課件

表4配對資料(1:1)對子號病例對照

x1x2x3x1x2x3113010120311303012020…10222000注:X1蛋白質(zhì)攝入量,取值:0,1,2,3X2不良飲食習(xí)慣,取值:0,1,2,3X3精神狀況,取值:0,1,2

數(shù)據(jù)挖掘與機器學(xué)習(xí)(非參數(shù)統(tǒng)計)課件113Logistic回歸

--Logistic回歸與多重線性回歸聯(lián)系與區(qū)別聯(lián)系:

用于分析多個自變量與一個因變量的關(guān)系,目的是矯正混雜因素、篩選自變量和更精確地對因變量作預(yù)測等。區(qū)別:

線性模型中因變量為連續(xù)性隨機變量,且要求呈正態(tài)分布.Logistic回歸因變量的取值僅有兩個,不滿足正態(tài)分布。49Logistic回歸

--Logistic回歸與多重線1143、Logistic回歸模型

令:y=1發(fā)病(陽性、死亡、治愈等)

y=0未發(fā)?。幮浴⑸?、未治愈等)將發(fā)病的概率記為P,它與自變量x1,x2,…,xp之間的Logistic回歸模型為:(10.4)P(Y=1|X)=可知,不發(fā)病的概率為:

503、Logistic回歸模型令:y=1

經(jīng)數(shù)學(xué)變換得:定義:為L

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論