數(shù)據(jù)挖掘(第2版) 課件 王朝霞 第4、5章 回歸、聚類_第1頁(yè)
數(shù)據(jù)挖掘(第2版) 課件 王朝霞 第4、5章 回歸、聚類_第2頁(yè)
數(shù)據(jù)挖掘(第2版) 課件 王朝霞 第4、5章 回歸、聚類_第3頁(yè)
數(shù)據(jù)挖掘(第2版) 課件 王朝霞 第4、5章 回歸、聚類_第4頁(yè)
數(shù)據(jù)挖掘(第2版) 課件 王朝霞 第4、5章 回歸、聚類_第5頁(yè)
已閱讀5頁(yè),還剩97頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用數(shù)據(jù)挖掘(第二版)第四章回歸of592高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用回歸是一種基于統(tǒng)計(jì)原理,對(duì)大量統(tǒng)計(jì)數(shù)據(jù)進(jìn)行數(shù)學(xué)處理,并確定變量(或?qū)傩裕┲g的相關(guān)關(guān)系,建立一個(gè)相關(guān)性的回歸方程(函數(shù)表達(dá)式),并加以外推,用于預(yù)測(cè)今后的因變量的變化的方法。回歸分析本質(zhì)上是一種因素分析的方法。根據(jù)因變量和自變量的函數(shù)表達(dá)式分為:線性回歸分析、非線性回歸分析。根據(jù)因變量和自變量的個(gè)數(shù)可分為:一元回歸分析、多元回歸分析、邏輯回歸分析和其它回歸分析等。More應(yīng)用到市場(chǎng)營(yíng)銷的各個(gè)方面,如客戶尋求、保持和預(yù)防客戶流失活動(dòng)、產(chǎn)品生命周期分析、銷售趨勢(shì)預(yù)測(cè)及有針對(duì)性的促銷活動(dòng)等。4.1回歸基本概念第四章回歸4.2一元回歸分析4.3多元線性回歸分析3.1數(shù)據(jù)挖掘概述4.5其他回歸分析習(xí)題4.4邏輯回歸分析of593高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用4.6實(shí)戰(zhàn):獲得最大有效率時(shí)的藥物用量回歸分析是研究中常用的一種統(tǒng)計(jì)方法,即研究變量之間的關(guān)系并對(duì)其構(gòu)建模型。對(duì)于社會(huì)經(jīng)濟(jì)現(xiàn)象,很難確定因變量和自變量之間的關(guān)系,因?yàn)樗鼈兇蠖嗍请S機(jī)的,只有通過大量的觀察統(tǒng)計(jì),才能找出其中的規(guī)律,隨機(jī)分析是利用統(tǒng)計(jì)學(xué)原理描述隨機(jī)變量關(guān)系的一種方法?;貧w分析可簡(jiǎn)單理解為信息分析與預(yù)測(cè),信息即統(tǒng)計(jì)數(shù)據(jù),分析即對(duì)信息進(jìn)行數(shù)據(jù)處理,預(yù)測(cè)就是加以外推,也就是適當(dāng)擴(kuò)大已有自變量取值范圍,并承認(rèn)該回歸方程在該擴(kuò)大的定義域內(nèi)成立,然后就可以在該定義域上取值進(jìn)行“未來預(yù)測(cè)”。當(dāng)然,對(duì)回歸方程可以進(jìn)行有效的控制。因此,回歸分析主要解決下面兩方面的問題:1)確定變量之間是否存在相關(guān)關(guān)系,若存在,則找出數(shù)學(xué)表達(dá)式。2)根據(jù)一個(gè)或幾個(gè)變量的值,預(yù)測(cè)或控制另一個(gè)或幾個(gè)變量的值,且要估計(jì)這種控制或預(yù)測(cè)或以達(dá)到何種精確度。4.1.1回歸分析的定義of5944.1回歸基本概念第四章回歸

4.1.2回歸分析步驟of5954.1回歸基本概念第四章回歸為使回歸分析方程較能符合實(shí)際,首先應(yīng)盡可能判斷自變量的可能種類和個(gè)數(shù),并在觀察事物發(fā)展規(guī)律的基礎(chǔ)上定性回歸方程的可能類型;其次,力求掌握較充分的高質(zhì)量統(tǒng)計(jì)數(shù)據(jù),再運(yùn)用統(tǒng)計(jì)方法,利用數(shù)學(xué)工具和相關(guān)軟件,從定量方面計(jì)算或改進(jìn)定性判斷;另外,從本質(zhì)上講,回歸分析是一種統(tǒng)計(jì)分析,回歸分析的結(jié)果和檢驗(yàn)結(jié)果只有統(tǒng)計(jì)意義。4.1.2回歸分析要注意的問題of5964.1回歸基本概念第四章回歸4.1回歸基本概念第四章回歸4.2一元回歸分析4.3多元線性回歸分析3.1數(shù)據(jù)挖掘概述4.5其他回歸分析習(xí)題4.4邏輯回歸分析of597高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用4.6實(shí)戰(zhàn):獲得最大有效率時(shí)的藥物用量

4.2.1一元回歸分析的模型設(shè)定of5984.2一元回歸分析第四章回歸

4.2.1一元回歸分析的模型設(shè)定of5994.2一元回歸分析第四章回歸在進(jìn)行消費(fèi)行為研究中,從一個(gè)地區(qū)抽取20個(gè)不同家庭的月可支配收入和消費(fèi)數(shù)據(jù),如下表所示:例4.1of59104.2一元回歸分析第四章回歸序號(hào)消費(fèi)(百元)可支配收入(百元)序號(hào)消費(fèi)(百元)可支配收入(百元)172.310011132.3189292.5112012149.82143135.220013115.318849413014132.21975163.524015149.5206610011416100.25142786.51261779.61128142.362131890.2134912015619116.516910112.5616720126170以可支配收入為橫軸、消費(fèi)為縱軸畫出樣本數(shù)據(jù)的散點(diǎn)圖例4.1of59114.2一元回歸分析第四章回歸從圖中可以看出,可支配收入和消費(fèi)之間存在明顯的線性關(guān)系。但所有點(diǎn)并不在一條直線上,表明二者之間的關(guān)系是一種隨機(jī)關(guān)系。

4.2.1一元回歸分析的模型設(shè)定of59124.2一元回歸分析第四章回歸

4.2.2一元線性回歸模型的參數(shù)估計(jì)of59134.2一元回歸分析第四章回歸

4.2.3基本假設(shè)下OLS估計(jì)的統(tǒng)計(jì)性質(zhì)of59144.2一元回歸分析第四章回歸

4.2.3基本假設(shè)下OLS估計(jì)的統(tǒng)計(jì)性質(zhì)of59154.2一元回歸分析第四章回歸(4.4)

4.2.4誤差方差估計(jì)of59164.2一元回歸分析第四章回歸首先對(duì)模型參數(shù)是否顯著不為0進(jìn)行檢驗(yàn),如果檢驗(yàn)結(jié)果表明模型斜率參數(shù)顯著不為0,則表明和之間具有線性關(guān)系,否則說明兩個(gè)變量之間沒有顯著的線性關(guān)系。由于檢驗(yàn)是對(duì)每個(gè)參數(shù)分別進(jìn)行的,因此稱為回歸系數(shù)檢驗(yàn)。在原假設(shè)下,檢驗(yàn)統(tǒng)計(jì)量服從分布,即4.2.5回歸系數(shù)檢驗(yàn)(t檢驗(yàn))of59174.2一元回歸分析第四章回歸設(shè)定顯著性水平,通常選擇0.05或0.01作為閾值。通過查找t分布表,找到對(duì)應(yīng)顯著性水平和自由度的雙側(cè)檢驗(yàn)的臨界值。將計(jì)算得到的檢驗(yàn)統(tǒng)計(jì)量與臨界值進(jìn)行比較。判斷顯著性:如果計(jì)算得到的檢驗(yàn)統(tǒng)計(jì)量的絕對(duì)值大于臨界值,則拒絕原假設(shè),認(rèn)為回歸系數(shù)顯著不為零。如果計(jì)算得到的檢驗(yàn)統(tǒng)計(jì)量的絕對(duì)值小于臨界值,則不能拒絕原假設(shè),不能認(rèn)為回歸系數(shù)顯著不為零。

4.2.6擬合優(yōu)度和模型檢驗(yàn)(F檢驗(yàn))of59184.2一元回歸分析第四章回歸4.1回歸基本概念第四章回歸4.2一元回歸分析4.3多元線性回歸分析3.1數(shù)據(jù)挖掘概述4.5其他回歸分析習(xí)題4.4邏輯回歸分析of5919高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用4.6實(shí)戰(zhàn):獲得最大有效率時(shí)的藥物用量多元回歸分析預(yù)測(cè)法,是指通過對(duì)兩上或兩個(gè)以上的自變量與一個(gè)因變量的相關(guān)分析,建立預(yù)測(cè)模型進(jìn)行預(yù)測(cè)的方法。當(dāng)自變量與因變量之間存在線性關(guān)系時(shí),稱為多元線性回歸分析。多元回歸分析可以達(dá)到以下目的:1.了解因變量和自變量之間的關(guān)系是否存在,以及這種關(guān)系的強(qiáng)度。也就是以自變量所解釋的因變量的變異部分是否顯著,且因變量變異中有多大部分可以由自變量來解釋。2.估計(jì)回歸方程,求在自變量已知的情況下因變量的理論值或預(yù)測(cè)值,達(dá)到預(yù)測(cè)目的。3.評(píng)價(jià)特定自變量對(duì)因變量的貢獻(xiàn),也就是在控制其他自變量不變的情況下,該處變量的變化所導(dǎo)致的因變量變化情況。4.比較各處變量在擬合的回歸方程中相對(duì)作用大小,尋找最重要的和比較重要的自變量。4.3.1多元線性回歸模型of59204.3多元線性回歸分析第四章回歸

4.3.1多元線性回歸模型of59214.3多元線性回歸分析第四章回歸建立多元性回歸模型時(shí),為了保證回歸模型具有優(yōu)良的解釋能力和預(yù)測(cè)效果,應(yīng)首先注意自變量的選擇,其準(zhǔn)則是:1.自變量對(duì)因變量必須有顯著的影響,并呈密切的線性相關(guān);2.自變量與因變量之間的線性相關(guān)必須是真實(shí)的,而不是形式上的;3.自變量之間應(yīng)具有一定的互斥性,即自變量之間的相關(guān)程度不應(yīng)高于自變量與因變量之因的相關(guān)程度;4.自變量應(yīng)具有完整的統(tǒng)計(jì)數(shù)據(jù),其預(yù)測(cè)值容易確定。4.3.1多元線性回歸模型of59224.3多元線性回歸分析第四章回歸

4.3.2多元線性回歸模型的假定of59234.3多元線性回歸分析第四章回歸

4.3.3多元線性回歸模型的參數(shù)估計(jì)of59244.3多元線性回歸分析第四章回歸

4.3.3多元線性回歸模型的參數(shù)估計(jì)of59254.3多元線性回歸分析第四章回歸

4.3.3多元線性回歸模型的參數(shù)估計(jì)of59264.3多元線性回歸分析第四章回歸3.估計(jì)參數(shù)的統(tǒng)計(jì)性質(zhì)(1)線性性(2)無偏性(3)最小方差性4.3.3多元線性回歸模型的參數(shù)估計(jì)of59274.3多元線性回歸分析第四章回歸

4.3.4顯著性檢驗(yàn)of59284.3多元線性回歸分析第四章回歸1.變量選擇問題選擇合適的變量用于建立一個(gè)“最優(yōu)”的回歸方程(1)逐步回歸法(Stepwise)(2)向前引入法(Forward)(3)向后剔除法(Backward)。4.3.5回歸變量的選擇與逐步回歸of59294.3多元線性回歸分析第四章回歸2.逐步回歸分析(1)基本思想逐個(gè)引入自變量。每次引入對(duì)Y影響最顯著的自變量,并對(duì)方程中的老變量逐個(gè)進(jìn)行檢驗(yàn),把變?yōu)椴伙@著的變量逐個(gè)從方程中剔除掉,最終得到的方程中既不漏掉對(duì)Y影響顯著的變量,又不包含對(duì)Y影響不顯著的變量。4.3.5回歸變量的選擇與逐步回歸of59304.3多元線性回歸分析第四章回歸2.逐步回歸分析(2)篩選的步驟①?gòu)幕貧w方程中考慮剔除不顯著變量。②從不在方程中的變量考慮引入新變量。4.3.4回歸變量的選擇與逐步回歸of59314.3多元線性回歸分析第四章回歸4.1回歸基本概念第四章回歸4.2一元回歸分析4.3多元線性回歸分析3.1數(shù)據(jù)挖掘概述4.5其他回歸分析習(xí)題4.4邏輯回歸分析of5932高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用4.6實(shí)戰(zhàn):獲得最大有效率時(shí)的藥物用量邏輯回歸模型用于分析二分類或有序的因變量與自變量間的關(guān)系,用自變量去預(yù)測(cè)因變量在給定某個(gè)值(如1或0)的概率。當(dāng)因變量取很多值時(shí),如等距尺度或比例尺度的數(shù)據(jù)類型時(shí),通常使用簡(jiǎn)單回歸模型,而不使用邏輯回歸模型。邏輯回歸的模型使用的sigmoid函數(shù),又稱邏輯回歸函數(shù)。sigmoid函數(shù)可以輕松處理0/1分類問題。邏輯回歸方程為第組個(gè)別事件概率(Pi)的對(duì)數(shù)(logit)轉(zhuǎn)換,且轉(zhuǎn)換后的邏輯回歸模型是解釋變量矩陣的一條直線方。對(duì)數(shù)線性模型是將列聯(lián)表中每格的概率(或理論概率)取對(duì)數(shù)后,分解參數(shù)獲得的,而邏輯回歸模型是將概率比取對(duì)數(shù)后,再進(jìn)行參數(shù)化后獲得的。4.4.1邏輯回歸模型of59334.4邏輯回歸分析第四章回歸

4.4.2logit變換of59344.4邏輯回歸分析第四章回歸系數(shù)是未知的,需要通過有效的訓(xùn)練數(shù)據(jù)估計(jì)這些參數(shù)。在上面的小節(jié)中,我們使用最小二乘估計(jì)線性模型中的未知系數(shù)。在邏輯回歸中,雖然也可以用(非線性)最小二乘估計(jì)擬合模型,但由于極大似然估計(jì)有更好的統(tǒng)計(jì)性質(zhì),所以一般采用極大似然估計(jì)估計(jì)系數(shù)。極大似然估計(jì)的思想是通過尋找使得給定觀測(cè)數(shù)據(jù)發(fā)生概率最大的參數(shù)值,來擬合統(tǒng)計(jì)模型。對(duì)于Logistic回歸模型,極大似然估計(jì)的目標(biāo)是找到使似然函數(shù)最大化的參數(shù)值,從而得到最佳的擬合效果。極大似然方法在擬合非線性模型上是一種常見的方法,在線性回歸中,最小二乘法是極大似然方法的特例。4.4.3估計(jì)回歸系數(shù)of59354.4邏輯回歸分析第四章回歸

4.4.4Logistic分布o(jì)f59364.4邏輯回歸分析第四章回歸

4.4.5列連表的Logistic回歸模型of59374.4邏輯回歸分析第四章回歸

4.4.5列連表的Logistic回歸模型of59384.4邏輯回歸分析第四章回歸4.1回歸基本概念第四章回歸4.2一元回歸分析4.3多元線性回歸分析3.1數(shù)據(jù)挖掘概述4.5其他回歸分析習(xí)題4.4邏輯回歸分析of5939高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用4.6實(shí)戰(zhàn):獲得最大有效率時(shí)的藥物用量對(duì)于一個(gè)回歸方程,如果自變量的指數(shù)大于1,那么它就是多項(xiàng)式回歸方程。如果自變量只有一個(gè)時(shí),稱為一元多項(xiàng)式回歸;如果自變量有多個(gè)時(shí),稱為多元多項(xiàng)式回歸。在一元回歸分析中,如果依變量y與自變量x的關(guān)系為非線性的,但是又找不到適當(dāng)?shù)暮瘮?shù)曲線來擬合,則可以采用一元多項(xiàng)式回歸。在這種回歸技術(shù)中,最佳擬合線不是直線。而是一個(gè)用于擬合數(shù)據(jù)點(diǎn)的曲線。多項(xiàng)式回歸的最大優(yōu)點(diǎn)就是可以通過增加x的高次項(xiàng)對(duì)實(shí)測(cè)點(diǎn)進(jìn)行逼近,直至滿意為止。事實(shí)上,多項(xiàng)式回歸可以處理相當(dāng)多的非線性問題,它在回歸分析中占有重要的地位,因?yàn)槿我缓瘮?shù)都可以分段用多項(xiàng)式來逼近。因此,在通常的實(shí)際問題中,不論依變量與其他自變量的關(guān)系如何,我們總可以用多項(xiàng)式回歸來進(jìn)行分析。多項(xiàng)式回歸問題可以通過變量轉(zhuǎn)換化為多元線性回歸問題來解決。多項(xiàng)式回歸在回歸分析中很重要,因?yàn)槿我庖粋€(gè)函數(shù)至少在一個(gè)較小的范圍內(nèi)都可以用多項(xiàng)式任意逼近,因此在比較復(fù)雜的實(shí)際問題中,有時(shí)不問y與諸元素的確切關(guān)系如何,而用回歸分析進(jìn)行分析運(yùn)算。4.5.1多項(xiàng)式回歸(PolynomialRegression)of59404.5其他回歸分析第四章回歸在處理多個(gè)自變量時(shí),我們可以使用這種形式的回歸。在這種技術(shù)中,自變量的選擇是在一個(gè)自動(dòng)的過程中完成的,其中包括非人為操作。這一壯舉是通過觀察統(tǒng)計(jì)的值,如R-square,t-stats和AIC指標(biāo),來識(shí)別重要的變量。逐步回歸通過同時(shí)添加/刪除基于指定標(biāo)準(zhǔn)的協(xié)變量來擬合模型。下面列出了一些最常用的逐步回歸方法:標(biāo)準(zhǔn)逐步回歸法做兩件事情。即增加和刪除每個(gè)步驟所需的預(yù)測(cè)。向前選擇法從模型中最顯著的預(yù)測(cè)開始,然后為每一步添加變量。向后剔除法與模型的所有預(yù)測(cè)同時(shí)開始,然后在每一步消除最小顯著性的變量。這種建模技術(shù)的目的是使用最少的預(yù)測(cè)變量數(shù)來最大化預(yù)測(cè)能力。這也是處理高維數(shù)據(jù)集的方法之一。4.5.2逐步回歸(StepwiseRegression)of59414.5其他回歸分析第四章回歸

4.5.3嶺回歸(RidgeRegression)of59424.5其他回歸分析第四章回歸套索回歸類似于嶺回歸,(LeastAbsoluteShrinkageandSelectionOperator,Lasso)也會(huì)懲罰回歸系數(shù)的絕對(duì)值大小。此外,它能夠減少變化程度并提高線性回歸模型的精度。Lasso回歸與Ridge回歸有一點(diǎn)不同,它使用的懲罰函數(shù)是絕對(duì)值,而不是平方。這導(dǎo)致懲罰(或等于約束估計(jì)的絕對(duì)值之和)值使一些參數(shù)估計(jì)結(jié)果等于零。使用懲罰值越大,進(jìn)一步估計(jì)會(huì)使得縮小值趨近于零。這將導(dǎo)致我們要從給定的n個(gè)變量中選擇變量。除常數(shù)項(xiàng)以外,這種回歸的假設(shè)與最小二乘回歸類似;它收縮系數(shù)接近零(等于零),這確實(shí)有助于特征選擇;這是一個(gè)正則化方法,使用的是L1正則化。如果預(yù)測(cè)的一組變量是高度相關(guān)的,Lasso會(huì)選出其中一個(gè)變量并且將其它的收縮為零。4.5.4套索回歸(LassoRegression)of59434.5其他回歸分析第四章回歸ElasticNet是Lasso和Ridge回歸技術(shù)的混合體。它使用L1來訓(xùn)練并且L2優(yōu)先作為正則化矩陣。當(dāng)有多個(gè)相關(guān)的特征時(shí),ElasticNet是很有用的。Lasso會(huì)隨機(jī)挑選他們其中的一個(gè),而ElasticNet則會(huì)選擇兩個(gè)。Lasso和Ridge之間的實(shí)踐的優(yōu)點(diǎn)是允許ElasticNet繼承循環(huán)狀態(tài)下Ridge的一些穩(wěn)定性。在高度相關(guān)變量的情況下,ElasticNet支持群體效應(yīng);同時(shí)ElasticNet選擇變量的數(shù)目沒有限制;它可以承受雙重收縮。另外ElasticNet是一個(gè)不斷迭代的過程,其永遠(yuǎn)可以產(chǎn)生有效解。由于此過程中不會(huì)產(chǎn)生交叉的路徑,所以產(chǎn)生的解都相當(dāng)不錯(cuò),同時(shí)ElasticNet的收斂速度也很快。4.5.5彈性網(wǎng)絡(luò)(ElasticNet)of59444.5其他回歸分析第四章回歸4.1回歸基本概念第四章回歸4.2一元回歸分析4.3多元線性回歸分析3.1數(shù)據(jù)挖掘概述4.5其他回歸分析習(xí)題4.4邏輯回歸分析of5945高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用4.6實(shí)戰(zhàn):獲得最大有效率時(shí)的藥物用量表中給出了一個(gè)由23個(gè)樣本組成的藥物用量和有效率關(guān)系的數(shù)據(jù)。數(shù)據(jù)中自變量(屬性)為藥物用量,單位為mg。因變量(標(biāo)簽)為有效率。獲得最大有效率時(shí)的藥物用量of59464.6實(shí)戰(zhàn):第四章回歸藥物用量(mg)1.54.47.29.210.712.413.316.017.619.320.023.2有效率(%)3.22.63.73.94.59.37.824.098.096.497.399.2藥物用量(mg)25.826.128.329.732.634.338.140.142.344.344.9有效率(%)98.799.274.265.649.936.812.78.35.62.72.24.6.1使用Python創(chuàng)建藥物用量和有效率的NumPy數(shù)組of59474.6實(shí)戰(zhàn):第四章回歸datas=np.array([

[1.5,3.2],[4.4,2.6],[7.2,3.7],[9.2,3.9],[10.7,4.5],[12.4,9.3],[13.3,7.8],

[16.0,24],[17.6,98.0],[19.3,96.4],[20.0,97.3],[23.2,99.2],[25.8,98.7],

[26.1,99.2],[28.3,74.2],[29.7,65.6],[32.6,49.9],[34.3,36.8],[38.1,12.7],

[40.1,8.3],[42.3,5.6],[44.3,2.7],[44.9,2.2]

],dtype=np.float32)4.6.2繪制出散點(diǎn)圖of59484.6實(shí)戰(zhàn):第四章回歸plt.scatter(datas[:8,0],datas[:8,1],c='green',s=70,alpha=0.8)

plt.scatter(datas[8:14,0],datas[8:14,1],c='red',s=70,alpha=0.7)

plt.scatter(datas[14:18,0],datas[14:18,1],c='orange',s=70,alpha=0.8)

plt.scatter(datas[18:,0],datas[18:,1],c='blue',s=70,alpha=0.6)

plt.xlabel("藥物用量(mg)")

plt.ylabel("有效率(%)")

#支持中文

plt.rcParams['font.sans-serif']=['SimHei']#用來正常顯示中文標(biāo)簽

plt.rcParams['axes.unicode_minus']=False#用來正常顯示負(fù)號(hào)

plt.show()4.6.2繪制出散點(diǎn)圖of59494.6實(shí)戰(zhàn):第四章回歸當(dāng)藥物用量小于17mg時(shí)藥物用量和有效率呈正相關(guān),但有效率總體處在較低水平;當(dāng)藥物用量在17mg到27mg時(shí),有效率基本不隨藥物用量的增加而變化,且保持在較高水平;當(dāng)藥物用量在27mg和35mg時(shí),隨著藥物用量的增加,有效率急劇下降;當(dāng)藥物用量大于35mg時(shí),有效率繼續(xù)降低,并維持在較低水平。4.6.3用scikit-learn機(jī)器學(xué)習(xí)庫(kù)計(jì)算回歸模型of59504.6實(shí)戰(zhàn):第四章回歸使用非線性方程,即多項(xiàng)式回歸,從而只使用一個(gè)回歸方程就可以對(duì)所有樣本進(jìn)行擬合。ploy_reg=PolynomialFeatures(degree=2)

xs=ploy_reg.fit_transform(datas[:,0].reshape(-1,1))

lr=linear_model.LinearRegression()

lr.fit(xs,datas[:,1].reshape(-1,1))

print(lr.coef_)

print(ercept_)4.1回歸基本概念第四章回歸4.2一元回歸分析4.3多元線性回歸分析3.1數(shù)據(jù)挖掘概述4.5其他回歸分析習(xí)題4.4邏輯回歸分析of5951高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用4.6實(shí)戰(zhàn):用回歸分析方法給自己的房子定價(jià)1.調(diào)查某市出租車使用年限和該年支出維修費(fèi)用(萬元),得到數(shù)據(jù)如下:of4352習(xí)題第四章回歸使用年限(1)求線性回歸方程;(2)由(1)中結(jié)論預(yù)測(cè)第10年所支出的維修費(fèi)用:

()使用年限x23456維修費(fèi)用y2.23.85.56.57.02.以下是某地搜集到的新房屋的銷售價(jià)格y和房屋的面積x的數(shù)據(jù):of4353習(xí)題第四章回歸(1)畫出數(shù)據(jù)對(duì)應(yīng)的散點(diǎn)圖;(2)求線性回歸方程,并在散點(diǎn)圖中加上回歸直線;(3)據(jù)(2)的結(jié)果估計(jì)當(dāng)房屋面積為150m2時(shí)的銷售價(jià)格.(4)求第2個(gè)點(diǎn)的殘差。智能硬件大數(shù)據(jù)免費(fèi)托管平臺(tái)環(huán)境大數(shù)據(jù)開放平臺(tái)免費(fèi)大數(shù)據(jù)APP推薦運(yùn)用大數(shù)據(jù),精彩你生活劉鵬看未來云創(chuàng)大數(shù)據(jù)我的PM2.5同聲譯微信公眾號(hào)推薦完善的課程體系:大數(shù)據(jù)方向、人工智能方向。面向理論與實(shí)踐,分為本科院校、專科院校、高職院校。感謝聆聽高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用數(shù)據(jù)挖掘(第二版)5.1什么是聚類分析?第五章

聚類5.2聚類方法分類5.3

k均值聚類5.4

層次聚類of4358高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用5.5密度聚類5.1

什么是聚類分析?第五章聚類簇:一個(gè)數(shù)據(jù)對(duì)象的集合。聚類是將對(duì)象集合中的對(duì)象分類到不同的類或者簇這樣的一個(gè)過程,使得同一個(gè)簇中的對(duì)象有很大的相似性,而不同簇間的對(duì)象有很大的相異性。簇內(nèi)的相似性越大,簇間差別越大,聚類就越好。聚類結(jié)果的好壞取決于該聚類方法采用的相似性評(píng)估方法以及該方法的具體實(shí)現(xiàn),聚類方法的好壞還取決與該方法是能發(fā)現(xiàn)某些還是所有的隱含模式。按照聚類的主要思路的不同,聚類可以分為:劃分聚類、層次聚類、基于密度的聚類、基于網(wǎng)格的聚類、基于模型的聚類。5.1

什么是聚類分析?第五章聚類聚類典型的應(yīng)用市場(chǎng)銷售。幫助市場(chǎng)人員發(fā)現(xiàn)客戶中的不同群體,然后用這些知識(shí)來開展一個(gè)目標(biāo)明確的市場(chǎng)計(jì)劃。保險(xiǎn)。對(duì)購(gòu)買了汽車保險(xiǎn)的客戶,標(biāo)識(shí)哪些有較高平均賠償成本的客戶。城市規(guī)劃。根據(jù)類型、價(jià)格、地理位置等來劃分不同類型的住宅。對(duì)搜索引擎返回的結(jié)果進(jìn)行聚類,使用戶迅速定位到所需要的信息。對(duì)用戶感興趣的文檔(如用戶瀏覽過的網(wǎng)頁(yè))聚類,從而發(fā)現(xiàn)用戶的興趣模式并用于信息過濾和信息主動(dòng)推薦等服務(wù)。數(shù)據(jù)挖掘?qū)垲惖牡湫鸵螅嚎缮炜s性能夠處理不同類型的屬性能發(fā)現(xiàn)任意形狀的簇在決定輸入?yún)?shù)的時(shí)候,盡量不需要特定的領(lǐng)域知識(shí);能夠處理噪聲和異常對(duì)輸入數(shù)據(jù)對(duì)象的順序不敏感能處理高維數(shù)據(jù)能產(chǎn)生一個(gè)好的、能滿足用戶指定約束的聚類結(jié)果結(jié)果是可解釋的、可理解的和可用的5.1

什么是聚類分析?第五章聚類5.2

第五章

聚類5.1什么是聚類分析?5.3

k均值聚類5.4

層次聚類of4362高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用5.5密度聚類聚類方法分類5.2

聚類方法分類第五章聚類按照聚類方法的主要思路的不同,聚類方法分為:劃分聚類層次聚類基于密度的聚類基于網(wǎng)格的聚類基于模型的聚類5.3

第五章

聚類5.1什么是聚類分析?5.2聚類方法分類5.4

層次聚類of4364高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用5.5密度聚類k均值聚類5.3

k均值聚類第五章聚類對(duì)于給定的數(shù)據(jù)集,劃分聚類方法首先創(chuàng)建一個(gè)初試劃分,然后采用一種迭代的重定位技術(shù),嘗試通過對(duì)象在劃分間的移動(dòng)來改進(jìn)劃分,直到使評(píng)價(jià)聚類性能的評(píng)價(jià)函數(shù)的值達(dá)到最優(yōu)為止。劃分聚類方法以距離作為數(shù)據(jù)集中不同數(shù)據(jù)間的相似性度量,將數(shù)據(jù)集劃分成多個(gè)簇。劃分聚類方法是最基本的聚類方法,屬于這樣的聚類方法、k中心點(diǎn)(k-medoids)等。有k均值(k-means)k中心點(diǎn)(k-medoids)5.3

k均值聚類第五章聚類劃分聚類方法的主要思想

給定一個(gè)包含n個(gè)數(shù)據(jù)對(duì)象的數(shù)據(jù)集,劃分聚類方法將數(shù)據(jù)對(duì)象的數(shù)據(jù)集進(jìn)行k個(gè)劃分,每個(gè)劃分表示一個(gè)簇(類),并且k≤n,同時(shí)滿足兩個(gè)條件:每個(gè)簇至少包含一個(gè)對(duì)象,每個(gè)對(duì)象屬于且僅屬于一個(gè)簇。對(duì)于給定k,劃分聚類方法首先給出一個(gè)初始的劃分,然后采用一種迭代的重定位技術(shù),嘗試通過對(duì)象在劃分間移動(dòng)來改進(jìn)劃分,使得每一次改進(jìn)之后的劃分方案都較前一次更好。好的劃分是指同一簇中的對(duì)象之間盡可能“接近”,不同簇中的對(duì)象之間盡可能“遠(yuǎn)離”。5.3

k均值聚類第五章聚類劃分聚類方法的評(píng)價(jià)函數(shù)評(píng)價(jià)函數(shù)著重考慮兩方面,即每個(gè)簇中的對(duì)象應(yīng)該是緊湊的,各個(gè)簇間的對(duì)象的距離應(yīng)該盡可能遠(yuǎn)。實(shí)現(xiàn)這種考慮的一種直接方法就是觀察聚類C的類內(nèi)差異w(C)和類間差異b(C)。類內(nèi)差異衡量類內(nèi)的對(duì)象之間的緊湊性,類間差異衡量不同類之間的距離。類內(nèi)差異可以用距離函數(shù)來表示,最簡(jiǎn)單的就是計(jì)算類內(nèi)的每個(gè)對(duì)象點(diǎn)到它所屬類的中心的距離的平方和。類間差異定義為類中心之間距離的平方和。5.3

k均值聚類第五章聚類k均值聚類的算法思想(1)從包含n個(gè)數(shù)據(jù)對(duì)象的數(shù)據(jù)集中隨機(jī)的選擇k個(gè)對(duì)象,每個(gè)對(duì)象代表一個(gè)簇的平均值或質(zhì)心或中心;(2)對(duì)剩余的每個(gè)數(shù)據(jù)對(duì)象點(diǎn)根據(jù)其與各個(gè)簇中心的距離,將它指派到最近的簇;(3)根據(jù)指派到簇的數(shù)據(jù)對(duì)象點(diǎn),更新每個(gè)簇的中心;(4)重復(fù)指派和更新步驟,直到簇不發(fā)生變化,或直到中心不發(fā)生變化,或度量聚類質(zhì)量的目標(biāo)函數(shù)收斂。

5.3

k均值聚類第五章聚類k均值算法輸入:所期望的簇的數(shù)目k,包含n個(gè)對(duì)象的數(shù)據(jù)集D輸出:k個(gè)簇的集合①?gòu)腄中任意選擇k個(gè)對(duì)象作為初始簇中心;②repeat③將每個(gè)點(diǎn)指派到最近的中心,形成k個(gè)簇;④重新計(jì)算每個(gè)簇的中心;⑤計(jì)算目標(biāo)函數(shù)E;⑥until目標(biāo)函數(shù)E不再發(fā)生變化或中心不再發(fā)生變化;5.3

k均值聚類第五章聚類Python實(shí)現(xiàn)對(duì)鳶尾花數(shù)據(jù)集k均值聚類可使用sklearn.cluster中的KMeans模型來實(shí)現(xiàn)k均值算法:sklearn.cluster.KMeans(n_clusters=8,init='k-means++',n_init=10,max_iter=300,tol=0.0001,precompute_distances='auto',n_jobs=1)n_clusters:整形,缺省值為8,擬打算生成的聚類數(shù)。init:簇質(zhì)心初始值的選擇方式,有k-means++、random、以及一個(gè)ndarray三種可選值。n_init:用不同的初始化質(zhì)心運(yùn)行算法的次數(shù),多運(yùn)行幾次以選擇一個(gè)較好的聚類效果,默認(rèn)是10precompute_distances:預(yù)計(jì)算距離,計(jì)算速度快但占用更多內(nèi)存。5.3

k均值聚類第五章聚類KMeans模型的屬性cluster_centers_:輸出聚類的質(zhì)心,數(shù)據(jù)形式是數(shù)組。labels_:輸出每個(gè)樣本點(diǎn)對(duì)應(yīng)的類別。inertia_:float型,每個(gè)點(diǎn)到其簇的質(zhì)心的距離的平方和KMeans模型的方法fit(X):在數(shù)據(jù)集X上進(jìn)行k-means聚類。predict(X):對(duì)X中的每個(gè)樣本預(yù)測(cè)其所屬的類別。fit_predict(X):計(jì)算X的聚類中心,并預(yù)測(cè)X中每個(gè)樣本的所屬的類別,相當(dāng)于先調(diào)用fit(X)再調(diào)用predict(X)。score(X[,y]):X中每一點(diǎn)到聚類中心的距離平方和的相反數(shù)。5.3

k均值聚類第五章聚類使用k-means對(duì)鳶尾花數(shù)據(jù)集聚類fromsklearn.datasetsimportload_irisfromsklearn.clusterimportKMeansimportmatplotlib.pyplotaspltimportnumpyasnpimportmatplotlibfromsklearn.cross_validationimporttrain_test_split#交叉驗(yàn)證iris=load_iris()#加載數(shù)據(jù)

target=iris.target#提取數(shù)據(jù)集中的標(biāo)簽(花的類別)set(target)#查看數(shù)據(jù)集中的標(biāo)簽的不同值,{0,1,2}iris['feature_names']#查看數(shù)據(jù)的特征名['sepallength(cm)','sepalwidth(cm)','petallength(cm)','petalwidth(cm)']5.3

k均值聚類第五章聚類使用k-means對(duì)鳶尾花數(shù)據(jù)集聚類data=iris.data#提取數(shù)據(jù)集中的特征數(shù)據(jù)X=data[:,[0,2]]#提取第1列和第3列,即花萼與花瓣長(zhǎng)度y=iris.target#獲取類別屬性數(shù)據(jù)label=np.array(y)#轉(zhuǎn)換數(shù)據(jù)類型index_0=np.where(label==0)#獲取類別為0的數(shù)據(jù)索引#按選取的兩個(gè)特征繪制散點(diǎn)plt.scatter(X[index_0,0],X[index_0,1],marker='o',color='red',edgecolors='k',label='label0')index_1=np.where(label==1)#獲取類別為1的數(shù)據(jù)索引plt.scatter(X[index_1,0],X[index_1,1],marker='*',color='purple',label='label1')5.3

k均值聚類第五章聚類使用k-means對(duì)鳶尾花數(shù)據(jù)集聚類index_2=np.where(label==2)#獲取類別為2的數(shù)據(jù)索引plt.scatter(X[index_2,0],X[index_2,1],marker='+',color='blue',label='label2')plt.xlabel('sepallength',fontsize=15)plt.ylabel('petallength',fontsize=15)plt.legend(loc='lowerright')plt.show()#顯示按鳶尾花數(shù)據(jù)集的兩個(gè)特征繪制的散點(diǎn)圖5.3

k均值聚類第五章聚類使用k-means對(duì)鳶尾花數(shù)據(jù)集聚類X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=1)kms=KMeans(n_clusters=3)#構(gòu)造k均值模型,設(shè)定聚類數(shù)為3kms.fit(X_train)#在數(shù)據(jù)集X_train上進(jìn)行k-means聚類label_pred=kms.labels_#獲取聚類標(biāo)簽#繪制k-means結(jié)果x0=X_train[label_pred==0]x1=X_train[label_pred==1]x2=X_train[label_pred==2]plt.scatter(x0[:,0],x0[:,1],color='red',marker='o',edgecolors='k',label='label0')5.3

k均值聚類第五章聚類使用k-means對(duì)鳶尾花數(shù)據(jù)集聚類plt.scatter(x1[:,0],x1[:,1],color='blue',marker='*',edgecolors='k',label='label1')plt.scatter(x2[:,0],x2[:,1],c="k",marker='+',label='label2')>>>plt.xlabel('sepallength',fontsize=15)>>>plt.ylabel('petallength',fontsize=15)>>>plt.legend(loc='lowerright')>>>plt.show()#顯示鳶尾花數(shù)據(jù)集k-means聚類的結(jié)果5.3

第五章

聚類5.1什么是聚類分析?5.2聚類方法分類5.3

k均值聚類of4377高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用5.5密度聚類k均值聚類5.3

k均值聚類5.4層次聚類5.4層次聚類第五章聚類層次聚類原理層次聚類是通過遞歸地對(duì)數(shù)據(jù)對(duì)象進(jìn)行合并或者分裂,直到滿足某種終止條件為止。根據(jù)層次分解是自底向上(合并)還是自頂向下(分裂)形成,層次聚類方法分為凝聚型聚類方法和分裂型聚類方法。自底向上的凝聚層次聚類輸入:n個(gè)對(duì)象,終止條件簇的數(shù)目k輸出:k個(gè)簇1:將每個(gè)對(duì)象當(dāng)成一個(gè)初始簇2:Repeat3:根據(jù)兩個(gè)簇中最近的數(shù)據(jù)點(diǎn)找到最近的兩個(gè)簇4:合并兩個(gè)簇,生成新的簇的集合5:Until達(dá)到定義的簇的數(shù)目5.4層次聚類第五章聚類使用AGNES算法將表格中的數(shù)據(jù)聚為2個(gè)簇。序號(hào)屬性1屬性21112123214225346357448455.4層次聚類第五章聚類使用AGNES算法將表格中的數(shù)據(jù)聚為2個(gè)簇。步驟最近的簇距離選取最近的兩個(gè)簇合并后的新簇11{1}、{2}{1,2}、{3}、{4}、{5}、{6}、{7}、{8}21{3}、{4}{1,2}、{3,4}、{5}、{6}、{7}、{8}31{5}、{6}{1,2}、{3,4}、{5,6}、{7}、{8}41{7}、{8}{1,2}、{3,4}、{5,6}、{7,8}51{1、2}、{3、4}{1,2,3,4}、{5,6}、{7,8}61{5、6}、{7、8}

{1,2,3,4}、{5,6,7,8}5.4層次聚類第五章聚類自頂向下的分裂層次聚類首先將所有對(duì)象置于一個(gè)簇中,然后逐漸細(xì)分為越來越小的簇,直到每個(gè)對(duì)象自成一簇,或者達(dá)到了某個(gè)終止條件,例如達(dá)到了某個(gè)希望的簇?cái)?shù)目,或者兩個(gè)最近的簇之間的距離超過了某個(gè)閾值。經(jīng)典的分裂層次聚類算法以DIANA算法為代表。簇間距離度量方法1)簇間最小距離是指用兩個(gè)簇中所有數(shù)據(jù)點(diǎn)的最近距離代表兩個(gè)簇的距離。2)簇間最大距離是指用兩個(gè)簇所有數(shù)據(jù)點(diǎn)的最遠(yuǎn)距離代表兩個(gè)簇的距離。5.4層次聚類第五章聚類自頂向下的分裂層次聚類簇間距離度量方法3)簇間均值距離是指用兩個(gè)簇各自中心點(diǎn)之間的距離代表兩個(gè)簇的距離。4)簇間平均距離用兩個(gè)簇所有數(shù)據(jù)點(diǎn)間的距離的平均值代表兩個(gè)簇的距離。最小最大度量代表了簇間距離度量的兩個(gè)極端,它們趨向?qū)﹄x群點(diǎn)或噪聲數(shù)據(jù)過分敏感。使用均值距離和平均距離是對(duì)最小和最大距離之間的一種折中方法,而且可以克服離群點(diǎn)敏感性問題。盡管均值距離計(jì)算簡(jiǎn)單,但是平均距離也有它的優(yōu)勢(shì),因?yàn)樗饶芴幚頂?shù)值數(shù)據(jù)又能處理分類數(shù)據(jù)。5.4層次聚類第五章聚類Python實(shí)現(xiàn)簇間最大距離的凝聚層次聚類算法importpandasaspdimportnumpyasnpnp.random.seed(150)features=['f1','f2','f3']#設(shè)置特征的名稱labels=["s0","s1","s2","s3","s4"]#設(shè)置數(shù)據(jù)樣本編號(hào)X=np.random.random_sample([5,3])*10#生成一個(gè)(5,3)的數(shù)組#通過pandas將數(shù)組轉(zhuǎn)換成一個(gè)DataFrame類型df=pd.DataFrame(X,columns=features,index=labels)5.4層次聚類第五章聚類Python實(shí)現(xiàn)簇間最大距離的凝聚層次聚類算法print(df)#查看生成的數(shù)據(jù)運(yùn)行上述代碼得到的輸出結(jié)果如下:f1f2f3s09.0858392.5797168.776551s17.3896556.9807655.172086s29.5210969.1364450.781745s37.8232051.1366546.408499s40.7976302.3196603.8595155.4層次聚類第五章聚類Python實(shí)現(xiàn)簇間最大距離的凝聚層次聚類算法下面使用scipy庫(kù)中spatial.distance子模塊下的pdist函數(shù)來計(jì)算距離矩陣,將矩陣用一個(gè)DataFrame對(duì)象進(jìn)行保存。pdist:計(jì)算兩兩樣本間的歐氏距離,返回的是一個(gè)一維數(shù)組squareform:將數(shù)組轉(zhuǎn)成一個(gè)對(duì)稱矩陣fromscipy.spatial.distanceimportpdist,squareformdist_matrix=pd.DataFrame(squareform(pdist(df,metric='euclidean')),columns=labels,index=labels)print(dist_matrix)#查看距離矩陣在上述代碼中,基于樣本的特征f1、f2和f3,使用歐幾里得距離計(jì)算了兩兩樣本間的距離,運(yùn)行上述代碼得到的結(jié)果如下:5.4層次聚類第五章聚類Python實(shí)現(xiàn)簇間最大距離的凝聚層次聚類算法

s0s1s2s3s4s00.0000005.93619810.3487723.0470239.640502s15.9361980.0000005.3352695.9891848.179458s210.3487725.3352690.0000009.92672511.490870s33.0470235.9891849.9267250.0000007.566738s49.6405028.17945811.4908707.5667380.0000005.4層次聚類第五章聚類Python實(shí)現(xiàn)簇間最大距離的凝聚層次聚類算法下面通過scipy的linkage函數(shù),獲取一個(gè)以簇間最大距離作為距離判定標(biāo)準(zhǔn)的關(guān)系矩陣。fromscipy.cluster.hierarchyimportlinkage#linkage()以簇間最大距離作為距離判斷標(biāo)準(zhǔn),得到一個(gè)關(guān)系矩陣#linkage()返回長(zhǎng)度為n-1的數(shù)組,其包含每一步合并簇的信息,n為數(shù)據(jù)集的樣本數(shù)row_clusters=linkage(pdist(df,metric='euclidean'),method="complete")print(row_clusters)#輸出合并簇的過程信息輸出結(jié)果如下:5.4層次聚類第五章聚類Python實(shí)現(xiàn)簇間最大距離的凝聚層次聚類算法輸出結(jié)果如下:[[0.3.3.047022522.][1.2.5.335268652.][4.5.9.64050243.][6.7.11.490869655.]]每一行的格式是[idx1,idx2,dist,sample_count]。在第一步[0.3.3.047022522.]中,linkage()決定合并簇0和簇3,因?yàn)樗麄冎g的距離為3.04702252,為當(dāng)前最短距離。這里的0和3分別代表簇在數(shù)組中的下標(biāo)。在這一步中,一個(gè)具有兩個(gè)實(shí)驗(yàn)樣本的簇(該簇在數(shù)組中的下標(biāo)為5)誕生了。5.4層次聚類第五章聚類Python實(shí)現(xiàn)簇間最大距離的凝聚層次聚類算法#將關(guān)系矩陣轉(zhuǎn)換成一個(gè)DataFrame對(duì)象clusters=pd.DataFrame(row_clusters,columns=["label1","label2","distance","samplesize"],index=["cluster%d"%(i+1)foriinrange(row_clusters.shape[0])])print(clusters)輸出結(jié)果如下:label1label2distancesamplesizecluster10.03.03.0470232.0cluster21.02.05.3352692.0cluster34.05.09.6405023.0cluster46.07.011.4908705.0結(jié)果的第一列表示合并過程中新生成的簇,第二列和第三列表示被合并的兩個(gè)簇,第四列表示的是兩個(gè)簇的歐氏距離,最后一列表示的是合并后的簇中的樣本的數(shù)量。第五章

聚類5.1什么是聚類分析?5.2聚類方法分類5.3

k均值聚類of4390高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用5.4層次聚類5.5密度聚類5.5

密度聚類第五章聚類密度聚類原理基于密度的聚類方法以數(shù)據(jù)集在空間分布上的稠密程度為依據(jù)進(jìn)行聚類,無需預(yù)先設(shè)定簇的數(shù)量,特別適合對(duì)于未知內(nèi)容的數(shù)據(jù)集進(jìn)行聚類?;诿芏鹊木垲惙椒ǖ拇硭惴镈BSCAN(Density-BasedSpatialClusteringofApplicationswithNoise,具有噪聲的基于密度的聚類)算法?;诿芏染垲惙椒ǖ幕舅枷胧牵褐灰粋€(gè)區(qū)域中的點(diǎn)的密度大于某個(gè)閾值,就把它加到與之相近的聚類中去,對(duì)于簇中每個(gè)對(duì)象,在給定的半徑的ε鄰域中至少要包含最小數(shù)目(MinPts)個(gè)對(duì)象。5.5

密度聚類第五章聚類DBSCAN聚類算法所用到的基本術(shù)語(yǔ)對(duì)象的

鄰域:給定對(duì)象半徑為

內(nèi)的區(qū)域稱為該對(duì)象的

鄰域。核心對(duì)象:如果給定對(duì)象

鄰域內(nèi)的樣本點(diǎn)數(shù)大于等于MinPts,則稱該對(duì)象為核心對(duì)象。如下圖中,設(shè)定

=1、MinPts=5,q是一個(gè)核心對(duì)象。MinPts:數(shù)據(jù)對(duì)象的

鄰域中至少包含的對(duì)象數(shù)目。直接密度可達(dá):如果p在q的

鄰域內(nèi),而q是一個(gè)核心對(duì)象,則稱對(duì)象p從對(duì)象q出發(fā)是直接密度可達(dá)的。5.5

密度聚類第五章聚類密度可達(dá)如果存在一個(gè)對(duì)象鏈p1,…,pn,q=p1,p=pn,使得pi+1是從pi關(guān)于

和MinPts是直接密度可達(dá)的,則對(duì)象p是從對(duì)象q關(guān)于

和MinPts密度可達(dá)的 密度相連如果存在對(duì)象o∈D,使對(duì)象p和q都是從o關(guān)于

和MinPts密度可達(dá)的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論