版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)科學(xué)概論--數(shù)據(jù)挖掘與處理NorthwesternPolytechnicalUniversity西北工業(yè)大學(xué)什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘算法的選擇分類算法的評價標(biāo)準(zhǔn)回歸算法的評價標(biāo)準(zhǔn)分類學(xué)習(xí)邏輯回歸支持向量機(jī)樸素貝葉斯決策樹回歸預(yù)測線性回歸支持向量機(jī)(回歸)決策樹(回歸)聚類分析K-means算法K-medoids聚類輪廓系數(shù)目錄數(shù)據(jù)挖掘--從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),是統(tǒng)計學(xué)、數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的綜合。數(shù)據(jù)挖掘是從數(shù)據(jù)中自動地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu);數(shù)據(jù)挖掘大部分的價值在于利用數(shù)據(jù)挖掘技術(shù)改善預(yù)測模型。一、數(shù)據(jù)挖掘知識發(fā)現(xiàn)(KD)輸出的是規(guī)則數(shù)據(jù)挖掘(DM)輸出的是模型共同點(diǎn)兩種方法輸入的都是學(xué)習(xí)集(learningsets)目的都是盡可能多的自動化數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘過程并不能完全自動化,只能半自動化知識發(fā)現(xiàn)與數(shù)據(jù)挖掘技術(shù)分類預(yù)言(Predication):用歷史預(yù)測未來描述(Description):了解數(shù)據(jù)中潛在的規(guī)律數(shù)據(jù)挖掘技術(shù)異常檢測分類(預(yù)言)聚集序列模式關(guān)聯(lián)分析……數(shù)據(jù)挖掘技術(shù)異常檢測是數(shù)據(jù)挖掘中一個重要方面,用來發(fā)現(xiàn)”小的模式”(相對于聚類),即數(shù)據(jù)集中間顯著不同于其它數(shù)據(jù)的對象。異常探測應(yīng)用電信和信用卡欺騙貸款審批藥物研究氣象預(yù)報金融領(lǐng)域客戶分類網(wǎng)絡(luò)入侵檢測故障檢測與診斷等異常檢測Hawkins(1980)給出了異常的本質(zhì)性的定義:異常是在數(shù)據(jù)集中與眾不同的數(shù)據(jù),使人懷疑這些數(shù)據(jù)并非隨機(jī)偏差,而是產(chǎn)生于完全不同的機(jī)制。聚類算法對異常的定義:異常是聚類嵌于其中的背景噪聲。異常檢測算法對異常的定義:異常是既不屬于聚類也不屬于背景噪聲的點(diǎn)。他們的行為與正常的行為有很大不同。什么是異常(outlier)?基于統(tǒng)計(statistical-based)的方法基于距離(distance-based)的方法基于偏差(deviation-based)的方法基于密度(density-based)的方法高維數(shù)據(jù)的異常探測異常檢測方法的分類分類:預(yù)測分類標(biāo)號(或離散值)根據(jù)訓(xùn)練數(shù)據(jù)集和類標(biāo)號屬性,構(gòu)建模型來分類現(xiàn)有數(shù)據(jù),并用來分類新數(shù)據(jù)預(yù)測:建立連續(xù)函數(shù)值模型,比如預(yù)測空缺值典型應(yīng)用信譽(yù)證實目標(biāo)市場醫(yī)療診斷性能預(yù)測分類VS.預(yù)測Scikit-learn模型選擇第一步,建立一個模型,描述預(yù)定數(shù)據(jù)類集和概念集假定每個元組屬于一個預(yù)定義的類,由一個類標(biāo)號屬性確定基本概念訓(xùn)練數(shù)據(jù)集:由為建立模型而被分析的數(shù)據(jù)元組形成訓(xùn)練樣本:訓(xùn)練數(shù)據(jù)集中的單個樣本(元組)學(xué)習(xí)模型可以用分類規(guī)則、判定樹或數(shù)學(xué)公式的形式提供第二步,使用模型,對將來的或未知的對象進(jìn)行分類首先評估模型的預(yù)測準(zhǔn)確率對每個測試樣本,將已知的類標(biāo)號和該樣本的學(xué)習(xí)模型類預(yù)測比較模型在給定測試集上的準(zhǔn)確率是正確被模型分類的測試樣本的百分比測試集要獨(dú)立于訓(xùn)練樣本集,否則會出現(xiàn)“過分適應(yīng)數(shù)據(jù)”的情況數(shù)據(jù)分類:兩步過程第一步:建立模型訓(xùn)練數(shù)據(jù)集分類算法IFrank=‘professor’ORyears>6THENtenured=‘yes’分類規(guī)則第二步:用模型進(jìn)行分類分類規(guī)則測試集未知數(shù)據(jù)(Jeff,Professor,4)Tenured?通過對數(shù)據(jù)進(jìn)行預(yù)處理,可以提高分類和預(yù)測過程的準(zhǔn)確性、有效性和可伸縮性數(shù)據(jù)清理消除或減少噪聲,處理空缺值,從而減少學(xué)習(xí)時的混亂相關(guān)性分析數(shù)據(jù)中的有些屬性可能與當(dāng)前任務(wù)不相關(guān);也有些屬性可能是冗余的;刪除這些屬性可以加快學(xué)習(xí)步驟,使學(xué)習(xí)結(jié)果更精確數(shù)據(jù)變換可以將數(shù)據(jù)概化到較高層概念,或?qū)?shù)據(jù)進(jìn)行規(guī)范化準(zhǔn)備分類和預(yù)測的數(shù)據(jù)使用下列標(biāo)準(zhǔn)比較分類和預(yù)測方法預(yù)測的準(zhǔn)確率:模型正確預(yù)測新數(shù)據(jù)的類編號的能力速度:產(chǎn)生和使用模型的計算花銷魯棒性:給定噪聲數(shù)據(jù)或有空缺值的數(shù)據(jù),模型正確預(yù)測的能力可伸縮性:對大量數(shù)據(jù),有效的構(gòu)建模型的能力可解釋性:學(xué)習(xí)模型提供的理解和洞察的層次比較分類方法混淆矩陣查準(zhǔn)率、查全率與F1查準(zhǔn)率:在預(yù)測值為正例的樣本中真實值也為正例的樣本數(shù)量所占的比例.查全率:在真實值為正例的樣本中,預(yù)測值為正例的樣本所占的比例F1:查準(zhǔn)率與查全率的調(diào)和平均數(shù)不同場景海關(guān)稽查走私癌癥篩查預(yù)測準(zhǔn)確性的評估方法貝葉斯分類利用統(tǒng)計學(xué)中的貝葉斯定理,來預(yù)測類成員的概率,即給定一個樣本,計算該樣本屬于一個特定的類的概率。樸素貝葉斯分類:假設(shè)每個屬性之間都是相互獨(dú)立的,并且每個屬性對非類問題產(chǎn)生的影響都是一樣的。貝葉斯分類GaussianNB(高斯樸素貝葉斯)高斯樸素貝葉斯適用于連續(xù)型數(shù)值,比如身高在160cm以下為一類,160-170cm為一個類。MultinomialNB(多項式樸素貝葉斯)多項式樸素貝葉斯常用于文本分類,特征是單詞,值是單詞出現(xiàn)的次數(shù)。BernoulliNB(伯努利樸素貝葉斯)伯努利樸素貝葉斯所用特征為全局特征,只是它計算的不是單詞的數(shù)量,而是出現(xiàn)則為1,否則為0,也就是特征等權(quán)重。Scikit-learn中的貝葉斯分類方法#使用高斯樸素貝葉斯分類:Bayes.ipynbfromsklearn.naive_bayesimportGaussianNBgnb=GaussianNB()model=gnb.fit(x_train,y_train)y_pred=model.predict(x_test)survived_pred=model.predict(x_test)fromsklearn.metricsimportclassification_reportprint(classification_report(y_test,survived_pred,target_names=['died','survived']))預(yù)測泰坦尼克號生還率什么是決策樹?類似于流程圖的樹結(jié)構(gòu)每個內(nèi)部節(jié)點(diǎn)表示在一個屬性上的測試每個分枝代表一個測試輸出每個樹葉節(jié)點(diǎn)代表類或類分布決策樹的生成由兩個階段組成判定樹構(gòu)建開始時,所有的訓(xùn)練樣本都在根節(jié)點(diǎn)遞歸的通過選定的屬性,來劃分樣本(必須是離散值)樹剪枝許多分枝反映的是訓(xùn)練數(shù)據(jù)中的噪聲和孤立點(diǎn),樹剪枝試圖檢測和剪去這種分枝決策樹的使用:對未知樣本進(jìn)行分類通過將樣本的屬性值與判定樹相比較用決策樹歸納分類決策樹算法(一個貪心算法)自頂向下的分治方式構(gòu)造判定樹樹以代表訓(xùn)練樣本的單個根節(jié)點(diǎn)開始使用分類屬性(如果是量化屬性,則需先進(jìn)行離散化)遞歸的通過選擇相應(yīng)的測試屬性,來劃分樣本,一旦一個屬性出現(xiàn)在一個節(jié)點(diǎn)上,就不在該節(jié)點(diǎn)的任何后代上出現(xiàn)測試屬性是根據(jù)某種啟發(fā)信息或者是統(tǒng)計信息來進(jìn)行選擇(如:信息增益)遞歸劃分步驟停止的條件給定節(jié)點(diǎn)的所有樣本屬于同一類沒有剩余屬性可以用來進(jìn)一步劃分樣本——使用多數(shù)表決沒有剩余的樣本決策樹算法特征選擇、決策樹生產(chǎn)和決策樹裁剪三種常見的決策樹算法,使用某特征對數(shù)據(jù)集劃分之后,各數(shù)據(jù)子集的純度要比劃分前的數(shù)據(jù)集D的純度高,也就是不確定性要比劃分前數(shù)據(jù)集D的不確定性低。ID3:通過信息增益選擇特征C4.5:通過信息增益比選擇特征,C4.5算法是對ID3算法的一種改進(jìn),ID3算法對可取值數(shù)量較多的屬性有所偏好,因此,C4.5算法不再使用信息增益,而是使用信息增益率來改進(jìn)這種不利的影響。CART:通過Gini指數(shù)選擇特征,Gini(D)反映了從數(shù)據(jù)集D中隨機(jī)抽取兩個樣本,其類別標(biāo)記不一致的概率。因此,Gini(D)越小,則數(shù)據(jù)集D純度越高。決策樹創(chuàng)建過程#決策樹判斷是否生還decisiontree.ipynb#從sklearn中引入決策樹分類fromsklearn.treeimportDecisionTreeClassifierdtc=DecisionTreeClassifier()dtc.fit(x_train,y_train)y_pred=dtc.predict(x_test)fromsklearn.metricsimportclassification_reportprint(classification_report(y_test,y_pred,target_names=['died','survived']))決策樹預(yù)測泰坦尼克號生還與否決策樹在模型描述上有著巨大的優(yōu)勢。決策樹的推斷邏輯非常直觀,具有清晰的可解釋性,也可以很方便地將模型進(jìn)行可視化。決策樹的可視化后向傳播是一種神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法;神經(jīng)網(wǎng)絡(luò)是一組連接的輸入/輸出單元,每個連接都與一個權(quán)相連。在學(xué)習(xí)階段,通過調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán),使得能夠預(yù)測輸入樣本的正確標(biāo)號來學(xué)習(xí)。優(yōu)點(diǎn)預(yù)測精度總的來說較高健壯性好,訓(xùn)練樣本中包含錯誤時也可正常工作輸出可能是離散值、連續(xù)值或者是離散或量化屬性的向量值對目標(biāo)進(jìn)行分類較快缺點(diǎn)訓(xùn)練(學(xué)習(xí))時間長蘊(yùn)涵在學(xué)習(xí)的權(quán)中的符號含義很難理解很難根專業(yè)領(lǐng)域知識相整合后向傳播分類k-最臨近分類給定一個未知樣本,k-最臨近分類法搜索模式空間,找出最接近未知樣本的k個訓(xùn)練樣本;然后使用k個最臨近者中最公共的類來預(yù)測當(dāng)前樣本的類標(biāo)號基于案例的推理樣本或案例使用復(fù)雜的符號表示,對于新案例,先檢測是否存在同樣的訓(xùn)練案例;如果找不到,則搜索類似的訓(xùn)練案例遺傳算法結(jié)合生物進(jìn)化思想的算法粗糙集方法模糊集方法允許在分類規(guī)則中定義“模糊的”臨界值或邊界其他分類方法預(yù)測是構(gòu)造和使用模型評估無樣本類,或評估給定樣本可能具有的屬性或值空間。預(yù)測和分類的異同相同點(diǎn)兩者都需要構(gòu)建模型都用模型來估計未知值預(yù)測當(dāng)中主要的估計方法是回歸分析線性回歸和多元回歸非線性回歸不同點(diǎn)分類法主要是用來預(yù)測類標(biāo)號(分類屬性值)預(yù)測法主要是用來估計連續(xù)值(量化屬性值)什么是預(yù)測?MAE:MeanAbsoluteError”(平均絕對誤差)MSE全稱為“MeanSquaredError”(均方誤差)R2score,分子代表預(yù)測值與真實值的差異,而分母代表真實值與平均值的差異。Scikit-learn中使用以下方式導(dǎo)入fromsklearn.metricsimportmean_absolute_error,mean_squared_error,r2_score判斷預(yù)測準(zhǔn)確性線性回歸:Y=+X其中和是回歸系數(shù),可以根據(jù)給定的數(shù)據(jù)點(diǎn),通過最小二乘法來求得多元回歸:Y=+1X1+2X2線性回歸的擴(kuò)展,設(shè)計多個預(yù)測變量,可以用最小二乘法求得上式中的,1和2非線性回歸:Y=+1X1+2X22+3X33對不呈線性依賴的數(shù)據(jù)建模使用多項式回歸建模方法,然后進(jìn)行變量變換,將非線性模型轉(zhuǎn)換為線性模型,然后用最小二乘法求解回歸方法簇(Cluster):一個數(shù)據(jù)對象的集合在同一個類中,對象之間0具有相似性;不同類的對象之間是相異的。聚類分析把一個給定的數(shù)據(jù)對象集合分成不同的簇;聚類是一種無監(jiān)督分類法:沒有預(yù)先指定的類別;典型的應(yīng)用作為一個獨(dú)立的分析工具,用于了解數(shù)據(jù)的分布;作為其它算法的一個數(shù)據(jù)預(yù)處理步驟;數(shù)據(jù)挖掘算法—聚類模式識別空間數(shù)據(jù)分析在GIS中,通過聚類發(fā)現(xiàn)特征空間來建立主題索引;在空間數(shù)據(jù)挖掘中,檢測并解釋空間中的簇;圖象處理經(jīng)濟(jì)學(xué)(尤其是市場研究方面)WWW文檔分類分析WEB日志數(shù)據(jù)來發(fā)現(xiàn)相似的訪問模式聚類的常規(guī)應(yīng)用市場銷售:
幫助市場人員發(fā)現(xiàn)客戶中的不同群體,然后用這些知識來開展一個目標(biāo)明確的市場計劃;土地使用:
在一個陸地觀察數(shù)據(jù)庫中標(biāo)識那些土地使用相似的地區(qū);保險:
對購買了汽車保險的客戶,標(biāo)識那些有較高平均賠償成本的客戶;城市規(guī)劃:
根據(jù)類型、價格、地理位置等來劃分不同類型的住宅;地震研究:
根據(jù)地質(zhì)斷層的特點(diǎn)把已觀察到的地震中心分成不同的類;應(yīng)用聚類分析的例子一個好的聚類方法要能產(chǎn)生高質(zhì)量的聚類結(jié)果——簇,這些簇要具備以下兩個特點(diǎn):高的簇內(nèi)相似性低的簇間相似性聚類結(jié)果的好壞取決于該聚類方法采用的相似性評估方法以及該方法的具體實現(xiàn);聚類方法的好壞還取決與該方法是能發(fā)現(xiàn)某些還是所有的隱含模式;聚類方法性能評價輸入集適應(yīng)性能夠處理噪聲和異常對輸入數(shù)據(jù)對象的順序不敏感能處理高維數(shù)據(jù)在決定輸入?yún)?shù)的時候,盡量不需要特定的領(lǐng)域知識;方法特性可伸縮性能夠處理不同類型的屬性能發(fā)現(xiàn)任意形狀的簇結(jié)果能產(chǎn)生一個好的、能滿足用戶指定約束的聚類結(jié)果結(jié)果是可解釋的、可理解的和可用的聚類方法性能評價差異度/相似度矩陣:相似度通常用距離函數(shù)來表示;有一個單獨(dú)的質(zhì)量評估函數(shù)來評判一個簇的好壞;對不同類型的變量,距離函數(shù)的定義通常是不同的,這在下面有詳細(xì)討論;根據(jù)實際的應(yīng)用和數(shù)據(jù)的語義,在計算距離的時候,不同的變量有不同的權(quán)值相聯(lián)系;很難定義“足夠相似了”或者“足夠好了”只能憑主觀確定;評價聚類質(zhì)量k-means聚類:一種基于距離的聚類算法,模型可解釋性強(qiáng),運(yùn)用較為廣泛。1)隨機(jī)選取k個中心點(diǎn);2)遍歷樣本數(shù)據(jù),將每個樣本劃分到最近的中心點(diǎn);3)計算每個類中樣本的平均值,并作為新的中心點(diǎn);4)重復(fù)步驟2-3,直到中心點(diǎn)不再變化或者達(dá)到最大迭代次數(shù)。k-medoids聚類:1) 在總體n個樣本點(diǎn)中任意選取k個點(diǎn)作為medoids;2) 按照與medoids最近的原則,將剩余的n-k個點(diǎn)分配到當(dāng)前最佳的medoids代表的類中;3) 對于第i個類中除對應(yīng)medoids點(diǎn)外的所有其他點(diǎn),按順序計算當(dāng)其為新的medoids時,準(zhǔn)則函數(shù)的值,遍歷所有可能,選取準(zhǔn)則函數(shù)最小時對應(yīng)的點(diǎn)作為新的medoids;4) 重復(fù)2-3的過程,直到所有的medoids點(diǎn)不再發(fā)生變化或已達(dá)到設(shè)定的最大迭代次數(shù);5) 產(chǎn)出最終確定的k個類常用聚類算法Scikit-learn的聚類算法make_blobs生成測試數(shù)據(jù)使用Kmeans算法進(jìn)行聚類fromsklearn.clusterimportKMeanskmeans=KMeans(n_clusters=4)kmeans.fit(data)y_kmeans=kmeans.predict(data)使用不同顏色表示不同的聚類plt.scatter(data[:,0],data[:,1],c=y_kmeans,s=50,cmap='viridis')centers=kmeans.cluster_centers_plt.scatter(centers[:,0],centers[:,1],c='black',s=200,alpha=0.5)K-means算法例子k-means.ipynbk-means算法并不保證結(jié)果是全局最優(yōu)的,并且在聚類之前需要指定聚類的個數(shù),也就是簇的數(shù)量,它自己不會從數(shù)據(jù)中學(xué)習(xí)出簇的數(shù)量,如果選擇的簇的數(shù)量不恰當(dāng),k-means算法盡管也會執(zhí)行,但結(jié)果會不盡人意。K-means聚類的缺點(diǎn)輪廓系數(shù)(SilhouetteCoefficient)是結(jié)合類內(nèi)聚合程度和類間離散程度來評估聚類性能,對任意樣本點(diǎn),計算方法為:1)計算到簇中個點(diǎn)的平均簇內(nèi)距離a(Xi),也稱之為類內(nèi)聚合度;2)分別計算到其它簇中各點(diǎn)的平均距離,取最小值記為b(Xi),也稱之為類間離散度;3)用s(Xi)表示輪廓系數(shù),計算公式如下:
s(Xi)的取值范圍為[-1,1],若s接近-1,表示樣本更應(yīng)該分到其它簇。使用輪廓系數(shù)評價聚類個數(shù)選擇使系數(shù)較大所對應(yīng)的k值Forn_clusters=2Theaveragesilhouette_scoreis:0.704978749608Forn_clusters=3Theaveragesilhouette_scoreis:0.588200401213Forn_clusters=4Theaveragesilhouette_scoreis:0.650518663273Forn_clusters=5Theaveragesilhouette_scoreis:0.563764690262Forn_clusters=6Theaveragesilhouette_scoreis:0.450466629437使用輪廓系數(shù)評價聚類效果手肘法利用SSE(sumofthesquarederrors,誤差平方和)判斷聚類個數(shù)是否最優(yōu)隨著聚類數(shù)k的增大,樣本劃分會更加精細(xì),每個簇的聚合程度會逐漸提高,那么誤差平方和SSE自然會逐漸變小。當(dāng)k小于真實聚類數(shù)時,由于k的增大會大幅增加每個簇的聚合程度,故SSE的下降幅度會很大,而當(dāng)k到達(dá)真實聚類數(shù)時,再增加k所得到的聚合程度回報會迅速變小,所以
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 奢侈品培訓(xùn)汽車
- 專業(yè)分包化標(biāo)準(zhǔn)精裝修工程管理
- Windows Server網(wǎng)絡(luò)管理項目教程(Windows Server 2022)(微課版)3.6 DHCP-任務(wù)5 DHCP客戶端配置
- 語法選修課 高中英語 非謂語動詞 A篇
- 江蘇省徐州市銅山區(qū)2023-2024學(xué)年九年級上學(xué)期期中英語試卷(含答案解析)
- 第六章質(zhì)量與密度基礎(chǔ)練習(xí)題(含解析)2024-2025學(xué)年初中物理人教版八年級上冊
- 2024至2030年中國干豬膀胱行業(yè)投資前景及策略咨詢研究報告
- 2024至2030年中國多用途雙面黏貼布帶行業(yè)投資前景及策略咨詢研究報告
- 2024至2030年中國保安單元?dú)?shù)據(jù)監(jiān)測研究報告
- 2024年山東省中考語文試題含解析
- 5個人股東合作協(xié)議書
- 輕質(zhì)陶粒墻板項目立項申請報告
- 化工廠用電安全講課
- 學(xué)術(shù)英語寫作(本科)智慧樹知到期末考試答案2024年
- 糧油質(zhì)量檢驗-課件-項目四-小麥粉質(zhì)量檢驗
- AQ2059-2016 磷石膏庫安全技術(shù)規(guī)程
- 安全員繼續(xù)教育考試題庫1000道附參考答案(完整版)
- 2024年中儲糧集團(tuán)招聘筆試參考題庫附帶答案詳解
- (2024年)保安培訓(xùn)圖文課件
- 2023年《中職音樂》期末考試試卷及參考答案(卷)
- 中建八局項目管理策劃方案
評論
0/150
提交評論