版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘基礎(chǔ)教程數(shù)據(jù)挖掘基礎(chǔ)教程頁腳內(nèi)容PAGE頁腳內(nèi)容PAGE14數(shù)據(jù)挖掘基礎(chǔ)教程頁腳內(nèi)容PAGE項(xiàng)目1:基于sklearn的數(shù)據(jù)分類挖掘一、項(xiàng)目任務(wù)①熟悉sklearn數(shù)據(jù)挖掘的基本功能。②進(jìn)行用樸素貝葉斯、KNN、決策樹C4.5、SVM算法進(jìn)行數(shù)據(jù)分類分析。二、項(xiàng)目環(huán)境及條件sklearn-0.18.0python-2.7.13numpy-1.11.3+mkl-cp27-cp27m-win_amd64scipy-0.19.0-cp27-cp27m-win_amd64matplotlib-1.5.3-cp27-cp27m-win_amd64三、實(shí)驗(yàn)數(shù)據(jù)Iris數(shù)據(jù)集Iris數(shù)據(jù)集是常用的分類實(shí)驗(yàn)數(shù)據(jù)集,由Fisher,1936收集整理。Iris也稱鳶尾花卉數(shù)據(jù)集,是一類多重變量分析的數(shù)據(jù)集。數(shù)據(jù)集包含150個(gè)數(shù)據(jù)集,分為3類,每類50個(gè)數(shù)據(jù),每個(gè)數(shù)據(jù)包含4個(gè)屬性。可通過花萼長度,花萼寬度,花瓣長度,花瓣寬度4個(gè)屬性預(yù)測鳶尾花卉屬于(Setosa,Versicolour,Virginica)三個(gè)種類中的哪一類。Digits數(shù)據(jù)集美國著名數(shù)據(jù)集NIST的子集,模式識(shí)別常用實(shí)驗(yàn)數(shù)據(jù)集,圖像屬于灰度圖像。分辨率為8x8
四、項(xiàng)目內(nèi)容及過程1.讀取數(shù)據(jù)集從sklearn中讀取iris和digits數(shù)據(jù)集并測試打印fromsklearnimportdatasetsiris=datasets.load_iris()digits=datasets.load_digits()print'iris:',iris.data,'\ndigits:',digits.data打印的數(shù)據(jù)集存在numpy.ndarray中,ndarray會(huì)自動(dòng)省略較長矩陣的中間部分。Iris數(shù)據(jù)集的樣本數(shù)據(jù)為其花瓣的各項(xiàng)屬性Digits數(shù)據(jù)集的樣本數(shù)據(jù)為手寫數(shù)字圖像的像素值2.劃分?jǐn)?shù)據(jù)集引入sklearn的model_selection使用train_test_split劃分digits數(shù)據(jù)集,訓(xùn)練集和測試集比例為8:2fromsklearn.model_selectionimporttrain_test_splitx_train,x_test,y_train,y_test=train_test_split(digits.data,digits.target,test_size=0.2)print'x_train:',x_train,'\nx_test:',x_test,'\ny_train:',y_train,'\ny_test:',y_test3.使用KNN和SVM對(duì)digits測試集分類引用sklearn的svm.SVC和neighbors.KNeighborsClassifier模塊調(diào)用算法,使用classification_report查看預(yù)測結(jié)果的準(zhǔn)確率和召回率fromsklearn.metricsimportclassification_reportfromsklearnimportneighborsclf=neighbors.KNeighborsClassifier()clf.fit(x_train,y_train)y_pred=clf.predict(x_test)printclassification_report(y_test,y_pred)fromsklearn.svmimportSVCclf=SVC()clf.fit(x_train,y_train)y_pred=clf.predict(x_test)printclassification_report(y_test,y_pred)KNN的預(yù)測結(jié)果:所有數(shù)字的預(yù)測正確率幾乎達(dá)到了100%SVM的預(yù)測結(jié)果:對(duì)部分?jǐn)?shù)字的預(yù)測誤差較大,基本情況不如KNN考慮SVM分類器的特性,在分類前對(duì)特征值進(jìn)行標(biāo)準(zhǔn)化后再分類:fromsklearnimportpreprocessingmin_max_scaler=preprocessing.MinMaxScaler()x_train=min_max_scaler.fit_transform(x_train)x_test=min_max_scaler.fit_transform(x_test)標(biāo)準(zhǔn)化數(shù)據(jù)后SVM的預(yù)測結(jié)果達(dá)到了KNN的準(zhǔn)度:4.使用貝葉斯和決策樹對(duì)iris數(shù)據(jù)集分類fromsklearn.model_selectionimporttrain_test_splitx_train,x_test,y_train,y_test=train_test_split(iris.data,iris.target,test_size=0.4)fromsklearn.metricsimportclassification_reportfromsklearnimportnaive_bayesclf=naive_bayes.GaussianNB()clf.fit(x_train,y_train)y_pred=clf.predict(x_test)printclassification_report(y_test,y_pred)fromsklearnimporttreeclf=tree.DecisionTreeClassifier()clf.fit(x_train,y_train)y_pred=clf.predict(x_test)printclassification_report(y_test,y_pred)決策樹和貝葉斯都有較好的分類效果五、實(shí)驗(yàn)結(jié)果分析為什么用svm和knn處理digits數(shù)據(jù)集,用tree和bayes處理iris數(shù)據(jù)集,這是一個(gè)經(jīng)驗(yàn)問題。我們都知道digits數(shù)據(jù)集的每一個(gè)特征就是像素點(diǎn)的像素值,他們的維度都是在0~255以內(nèi);像素點(diǎn)之間的維度完全一致,互相沒有優(yōu)先級(jí)。這種情況下使用線性分類器如KNN、SVM、Logistic會(huì)有更好的效果。而iris數(shù)據(jù)集雖然長度和寬度維度差不多相同,但是兩者之間有優(yōu)先級(jí)的區(qū)分,按照人腦分類的思維方式可能是先按照長度判斷再按照寬度等思維方式,很接近決策樹的算法原理,貝葉斯同樣。所以概率性分類器有更好的效果。實(shí)際情況也是使用SVM預(yù)測iris的結(jié)果和Bayes預(yù)測digits的結(jié)果不甚理想(雖然也有很高的準(zhǔn)度了)。當(dāng)然,通過調(diào)整分類器的參數(shù),能使各個(gè)分類器的預(yù)測結(jié)果都達(dá)到滿意結(jié)果,綜合表現(xiàn)還是KNN更搶眼,能在各種數(shù)據(jù)集面前都有出色表現(xiàn),但KNN在訓(xùn)練樣本數(shù)量達(dá)到一定程度后,有超高的計(jì)算復(fù)雜度。所以面對(duì)實(shí)際情況,選用什么分類器,如何調(diào)節(jié)參數(shù)都是值得深思的問題。項(xiàng)目2:基于sklearn的數(shù)據(jù)聚類挖掘一、實(shí)驗(yàn)任務(wù)①熟悉sklearn數(shù)據(jù)挖掘平臺(tái)的基本功能。②用K-Means進(jìn)行數(shù)據(jù)聚類分析。二、實(shí)驗(yàn)環(huán)境及條件sklearn-0.18.0python-2.7.13matplotlib-1.5.3-cp27-cp27m-win_amd64numpy-1.11.3+mkl-cp27-cp27m-win_amd64scipy-0.19.0-cp27-cp27m-win_amd64三、實(shí)驗(yàn)數(shù)據(jù)隨機(jī)產(chǎn)生的100個(gè)坐標(biāo)點(diǎn),范圍為[0,100]
四、實(shí)驗(yàn)內(nèi)容及過程1.隨機(jī)產(chǎn)生坐標(biāo)值產(chǎn)生的隨機(jī)值在0-100,因?yàn)閟klearn的k-means模塊要求輸入的坐標(biāo)形式為[[x0,y0],…,[x…,y…],…,[xn,yn]],而實(shí)際產(chǎn)生的是[x0,…,xn]和[y0,…,yn],所以還需要對(duì)坐標(biāo)進(jìn)行一次轉(zhuǎn)換fromsklearn.clusterimportKMeansimportnumpyasnpimportmatplotlib.pyplotaspltimportrandomdefcreate_coordinate(): x,y=[],[] foriinrange(100): x.append(random.randint(0,100)) y.append(random.randint(0,100)) returnx,yx,y=create_coordinate()old_coordinate=[[x[i],y[i]]foriinrange(100)]coordinate=np.array(old_coordinate)printold_coordinate產(chǎn)生的隨機(jī)坐標(biāo)值:
2.創(chuàng)建做圖函數(shù)使用k-means對(duì)坐標(biāo)點(diǎn)分為3類,對(duì)0類標(biāo)為紅色,1類標(biāo)為綠色,2類標(biāo)為藍(lán)色。并將三類坐標(biāo)的中心點(diǎn)以‘*’表示在圖中defcreate_chart(x,y,label,center): x_0=[x[i]foriinrange(len(x))iflabel[i]==0] x_1=[x[i]foriinrange(len(x))iflabel[i]==1] x_2=[x[i]foriinrange(len(x))iflabel[i]==2] y_0=[y[i]foriinrange(len(y))iflabel[i]==0] y_1=[y[i]foriinrange(len(y))iflabel[i]==1] y_2=[y[i]foriinrange(len(y))iflabel[i]==2] plt.scatter(x_0,y_0,c='r') plt.scatter(x_1,y_1,c='g') plt.scatter(x_2,y_2,c='b') plt.scatter([i[0]foriincenter],[i[1]foriincenter],c='m',s=600,marker='*') plt.grid() plt.show()3.使用k-means聚類并預(yù)測新增點(diǎn)的類別kmeans=KMeans(n_clusters=3,random_state=0).fit(coordinate)printkmeans.predict([[0,0],[50,50],[100,100]])create_chart(x,y,kmeans.labels_,kmeans.cluster_centers_)對(duì)新點(diǎn)的預(yù)測:221點(diǎn)的聚類情況:五、實(shí)驗(yàn)結(jié)果分析這次試驗(yàn),使用sklearn的k-means對(duì)100個(gè)坐標(biāo)點(diǎn)聚類。K-means因?yàn)槠浔旧硭惴ǖ脑?,點(diǎn)數(shù)越多聚類速度越慢。所以在20個(gè)點(diǎn)和100個(gè)點(diǎn)的聚類時(shí)間上有很大差距。聚類問題不同于分類問題,沒有明確的預(yù)測和分類結(jié)果,聚類時(shí)對(duì)數(shù)據(jù)的邊界可能會(huì)各不相同,聚類問題在用戶畫像/個(gè)性化推薦等應(yīng)用上有較好地發(fā)揮。
實(shí)驗(yàn)3:在Python程序中引用sklearn一、實(shí)驗(yàn)任務(wù)①用Python開發(fā)一個(gè)綜合部分挖掘算法的演示程序,核心算法來自sklearn類庫。②演示程序界面友好。二、實(shí)驗(yàn)環(huán)境及條件sklearn-0.18.0python-2.7.13matplotlib-1.5.3-cp27-cp27m-win_amd64numpy-1.11.3+mkl-cp27-cp27m-win_amd64scipy-0.19.0-cp27-cp27m-win_amd64PyQt4三、實(shí)驗(yàn)數(shù)據(jù)Iris數(shù)據(jù)集Iris數(shù)據(jù)集是常用的分類實(shí)驗(yàn)數(shù)據(jù)集,由Fisher,1936收集整理。Iris也稱鳶尾花卉數(shù)據(jù)集,是一類多重變量分析的數(shù)據(jù)集。數(shù)據(jù)集包含150個(gè)數(shù)據(jù)集,分為3類,每類50個(gè)數(shù)據(jù),每個(gè)數(shù)據(jù)包含4個(gè)屬性。可通過花萼長度,花萼寬度,花瓣長度,花瓣寬度4個(gè)屬性預(yù)測鳶尾花卉屬于(Setosa,Versicolour,Virginica)三個(gè)種類中的哪一類。Digits數(shù)據(jù)集美國著名數(shù)據(jù)集NIST的子集,模式識(shí)別常用實(shí)驗(yàn)數(shù)據(jù)集,圖像屬于灰度圖像。分辨率為8x8
四、實(shí)驗(yàn)內(nèi)容及過程使用PyQt4創(chuàng)建windows窗體,并提供可選擇的分類方式:SVM——支持向量機(jī)算法KNN——K鄰近算法Bayes——樸素貝葉斯算法Tree——C4.5決策樹算法Logistic——Logistic回歸算法可選擇的歸一化方式:Standard-標(biāo)準(zhǔn)歸一化MaxAndMin-最大最小歸一化可選擇的驗(yàn)證比例可選范圍——(0,1)可調(diào)節(jié)的分類器參數(shù)根據(jù)具體分類器設(shè)置參數(shù)部分代碼確認(rèn)按鈕響應(yīng)事件 defOKPushButton_OnClick(self): data_name=self.data_comboBox.currentText() classify_name=self.classify_comboBox.currentText() normalization_name=self.normalization_comboBox.currentText() parameter_string=self.parameter_text.toPlainText() validation_string=self.validation_text.text() y_test,y_pred=self.load_datasets_and_classify(data_name,classify_name,normalization_name,parameter_string,validation_string) fromsklearn.metricsimportclassification_report self.descTextEdit.setText(classification_report(y_test,y_pred))分類算法執(zhí)行 defload_datasets_and_classify\(self,data_name,classify_name,normalization_name,parameter_string,validation_string): fromsklearnimportdatasets fromsklearn.model_selectionimporttrain_test_split rate=0.2 ifvalidation_string!='': try: rate=float(validation_string) except: self.alert_info(u"輸入的數(shù)值必須是0~1的浮點(diǎn)數(shù)") return ifdata_name=='iris': origin_data=datasets.load_iris() elifdata_name=='digits': origin_data=datasets.load_digits() else: self.alert_
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 餐飲業(yè)貸款合同
- 農(nóng)村農(nóng)業(yè)美術(shù)館貸款合同
- 數(shù)據(jù)庫軟件租賃協(xié)議
- SEM推廣服務(wù)協(xié)議
- 風(fēng)險(xiǎn)管理效果評(píng)估協(xié)議
- 2024六年級(jí)上冊(cè)勞動(dòng)與技術(shù)教學(xué)工作總結(jié)
- 第六單元課外古詩詞誦讀《如夢(mèng)令(常記溪亭日暮)》教學(xué)設(shè)計(jì)-2024-2025學(xué)年統(tǒng)編版語文八年級(jí)上冊(cè) - 副本
- 公共安全監(jiān)控維護(hù)協(xié)議范例
- 辦公設(shè)備租賃協(xié)議實(shí)例
- 風(fēng)險(xiǎn)補(bǔ)償擔(dān)保合同
- 二十屆三中全會(huì)精神學(xué)習(xí)試題及答案(100題)
- 2024二十屆三中全會(huì)知識(shí)競賽題庫及答案
- 2024年江蘇省昆山市自然資源和規(guī)劃局招聘編外13人歷年(高頻重點(diǎn)復(fù)習(xí)提升訓(xùn)練)共500題附帶答案詳解
- 小學(xué)一年級(jí)拼音天天練
- 支氣管哮喘急性發(fā)作個(gè)案護(hù)理記錄
- 一年級(jí)數(shù)學(xué)專項(xiàng)練習(xí)(大括號(hào)問題、求總數(shù)、求部分?jǐn)?shù)、一圖四式)
- 檔案整理及數(shù)字化服務(wù)方案
- 九年級(jí)第一學(xué)期數(shù)學(xué)期中考試試卷細(xì)目表(沈軍)
- 附件1:中央電大護(hù)理專業(yè)本科通科實(shí)習(xí)出科考核病歷
- 李居明的《餓命學(xué)》五+行+餓+命+改+運(yùn)+學(xué)
- 2021年培養(yǎng)選拔優(yōu)秀年輕干部工作總結(jié).doc
評(píng)論
0/150
提交評(píng)論