數(shù)據(jù)挖掘和分析31W21A_第1頁
數(shù)據(jù)挖掘和分析31W21A_第2頁
數(shù)據(jù)挖掘和分析31W21A_第3頁
數(shù)據(jù)挖掘和分析31W21A_第4頁
數(shù)據(jù)挖掘和分析31W21A_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、期末復(fù)習(xí)2015 第21周數(shù)據(jù)挖掘和分析基礎(chǔ) 數(shù)據(jù)分析中,如果我們希望研究變量之間的關(guān)系,會(huì)選擇一部分變量作為自變量(預(yù)測(cè)變量),另一部分變量作為因變量.根據(jù)自變量和因變量的類型(連續(xù)型或類別型),需要用不同的分析方法.請(qǐng)就四種情況按照表格分類說明應(yīng)用何種分析方法.數(shù)據(jù)的預(yù)處理 數(shù)據(jù)的規(guī)范化和標(biāo)準(zhǔn)化 給定幾科的成績(jī),根據(jù)各科“標(biāo)準(zhǔn)分”的平均分進(jìn)行排序 關(guān)鍵換算方式(公式)和流程,文字、偽代碼、流程圖均可 數(shù)據(jù)的相似度和相異度(距離) 給定兩個(gè)數(shù)據(jù)點(diǎn)(兩個(gè)n維向量),計(jì)算它們之間的歐幾里得距離和曼哈頓距離 缺失值 給定某個(gè)數(shù)據(jù)集中的缺失值出現(xiàn)狀況,給出對(duì)應(yīng)方案 刪除列、刪除行、還是填補(bǔ)以及如何填

2、補(bǔ)?數(shù)據(jù)的基礎(chǔ)分析 可視化:箱線圖的解釋 箱線圖的示意畫法:標(biāo)注各種元素 統(tǒng)計(jì)方法的選擇:中值、均值、極差、方差 公式和文字說明 偏度、峰度 畫圖說明意義,以及說明取值范圍回歸分析 多元線性回歸 簡(jiǎn)單說明數(shù)學(xué)原理 給定R的輸出,解釋回歸結(jié)果 全子集回歸模型選擇 根據(jù)全子集回歸圖選擇最優(yōu)回歸模型的過程 說明理由 殘差分析圖 理解回歸模型的殘差圖(4聯(lián)) 根據(jù)殘差圖的情況,說明需要對(duì)數(shù)據(jù)和模型的處理方差分析和廣義線性模型 廣義線性模型 Logistic回歸的定義和適用范圍 泊松回歸的定義和適用范圍 方差分析 1,2 單因素方差分析的原理和步驟 方差分析對(duì)數(shù)據(jù)的統(tǒng)計(jì)假設(shè) 方差分析的協(xié)方差分析假設(shè)檢驗(yàn)

3、,功效分析,重抽樣與自助法 置換檢驗(yàn) 描述如何用置換法檢測(cè)兩組之間的區(qū)別(t統(tǒng)計(jì)量) 流程圖,文字,畫圖等方式,必要時(shí)都可使用 自助法 描述如何使用自助法對(duì)統(tǒng)計(jì)量進(jìn)行區(qū)間估計(jì) 流程圖,文字,畫圖等方式,必要時(shí)都可使用 功效分析 給定假設(shè)分布的參數(shù),給出第一類和第二類錯(cuò)誤的值分類分析 決策樹 給定某一節(jié)點(diǎn)上的數(shù)據(jù)集,使用增益計(jì)算最優(yōu)的分裂方式 樸素貝葉斯 給定某一訓(xùn)練集,使用樸素貝葉斯方法對(duì)新的數(shù)據(jù)記錄進(jìn)行分類 根據(jù)應(yīng)用場(chǎng)景選擇適用的分類方法 決策樹、貝葉斯、KNN、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等等關(guān)聯(lián)分析 購(gòu)物籃數(shù)據(jù): 給定數(shù)據(jù)集,計(jì)算某些項(xiàng)集的支持度,或者某些規(guī)則的支持度和置信度 Apriori算法: 描述產(chǎn)生頻繁項(xiàng)集或關(guān)聯(lián)規(guī)則的Apriori算法 可以使用偽代碼、流程圖或文字?jǐn)⑹?關(guān)聯(lián)規(guī)則的評(píng)價(jià) 對(duì)指標(biāo)的解釋:Lift,興趣,等等聚類分析 基于原型的 簡(jiǎn)要描述K-means聚類算法并討論其中的最關(guān)鍵操作 可以使用偽代碼、流程圖或文字?jǐn)⑹?基于層次的 簡(jiǎn)要描述凝聚層次聚類算法并討論其中的最關(guān)鍵操作 可以使用偽代碼、流程圖或文字?jǐn)⑹?基于密度的 簡(jiǎn)要描述DBSCAN算法并討論其中的最關(guān)鍵操作 可以使用偽代碼、流程圖或文字?jǐn)⑹銎渌?維歸約 簡(jiǎn)述主成分分析PCA和探索

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論