




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據挖掘第三版第三章課后習題答案數據挖掘第三版第三章課后習題答案/NUMPAGES9數據挖掘第三版第三章課后習題答案數據挖掘第三版第三章課后習題答案2.1再給三個用于數據散布的常用特征度量(即未在本章討論的),并討論如何在大型數據庫中有效的計算它們答:異眾比率:又稱離異比率或變差比。是非眾數組的頻數占總頻數的比率應用:用于衡量眾數的代表性。主要用于測度定類數據的離散程度,定序數據及數值型數據也可以計算。還可以對不同總體或樣本的離散程度進行比較計算:標準分數:標準分數(standardscore)也叫z分數(z-score),是一個分數與平均數的差再除以標準差的過程。用公式表示為:z=(x-μ)/σ。其中x為某一具體分數,μ為平均數,σ為標準差。Z值的量代表著原始分數和母體平均值之間的距離,是以標準差為單位計算。在原始分數低于平均值時Z則為負數,反之則為正數。計算:Z=(x-μ)/σ其中μ=E(X)為平均值、σ²=Var(X)X的概率分布之方差若隨機變量無法確定時,則為算術平均數離散系數:離散系數,又稱“變異系數”,是概率分布離散程度的一個歸一化量度,其定義為標準差與平均值之比。計算:CV=σ/μ極差(全距)系數:Vr=R/X’;平均差系數:Va,d=A.D/X’;方差系數:V方差=方差/X’;標準差系數:V標準差=標準差/X’;其中,X’表示X的平均數。平均差:平均差是總體所有單位的平均值與其算術平均數的離差絕對值的算術平均數。
平均差是一種平均離差。離差是總體各單位的標志值與算術平均數之差。因離差和為零,離差的平均數不能將離差和除以離差的個數求得,而必須講離差取絕對數來消除正負號。
平均差是反應各標志值與算術平均數之間的平均差異。平均差異大,表明各標志值與算術平均數的差異程度越大,該算術平均數的代表性就越小;平均差越小,表明各標志值與算術平均數的差異程度越小,該算術平均數的代表性就越大。計算:平均差=(∑|x-x'|)÷n,其中∑為總計的符號,x為變量,x'為算術平均數,n為變量值的個數。2.2假設所分析的的數據包括屬性age,它在數據元組中的值(以遞增序)為13,15,16,16,19,20,21,22,22,25,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.a.平均值29.963中位數是25b.眾數是25及35數據的模態(tài)是二模c.最大數和最小數的均值=(70+13)/2=41.5d.第一個四分位數在(N+1)/4=(27+1)/4=7處:Q1=20。而第三個四分位數在3×(N+1)/4=21處:Q3=35e.最小值、第一個四分位數、中位數、第三個四分位數、和最大值是:13、20、25、35、70。f.箱線圖為g.分位數圖是一種用來展示數據值低于或等于在一個單變量分布中獨立的變量的粗略百分比。這樣,他可以展示所有數的分位數信息,而為獨立變量測得的值(縱軸)相對于它們的分位數(橫軸)被描繪出來。但分位數—分位數圖用縱軸表示一種單變量分布的分位數,用橫軸表示另一單變量分布的分位數。兩個坐標軸顯示它們的測量值相應分布的值域,且點按照兩種分布分位數值展示。一條線(y=x)可畫到圖中+以增加圖像的信息。落在該線以上的點表示在y軸上顯示的值的分布比x軸的相應的等同分位數對應的值的分布高。反之,對落在該線以下的點則低。2.4C.Q-Q圖為散點圖為a.標稱屬性兩個對象i和j之間的相異性可以根據不匹配率來計算:其中,m是匹配的數目(即i和j取值相同狀態(tài)的屬性數),而p是刻畫對象的屬性總數。我們可以通過賦予m較大的權重,或者賦給有較多狀態(tài)的屬性的匹配更大的權重來增加m的影響。b.非對稱的二元屬性給定兩個非對稱的二元屬性,兩個都取值1的情況(正匹配)被認為比兩個都取值0的情況(負匹配)更有意義。因此,這樣的二元屬性經常被認為是“一元的”(只有一種狀態(tài))?;谶@種屬性的相異性被稱為非對稱的二元相異性,其中負匹配數t被認為是不重要的,因此在計算時被忽略c.數值屬性最流行的距離度量是歐幾里得距離(即,直線或“烏鴉飛行”距離)。令i=(xi1,xi2,…,xip)和j=(xj1,xj2,…,xjp)是兩個被p個數值屬性描述的對象。對象i和j之間的歐幾里得距離定義為:另一個著名的度量方法是曼哈頓(或城市塊)距離,之所以如此命名,是因為它是城市兩點之間的街區(qū)距離(如,向南2個街區(qū),橫過3個街區(qū),共計5個街區(qū))。其定義如下:d.詞頻屬性在一份給定的文件里,詞頻(termfrequency,TF)指的是某一個給定的詞語在該文件中出現的次數。這個數字通常會被正規(guī)化,以防止它偏向長的文件。(同一個詞語在長文件里可能會比短文件有更高的詞頻,而不管該詞語重要與否。)對于在某一特定文件里的詞語ti來說,它的重要性可表示為:以上式子中ni,j是該詞在文件dj中的出現次數,而分母則是在文件dj中所有字詞的出現次數之和。2.6a.歐幾里得距離為45^0.5b.哈曼噸距離為11c.閔可夫斯基距離為233^1/3d.上確定界距離為62.8a.利用公式,得到以下的距離為歐幾里得距離0.140.670.280.220.61余弦相似性距離0.99990.99570.99990.99900.9653基于歐幾里得距離距離,排名順序是x1,x4;x3,x5,x2?;谟嘞蚁嗨贫鹊狞c排位是x1,x3,x4,x2,x5
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025轎車買賣合同范本
- 2025信息系統(tǒng)建設合同范本
- 2025標準商業(yè)空間租賃合同模板
- 2025國際貨幣兌換借款合同模板
- 2025辦公室租賃補充合同范本
- 2025商務合同英文合同結構與格式指南
- 2025混凝土鋼筋購銷合同范本
- 2025年合肥租房合同范本
- 《童謠與寓言故事》課件
- 《繁花似錦東大街》課件
- 古詩詞誦讀《臨安春雨初霽》課件 統(tǒng)編版高中語文選擇性必修下冊
- 軍事理論(2024年版)學習通超星期末考試答案章節(jié)答案2024年
- 六年級(小升初)課外文言文訓練(含答案)
- YS-T 5226-2016水質分析規(guī)程
- 2024-2030年中國4S店行業(yè)市場發(fā)展分析及前景趨勢與投資風險研究報告
- 浙教版初中七年級下冊科學知識點
- 國開2024年秋《生產與運作管理》形成性考核1-4答案
- 特殊工種模擬試題含答案
- 職業(yè)衛(wèi)生及防護智慧樹知到答案2024年中南大學
- 區(qū)塊鏈技術在公共服務中的應用
- 勞務派遣單位分公司經營情況報告表
評論
0/150
提交評論