數(shù)據(jù)挖掘?qū)д撜n后習題答案-第二章_第1頁
數(shù)據(jù)挖掘?qū)д撜n后習題答案-第二章_第2頁
數(shù)據(jù)挖掘?qū)д撜n后習題答案-第二章_第3頁
數(shù)據(jù)挖掘?qū)д撜n后習題答案-第二章_第4頁
數(shù)據(jù)挖掘?qū)д撜n后習題答案-第二章_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)挖掘?qū)д撜n后習題答案-第?章最近在讀《IntroductiontoDataMining》這本書,發(fā)現(xiàn)課后答案只有英?版,于是打算結(jié)合??的理解將答案翻譯?下,其中難免有錯誤,歡迎?家指正和討論。侵刪。第?章字段3×3≈字段2。字段2和字段3很有可能包含相同的信息,盡管從?個很?的樣本中得出結(jié)論是?常不可靠的?為。(a)?元的,定性的,序數(shù)的(b)連續(xù)的,定量的,?率的(c)離散的,定性的,序數(shù)的(d)連續(xù)的,定量的,?率的(?如描述?了半圈就是?個?度中?例的概念)(e)離散的,定性的,序數(shù)的(f)連續(xù)的,定量的,?率的/區(qū)間的(取決于海平?的概念定義)(g)離散的,定量的,?率的(h)離散的,定性的,標稱的(i)離散的,定性的,序數(shù)的(j)離散的,定性的,序數(shù)的(k)連續(xù)的,定量的,?率的/區(qū)間的(l)離散的,定量的,?率的(這個離散我也很疑惑,難道不可以有實數(shù)的密度嗎)(m)離散的,定性的,標稱的(a)當然是?板對了。銷售主管錯的很離譜,就好?說?部?億票房電影差評數(shù)??部?百萬票房電影差評多,但是評論數(shù)根本不是?個量級的,因此應(yīng)該?差評率=差評數(shù)/評論數(shù)這個概念來評估滿意度,各?電影?站也是這么做的。(b)毫?意義。理由同上。(a)是的。假如出現(xiàn)1>2,2>3,3>1的情況那不就傻了。(b)當1>2,2>3這種已經(jīng)能建?序數(shù)的情況下,就不做第三次?較了;當1>2,2<3這種情況才做第三次?較。這種創(chuàng)建序數(shù)度量的?法通常來說不太準確,因為?較的維度可能不太?樣,?如1>2是因為1價格?2便宜,?2>3是因為2質(zhì)量?3好。通過學?的學號來預(yù)測學?哪?年畢業(yè)。(a)Q=A:001Q=B:011Q=C:101Q=D:111…………Q=A:00100QQQQ=A:00=B:01=C:10=D:11100100100100(b)400個?對稱的?進制屬性。??溫。?檔-詞矩陣第i?第j列的元素表?單詞j在?檔i中出現(xiàn)的次數(shù)。?部分?檔都只包含了??部分?零元素,因此,?論是在描述?個?檔還是?較?檔的不同時,零元素都是?意義的。所以說?檔-詞矩陣有?對稱離散的特征。如果以TF-IDF算法(以詞頻和逆?檔頻率相乘得到的值當作矩陣元素,某個詞越重要則TF-IDF值越?,可見第16題)應(yīng)?到單詞上,并且規(guī)范化?檔的L范數(shù)=1,這樣的?檔-詞矩陣就是2連續(xù)的,但這樣的轉(zhuǎn)換并不影響之前就為0的元素,因此它還是?對稱的,0元素仍?意義。觀測科學并不能控制觀察到的數(shù)據(jù)的質(zhì)量。舉個例?,?如已經(jīng)可以使?現(xiàn)在的地球軌道衛(wèi)星技術(shù)了,但是測量海洋表?溫度仍然還是依靠船舶,類似的,測量天?的數(shù)據(jù)也依靠地?上的基站。因此,可?的數(shù)據(jù)是必不可少的。在這層意義上,觀測科學的數(shù)據(jù)分析?作與數(shù)據(jù)挖掘?分類似。浮點數(shù)精度是最?的精度。更直接地說,精度通常?來表?有效數(shù)字的數(shù)量,單精度只能表?有效數(shù)字低于32位的值,約等于?進制的九位數(shù)字。通常使?32位(64位)的時候?qū)嶋H表?精度是低于32位(64位)的。(1)?本?件我們可以直接通過?本編輯器查看,但?進制?件我們?法看懂(計算機專家除外)(2)跨系統(tǒng)或項?時?本?件更加便攜。(3)?本?件更容易修改。(a)根據(jù)定義,噪聲并不令?感興趣。但離群點有研究的意義。(b)可能。隨機數(shù)據(jù)的失真通常歸咎于離群點。(c)并不。(d)不,離群點只代表?類和正常點不同的點。(e)可以。(a)第?,在最近鄰列表中,重復(fù)元素的順序取決于算法細節(jié)和集合中元素順序。第?,如果有很多的重復(fù)元素,返回的列表中可能只有重復(fù)元素。第三,?個元素可能不是它??的最近鄰。(b)去重復(fù)。這些屬性都是數(shù)值型的,但是都有?泛的取值范圍,這取決于測量的刻度。此外,這些屬性都是對稱的。將歐??得距離標準化會更合適。第?種抽獎是分層抽樣,可以保證從每組抽出的元素相等。第?組是簡單隨機抽樣,但從平均意義上來說,從每組中抽出的元素和第?種?案?樣。(a)如果?個詞僅出現(xiàn)在?個?檔中,會賦予它最?的權(quán)重;如果出現(xiàn)在每個?檔中,則權(quán)重為0。(b)每個?檔中都出現(xiàn)的詞不能區(qū)分?檔,因此,這樣的變換可以更好地區(qū)分?檔。(a)(a2,b2)(b)y=x2(a)L=3Jaccard=2/51(b)漢明距離更類似于簡單匹配系數(shù),實際上,SMC=1-漢明距離/位數(shù)。Jaccard相似度更類似于余弦度量,因為兩者都忽略了0-0匹配。(c)Jaccard度量更合適,因為兩者都沒有的基因(即0-0匹配)并不能?來?較有機體的相似性,我們更加關(guān)注1-1匹配。(d)漢明距離更合適。因為我們關(guān)注兩者不同的基因(即1-0和0-1匹配)。(a)cos(x,y)=1;corr(x,y)=0/0;Euclidean(x,y)=2(b)cos(x,y)=0;corr(x,y)=-1;Euclidean(x,y)=2;Jaccard=0?cos(x,y)=0;corr(x,y)=0;Euclidean(x,y)=2(d)cos(x,y)=0.75;corr(x,y)=0.25;Jaccard=0.6(e)cos(x,y)=0;corr(x,y)=0(a)[-1,1]。在很多情況下只有?負的屬性值,這時的范圍是[0,1]。(b)不?定。例如x=(1,0),y=(2,0)(c)當x與y的均值為0時,cos(x,y)與corr(x,y)相等。(d)基于這100000點,兩者有相反的關(guān)系。如果余弦相似度=1,則歐??得距離=0;如果歐??得距離?較?,則余弦相似度接近于0。注意所有的數(shù)據(jù)點都來?正的象限,因此所有的余弦值都為?負的。(e)同上。(f)(g)(a)顯然,d(A,B)≥0。當A=B時,d(A,B)=0。(b)d(A,B)=d(B,A)也很顯然。(c)?先,d(A,B)=size(A)+size(B)-2size(A∩B)則d(A,B)+d(B,C)=size(A)+size?+2size(B)-2size(A∩B)-2size(B∩C)?size(A∩B)≤size(B),size(B∩C)≤size(B)?size(A∩B)≤size(B),size(B∩C)≤size(B)所以d(A,B)+d(B,C)≥size(A)+size?+2size(B)-2size(B)=size(A)+size?≥size(A)+size?-2size(A∩C)=d(A,C)三?不等式證畢。對于第?個應(yīng)?對時間序列聚類,具有?的正相關(guān)性的時間序列應(yīng)該放在?起,因此?較合適。對于第?個應(yīng)?,需要考慮強的負相關(guān)關(guān)系,因此取絕對值更加合適,即sim=|corr|。假設(shè)s是在區(qū)間[0,1]取值的相似性度量,d=(1-s)/s,d=-logs。(a)兩兩?較,取最?的鄰近度或者最?的鄰近度;基于所有的點算出?個歐??得空間?的質(zhì)?,取所有點到質(zhì)?的距離之和或取平均值。(b)分別算出兩個點集的質(zhì)?,定義兩個質(zhì)?的距離就是兩個點集的距離。(c)?個?法是計算每個點到另?個對象集中所有點的距離取平均值,另?個?法是取最?值或最?值。(a)可以參考第四章的Hint算法。d(y,z)≤d(y,x)+d(x,z)如果d(x,y)≤ε/2,d(x,z)≤ε/2,那么d(y,z)?需計算。d(y,z)≥d(y,x)-d(x,z)如果d(y,x)-d(x,z)≥ε,那么d(y,z)?需計算。(b)如果x,y之間距離為0那么就?需其他計算了,如果x與y距離較?的話,就需要更多的計算。(c)設(shè)x,y是S‘?的點,x*和y*是S’?距離x,y最近的點。如果d(x*,y*)+2ε≤β,那么d(x,y)≤β.如果d(x*,y*)-2ε≤β,那么d(x,y)≥β.(a)由J(x,y)≤1,?即得d(x,y)≥0;J(x,x)=1時有d(x,y)=0.(b)由J(x,y)=J(y,x),?即得d(x,y)=d(y,x)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論