版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 一、填空題:(每題6分,共30分) 數(shù)據(jù)挖掘的主要問(wèn)題包括:數(shù)據(jù)挖掘的性能問(wèn)題包括:數(shù)據(jù)挖掘的分類方法有數(shù)據(jù)挖掘的聚類方法有5數(shù)據(jù)挖掘的基本步驟是6分,共30分)1.對(duì)于類特征化,二、問(wèn)答題:(每題基于數(shù)據(jù)立方體的實(shí)現(xiàn)與諸如面向?qū)傩詺w納的關(guān)系實(shí)現(xiàn)之間的主要不同是什么?討論哪種方法最有效,在什么條件下最有效。數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)有何不同?它們有那些相似之處?在現(xiàn)實(shí)世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問(wèn)題的各種方法。試述對(duì)于多個(gè)異種信息源的集成,為什么許多公司寧愿使用更新驅(qū)動(dòng)的方法,而不愿使用查詢驅(qū)動(dòng)的方法。為什么說(shuō)強(qiáng)關(guān)聯(lián)規(guī)則不一定都是有趣的,舉例說(shuō)明。TOC o 1-5 h z
2、三、證明題(10分)1證明頻繁集的所有非空子集必須也是頻繁的。2DApriori的一種變形將事務(wù)數(shù)據(jù)庫(kù)D中的事務(wù)劃分為個(gè)不重疊的部分。證明在D中是頻繁的任何項(xiàng)集至少在D中的一個(gè)部分中是頻繁的。四、算法分析與擴(kuò)展(15分)1.描述判定樹算法的思想。寫出比較易懂的算法偽代碼指出算法的不足之處,應(yīng)該從哪些方面增強(qiáng)算法的功能和性能。五、計(jì)算題(15分)給定兩個(gè)對(duì)象,分別用元組(22,1,42,10),(20,0,36,8)表示。1D計(jì)算兩個(gè)對(duì)象之間的歐幾里德距離;2D計(jì)算兩個(gè)對(duì)象之間的蔓哈坦距離;3D給定年齡變量的如下度量值18,22,25,42,28,43,33,35,56,28計(jì)算age的平均絕對(duì)
3、偏差。一、填空題:(每題6分,共30分)數(shù)據(jù)挖掘是一個(gè)多學(xué)科領(lǐng)域,這些學(xué)科包括:數(shù)據(jù)庫(kù)系統(tǒng)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、可視化、信息科學(xué)。數(shù)據(jù)挖掘的功能有特征化和區(qū)分、關(guān)聯(lián)分析、分類和預(yù)測(cè)、聚類分析、孤立點(diǎn)分析、演變分析。數(shù)據(jù)挖掘的分類方法有判定樹算法,貝葉斯方法,神經(jīng)網(wǎng)絡(luò),K-最近鄰分類,基于案例的推理,遺傳算法,粗糙集方法,模糊集方法等。數(shù)據(jù)挖掘的聚類方法有劃分方法、多媒體數(shù)據(jù)挖掘主要有析多媒體數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘。層次的方法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法。多媒體數(shù)據(jù)相似性搜索、多媒體數(shù)據(jù)多維分析、多媒體數(shù)據(jù)的分類與預(yù)測(cè)分二、問(wèn)答題:(每題6分,共30分)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)有何不同?它
4、們有哪些相似之處?答:區(qū)別:數(shù)據(jù)倉(cāng)庫(kù)是面向主題的,集成的,不易更改且隨時(shí)間變化的數(shù)據(jù)集合策,數(shù)據(jù)庫(kù)由一組內(nèi)部相關(guān)的數(shù)據(jù)和一組管理和存取數(shù)據(jù)的軟件程序組成數(shù)據(jù)倉(cāng)庫(kù)的源數(shù)據(jù).它用表組織數(shù)據(jù),采用ER數(shù)據(jù)模型。它們都為數(shù)據(jù)挖掘提供了源數(shù)據(jù),都是數(shù)據(jù)的組合.試述對(duì)于多個(gè)異種信息源的集成,為什么許多公司寧愿使用更新驅(qū)動(dòng)的方法,而不愿使用查詢驅(qū)動(dòng)的方法。答:因?yàn)閷?duì)于多個(gè)異種信息源的集成,查詢驅(qū)動(dòng)方法需要復(fù)雜的信息過(guò)濾和集成處理,并且與局部數(shù)據(jù)源上的處理競(jìng)爭(zhēng)資源,是一種低效的方法,開銷很大。而更新驅(qū)動(dòng)方法為集成的異種數(shù)據(jù)庫(kù)系統(tǒng)帶來(lái)了高性能,因?yàn)閿?shù)據(jù)被處理和重新組織到一個(gè)語(yǔ)義一致的數(shù)據(jù)存儲(chǔ)中,源上進(jìn)行的處理,
5、另外,還支持復(fù)雜的多維查詢。當(dāng)異種數(shù)據(jù)源上的數(shù)據(jù)格式一致或者轉(zhuǎn)換比較容易,并且所要求的查詢比較簡(jiǎn)單,不需要復(fù)雜的多維查詢時(shí),查詢驅(qū)動(dòng)方法可能更受歡迎。多維數(shù)據(jù)模型上的OLAP操作有那些?答:上卷,下鉆,切片,切快,旋轉(zhuǎn)在現(xiàn)實(shí)世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問(wèn)題的方法。答:1)忽略元組2)人工填寫空缺值3)使用一個(gè)全局常量填充空缺值4)使用屬性的平均值填充空缺值5)使用與給定元組屬同一類的所有樣本的平均值最可能的值填充空缺值其中,方法3到6使數(shù)據(jù)傾斜,填入的值可能不正確。不過(guò),方法,用來(lái)支持管理人員的決,是面向操作型的數(shù)據(jù)庫(kù),是組成進(jìn)行查詢的同時(shí)并不影響局部數(shù)據(jù)6)使用6
6、是最常用的方法5簡(jiǎn)略比較雪花模式、事實(shí)星座、星型網(wǎng)查詢模型概念,用例子解釋你的觀點(diǎn)星型模式:最常見(jiàn)的模型范例,其中數(shù)據(jù)倉(cāng)庫(kù)包括一個(gè)答的包含大批數(shù)據(jù)和不含冗余的中心標(biāo)(事實(shí)表),一組小的屬性表。這種模式圖很像星星爆發(fā),維表圍繞中心表顯示在射線上。sales事實(shí)表timekeytimekeyjdayitemkey|dayoftheweekibranchkey)monthlocationkeyquarterdollarssold問(wèn)time維表雪花模式(snowflakeschema):雪花模式是星型模式的耳而把數(shù)據(jù)進(jìn)一步分解到附加的表中。結(jié)果,模式圖形成類似:雪花模式和星型模式的主要不同在于,雪花模
7、式的維表這種表易于維護(hù),并節(jié)省存儲(chǔ)空間,因?yàn)楫?dāng)維結(jié)構(gòu)作為列住而,與巨大的事實(shí)表相比,這種空間的節(jié)省可以忽略。此夕I作,雪花結(jié)構(gòu)可能降低瀏覽的性能。這樣,系統(tǒng)的性能可II設(shè)計(jì)中,雪花模式不如星型模式流行。例2*2作為一個(gè)例子,AllElectronics的皿血$的雪花模式圖24的星型模式相同。兩個(gè)模式的主要不同是維表。星型卞中被規(guī)范化,導(dǎo)致新的泌皿表和supplier表。例如,現(xiàn)在if初brand,typeAsupplier_key,supplier_keysupplisupplier_key和$即/山_切城0類似地,星型模式中l(wèi)ocation1location和city0新的location表
8、中的location_key現(xiàn)在連接到c雪花模式中的province_or_state和country還可以進(jìn)一步規(guī)范4time維表timekeydaydayofweekmonthquartervearsales事實(shí)表time_keyitem_keyHranch_7logatioiikeydollars_soldunitsbrand嚴(yán)ppligitem維垂item_keyitemnan 三、證明題(每題5分,共10分)1.證明頻繁集的所有非空子集必須也是頻繁的。反證法。根據(jù)定義,如果項(xiàng)集p(I)min_sup。如果項(xiàng)此,1uA也不是頻繁的,即I滿足最小支持度閾值A(chǔ)添加到1,則結(jié)果項(xiàng)集間(即1u
9、ADDmin_sup。矛盾。P(2.給定頻繁項(xiàng)集l和l的子集s,證明規(guī)則的置信度。其中,min_sup,則1uA不可能比“s,(l-S,)”的置信度不可能大于S是s的子集。AB的置信度為:confn(s,u(l一s,)/n(s,)n(l)/n(s,)confn(l)/n(s),又因?yàn)楦鶕?jù)定義,規(guī)則則s,(l一s,)的置信度為:規(guī)則s(l-s)的置信度同理可得:s,(ls,)”的置信度不可能大于“confn(AuB)/n(A)n(A)表示項(xiàng)集s是s的子集,所以規(guī)則“s(l一s)”的置信度四、算法分析與擴(kuò)展(15分)1.描述判定樹算法的思想。樹以代表訓(xùn)練樣本的單個(gè)節(jié)點(diǎn)開始(步驟1)如果樣本都在同一
10、個(gè)類,則該節(jié)點(diǎn)成為樹葉,并用該類標(biāo)記(步驟2和3)否則,算法使用稱為信息增益的基于滴的度量作為啟發(fā)信息,選擇能夠最好地將樣本分類的屬性驟6)。該屬性成為該節(jié)點(diǎn)的“測(cè)試”或“判定”屬性(步驟是分類的,即取離散值的。連續(xù)值的屬性必須離散化。對(duì)測(cè)試屬性的每個(gè)已知的值,創(chuàng)建一個(gè)分枝,并據(jù)此劃分樣本(步驟算法使用同樣的過(guò)程,遞歸地形成每個(gè)劃分上的樣本判定樹。一旦一個(gè)屬性出現(xiàn)在一個(gè)節(jié)點(diǎn)上,就不必考慮該節(jié)點(diǎn)的任何后代上(步驟13)。遞歸劃分步驟僅當(dāng)下列條件之一成立時(shí)停止:(a)給定節(jié)點(diǎn)的所有樣本屬于同一類(步驟2和3)。(b)沒(méi)有剩余屬性可以用來(lái)進(jìn)一步劃分樣本(步驟這涉及將給定的節(jié)點(diǎn)轉(zhuǎn)換成樹葉,并用存放節(jié)點(diǎn)
11、樣本的類分布。I不是頻繁的,即I更頻繁出現(xiàn)。因7)。在算法的這個(gè)版本中,所有的屬性都810)。4)。在此情況下,使用多數(shù)表決(步驟samples中的多數(shù)所在的類標(biāo)記它。換(c)分枝testattributeDa;沒(méi)有樣本(步驟11)。在這種情況下,以一個(gè)樹葉(步驟12)。2.寫出比較易懂的算法偽代碼偽碼:算法:GenerateAecisionjree由給定的訓(xùn)練數(shù)據(jù)產(chǎn)生一棵判定樹。輸入:訓(xùn)練樣本samples,由離散值屬性表示;候選屬性的集合輸出:一棵判定樹。“s(l-s)”A出現(xiàn)的次數(shù)n(s,)n(s),一種方式,可以samPles中的多數(shù)類創(chuàng)建attributMlist。(步5)。 方法:
12、0)創(chuàng)建節(jié)點(diǎn)N; #ifsamples都在同一個(gè)類返回N作為葉節(jié)點(diǎn),以類Ifattributlist為空00N作為葉節(jié)點(diǎn),標(biāo)記為CthenC標(biāo)記thensamples中最普通的類;叮多數(shù)表決 # #test_attribute;(6)選擇attributedlist中具有最高信息增益的屬性(7)標(biāo)記節(jié)點(diǎn)NDlestattribute;foreachtest_attribute中的已知值ai由節(jié)點(diǎn)N長(zhǎng)出一個(gè)條件為test_attribute=ai的分支設(shè)S是Samples中test_attribute=ai的樣本的集合ifsiDOthen加上一個(gè)樹葉,標(biāo)記為samples中的最普通的類else加
13、上一個(gè)由Fenerate_decision_tree返回的節(jié)點(diǎn)指出算法的不足之處,應(yīng)該從哪些方面增強(qiáng)算法的功能和性能。信息增益度量有傾斜,它傾向于適合具有許多值的屬性。不能、處理空缺值,此算法還可能面對(duì)碎片,重復(fù)和復(fù)制的問(wèn)題。對(duì)追加樣本的學(xué)習(xí)不方便,算法的可伸縮性不強(qiáng)等。五、計(jì)算題(15分)給定兩個(gè)對(duì)象,分別用元組(22,1,42,10),(20,0,36,8)表示。4計(jì)算兩個(gè)對(duì)象之間的歐幾里德距離;5計(jì)算兩個(gè)對(duì)象之間的蔓哈坦距離;6計(jì)算兩個(gè)對(duì)象之間的明考斯基距離,q=3。 # #距離公式:歐幾里德距離公式:d(i、7)=曼哈坦距離公式:丿良訂一習(xí)1卩+|力2習(xí)2$ # 明考斯基距離公式:|X
14、ii-習(xí)i|+xi2-Xj2+1.對(duì)于類特征化,ra丿)=(比i一引F+局一丐2卩+-基于數(shù)據(jù)立方體的實(shí)現(xiàn)與諸如面向?qū)傩詺w納的關(guān)系實(shí)現(xiàn)之間的主要不同是什么?討論哪種方法最有效,在什么條件下最有效。數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)有何不同?它們有那些相似之處?在現(xiàn)實(shí)世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問(wèn)題的各種方法。試述對(duì)于多個(gè)異種信息源的集成,為什么許多公司寧愿使用更新驅(qū)動(dòng)的方法,而不愿使用查詢驅(qū)動(dòng)的方法。為什么說(shuō)強(qiáng)關(guān)聯(lián)規(guī)則不一定都是有趣的,舉例說(shuō)明。三、證明題1證明頻繁集的所有非空子集必須也是頻繁的。2DApriori的一種變形將事務(wù)數(shù)據(jù)庫(kù)D中的事務(wù)劃分為個(gè)不重疊的部分。證明在D中是頻繁
15、的任何項(xiàng)集至少在D中的一個(gè)部分中是頻繁的。四、算法分析與擴(kuò)展1.描述判定樹算法的思想。寫出比較易懂的算法偽代碼指出算法的不足之處,應(yīng)該從哪些方面增強(qiáng)算法的功能和性能。五、計(jì)算題給定兩個(gè)對(duì)象,分別用元組(22,1,42,10),(20,0,36,8)表示。1D計(jì)算兩個(gè)對(duì)象之間的歐幾里德距離;2D計(jì)算兩個(gè)對(duì)象之間的蔓哈坦距離;一、選擇題1.企業(yè)要建立預(yù)測(cè)模型,需準(zhǔn)備建模數(shù)據(jù)集,以下四條描述建模數(shù)據(jù)集正確的是(B)。A數(shù)據(jù)越多越好B盡可能多的適合的數(shù)據(jù)C得分集數(shù)據(jù)是建模集數(shù)據(jù)的一部分D以上三條都正確2.數(shù)據(jù)挖掘算法以(D)形式來(lái)組織數(shù)據(jù)。A行B列C記錄D表格3.企業(yè)成功實(shí)施數(shù)據(jù)挖掘,需要以下(B)知
16、識(shí)或技術(shù)A預(yù)先的規(guī)劃B對(duì)商業(yè)文體的理解C綜合商業(yè)知識(shí)和技能D都需要4D有關(guān)數(shù)據(jù)集市的說(shuō)法正確的是(B)AD是大型的、針對(duì)特定目標(biāo)且建設(shè)成本較低的一種數(shù)據(jù)倉(cāng)庫(kù)B叮施不同的數(shù)據(jù)集市時(shí),同一含義的字段定義一定要相同C叮立的數(shù)據(jù)集市是根據(jù)中央數(shù)據(jù)倉(cāng)庫(kù)派生出來(lái)的D叮獨(dú)立的數(shù)據(jù)集市是根據(jù)操作數(shù)據(jù)形成的5在超市所從事的信息中介活動(dòng)中,哪項(xiàng)屬于挖掘序列模式A.B.C.針對(duì)所有客戶,對(duì)其貨藍(lán)子里的商品進(jìn)行分析D.針對(duì)注冊(cè)客戶,進(jìn)行客戶分類,確定重要客戶以及服務(wù)對(duì)策6.如果對(duì)簡(jiǎn)單線性回歸模型進(jìn)行顯著性檢驗(yàn)的結(jié)果是不能拒絕H,這就意味著:0(D)該模型有應(yīng)用價(jià)值B該模型無(wú)應(yīng)用價(jià)值該模型求錯(cuò)了DX與Y之間毫無(wú)關(guān)系7.
17、進(jìn)行回歸分析時(shí),需要對(duì)回歸分析結(jié)果進(jìn)行檢驗(yàn),對(duì)回歸系數(shù)顯著性進(jìn)行檢驗(yàn)時(shí),使用(AB)統(tǒng)計(jì)8.CD.W.以上都不是在利用D.W.檢驗(yàn)回歸自相關(guān)性時(shí),下列敘述正確的叮當(dāng)DW-2時(shí),如果ui存在正自相關(guān)DW-,2時(shí),如果DW.dU,認(rèn)ui存在負(fù)自相關(guān)當(dāng)DW-2時(shí),如果4DW.dL,認(rèn)為ui存在負(fù)自相關(guān);如果4DW.duU,認(rèn)為i存在正自相關(guān)D當(dāng)D.W.值在2左右時(shí),模型不存在一階自相關(guān)9.下列說(shuō)法錯(cuò)誤的是(D)AImportance(a,B)=1,則B是獨(dú)立的項(xiàng),它表示對(duì)產(chǎn)品A的購(gòu)買和產(chǎn)品B的購(gòu)買是兩個(gè)獨(dú)立的事件bImportance(A,b)0,表示當(dāng)a為真時(shí),B的概率會(huì)下降下列說(shuō)法正確的是(B)
18、AEM聚類屬于硬聚類Bk-means屬于分割聚類Ck-means屬于軟聚類DEM聚類屬于層次聚類二、填空題數(shù)據(jù)挖掘的三大支柱分別是(數(shù)據(jù)挖掘技術(shù)與算法)(無(wú)所不在的數(shù)據(jù))(建立有效的預(yù)測(cè)模型)數(shù)據(jù)倉(cāng)庫(kù)的優(yōu)點(diǎn)是(數(shù)據(jù)倉(cāng)庫(kù)是從一個(gè)點(diǎn)上觀察整個(gè)企業(yè),而不是許多小定義的“地下倉(cāng)庫(kù)”的拼湊集合)和(數(shù)據(jù)挖掘記錄的是最令人感興趣的詳細(xì)的數(shù)據(jù))在利用SQLSERVER2005進(jìn)行數(shù)據(jù)挖掘時(shí),數(shù)據(jù)挖掘的任務(wù)中,(時(shí)序分析)可以沒(méi)有輸入根據(jù)下表資料完成表中指標(biāo)的計(jì)算并回答問(wèn)題。某年某地區(qū)按人口年齡分組的某疾病資料年齡人口數(shù)患者數(shù)新發(fā)病例數(shù)死亡數(shù)死亡百分比%患病率口發(fā)病叮死亡率口病死率%0208292048817
19、0912.335.892.050.111.842040366394511521723.2912.314.150.463.774060281612731332230.149.694.720.788.0660以93701104625上34.2511.744.912.6722.73合計(jì)157090132250173100.0039.6315.834.0236.40(1)患者中以(020)歲組為最多,占(36.91)%(2)患病率以(2040)歲組為最高,達(dá)叮12.31叮(3)發(fā)病率以(60以上)歲組為最高,達(dá)叮4.91叮 #(4)死亡率以(60以上)歲組為最高,達(dá)到(2.67叮 (5)病死率以(60
20、以上)歲組為最高,達(dá)到(22.73DD # #可以分為(確定性時(shí)間序列分析方法時(shí)間序列分析方法就其發(fā)展的歷史階段和使用的方法來(lái)看,和(隨機(jī)時(shí)間序列分析方法D # #人腦中的神經(jīng)網(wǎng)絡(luò)是一種高度(并行D的非線性信息處理系統(tǒng) # #7.神經(jīng)網(wǎng)絡(luò)的能力特征包括(自適應(yīng)性D(自學(xué)習(xí)D(自組織D8.生物神經(jīng)元在結(jié)構(gòu)上由(細(xì)胞體(Cellbody)D(樹突(Dendrite)D(軸突(Axon)D(突觸(Synapse)D # #四部分組成9.BP學(xué)習(xí)算法中,各層權(quán)值調(diào)整公式形式上都是一樣的,均由3個(gè)因素決定,即(學(xué)習(xí)率)(本層輸 # 出的誤差信號(hào))和本層輸入信號(hào)發(fā)燒,上呼吸道感染是(2)項(xiàng)集(篩在利用SQ
21、LSERVER2005進(jìn)行關(guān)聯(lián)規(guī)則挖掘的時(shí)候,常常通過(guò)(最小支持度)(最小項(xiàng)集大?。┻x項(xiàng)集)來(lái)控制項(xiàng)集的顯示三、問(wèn)答題(答案略)簡(jiǎn)述數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)之間的區(qū)別與聯(lián)系。討論下列每項(xiàng)活動(dòng)是否是數(shù)據(jù)挖掘任務(wù):(a)根據(jù)性別劃分公司的顧客。(b)根據(jù)可贏利性劃分公司的顧客。(c)計(jì)算公司的總銷售額。(d)按學(xué)生的標(biāo)識(shí)號(hào)對(duì)學(xué)生數(shù)據(jù)庫(kù)排序。(e)預(yù)測(cè)擲一對(duì)骰子的結(jié)果。(f)使用歷史記錄預(yù)測(cè)某公司未來(lái)的股票價(jià)格。(g)監(jiān)視病人心率的異常變化。(h)監(jiān)視地震活動(dòng)的地震波。(i)提取聲波的頻率。/模型?企業(yè)面對(duì)海量數(shù)據(jù),應(yīng)如何具體實(shí)施數(shù)據(jù)挖掘,使之轉(zhuǎn)換成可行的結(jié)果 4數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市有什么區(qū)別?簡(jiǎn)述
22、數(shù)據(jù)分類的兩步過(guò)程?直線回歸分析中應(yīng)注意哪些問(wèn)題?如何評(píng)價(jià)所建立的多元線性回歸方程的優(yōu)劣?殘差分析有何作用?指數(shù)平滑方法中有哪幾個(gè)重要的參數(shù)?它們的幾何意義是什么?什么是人工神經(jīng)網(wǎng)絡(luò)?DOApriori算法的基本原理什么是聚類分析?聚類方法有幾種?其距離計(jì)算有哪幾種方法?聚類分析的統(tǒng)計(jì)量包括哪兩種?DOEM聚類的基本步驟四、分析計(jì)算題(答案略)1.假定你作為一個(gè)數(shù)據(jù)挖掘顧問(wèn),受雇于一家保健品銷售公司。通過(guò)特定的例子說(shuō)明如何使用諸如聚類、分類、關(guān)聯(lián)規(guī)則挖掘和異常檢測(cè)等技術(shù),數(shù)據(jù)挖掘可以為公司提供幫助。2證明頻繁集的所有非空子集必須也是頻繁的。3.考慮有四個(gè)與某疾病有關(guān)的因素與該病的患病率資料如下
23、:用excel建庫(kù),并對(duì)其進(jìn)行多重回歸和相關(guān)分析。某疾病的患病率與四個(gè)影響變量xlx2x3x4y(患病率)xlx2x3x4y(患病率)1725142656.92547630115.8456243887.4242244282.6842122765.412661214120.3113294888.51067913108.875273496.272666078.511581024109.2129155274.3467156103.31256921102.2234204682462372578.8120185698.74.假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,1
24、5,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70,求:1)使用按箱平均值平滑對(duì)以上數(shù)據(jù)進(jìn)行平滑,箱的深度是3。解釋你的步驟。2)對(duì)于數(shù)據(jù)平滑,還有哪些其他方法?5.某地10名一年級(jí)女大學(xué)生的胸圍(cm)與肺活量(L)數(shù)據(jù)如下表所示。試建立肺活量Y與胸圍X的回歸方程,并估計(jì)胸圍為75厘米時(shí)相應(yīng)肺活量均數(shù)的95%可信區(qū)間以及個(gè)體值的95%預(yù)測(cè)區(qū)間。 # 學(xué)生編號(hào)12345678910胸圍X72.583.978.388.477.181.778.374.873.779.4肺活量Y2.513.111.
25、913.282.832.863.161.912.983.2810名一年級(jí)女大學(xué)生的胸圍(cm)與肺活量(L)6.有學(xué)者認(rèn)為,血清中低密度脂蛋白增高和高密度脂蛋白降低是引起動(dòng)脈硬化的一個(gè)重要原因?,F(xiàn)測(cè)量了30名被懷疑患有動(dòng)脈硬化的就診患者的載脂蛋白A叮載脂蛋白B、載脂蛋白E、載脂蛋白C、低密度脂蛋白中的膽固醇、高密度脂蛋白中的膽固醇含量,資料如下表所示:30名就診患者血清中低、高密度脂蛋白中的膽固醇含量及載脂蛋白的測(cè)量結(jié)果載脂蛋白AD載脂蛋白B載脂蛋白E載脂蛋白C低密度脂蛋白高密度脂蛋白序號(hào)i(mg/dl)(mg/dl)(mg/dl)(mg/dl)(mg/dl)(mg/dl)XXXXYY1234
26、1211731067.014.71376221391326.417.81624331981126.916.71348141181387.115.7188395139948.613.613851617516012.120.321565713115411.221.51714081581419.729.61484291581377.418.219756101321517.517.211337111621106.015.9145701214411310.142.88141131621377.220.718556141691298.516.715758151291386.310.119747161661
27、4811.533.415649171851186.017.515669181551216.120.415457191751114.127.214474201361109.426.09039211531338.516.921565221101499.524.71844023160865.310.811857241121238.016.612734251471108.518.413754262041226.121.012672271311026.613.413051281701278.424.713562291731238.719.0188853013213113.829.212238用相關(guān)軟件完成:試分別求Y,丫對(duì)X,X,X,X的線性回歸方程,并作分析。121234用向前法、向后法和逐步回歸法選擇自變量,看結(jié)果是否一致。作Y/
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 臨夏現(xiàn)代職業(yè)學(xué)院《鍍涂層質(zhì)量檢測(cè)技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 麗江職業(yè)技術(shù)學(xué)院《合唱排練與指揮》2023-2024學(xué)年第一學(xué)期期末試卷
- 江蘇財(cái)經(jīng)職業(yè)技術(shù)學(xué)院《面向?qū)ο蟪绦蛟O(shè)計(jì)(Java)》2023-2024學(xué)年第一學(xué)期期末試卷
- 華北水利水電大學(xué)《小學(xué)教育教學(xué)敘事研究》2023-2024學(xué)年第一學(xué)期期末試卷
- 遵義師范學(xué)院《黑白木刻版畫基礎(chǔ)》2023-2024學(xué)年第一學(xué)期期末試卷
- 重慶理工職業(yè)學(xué)院《礦床學(xué)基礎(chǔ)》2023-2024學(xué)年第一學(xué)期期末試卷
- 浙江特殊教育職業(yè)學(xué)院《光接入技術(shù)與數(shù)字通信課程實(shí)訓(xùn)》2023-2024學(xué)年第一學(xué)期期末試卷
- 中國(guó)政法大學(xué)《運(yùn)動(dòng)控制導(dǎo)論》2023-2024學(xué)年第一學(xué)期期末試卷
- 鄭州信息工程職業(yè)學(xué)院《城市規(guī)劃原理實(shí)驗(yàn)》2023-2024學(xué)年第一學(xué)期期末試卷
- 長(zhǎng)沙電力職業(yè)技術(shù)學(xué)院《跨文化傳播》2023-2024學(xué)年第一學(xué)期期末試卷
- 信息安全意識(shí)培訓(xùn)課件
- 2024年項(xiàng)目投資計(jì)劃書(三篇)
- 配電安規(guī)課件
- 中國(guó)高血壓防治指南(2024年修訂版)解讀課件
- 瀝青路面施工安全培訓(xùn)
- 機(jī)電設(shè)備安裝施工及驗(yàn)收規(guī)范
- 倉(cāng)庫(kù)安全培訓(xùn)考試題及答案
- 第六單元 中華民族的抗日戰(zhàn)爭(zhēng) 教學(xué)設(shè)計(jì) 2024-2025學(xué)年統(tǒng)編版八年級(jí)歷史上冊(cè)
- 初中古詩(shī)文言文背誦內(nèi)容
- 天然氣分子篩脫水裝置吸附計(jì)算書
- 檔案管理項(xiàng)目 投標(biāo)方案(技術(shù)方案)
評(píng)論
0/150
提交評(píng)論