




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、學(xué)生學(xué)號(hào)0120810680330實(shí)驗(yàn)課成績(jī)武漢理工大學(xué)實(shí)驗(yàn)課程名稱 開(kāi)課學(xué)院 指導(dǎo)老師姓名 學(xué)生姓名 學(xué)生專業(yè)班級(jí)學(xué)生實(shí)驗(yàn)報(bào)告書(shū)數(shù)據(jù)挖掘計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院徐寧趙倩軟件0803班2010 2011學(xué)年第學(xué)期實(shí)驗(yàn)課程名稱:數(shù)據(jù)挖掘?qū)嶒?yàn)項(xiàng)目名稱數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)、實(shí)現(xiàn)及多維分析實(shí)驗(yàn)成績(jī)實(shí)驗(yàn)者趙倩專業(yè)班級(jí)軟件0803班組別同組者實(shí)驗(yàn)日期2011年5月19日第一部分:實(shí)驗(yàn)分析與設(shè)計(jì)一、實(shí)驗(yàn)內(nèi)容描述SQL Server Analysis問(wèn)題描述:此實(shí)驗(yàn)為設(shè)計(jì)型實(shí)驗(yàn),選擇一種數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng),如 Manager進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)、實(shí)現(xiàn),并進(jìn)行多維數(shù)據(jù)分析。二、實(shí)驗(yàn)基本原理與設(shè)計(jì)三、主要儀器設(shè)備及軟件環(huán)境Wi
2、ndows xpSQL Server 2000第二部分:實(shí)驗(yàn)調(diào)試與結(jié)果分析一、調(diào)試過(guò)程(包括調(diào)試方法描述、實(shí)驗(yàn)數(shù)據(jù)記錄,實(shí)驗(yàn)現(xiàn)象記錄,實(shí)驗(yàn)過(guò)程發(fā)現(xiàn)的問(wèn)題等)如何向多維數(shù)據(jù)集添加度量值:度量值是要進(jìn)行分析的數(shù)據(jù)庫(kù)中的量化值。常用的度量 值為銷(xiāo)售、成本和預(yù)算數(shù)據(jù)。度量值根據(jù)多維數(shù)據(jù)集不同的維度類(lèi)別進(jìn)行分析。1. 在多維數(shù)據(jù)集向?qū)У摹皻g迎”步驟,單擊“下一步”按鈕。2. 在“從數(shù)據(jù)源中選擇事實(shí)數(shù)據(jù)表”步驟,展開(kāi)“教程”數(shù)據(jù)源,然后單擊"sales_fact_1998 "。3. 單擊“瀏覽數(shù)據(jù)”按鈕可以查看“ sales_fact_1998 ”表中的數(shù)據(jù)。數(shù)據(jù)瀏覽完畢后, 關(guān)閉“瀏
3、覽數(shù)據(jù)”窗口,然后單擊“下一步”按鈕。4. 若要定義多維數(shù)據(jù)集的度量值,在"事實(shí)數(shù)據(jù)表數(shù)據(jù)列”下,雙擊" store_sales ”。對(duì)"store_cost ”和"unit_sales "列重復(fù)此步驟,然后單擊"下一步"按鈕。二、實(shí)驗(yàn)結(jié)果及分析(包括結(jié)果描述、實(shí)驗(yàn)現(xiàn)象分析、影響因素討論、綜合分析和結(jié)論等)運(yùn)行結(jié)果為:第一步,建立系統(tǒng)數(shù)據(jù)源連接第二步, 啟動(dòng) Analysis Manager第三步,建立數(shù)據(jù)庫(kù)和數(shù)據(jù)源第四步建立多維數(shù)據(jù)集 1、如何建立時(shí)間維度2、如何建立產(chǎn)品維度計(jì)萱事實(shí)數(shù)至表的行數(shù)可能要花費(fèi)1段時(shí)間才能完成.
4、是否要計(jì)宜事實(shí)數(shù)據(jù)表的行數(shù)?事實(shí)數(shù)誓表行教producCcldss id productsubcatec prciclkj 吐二云白QarJ uruduct_dtudf irfH productFafnilyproduct clss = * prodkict_id brnd_nam uruduct_ridine ' SKU 5RP grD55_weigfit |3、如何建立客戶維度4、如何生成商店維度5、完成多維數(shù)據(jù)集的生成文件婦騙福舊視翩心話入3工康D幫助&|日| 刮E-W舊|刖明列曳|妻縫數(shù)菇集|sale5架構(gòu)(礦|_敝帑團(tuán)口事實(shí)教皓表維度表在推窟成之間柄的刊可以指中聯(lián)拷.
5、若萼制際無(wú)效的聯(lián)禱,諳右神單擊謠麻接,然后單擊“冊(cè)1除、IJ Sales-推度* 心 TimeFF Product畝出 Custwieri E Stars 日由度量值V Store 5es #f¥ Store Cost中 Unft Sales _J i+宜成員 計(jì)宜單元 n操作 _j命名集創(chuàng)建祀教說(shuō)麻接下一步(叩A(chǔ)bmsjd - the_date 出e_d取 themonth the_year day.of.nffir#) v*eek_of_yeiar month 項(xiàng)earquarter取消 I 咐product ,xl®sjd. prciduKt_subcatec pro
6、duct jcategory produetjdepartmi prfldiKtJamllycustomerjdaccouht_nuniIndmefnamerniaddgsladdressaddress3addressc*yL卜 n 卜q rwriuiii-irastore jd store.type regionjd store_name stDre_number 5tDre_5tree_addr,i 5tore_clty stciire_stats stDr&_pDstaljcdclle 5tore_coijntry |$Me_Fad:_l 豹 8produdtjd timejd
7、customef jidl promationjd store Jd store.saJes store.QGst unitjsalesproducl:_cla55_ld productjd brnd_name product namfr 5W SRP gros5_weight net.weighfr re£ydaUe_packa_J睡度向?qū)roductproduct class多鴕割話秉編輯器ttw by dwirodudproduct_class|JsMmerstore6、設(shè)計(jì)存儲(chǔ)和處理多維數(shù)據(jù)集7、瀏覽多維數(shù)據(jù)集數(shù)據(jù)(1)使用多維數(shù)據(jù)集瀏覽器查看多維數(shù)據(jù)集數(shù)據(jù)雙擊某一成員可淺
8、化或神化。 客幡數(shù)制集瀏鼐探-Sales超| 蒂助 n M III Ki III H H III U III H III HCBI(2)替換網(wǎng)格中的維度(3)按時(shí)間篩選數(shù)據(jù)(4)深化+ Country-Product Category+ Product Subcategory-所有 Customer+ Canada一所有 Product所有Product合計(jì)290,873.1823.8S1.13-Baking GoodsBaking Goods 合計(jì)8,103.52708.65+ Cooking Oil3,344.79306.67 I+ Sauces710.3563.03+ Spices2,4
9、62.64215.34+ Sugar1,585.74123,61+ Bathroom ProductsBathroom Products 合F6,805.34609.34+ Beer and WineBeer and Wine 合計(jì)7,614.09781.04+ BreadBread合計(jì)8,340.3268 巳 55+ Breakfast FoodsBreakfast Foods 合計(jì)B.452.72652.49+ CandesCandles 合計(jì)792.5391.02+ CandyCandy合計(jì)7,615.1251S.07jr|HJjT雙擊某一成員可淺化或深化,關(guān)閉 |幫助Qj)三、實(shí)驗(yàn)小結(jié)
10、、建議及體會(huì)基于“學(xué)生成績(jī)分析”主題數(shù)據(jù)倉(cāng)庫(kù)多維模型的建立,能很好地滿足高校老師和學(xué)生對(duì)學(xué)生成績(jī)信息進(jìn)行快速查詢以及分析的需要,為更多其他主題數(shù)據(jù)倉(cāng)庫(kù)的建立奠定了基礎(chǔ)。然而各主題數(shù)據(jù)倉(cāng)庫(kù)的建立,只是一個(gè)開(kāi)始,我們下一步工作將是在建立好的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)上進(jìn)行數(shù)據(jù)挖掘, 進(jìn)一步去發(fā)現(xiàn)隱藏在這些學(xué)生成績(jī)信息數(shù)據(jù)中更加有用的知識(shí)、規(guī)律和模式,使之為學(xué)校學(xué)生成績(jī)分析工作服務(wù)。將數(shù)據(jù)倉(cāng)庫(kù)技術(shù)應(yīng)用到學(xué)生信息管理中,使我了解了數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用以及如何創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)。實(shí)驗(yàn)課程名稱: 數(shù)據(jù)挖掘?qū)嶒?yàn)項(xiàng)目名稱Apriori 算法實(shí)驗(yàn)成績(jī)實(shí)驗(yàn)者趙倩專業(yè)班級(jí)軟件0803班組別同組者實(shí)驗(yàn)日期2011年5月26日第一部分:實(shí)驗(yàn)分析
11、與設(shè)計(jì)一、實(shí)驗(yàn)內(nèi)容描述(問(wèn)題域描述)此實(shí)驗(yàn)為綜合型實(shí)驗(yàn),要求學(xué)生綜合利用先修課程高級(jí)程序設(shè)計(jì)語(yǔ)言、數(shù)據(jù)庫(kù)、算法設(shè)計(jì) 與分析,與本門(mén)數(shù)據(jù)挖掘課程的知識(shí),選擇一種編程工具,如 Visual C+ ,實(shí)現(xiàn)經(jīng)典挖掘算 法 Apriori 或算法 k-Means。二、實(shí)驗(yàn)基本原理與設(shè)計(jì)(包括實(shí)驗(yàn)方案設(shè)計(jì),實(shí)驗(yàn)手段的確定,試驗(yàn)步驟等,用硬件邏輯或者算法描述)Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。算法基于這樣的事實(shí):算法使用頻繁項(xiàng)集性質(zhì)的先驗(yàn)知識(shí)。Apriori使用一種稱作逐層搜索的迭代方法,k-項(xiàng)集用于探索(k+1)-項(xiàng)集。首先,找出頻繁 1-項(xiàng)集的集合。該集合記作L1。L1用
12、于找頻繁2-項(xiàng)集的集合L2,而L2用于找L3,如此下去,直到不能找到頻繁k-項(xiàng)集。找每個(gè)Lk需要一次數(shù)據(jù)庫(kù)掃描。為了提高頻繁項(xiàng)目集逐層產(chǎn)生的效率,Apriori算法利用了兩個(gè)重要的性質(zhì)用于壓縮搜索空間:(l )若X是頻繁項(xiàng)集,則x的所有子集都是頻繁項(xiàng)集。(2)若x是非頻繁項(xiàng)集,則 X的所有超集都是非頻繁項(xiàng)集。2.2算法描述:算法:Apriori 算法,使用逐層迭代找出頻繁項(xiàng)集。 輸入:事務(wù)數(shù)據(jù)庫(kù) D;最小支持度閾值 min_sup。 輸出:D中的頻繁項(xiàng)集L。1 ) L1 = find_frequent_1_itemsets (DD ;2 ) for (k = 2 ; Lk-1 乒;k+) 3
13、) Ck = aproiri_gen (Lk-1 , min_sup);4 )for each transaction tD /scan D for count5 )Ct = subset (Ck,t);/get subsetsof t that are candidates6 )for each candidate c Ct7 )c.count+ ;8 )9 )Lk=c Ck|c.count> min_sup10 )11 )returnL=U kLk;從事務(wù)數(shù)據(jù)庫(kù)D中挖掘出所有頻繁項(xiàng)集。支持度大于最小支持度min_sup的項(xiàng)集Itemset稱為頻集Frequent Itemset。首先
14、需要挖掘出頻繁1-項(xiàng)集;然后,繼續(xù)采用遞推的方式來(lái)挖掘頻繁k-項(xiàng)集(k>1),具體做法是:在挖掘出候選頻繁 k-項(xiàng)集(Ck)之后,根據(jù)最小置信度 minSup來(lái)篩選,得到頻繁k-項(xiàng)集。 最后合并全部的頻繁k-項(xiàng)集(k>0 )。挖掘頻繁項(xiàng)集的算法描述如下:(1) L1 = find_frequent_1-itemsets(D); /挖掘頻繁 1-項(xiàng)集,比較容易(2) for (k=2;Lk-1 乒;k+) (3)(4)(5)(6)(7)(8 )(9 )項(xiàng)集(10)(11)Ck = apriori_gen(Lk-1 ,min_sup); / for each transaction t
15、Ct = subset(Ck,t);for each candidate cc.count+; /Lk =c return L=調(diào)用apriori_gen方法生成候選頻繁k-項(xiàng)集CD /掃描事務(wù)數(shù)據(jù)庫(kù)D Ct統(tǒng)計(jì)候選頻繁k-項(xiàng)集的計(jì)數(shù)£ Ck|c.count > min_sup /滿足最小支持度的k-項(xiàng)集即為頻繁 k-U k Lk; / 合并頻繁k-項(xiàng)集(k>0 )基于第1步挖掘到的頻繁項(xiàng)集,繼續(xù)挖掘出全部的頻繁關(guān)聯(lián)規(guī)則。置信度大于給定最小置信度minConf的關(guān)聯(lián)規(guī)則稱為頻繁關(guān)聯(lián)規(guī)則Frequent Association Rule 。在這一步,首先需要從頻繁項(xiàng)集入手,
16、首先挖掘出全部的關(guān)聯(lián)規(guī)則(或者稱候選關(guān)聯(lián)規(guī)則),然后根據(jù) minConf來(lái)得到頻繁關(guān)聯(lián)規(guī)則。挖掘頻繁關(guān)聯(lián)規(guī)則的算法描述如下:(1)初始狀態(tài):L = U k Lk; AR =;/ L 是頻繁項(xiàng)集集合,AR是頻繁關(guān)聯(lián)規(guī)則集合(2) for all入k (入k是L的元素,是一個(gè)(3) for alla k (a k是入k的非空真子集)(4) if( a k r 3 m 的置信度 >=minConf) / 關(guān)聯(lián)規(guī)則(5) AR = ARU(6) (7) (8) (9) return AR;k-頻繁項(xiàng)集,大小為n) 這里,m + k = n ,其中a kr 3 m是一個(gè)(a k r 3 m);三、
17、主要儀器設(shè)備及軟件環(huán)境Windows xpC+ 6.0第二部分:實(shí)驗(yàn)調(diào)試與結(jié)果分析、調(diào)試過(guò)程(包括調(diào)試方法描述、實(shí)驗(yàn)數(shù)據(jù)記錄,實(shí)驗(yàn)現(xiàn)象記錄,實(shí)驗(yàn)過(guò)程發(fā)現(xiàn)的問(wèn)題等)TIDItemsT1I1,I3,I4T2I2,I3,I5T3I1,I2,I3,I5T4I2,I5首先統(tǒng)計(jì)出一維項(xiàng)目集,即:C1.這里預(yù)定義最小支持度 minsupport=2,侯選項(xiàng) 目集中滿足最小支持度要求的項(xiàng)目集組合成最大的1-itemsets.為生成最大的2-itemsets,使用了 sc_candidate 函數(shù)中 join 步,即:L1joinL1, 并通過(guò) prune 步 刪除那些C2的那些子集不在L1中的項(xiàng)目集.生成了侯
18、選項(xiàng)目集C2.搜索D中4個(gè) 事務(wù),統(tǒng)計(jì)C2中每個(gè)侯選項(xiàng)目集的支持度.然后和最小支持度比較,生成L2.侯選項(xiàng) 目集C3是由L2生成.要求自連接的兩個(gè)最大2-itemsets中,第一個(gè)項(xiàng)目相同,在 L2中滿足該條件的有I2,I3,I2,I5.這兩個(gè)集合經(jīng)過(guò)join步后,產(chǎn)生集合I2 ,I3 , I5.在 prune 步中,測(cè)試I2 , I3 , I5的子集I3 , I5,I2 , I3,I2 , I5是 否在L2中,由L2可以知道I3,I5,I2,I3,I2,I5本身就是最大2-itemsets.即I2,I3,I5 的子集都是最大項(xiàng)目集.那么I2,I3,I5 為侯選3-itemset.然后搜索 數(shù)
19、據(jù)庫(kù)中所有事務(wù)記錄,生成最大的3-tiemsets L3.此時(shí),從L3中不能再生成侯 選 4-itemset .Apriori 算法結(jié)束.二、實(shí)驗(yàn)結(jié)果及分析(包括結(jié)果描述、實(shí)驗(yàn)現(xiàn)象分析、影響因素討論、綜合分析和結(jié)論等) 先輸入數(shù)據(jù)集的各項(xiàng)數(shù)據(jù),運(yùn)行結(jié)果為:入最4輸入阿拉伯?dāng)?shù)字記錄項(xiàng)輸入阿拉伯?dāng)?shù)字輸入阿拉伯?dāng)?shù)字記錄項(xiàng)請(qǐng)輸入第口個(gè)藪據(jù)集的記錄項(xiàng)H:,數(shù)據(jù)攔形iDebugH. exe輸入的數(shù)據(jù)集如下:13 4 2 3 5 12 3 5 2 5:數(shù)據(jù)集的一維候選子集.til.item: 1X2 . item:C3Kitem:L5.item«3425口下;231:3:3Cl J C2 4.it
20、em-.item;.item- item:T Z 3 3 3 鱉度度度 支支支支 一 13 2 5支支支支支支IM體數(shù)據(jù)如下:唐2廛:1Bs 1慝:2廛:2度:3數(shù)據(jù)集的2維候選子集的長(zhǎng)度為Cn<2> C2U.iten= 1 3Cn<2> CC22.iten= 1 2Cn<2> C23.iten= 1 5Cn<2> C24J.iten= 3 2Cn<2> CC2M5J.iten= 3 5Cn<2> C2r6.iten= 2 5數(shù)據(jù)集的2維頻繁子集的長(zhǎng)度為 ininm inFn<2>Fn<2>Fn<2>Fn<
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 幼兒園眼科知識(shí)講座
- 幼兒園高熱的護(hù)理措施
- 幼兒園衛(wèi)生保健工作總結(jié)
- 如何加強(qiáng)項(xiàng)目安全管理
- 企業(yè)社會(huì)責(zé)任研討會(huì)合同
- 忠誠(chéng)于人民的教育事業(yè)
- 手工皂買(mǎi)賣(mài)協(xié)議
- 三高病人護(hù)理
- 抵押合同修改協(xié)議
- 《章法之美》教學(xué)課件-2024-2025學(xué)年湘美版(2024)初中美術(shù)七年級(jí)下冊(cè)
- TCACM 1470-2023 胃癌前病變治未病干預(yù)指南
- Unit 4 Eat Well(大單元教學(xué)設(shè)計(jì))2024-2025學(xué)年七年級(jí)英語(yǔ)下冊(cè)同步備課系列(人教版2024)
- 釹鐵硼項(xiàng)目可行性分析報(bào)告(模板參考范文)
- 2024年天翼云認(rèn)證運(yùn)維工程師考試復(fù)習(xí)題庫(kù)(含答案)
- 盆底生物反饋治療肛門(mén)直腸功能障礙性疾病中國(guó)專家共識(shí)(2024版)解讀
- 廣州廣東廣州市衛(wèi)生健康委員會(huì)直屬事業(yè)單位廣州市皮膚病醫(yī)院招聘22人歷年參考題庫(kù)(頻考版)含答案解析
- 《低壓智能斷路器檢測(cè)規(guī)范》
- 甘肅開(kāi)放大學(xué)2024年《信息技術(shù)與信息管理》形考作業(yè)1-4答案
- 春天的故事課文課件
- 2024年土地儲(chǔ)備項(xiàng)目合作開(kāi)發(fā)合同3篇
- 《奧馬哈系統(tǒng)在老年髖部骨折患者出院后延續(xù)性護(hù)理中的應(yīng)用研究》
評(píng)論
0/150
提交評(píng)論