數(shù)據(jù)挖掘期末大作業(yè)_第1頁
數(shù)據(jù)挖掘期末大作業(yè)_第2頁
數(shù)據(jù)挖掘期末大作業(yè)_第3頁
數(shù)據(jù)挖掘期末大作業(yè)_第4頁
數(shù)據(jù)挖掘期末大作業(yè)_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、黔南民族師范學院計科系B11計信班楊秀青數(shù)據(jù)挖掘期末大作業(yè)1. 數(shù)據(jù)挖掘的發(fā)展趨勢是什么?大數(shù)據(jù)環(huán)境下如何進行數(shù)據(jù)挖掘。對于數(shù)據(jù)挖掘的發(fā)展趨勢,可以從以下幾個方面進行闡述:(1)數(shù)據(jù)挖掘語言的標準化描述:標準的數(shù)據(jù) 挖掘語言將有助于數(shù)據(jù)挖掘的系統(tǒng)化開發(fā)。改進 多個數(shù)據(jù)挖掘系統(tǒng)和功能間的互操作,促進其在企 業(yè)和社會中的使用。 (2)尋求數(shù)據(jù)挖掘過程中的可視化方法:可視 化要求已經(jīng)成為數(shù)據(jù)挖掘系統(tǒng)中必不可少的技術。 可以在發(fā)現(xiàn)知識的過程中進行很好的人機交互。 數(shù)據(jù)的可視化起到了推動人們主動進行知識發(fā)現(xiàn)的 作用。

2、0;(3)與特定數(shù)據(jù)存儲類型的適應問題:根據(jù)不 同的數(shù)據(jù)存儲類型的特點,進行針對性的研究是目 前流行以及將來一段時間必須面對的問題。 (4)網(wǎng)絡與分布式環(huán)境下的KDD問題:隨著 Internet的不斷發(fā)展,網(wǎng)絡資源日漸豐富,這就需要 分散的技術人員各自獨立地處理分離數(shù)據(jù)庫的工作 方式應是可協(xié)作的。因此,考慮適應分布式與網(wǎng) 絡環(huán)境的工具、技術及系統(tǒng)將是數(shù)據(jù)挖掘中一個最為重要和繁榮的子領域。 (5)應用的探索:隨著數(shù)據(jù)挖掘的日益普遍,其應用范圍也日益擴大,如生物醫(yī)學、電信業(yè)、零售業(yè) 等領域。由于數(shù)據(jù)挖掘在處理

3、特定應用問題時存在 局限性,因此,目前的研究趨勢是開發(fā)針對于特定應 用的數(shù)據(jù)挖掘系統(tǒng)。 (6)數(shù)據(jù)挖掘與數(shù)據(jù)庫系統(tǒng)和Web數(shù)據(jù)庫系 統(tǒng)的集成:數(shù)據(jù)庫系統(tǒng)和Web數(shù)據(jù)庫已經(jīng)成為信息 處理系統(tǒng)的主流。2. 從一個3輸入、2輸出的系統(tǒng)中獲取了10條歷史數(shù)據(jù),另外,最后條數(shù)據(jù)是系統(tǒng)的輸入,不知道其對應的輸出。請使用SQL SERVER 2005的神經(jīng)網(wǎng)絡功能預測最后兩條數(shù)據(jù)的輸出。首先,打開SQL SERVER 2005數(shù)據(jù)庫軟件,然后在界面上右鍵單擊樹形圖中的“數(shù)據(jù)庫”標簽,在彈出的快捷菜單中選擇“新建數(shù)據(jù)庫”命令,并命名數(shù)據(jù)庫的名稱為YxqData

4、base,單擊確定,如下圖所示。 然后,在新建的數(shù)據(jù)庫YxqDatabas中,根據(jù)題目要求新建表,相應的表屬性見下圖所示。 在新建的表完成之后,默認的數(shù)據(jù)表名稱為Table_1,并打開表,根據(jù)題目提供的數(shù)據(jù)在表中輸入相應的數(shù)據(jù)如下圖所示。在測試數(shù)據(jù)被輸入到數(shù)據(jù)庫中之后,打開SQL Server Business Intelligence Development Studio命令,并在文件中新建項目,項目名稱命名為MyData,并單擊確定,進入下一步,如下圖所示。在進入的新頁面上,新建一個數(shù)據(jù)源,并在出現(xiàn)的新窗口中單擊下一步,并選擇新建按鈕,就會出現(xiàn)連接管理器窗口,如右圖所示。在打開的界面中,在

5、“提供程序”下拉列表框中選擇Microsoft OLE DB Provider for SQL Server選項,選擇完成后,單擊確定,進入下一界面,至此,完成了數(shù)據(jù)連接的工作。在建立完數(shù)據(jù)連接之后,需要建立數(shù)據(jù)源視圖,右鍵單擊數(shù)據(jù)源視圖,并選中“新建數(shù)據(jù)源視圖”命令,在數(shù)據(jù)庫YxqDatabase下的數(shù)據(jù)表Table_1中,選中這個數(shù)據(jù)表,然后單擊下一步,并更改數(shù)據(jù)源視圖的名稱為YxqView,單擊完成,這樣就建好了數(shù)據(jù)源視圖。如下圖所示。在上面的工作完成之后,我們在界面中單擊“挖掘結構”,并新建一個挖掘結構然后點擊下一步,在彈出的新窗口“選擇挖掘技術”中,我們選擇“Microsoft神經(jīng)網(wǎng)

6、絡”選項,并單擊下一步,如下圖所示。彈出的新窗口要求對Table_1中的各個列指定類型:鍵類型、輸入類型、可預測類型。把數(shù)據(jù)表Table_1中的data列定為鍵類型,x1,x2,x3規(guī)定為輸入類型,y1,y2規(guī)定為可預測類型,選擇之后情形如下圖所示。在上圖中,單擊下一步,再選擇默認值,并單擊下一步,就完成了挖掘模型的創(chuàng)建。挖掘模型創(chuàng)建完成之后會出現(xiàn)下圖所示的窗口。 在此界面中,我們選擇“挖掘模型查看器”選項卡,會彈出一個小窗口,提問“服務器內容似乎已過時。是否先生成和部署項目?”單擊是按鈕,系統(tǒng)將花費一點時間進行部署和生成,見下圖所示。部署成功后,就會彈出另外一個小窗口,提問“必須先處理Tab

7、le_1挖掘模型才能瀏覽其內容。處理模型可能要花費一些時間,具體將取決于數(shù)據(jù)量。是否繼續(xù)?”單擊“是”按鈕,并在新彈出的窗口中單擊“運行”按鈕”處理成功之后在兩個窗口分別單擊“關閉”按鈕,就會得到下圖所示的數(shù)據(jù)分析圖表。最后,選擇“挖掘模型預測”選項卡,進行數(shù)據(jù)預測,出現(xiàn)的界面如下圖所示。在所示的界面中,我們單擊“選項事例表”按鈕,在選擇導航中,選擇事例表為Table_1,將出現(xiàn)下圖所示的界面。在上圖所示的結構中,單擊工具欄上的“單獨查詢”按鈕,即產生下圖所示的界面。在上圖所示的界面中,把表中數(shù)據(jù)的最后一行分別輸入到變量x1,x2,x3后面的空白中,然后把挖掘模型下的Y1,Y2項拖動至最下面一

8、行的最左邊位置。然后單擊工具欄上的“切換到查詢結果”按鈕,會出現(xiàn)下圖所示的界面。至此,我們通過神經(jīng)網(wǎng)絡功能預測出了最后兩條數(shù)據(jù)的輸出。3. 用ID3算法生成分類決策樹在之前創(chuàng)建好的數(shù)據(jù)源與數(shù)據(jù)源視圖的前提下,我們開始創(chuàng)建決策樹的挖掘結構,單擊“挖掘結構”,并從中選擇“新建挖掘結構”命令,系統(tǒng)將打開數(shù)據(jù)挖掘導向。在“歡迎使用數(shù)據(jù)挖掘向導”頁上,單擊下一步按鈕,在“選擇定義方法”頁上,確認已選中“你要使用何種數(shù)據(jù)挖技術?”下拉列表中選擇“Microsoft決策樹”選項,如下圖所示。然后單擊下一步,出現(xiàn)“指定定型數(shù)據(jù)”頁,如下圖所示。在界面中,確保選中RID列右邊“鍵”列中的復選框,這即是決策樹分析

9、中所用的屬性。在上圖中,單擊下一步,在隨后“指定列的內容和數(shù)據(jù)類型”頁上,單擊下一步按鈕,出現(xiàn)“完成向導”頁。接下來,我們開始設置決策樹挖掘結構的相關參數(shù),在“挖掘模型”選項卡上單擊鼠標右鍵,從彈出的快捷菜單中選擇“設置算法參數(shù)”命令,系統(tǒng)將打開“算法參數(shù)”對話框,如下圖所示。在設置好決策樹挖掘結構的相關參數(shù)之后,接下來,開始建立決策樹挖掘模型,選擇“挖掘模型查看器”選項卡,程序是否建立部署項目,選擇“是”,單擊運行按鈕,出現(xiàn)“處理進度”窗口,我們再次選擇“挖掘模型查看器”選項卡,生成的決策樹如下圖所示。4.數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的關系是什么?談談對數(shù)據(jù)挖掘的理解。首先,數(shù)據(jù)挖掘是從大量數(shù)據(jù)中 獲

10、取有效的、新穎的、潛在有用的、最終可理解的模式的過程。簡單的說,數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中提取或“挖掘”知識。然而,數(shù)據(jù)倉庫通常是指一個數(shù)據(jù)庫環(huán)境,而不是指一件產品,它提供用戶用于決策支持的當前和歷史數(shù)據(jù),這些數(shù)據(jù)在傳統(tǒng)的數(shù)據(jù)庫中通常不方便得到。簡單來說,數(shù)據(jù)倉庫就是一個面向主題的、集成的、相對穩(wěn)定的、反應歷史變化的數(shù)據(jù)集合,通常用于輔助決策支持。其實,可以用這樣一個簡單例子形象化兩者的關系,如果將數(shù)據(jù)倉庫比作礦井,那么數(shù)據(jù)挖掘就是深入礦井采礦的工作。決策者利用數(shù)據(jù)作決策,即從數(shù)據(jù)倉庫中挖掘出對決策有用的信息與知識,是建立數(shù)據(jù)倉庫與進行數(shù)據(jù)挖掘的最大目的。只有數(shù)據(jù)倉庫先建行立完成,且數(shù)據(jù)倉庫所

11、含數(shù)據(jù)時干凈、完備和經(jīng)過整合的,數(shù)據(jù)挖掘才能有效地進行,因此從一定意義上可將兩者的關系解讀為數(shù)據(jù)挖掘時從數(shù)據(jù)倉庫中找出有用信息的一種過程與技術。5. 通過我班同學的身體特征,進行數(shù)據(jù)的分析,各特征有序號、身高(cm)、體重(kg)、胸圍(cm)、腰圍(cm)、臀圍(cm),總共有50個學生的資料。首先,通過之前所創(chuàng)建的數(shù)據(jù)源、數(shù)據(jù)源視圖,在接下來我們開始創(chuàng)建k-means挖掘結構,在此,我們新建挖掘結構,如下圖所示。然后單擊下一步,接下來出現(xiàn)的“指定定型數(shù)據(jù)”頁,也即是指定聚類分析中所用的屬性,如下圖所示。至此,k-means挖掘結構創(chuàng)建完成,接下來我們開始設置k-means挖掘結構的相關參數(shù),在“挖掘模型”選項卡上單擊鼠標右鍵,從彈出的快捷菜單中選擇“設置算法參數(shù)”命令,系統(tǒng)將打開“算法參數(shù)”對話框,如下圖所示。接著,我們開始建立k-means挖掘模型,然后選擇“挖掘模型查看器”,程序問是否建立部署項目,選擇

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論