傳統(tǒng)數(shù)據(jù)挖掘與大數(shù)據(jù)中的數(shù)據(jù)挖掘的異同畢業(yè)設(shè)計論文_第1頁
傳統(tǒng)數(shù)據(jù)挖掘與大數(shù)據(jù)中的數(shù)據(jù)挖掘的異同畢業(yè)設(shè)計論文_第2頁
傳統(tǒng)數(shù)據(jù)挖掘與大數(shù)據(jù)中的數(shù)據(jù)挖掘的異同畢業(yè)設(shè)計論文_第3頁
傳統(tǒng)數(shù)據(jù)挖掘與大數(shù)據(jù)中的數(shù)據(jù)挖掘的異同畢業(yè)設(shè)計論文_第4頁
傳統(tǒng)數(shù)據(jù)挖掘與大數(shù)據(jù)中的數(shù)據(jù)挖掘的異同畢業(yè)設(shè)計論文_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、唿唿唿畢 業(yè) 設(shè) 計 論 文 唿唿唿唿唿唿唿唿唿 唿院系名稱: 信息學(xué)院·軟件工程唿專業(yè)班級: 軟件本111唿學(xué)生姓名: 韓曉冬唿指導(dǎo)教師: 張 楠唿 唿唿密級:內(nèi)部唿唿唿唿唿傳統(tǒng)數(shù)據(jù)挖掘與大數(shù)據(jù)中數(shù)據(jù)挖掘的異同唿唿唿唿唿唿唿唿唿唿唿專業(yè)班級: 軟件本111唿學(xué)生姓名: 韓曉冬唿學(xué) 號: 2011417123唿指導(dǎo)教師: 張 楠唿唿沈陽工程學(xué)院畢業(yè)論文 abstract唿唿摘 要唿唿大數(shù)據(jù)是it產(chǎn)業(yè)具有顛覆性的技術(shù)革命,在這之前的技術(shù)革命還有物聯(lián)網(wǎng)、云計算等。大數(shù)據(jù)時代的到來對人們影響巨大,尤其在生活方式和商業(yè)模式上影響著人們,而且也在組織流程、企業(yè)決策等方面影響著人們。隨著大數(shù)據(jù)的

2、提出,許多信息技術(shù)迎來了新的發(fā)展機遇,尤其對數(shù)據(jù)挖掘技術(shù)影響巨大,而數(shù)據(jù)挖掘技術(shù)也開始了一個新的發(fā)展階段。目前信息世界中一個非常嚴(yán)峻的問題就是數(shù)據(jù)的大爆炸與知識的匱乏,要想解決這個嚴(yán)峻的問題,數(shù)據(jù)挖掘是一個非常有力的手段。過去的幾年是知識大爆炸與信息大爆炸的時代,而現(xiàn)在則是數(shù)據(jù)大爆炸的時代。大量的數(shù)據(jù)信息隱藏著巨大價值,要想發(fā)現(xiàn)這些價值,進行數(shù)據(jù)挖掘是必不可少的。唿由于大數(shù)據(jù)的數(shù)據(jù)量比較龐大,數(shù)據(jù)類型比較復(fù)雜,因此,想要針對大數(shù)據(jù)進行數(shù)據(jù)挖掘必然不能在用傳統(tǒng)的數(shù)據(jù)挖掘技術(shù),基于大數(shù)據(jù)的數(shù)據(jù)挖掘必然不同于傳統(tǒng)數(shù)據(jù)挖掘技術(shù)。大數(shù)據(jù)與相對較小的數(shù)據(jù)相比在存儲上、數(shù)據(jù)類型上都有著非常大的不同,因此,數(shù)

3、據(jù)對象不同的數(shù)據(jù)挖掘技術(shù)也有著很大的不同。那么傳統(tǒng)數(shù)據(jù)挖掘與基于大數(shù)據(jù)的數(shù)據(jù)挖掘之間究竟有何不同之處、有何相同之處?這對于大數(shù)據(jù)的發(fā)展具有十分重要的意義。唿本文主要論述了傳統(tǒng)數(shù)據(jù)的概念和特點、大數(shù)據(jù)的概念和特點以及基于大數(shù)據(jù)的數(shù)據(jù)挖掘的概念和特點,最后進行傳統(tǒng)數(shù)據(jù)挖掘與基于大數(shù)據(jù)的數(shù)據(jù)挖掘比較,最終得出傳統(tǒng)數(shù)據(jù)挖掘與基于大數(shù)據(jù)的數(shù)據(jù)挖掘既有相同之處又有不同之處。相同之處在于數(shù)據(jù)挖掘的思想、目的、基本方法等方面,不同之處在于數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)類型等方面。唿唿關(guān)鍵詞 數(shù)據(jù)挖掘,大數(shù)據(jù),知識大爆炸 唿唿沈陽工程學(xué)院畢業(yè)論文 目 錄唿唿目 錄唿唿摘 要唿iii第1章 緒 論唿11.1 大數(shù)據(jù)時代

4、唿11.2 數(shù)據(jù)挖掘的意義唿11.3 基于大數(shù)據(jù)的數(shù)據(jù)挖掘唿11.4 本文的主要目的與內(nèi)容唿2第2章 傳統(tǒng)數(shù)據(jù)挖掘的起源唿32.1 傳統(tǒng)數(shù)據(jù)挖掘的定義唿32.2 傳統(tǒng)數(shù)據(jù)挖掘的概念唿32.3 傳統(tǒng)數(shù)據(jù)挖掘的起源唿32.4 傳統(tǒng)數(shù)據(jù)挖掘的發(fā)展階段唿4第3章 傳統(tǒng)數(shù)據(jù)挖掘技術(shù)唿53.1 數(shù)據(jù)挖掘的分析方法唿53.1.1 關(guān)聯(lián)分析唿53.1.2 分類分析唿53.1.3 序列模式分析唿63.1.4 聚類分析唿63.2 復(fù)雜數(shù)據(jù)類型挖掘 唿63.3 傳統(tǒng)數(shù)據(jù)挖掘面臨的挑戰(zhàn)唿73.3.1 數(shù)據(jù)挖掘的對象唿73.3.2 輸入數(shù)據(jù)的復(fù)雜性唿73.3.3 用戶的參與度唿73.3.4 信息的驗證技術(shù)唿83.3.5

5、 信息的表達和解釋唿83.3.6 信息的維護更新唿83.3.7 有限的支持和集成唿83.4 數(shù)據(jù)挖掘的發(fā)展趨勢唿8第4章 基于大數(shù)據(jù)的數(shù)據(jù)挖掘唿104.1 大數(shù)據(jù)技術(shù)唿104.1.1 大數(shù)據(jù)的定義唿104.1.2 大數(shù)據(jù)的意義唿104.1.3 大數(shù)據(jù)的特點唿104.1.4 內(nèi)存分析唿114.1.5 集成設(shè)備唿114.1.6 大數(shù)據(jù)的結(jié)構(gòu)唿114.2 基于大數(shù)據(jù)的數(shù)據(jù)挖掘唿124.2.1 基于內(nèi)容的大數(shù)據(jù)挖掘唿124.2.2 基于結(jié)構(gòu)的大數(shù)據(jù)挖掘唿134.3 基于大數(shù)據(jù)的數(shù)據(jù)挖掘的意義唿134.4 基于大數(shù)據(jù)的數(shù)據(jù)挖掘的應(yīng)用唿13第5章 傳統(tǒng)數(shù)據(jù)挖掘與大數(shù)據(jù)挖掘的異同唿155.1 數(shù)據(jù)存儲方面唿

6、155.1.1 容量方面唿155.1.2 延遲方面唿155.1.3 安全方面唿155.1.4 成本方面唿165.1.5 數(shù)據(jù)積累方面唿165.2 數(shù)據(jù)處理方面唿165.2.1 處理工具方面唿165.2.2 存儲工具方面唿175.2.3 數(shù)據(jù)計算方面唿17結(jié) 論唿19致 謝唿21參考文獻唿22唿沈陽工程學(xué)院畢業(yè)論文 第1章 緒 論唿唿第1章 緒 論唿唿1.1 大數(shù)據(jù)時代唿唿2009年以來“大數(shù)據(jù)”成為各界的流行詞,尤其是在信息領(lǐng)域中。而在麥肯錫的2011年數(shù)據(jù)呈報報告中指出,大數(shù)據(jù)現(xiàn)已滲透社會各個領(lǐng)域,數(shù)據(jù)中的信息已然成為重要的生產(chǎn)要素。作為時下最流行的關(guān)鍵技術(shù),隨之而來的數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、數(shù)

7、據(jù)分析、數(shù)據(jù)處理等圍繞大數(shù)據(jù)的技術(shù)也逐漸開始進入一個新的發(fā)展階段。那么“大數(shù)據(jù)”究竟有多大?根據(jù)世界互聯(lián)網(wǎng)數(shù)據(jù)中心統(tǒng)計報告,互聯(lián)網(wǎng)上數(shù)據(jù)的年增長率是50%,而在過去的幾年里產(chǎn)生了90%的數(shù)據(jù),數(shù)據(jù)量已經(jīng)達到了zb級別?!按髷?shù)據(jù)”被比作未來的“石油”,它不僅是信息世界的特殊技術(shù),這也將是一個國家綜合國力的重要組成部分。一個國家擁有的數(shù)據(jù)規(guī)模與數(shù)據(jù)運用的能力以及對數(shù)據(jù)的占有量和控制量將成為國家間新的爭奪點。唿唿1.2 數(shù)據(jù)挖掘的意義唿唿大數(shù)據(jù)作為一種重要的戰(zhàn)略資源,如何發(fā)揮大數(shù)據(jù)的戰(zhàn)略意義顯得十分重要,數(shù)據(jù)挖掘的目的是挖掘隱藏在數(shù)據(jù)中的對人們有效的信息,通過數(shù)據(jù)挖掘,我們才能得到大量數(shù)據(jù)集中所蘊含

8、的信息。這些信息可以創(chuàng)造價值,并對人們的多個領(lǐng)域產(chǎn)生深遠影響。數(shù)據(jù)挖掘是一種基于數(shù)據(jù)庫、模式識別、機器學(xué)習(xí)、人工智能、統(tǒng)計學(xué)、可視化技術(shù)的決策支持模式。數(shù)據(jù)挖掘可以分析數(shù)據(jù)、歸納數(shù)據(jù),從數(shù)據(jù)中挖出對人們有用的信息,幫助人們做出正確的決策,減少風(fēng)險14。唿數(shù)據(jù)挖掘又被稱作基于數(shù)據(jù)庫的知識發(fā)現(xiàn),是數(shù)據(jù)庫技術(shù)和人工智能領(lǐng)域的重要應(yīng)用,也是重要的研究熱點。數(shù)據(jù)挖掘發(fā)現(xiàn)的知識可以用作商業(yè)決策支持、信息管理、工業(yè)過程控制和查詢優(yōu)化等,更可以用作數(shù)據(jù)自身的維護。數(shù)據(jù)挖掘?qū)⒁郧暗蛯哟蔚暮唵螖?shù)據(jù)查詢提升到挖掘數(shù)據(jù)間的隱藏信息,用以各個領(lǐng)域中。12唿數(shù)據(jù)挖掘作為一種比較成熟的數(shù)據(jù)處理技術(shù),主要是從數(shù)據(jù)中的數(shù)據(jù)進行

9、抽取、轉(zhuǎn)換、數(shù)據(jù)分析和數(shù)據(jù)建模處理,從中提取出對人們有用的關(guān)鍵信息。數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析有很大的不同,數(shù)據(jù)挖掘是在未知的前提下去挖掘信息、發(fā)現(xiàn)知識的,而可實用、有效和未知是數(shù)據(jù)挖掘的三大基本特征。目前比較常用的成熟的挖掘方法主要有七種,分別是關(guān)聯(lián)分析、決策樹、遺傳算法、貝葉斯網(wǎng)絡(luò)、粗糙集方法、神經(jīng)網(wǎng)絡(luò)和統(tǒng)計分析。唿唿1.3 基于大數(shù)據(jù)的數(shù)據(jù)挖掘唿唿基于大數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)是在大數(shù)據(jù)提出之后才開始引起人們關(guān)注的,大數(shù)據(jù)引起的信息技術(shù)革命不僅在于數(shù)據(jù)量龐大上,而是在于這些龐大的數(shù)據(jù)中隱藏了相對于過去更加復(fù)雜的、更加有用的信息。過去的數(shù)據(jù)量比較小,經(jīng)過這么多年的積累,數(shù)據(jù)量開始龐大起來,數(shù)據(jù)類型

10、開始復(fù)雜起來,若想使用這些龐大的、復(fù)雜的數(shù)據(jù)中的信息,數(shù)據(jù)挖掘技術(shù)必須解決因數(shù)據(jù)量龐大、數(shù)據(jù)類型復(fù)雜所帶來的問題。因此,數(shù)據(jù)挖掘技術(shù)必須得以改進,只有改進后的數(shù)據(jù)挖掘技術(shù)才能有效的挖掘出對人們有用的知識。若還用以前的數(shù)據(jù)挖掘技術(shù)來挖掘當(dāng)前的大數(shù)據(jù),即使可以挖掘出來,那么我們需要花費的時間以及各種唿資源也會使得這項工作毫無意義。所以,基于大數(shù)據(jù)的數(shù)據(jù)挖掘是一種更加新式的、更加先進的、更加復(fù)雜的數(shù)據(jù)挖掘技術(shù)。與傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)相對比,其對象數(shù)據(jù)不再是簡單的結(jié)構(gòu)化數(shù)據(jù),而是一種復(fù)雜的非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù),而對象數(shù)據(jù)的改變也使得許多數(shù)據(jù)挖掘技術(shù)已無用武之地,因此,基于大數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)應(yīng)是未來

11、幾年發(fā)展的重中之重。唿唿1.4 本文的主要目的與內(nèi)容唿 唿相對于傳統(tǒng)數(shù)據(jù)挖掘來說,基于大數(shù)據(jù)的數(shù)據(jù)挖掘研究的對象發(fā)生了改變。傳統(tǒng)數(shù)據(jù)挖掘的研究對象是數(shù)據(jù)量比較小的、數(shù)據(jù)類型比較簡單的結(jié)構(gòu)化數(shù)據(jù)。但基于大數(shù)據(jù)的數(shù)據(jù)挖掘研究對象是數(shù)據(jù)量比較龐大的、數(shù)據(jù)類型比較復(fù)雜的半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。由于研究對象的改變,數(shù)據(jù)挖掘技術(shù)也有所改變,主要體現(xiàn)在數(shù)據(jù)的存儲,數(shù)據(jù)的處理,數(shù)據(jù)的類型等方面。二者也有相同之處,那就是數(shù)據(jù)挖掘的思想、目的、方法等。唿唿- 23 -唿沈陽工程學(xué)院畢業(yè)論文 第2章 傳統(tǒng)數(shù)據(jù)挖掘的起源唿唿第2章 傳統(tǒng)數(shù)據(jù)挖掘的起源唿唿2.1 傳統(tǒng)數(shù)據(jù)挖掘的定義唿唿數(shù)據(jù)挖掘(英文名:data min

12、ing簡稱:dm),專業(yè)領(lǐng)域上又稱為資料探勘、數(shù)據(jù)采礦。數(shù)據(jù)挖掘是數(shù)據(jù)知識發(fā)現(xiàn)(英文名:knowledge discover in databases,簡稱:kdd)中的一個重要步驟。一般指從海量的信息數(shù)據(jù)中通過特定的算法挖掘其中隱藏的信息的過程。15唿唿2.2 傳統(tǒng)數(shù)據(jù)挖掘的概念唿唿隨著數(shù)據(jù)庫技術(shù)的不斷發(fā)展,數(shù)據(jù)應(yīng)用的不斷成熟,數(shù)據(jù)量正在以爆炸式的速度增長。大量的數(shù)據(jù)正向我們涌來。如今我們有著大量的數(shù)據(jù)確沒有足夠的信息,面對這些浩瀚的數(shù)據(jù),人們期望有這樣一種技術(shù),它能從這些大量數(shù)據(jù)中去粗求精、去偽求真。恰是由于人們的期望,從數(shù)據(jù)庫中挖掘信息的核心技術(shù)數(shù)據(jù)挖掘應(yīng)運而生??梢赃@樣說,數(shù)據(jù)挖掘其實

13、就是從大量數(shù)據(jù)中找出對人們有用的信息的過程。數(shù)據(jù)挖掘是數(shù)據(jù)庫研究、開發(fā)和應(yīng)用最活躍的分支。唿典型的數(shù)據(jù)挖掘系統(tǒng)具有以下成分18:唿數(shù)據(jù)庫:對數(shù)據(jù)清理和集成。唿數(shù)據(jù)庫服務(wù)器:根據(jù)數(shù)據(jù)挖掘請求,提取相關(guān)的數(shù)據(jù)信息。唿信息庫:用于搜索、評價結(jié)果模式的興趣度的領(lǐng)域信息。唿數(shù)據(jù)挖掘引擎:由一組功能模塊組成,用于完成用戶提交的數(shù)據(jù)挖掘任務(wù)。唿模式評估模塊:使用興趣度量,并與數(shù)據(jù)挖掘模塊交互,以便將搜索聚焦在有興趣的模式上。唿圖形用戶界面:提供用戶與系統(tǒng)的交互,提交數(shù)據(jù)挖掘任務(wù),幫助搜索聚焦評估挖掘的模式等。唿原則上講,數(shù)據(jù)挖掘能夠在任一類型的數(shù)據(jù)存儲上進行,包括關(guān)系型數(shù)據(jù)庫、數(shù)據(jù)倉庫、事物數(shù)據(jù)庫、高級數(shù)據(jù)

14、庫系統(tǒng)、展開文件和www等。唿唿2.3 傳統(tǒng)數(shù)據(jù)挖掘的起源唿唿數(shù)據(jù)挖掘來源于業(yè)界的需求,在信息數(shù)據(jù)逐漸爆炸的時代,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,主要是因為在這些大量的數(shù)據(jù)中隱藏我們需求的信息,所以數(shù)據(jù)挖掘在信息產(chǎn)業(yè)界被廣泛的使用,并將這些大量的數(shù)據(jù)通過一定的方式轉(zhuǎn)換成有用的信息。被獲取的信息可以應(yīng)用在各個領(lǐng)域,如商務(wù)管理,成產(chǎn)控制,市場分析調(diào)查,工程技術(shù),科學(xué)探索等。唿 數(shù)據(jù)挖掘不僅使用了統(tǒng)計學(xué)的抽樣、估計和假設(shè)檢驗以及人工智能、模式識別、機器學(xué)習(xí)的搜索算法、建模手段等思想,同時它也接受的思想也包括其它領(lǐng)域,例如最優(yōu)化、進化計算、信息論、信號處理、可視化和信息檢索等思想。特別的,數(shù)據(jù)挖掘

15、需要數(shù)據(jù)庫系統(tǒng)提供可靠地存儲、索引以及查詢處理的支持,其中,源于高性能的并行的計算技術(shù)在處理這些大量數(shù)據(jù)集方面是非常重要的。幾年來,分布式處理技術(shù)也可以幫助處理大量數(shù)據(jù)集,并且當(dāng)數(shù)據(jù)集不能集中在一起進行處理時更加方便,更顯的至關(guān)重要。唿唿2.4 傳統(tǒng)數(shù)據(jù)挖掘的發(fā)展階段唿唿數(shù)據(jù)挖掘的發(fā)展可以分為五個階段,它是逐步遞進的方式發(fā)展的,由簡單到復(fù)雜、由數(shù)據(jù)量較小到數(shù)據(jù)量龐大的方式發(fā)展的。11唿第一階段:電子郵件階段唿此階段業(yè)界認(rèn)為從70年代開始,平均的通訊量基本以每年幾倍的速度來增長。唿第二階段:信息發(fā)布階段唿從1995年起,以web技術(shù)為代表的信息發(fā)布系統(tǒng)呈爆炸式地成長起來,成為當(dāng)前internet

16、的主要應(yīng)用技術(shù)。如何把握好從“粗放型”到“精確型”營銷時代的電子商務(wù)成為主要問題。唿第三階段:電子商務(wù)階段唿電子商務(wù)(英文名:electronic commerce,簡稱ec),在美國也剛剛開始,之所以將ec列為一個劃時代的東西,就是因為internet的最終目的主要用于商業(yè)用途,其實就是電子商務(wù)。同時可以這樣說,以后的商業(yè)信息,主要是通過internet傳遞。internet將成為我們這個商業(yè)信息社會的神經(jīng)系統(tǒng)。1997年底在加拿大溫哥華舉行的第五次亞太經(jīng)合組織非正式首腦會議(apec)上,時任美國總統(tǒng)的克林頓提出敦促各國共同促進電子商務(wù)發(fā)展的議案,這引起了全球首腦的關(guān)注,ibm、hp、su

17、n等國際知名的信息技術(shù)廠商也已經(jīng)宣布1998年為電子商務(wù)年。唿第四階段:全程電子商務(wù)階段唿隨著軟件服務(wù)模式(英文名:software as a service,簡稱saas)的出現(xiàn),軟件開始登陸互聯(lián)網(wǎng),這延長了電子商務(wù)的鏈條,形成了當(dāng)下最新的“全程電子商務(wù)”概念模式。也因此形成了一門獨立的學(xué)科數(shù)據(jù)挖掘與客戶關(guān)系管理碩士。唿第五階段:大數(shù)據(jù)階段唿隨著信息技術(shù)的發(fā)展,信息量開始爆炸式的增長,如何在這些超大量數(shù)據(jù)集中挖掘出有用的信息成為越來越關(guān)注的問題,同時,基于大數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)也開始興起,未來的幾年,大數(shù)據(jù)時代將會以爆炸式的方式來臨。唿唿沈陽工程學(xué)院畢業(yè)論文 第3章 傳統(tǒng)數(shù)據(jù)挖掘技術(shù)唿唿第3章

18、 傳統(tǒng)數(shù)據(jù)挖掘技術(shù)唿唿3.1 數(shù)據(jù)挖掘的分析方法唿 唿數(shù)據(jù)挖掘的分析方法有很多種,根據(jù)發(fā)現(xiàn)知識的種類分類比較常用的有分類分析方法、聚類分析方法、關(guān)聯(lián)分析方法、序列模式分析方法、趨勢分析方法、偏差分析方法、回歸分析方法等多種分析方法。其中關(guān)聯(lián)分析、分類分析、序列模式分析、聚類分析是從唿功能上劃分的數(shù)據(jù)挖掘分析方法,這里只介紹以上下種分析方法。唿唿3.1.1 關(guān)聯(lián)分析唿 唿關(guān)聯(lián)分析是基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘分析方法。關(guān)聯(lián)分析的主要目的是挖掘隱藏在數(shù)據(jù)集中的相互關(guān)系,從中找到有用的依賴關(guān)系或關(guān)聯(lián)關(guān)系的信息。最著名的關(guān)聯(lián)分析應(yīng)用有沃爾瑪?shù)摹捌【婆c尿布”的關(guān)聯(lián)分析。它的基本思路是a b,a可解釋為屬性的集

19、合,b可解釋為屬性的個體,關(guān)聯(lián)規(guī)則就是a的屬性集具有一種特性,那么b這個個體就具有了 這種特性的可能性或者說未來趨勢。關(guān)聯(lián)分析在很多行業(yè)中都有著非常廣泛的應(yīng)用,例如在零售業(yè)中分析顧客購買a產(chǎn)品后又購買了b產(chǎn)品的機會是多少?這可以給零售商在配貨、產(chǎn)品布局、和管理上有很大啟示。又例如在機械工業(yè)中a部件發(fā)生故障導(dǎo)致b故障發(fā)生故障的概率是多少?這可以給機械維修與養(yǎng)護帶來極大地方便。關(guān)聯(lián)規(guī)則之所以被廣泛應(yīng)用,就是因為它可以再大量的數(shù)據(jù)集中發(fā)現(xiàn)一些人們想要知道的信息。唿在數(shù)據(jù)挖掘發(fā)展的過程中,關(guān)聯(lián)分析方法的研究是最深的,人們提出了非常多的關(guān)聯(lián)規(guī)則分析的挖掘算法,其中apriori算法是比較經(jīng)典的算法之一。

20、它的思想就是反復(fù)的掃描數(shù)據(jù)庫,在第n次掃描之后創(chuàng)建一個長度為n的大項集ln,在下一次掃描時只研究大項集ln中n項集產(chǎn)生的長度為n+1的備選集ln+1。唿唿3.1.2 分類分析唿 唿有這樣一個數(shù)據(jù)庫和一個具有不同特征得記錄,這個數(shù)據(jù)庫中的每個記錄都被標(biāo)記了一個特別的類,而分類分析就是通過分析這個數(shù)據(jù)庫中的數(shù)據(jù)來為每個賦予特別類的記錄做出精確地描述或建立一種分析模型,挖掘這種分析模型中的分類規(guī)則,然后利用這個分類規(guī)則來對其它具有和這個數(shù)據(jù)庫相似的數(shù)據(jù)庫中的記錄進行分類。唿在分類分析中,人們發(fā)明出很多分類分析的挖掘算法,比較經(jīng)典的有決策樹法、神經(jīng)網(wǎng)絡(luò)法和貝葉斯算法。貝葉斯算法的主要思想是假設(shè)們對研究

21、對象數(shù)據(jù)有一定的認(rèn)識,我們用先驗概率分布來描述這種認(rèn)識,然后用抽取的樣本來完善這種認(rèn)識得到后驗概率分布,最后根據(jù)后驗概率分布來建立函數(shù)?!炯帧?。唿唿唿3.1.3 序列模式分析唿 唿序列模式分析與關(guān)聯(lián)分析在方法上是相似的,它的目的也是為了挖掘出隱藏在數(shù)據(jù)集中的相互關(guān)系,從中找到有用的依賴關(guān)系或關(guān)聯(lián)關(guān)系的信息。但序列模式分析與關(guān)聯(lián)分析的側(cè)重點不同,序列模式分析側(cè)重于分析數(shù)據(jù)的因果關(guān)系。運用序列模式來分析產(chǎn)品的銷售情況,商家可以發(fā)現(xiàn)顧客的購物習(xí)慣,例如顧客在購買炒鍋的同時會不會也購買電磁爐。唿唿3.1.4 聚類分析唿 唿聚類分析方法與分類分析方法截然不同,聚類分析方法分析的是一個記錄集,這個記錄

22、集沒有任何的標(biāo)記,簡單來說就是這個記錄集中沒有類別的劃分。聚類分析的目的是將記錄集合合理的按照一定規(guī)則劃分類別,同時,這些不同的類別可以用顯式或隱式的方法來描述。聚類分析是我們應(yīng)用的最廣泛的一種分析方法,比如一個從未見過老虎與獅子的兒童,通過不斷的觀看老虎與獅子來改進意識中的聚類模式,這個兒童就會學(xué)會如何分辨老虎與獅子,或者生物與無機物,動物與植物。聚類分析也廣泛應(yīng)用于數(shù)據(jù)分析、圖像處理、市場調(diào)查等技術(shù)。唿在數(shù)據(jù)挖掘技術(shù)的發(fā)展過程中,人們提出了很多的聚類分析算法,基本上可以分為基于概率的聚類分析算法和基于距離的聚類分析算法?;诟怕实木垲惙治鏊惴ㄍ诰虼髷?shù)據(jù)集時效率極低,因此它適用于小型數(shù)據(jù)集的

23、數(shù)據(jù)挖掘。而基于距離的聚類分析算法比較適合大數(shù)據(jù)集的數(shù)據(jù)挖掘,它的基本思想是從數(shù)據(jù)對象中任取n個對象作為初始聚類中心,那些剩下的數(shù)據(jù)對象根據(jù)它們與聚類中心的距離分配給與其最近的聚類中心,然后在計算獲得新聚類的聚類中心,重復(fù)此過程直至數(shù)據(jù)收斂為止。唿唿3.2 復(fù)雜數(shù)據(jù)類型挖掘 唿 唿復(fù)雜數(shù)據(jù)類型挖掘其實也是數(shù)據(jù)分析方法中的一種,之所以將它單獨拿出來,是因為我覺得復(fù)雜數(shù)據(jù)類型相對于之前所提到的數(shù)據(jù)類型(之前所提到的數(shù)據(jù)類型都是以機構(gòu)化數(shù)據(jù)為主的)更加重要,頁更加特殊。隨著數(shù)據(jù)處理技術(shù)、數(shù)據(jù)庫技術(shù)以及萬維網(wǎng)技術(shù)的高速發(fā)展,大量的復(fù)雜類型數(shù)據(jù)如結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)、超文本數(shù)據(jù)與多媒體數(shù)據(jù)等數(shù)據(jù)不斷涌現(xiàn)

24、,數(shù)據(jù)挖掘的重要研究方向就轉(zhuǎn)為對這些復(fù)雜類型數(shù)據(jù)的挖掘,包括一些復(fù)雜對象、多媒體、時間與空間序列數(shù)據(jù)、超文本數(shù)據(jù)和web數(shù)據(jù)等。19唿空間數(shù)據(jù)用來描述電子信息世界中的空間對象在現(xiàn)實世界的具體方位和分布。包括對象的數(shù)量、屬性、位置和相互關(guān)系等,涵蓋了宏觀世界和微觀世界??臻g數(shù)據(jù)庫存儲了大量空間數(shù)據(jù),例如地圖、透視圖像等。空間數(shù)據(jù)與關(guān)系數(shù)據(jù)所不同的是數(shù)據(jù)的顯著特征,包括空間對象的拓撲特征、非空間對象的屬性特征和兩種對象在時間上的狀態(tài)變化。空間數(shù)據(jù)挖掘指的是對空間數(shù)據(jù)中非顯式存在的信息、位于空間的關(guān)系或其它有意義的關(guān)系的提取??臻g數(shù)據(jù)挖掘技術(shù)需要結(jié)合數(shù)據(jù)挖掘與空間數(shù)據(jù)技術(shù)。唿時間數(shù)據(jù)是指對象在不同時

25、間變化下的數(shù)據(jù),它通常是在等時間間隔或特定時間間隔下測得的數(shù)據(jù)值。時間序列數(shù)據(jù)庫是由有序時間序列組成的數(shù)據(jù)庫,它可以有時間標(biāo)記、也可以沒有時間標(biāo)記。時序數(shù)據(jù)挖掘的研究主要方法是趨勢分析,在分析中依賴相似度搜索和與時間相關(guān)數(shù)據(jù)中序列模式的挖掘。唿超文本數(shù)據(jù)挖掘是分析和發(fā)現(xiàn)非結(jié)構(gòu)化文本中的關(guān)系。它不在依賴以關(guān)鍵字和相似度檢索的范疇。超文本挖掘利用智能算法如神經(jīng)網(wǎng)絡(luò)、可能性推理等算法,在結(jié)合文字處理技術(shù)來分析大量的非結(jié)構(gòu)化文本集如文檔、表格、郵件、網(wǎng)頁等,抽取其中關(guān)鍵字的概念和文字之間的關(guān)系,按照內(nèi)容對文檔分類,以獲取感興趣的信息。文本挖掘最早可追溯到信息檢索,它包括關(guān)鍵字檢索和全篇檢索。文本挖掘分

26、析方法的關(guān)鍵在于文本內(nèi)的量化表征。超文本挖掘是數(shù)據(jù)挖掘的一個分支,用于文本信息的挖掘。唿萬維網(wǎng)是廣泛分布的全球信息服務(wù)中,服務(wù)內(nèi)容不僅包括金融、新聞、電子商務(wù)、教育等多方面的領(lǐng)域,頁包涵了豐富的動態(tài)的超鏈接信息、訪問使用信息等。這給數(shù)據(jù)挖掘提供了豐富的數(shù)據(jù)資源。萬維網(wǎng)數(shù)據(jù)挖掘是根據(jù)基于internet的分布式信息資源的特點的一種抽取過程,它可以找到分布式信息資源中已經(jīng)存在的信息,也可以發(fā)現(xiàn)存于海量數(shù)據(jù)中的隱含的有效的規(guī)律。萬維網(wǎng)數(shù)據(jù)挖掘涵蓋萬維網(wǎng)連接結(jié)構(gòu)、萬維網(wǎng)內(nèi)容和訪問模式的挖掘。唿唿3.3 傳統(tǒng)數(shù)據(jù)挖掘面臨的挑戰(zhàn)唿唿3.3.1 數(shù)據(jù)挖掘的對象唿唿現(xiàn)在的數(shù)據(jù)挖掘?qū)ο笫歉笮偷臄?shù)據(jù)庫、更高的維

27、數(shù)、屬性更復(fù)雜的關(guān)系,這些因素使數(shù)據(jù)挖掘搜索信息所花費的資源代價極高,由于這些原因,數(shù)據(jù)挖掘應(yīng)該發(fā)展出新的技術(shù)來應(yīng)對越來越大的數(shù)據(jù)庫、越來越高的維數(shù)和越來越復(fù)雜的關(guān)系屬性。唿唿3.3.2 輸入數(shù)據(jù)的復(fù)雜性唿 唿目前,數(shù)據(jù)挖掘工具還只能處理有限的幾種數(shù)據(jù)形式,主要處理結(jié)構(gòu)化數(shù)據(jù),但大多數(shù)的數(shù)據(jù)挖掘工具無法處理超文本的、圖形的、圖像和萬維網(wǎng)資源等這些非結(jié)構(gòu)化的數(shù)據(jù)形式,也無法挖掘隱藏在其中有用的信息。唿唿3.3.3 用戶的參與度唿唿有效的決策需要多次反復(fù)的交互與溝通,當(dāng)前用戶很少能真正參與到數(shù)據(jù)挖掘工具、數(shù)據(jù)挖掘系統(tǒng)、數(shù)據(jù)挖掘過程中。用戶的指導(dǎo)與其所擁有的知識可以加快挖掘進程,并且保證發(fā)現(xiàn)的信息對

28、用戶更加有時效性。唿唿唿唿3.3.4 信息的驗證技術(shù)唿數(shù)據(jù)挖掘采用的是特定的分析方法與分析邏輯來挖掘信息,例如歸納演繹、分類聚類等。但是數(shù)據(jù)挖掘系統(tǒng)卻無法與數(shù)據(jù)挖掘人員交互,進而無法證實發(fā)現(xiàn)的信息是不是因沒有普遍的實用性而不能成為對用戶來說有用的信息。而還有一種情況則是數(shù)據(jù)挖掘的對象本身就是錯誤的,這樣數(shù)據(jù)挖掘出的信息也一定是錯誤的,所以數(shù)據(jù)挖掘技術(shù)必須能確定信息具有何種程度的時效性。唿唿3.3.5 信息的表達和解釋唿唿在數(shù)據(jù)挖掘的過程中,最重要的是用戶能夠理解數(shù)據(jù)挖掘出的信息。這就為數(shù)據(jù)挖掘帶來了相當(dāng)大的困難,因為這要求了信息的表達和解釋的形式不能局限于信息符號,而應(yīng)該是更容易被理解的圖形、

29、表格或者可視化的工具。唿唿3.3.6 信息的維護更新唿唿數(shù)據(jù)挖掘出的信息經(jīng)過一段時間的數(shù)據(jù)積累,可能會導(dǎo)致以前發(fā)現(xiàn)的信息失去有效性,這些信息急需維護更新,而目前數(shù)據(jù)挖掘采用的是增量更新法來維護更新已有的信息,最著名的當(dāng)屬維護關(guān)聯(lián)規(guī)則的增量算法。唿唿3.3.7 有限的支持和集成唿唿當(dāng)前的數(shù)據(jù)挖掘系統(tǒng)無法支持多種平臺,也無法和其他系統(tǒng)集成,例如有些數(shù)據(jù)挖掘的信息是基于pc機的,有些則是面向大型主機系統(tǒng)的,還有一些是面向服務(wù)器客戶的。而且數(shù)據(jù)挖掘系統(tǒng)還需要和其他系統(tǒng)進行有機集成,例如鞠策支持系統(tǒng),特別是用戶需要的系統(tǒng)結(jié)合在一起,這對于系統(tǒng)發(fā)揮作用是非常有意義的。唿唿3.4 數(shù)據(jù)挖掘的發(fā)展趨勢唿唿數(shù)據(jù)

30、挖掘作為一種智能信息處理技術(shù),隨著信息技術(shù)的高速發(fā)展,數(shù)據(jù)挖掘也越來越深入在各個領(lǐng)域中,特別是在生物醫(yī)學(xué)、dna分析、軍事、保險、零售、電信等行業(yè)有著極其重要的意義。而數(shù)據(jù)挖掘的發(fā)展趨勢主要體現(xiàn)在以下幾個方面:唿1.數(shù)據(jù)挖掘應(yīng)用方面:現(xiàn)如今,探索擴大數(shù)據(jù)挖掘的應(yīng)用范圍是非常有必要的,例如數(shù)據(jù)挖掘在生物醫(yī)學(xué)領(lǐng)域、軍事領(lǐng)域、保險領(lǐng)域、零售領(lǐng)域以及電信領(lǐng)域等多方面的探索。但是,現(xiàn)如今存在的通用數(shù)據(jù)挖掘系統(tǒng)在處理某些特定的應(yīng)用問題時,有著無法彌補的局限性,所以,開發(fā)一種可以針對特定應(yīng)用問題的數(shù)據(jù)挖掘系統(tǒng)是未來數(shù)據(jù)挖掘的一種趨勢。唿2.數(shù)據(jù)挖掘與其他數(shù)據(jù)系統(tǒng)的集成:其他的數(shù)據(jù)系統(tǒng)例如數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫

31、系統(tǒng)、萬維網(wǎng)數(shù)據(jù)庫系統(tǒng)已經(jīng)成為信息處理系統(tǒng)的主流。而現(xiàn)如今的數(shù)據(jù)挖掘系統(tǒng)與這些數(shù)據(jù)庫系統(tǒng)的結(jié)合還不夠理想,所以,在未來的發(fā)展中,使數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫、數(shù)據(jù)倉庫、萬維網(wǎng)數(shù)據(jù)庫系統(tǒng)的緊密結(jié)合是最理想的體系結(jié)構(gòu)。唿3.數(shù)據(jù)挖掘的標(biāo)準(zhǔn)化:對于數(shù)據(jù)挖掘系統(tǒng)的開發(fā),標(biāo)準(zhǔn)的數(shù)據(jù)挖掘語言與其它方面的標(biāo)準(zhǔn)化是非常有幫助的,這些標(biāo)準(zhǔn)化既有利于數(shù)據(jù)挖掘系統(tǒng)的開發(fā),改進數(shù)據(jù)挖掘系統(tǒng)和功能之間的相互操作,也有利于促進數(shù)據(jù)挖掘系統(tǒng)在各領(lǐng)域的發(fā)展與使用。唿4.數(shù)據(jù)挖掘的可視化:數(shù)據(jù)挖掘的可視化是從海量數(shù)據(jù)中發(fā)現(xiàn)有效信息的最佳途徑。唿5.復(fù)雜數(shù)據(jù)類型的挖掘方法:現(xiàn)如今的數(shù)據(jù)挖掘系統(tǒng)已經(jīng)無法滿足人們在復(fù)雜數(shù)據(jù)類型方面的挖掘,

32、針對于復(fù)雜數(shù)據(jù)類型的數(shù)據(jù)挖掘是一項必要的研究課題。唿唿唿沈陽工程學(xué)院畢業(yè)論文 第4章 基于大數(shù)據(jù)的數(shù)據(jù)挖掘唿唿第4章 基于大數(shù)據(jù)的數(shù)據(jù)挖掘唿唿4.1 大數(shù)據(jù)技術(shù)唿唿4.1.1 大數(shù)據(jù)的定義唿唿大數(shù)據(jù)(big data),又稱海量資料,信息領(lǐng)域認(rèn)為大數(shù)據(jù)指的是新處理模式具有的更強的決策力、更敏銳的洞察力和更合理的流程優(yōu)化能力的大量、高速增長率和多樣化的信息資產(chǎn)。唿唿4.1.2 大數(shù)據(jù)的意義唿唿大數(shù)據(jù)技術(shù)具有很高的戰(zhàn)略意義,但大數(shù)據(jù)技術(shù)不在于所掌握的海量的數(shù)據(jù)信息,而在于對這些海量的有意義的數(shù)據(jù)信息進行專業(yè)化的處理,如果將大數(shù)據(jù)比作一種產(chǎn)業(yè),那么大數(shù)據(jù)產(chǎn)業(yè)的關(guān)鍵在于對數(shù)據(jù)的加工能力,通過加工數(shù)據(jù)實

33、現(xiàn)數(shù)據(jù)的增值。唿唿4.1.3 大數(shù)據(jù)的特點唿唿大數(shù)據(jù)采用的分析方法不是隨機分析法(抽樣調(diào)查法)這種便捷的分析方法,而是采用所有數(shù)據(jù)進行分析處理。大數(shù)據(jù)分析與傳統(tǒng)數(shù)據(jù)倉庫應(yīng)用相比,具有數(shù)據(jù)量更大、查詢分析更復(fù)雜等特點。而大數(shù)據(jù)具有4v的特點:volume(大量)、velocity(高速)、variety(多樣)、value(價值)。唿1.數(shù)據(jù)量巨大(volume)唿信息產(chǎn)業(yè)中的大數(shù)據(jù)指的是pb以上的數(shù)據(jù)量。我們會產(chǎn)生如此龐大的數(shù)據(jù)量主要在于三個方面的原因。唿通信、傳感工具的應(yīng)用:通信傳感工具的應(yīng)用使人們可以再任何時間任何時段都能保持聯(lián)系,而m2m方式使得交流的數(shù)據(jù)量以指數(shù)形式高速增長。唿發(fā)達儀器

34、的應(yīng)用:目前各種發(fā)達儀器的應(yīng)用可以感知更多的事物,而這些事物的全部數(shù)據(jù)都可以被存儲下來,慢慢累積到相當(dāng)大的規(guī)模。唿集成電路的發(fā)展:由于集成電路的發(fā)展迅速,其價格也在迅速下滑,很多東西都有了智能系統(tǒng),這些智能系統(tǒng)交互的信息量積累下來,逐漸成為信息龐大的數(shù)據(jù)。唿2.數(shù)據(jù)種類多(variety)唿由于傳感設(shè)備、智能設(shè)備發(fā)展,其種類繁多,再加上網(wǎng)絡(luò)的流行,數(shù)據(jù)類型也逐漸復(fù)雜化,目前的數(shù)據(jù)類型不僅包括傳統(tǒng)的關(guān)系型與非關(guān)系型數(shù)據(jù),也包括音頻、視頻、郵件、網(wǎng)頁、表格等各種形式存在的未經(jīng)加工的、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。唿3.處理速度快(velocity)唿傳統(tǒng)的流通速度考慮的是數(shù)據(jù)的存儲、數(shù)據(jù)的獲取、挖掘數(shù)

35、據(jù)的有效信息的速度,但唿現(xiàn)如今的數(shù)據(jù)量規(guī)模很多都在tb級甚至zb級,為了處理這些大規(guī)模的海量的數(shù)據(jù),大數(shù)據(jù)強調(diào)數(shù)據(jù)應(yīng)是快速的、動態(tài)的和變化的,因此,數(shù)據(jù)流動的速度很難用傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)去處理,因此,形成流式數(shù)據(jù)是大數(shù)據(jù)的重要特征。唿4.價值密度低(value)唿當(dāng)前數(shù)據(jù)量正在呈指數(shù)形式增長,而隱藏在這些大量數(shù)據(jù)中的有意義的信息卻并沒有隨之增長,因此,逐漸增長的數(shù)據(jù)量加大了人們在大數(shù)據(jù)中獲取有效信息的難度。唿唿4.1.4 內(nèi)存分析唿唿隨著內(nèi)存技術(shù)的發(fā)展,內(nèi)存的價格也在急速下滑,越來越多的性價比高的內(nèi)存應(yīng)用到數(shù)據(jù)中心中,如何利用內(nèi)存優(yōu)勢最大限度的優(yōu)化軟件成為關(guān)鍵性問題。內(nèi)存分析以高性能的、實時的

36、特性成為大數(shù)據(jù)分析的寵兒。如何將大數(shù)據(jù)轉(zhuǎn)化為敏銳的洞察力,也許內(nèi)存分析可以給出答案。唿唿4.1.5 集成設(shè)備唿唿數(shù)據(jù)倉庫設(shè)備的出現(xiàn),大大激發(fā)了大數(shù)據(jù)分析以及商業(yè)智能的潛能,企業(yè)也將數(shù)據(jù)倉庫技術(shù)的應(yīng)用作為提升自身競爭力的重要籌碼。集成設(shè)備是將數(shù)據(jù)倉庫的軟件和硬件整合在一起,提升擴充存儲功能、查詢功能以及更強大的分析功能,并具有傳統(tǒng)數(shù)據(jù)倉庫系統(tǒng)所有的優(yōu)勢。唿唿4.1.6 大數(shù)據(jù)的結(jié)構(gòu)唿唿大數(shù)據(jù)是互聯(lián)網(wǎng)發(fā)展的一種表象特征,這些原本很難收集、整合、使用的大量數(shù)據(jù)在以云計算技術(shù)為代表的新技術(shù)下,可以較容易的利用起來。一般認(rèn)為大數(shù)據(jù)可分三層結(jié)構(gòu)。唿第一層是理論,理論是認(rèn)知的途徑,是實踐的指導(dǎo)。從大數(shù)據(jù)的定

37、義、特征來理解行業(yè)中大數(shù)據(jù)的定性,從對大數(shù)據(jù)價值的探討來深入解析大數(shù)據(jù)的珍貴所在來洞悉大數(shù)據(jù)的發(fā)展趨勢。唿第二層是技術(shù),技術(shù)是體現(xiàn)大數(shù)據(jù)價值的手段。大數(shù)據(jù)技術(shù)主要從分布式處理技術(shù)、云計算、感知技術(shù)和存儲技術(shù)的發(fā)展歷程來說明大數(shù)據(jù)從采集、存儲、處理到得出結(jié)論的整個過程。唿第三層是實踐,實踐是驗證理論的有力手段,是大數(shù)據(jù)價值的最終體現(xiàn)。大數(shù)據(jù)的實踐可以分為個人的大數(shù)據(jù)、企業(yè)的大數(shù)據(jù)、政府的大數(shù)據(jù)、互聯(lián)網(wǎng)的大數(shù)據(jù)四個方面來描繪大數(shù)據(jù)的美好前景。唿唿唿唿唿4.2 基于大數(shù)據(jù)的數(shù)據(jù)挖掘唿唿近兩年,大數(shù)據(jù)逐漸走入我們的生活,大數(shù)據(jù)時代顛覆了我們過去所認(rèn)知的數(shù)據(jù)時代,人們的生活因大數(shù)據(jù)帶來的數(shù)據(jù)革命而受到巨

38、大的影響。大數(shù)據(jù)不僅影響著人們的生活,也影響著企業(yè)決策、組織、業(yè)務(wù)流程等。在大數(shù)據(jù)的時代,人與人之間的界限逐漸模糊,值得一提的是大數(shù)據(jù)時代中,最寶貴的不是權(quán)利、金錢,而是大量的數(shù)據(jù)信息,這些數(shù)據(jù)會引領(lǐng)我們走向正確的道路,它才是未來最寶貴的財富。但是這些財富現(xiàn)在卻被層層包裹著,人們要想享用這筆財富,必然要祛除這些阻隔,而祛除這些阻隔最有效的方法就是數(shù)據(jù)挖掘。唿數(shù)據(jù)挖掘通過對大量數(shù)據(jù)的建模,對模型的進行專業(yè)的分析整理后,得出對人們有用的數(shù)據(jù)信息。這些數(shù)據(jù)信息能幫助企業(yè)分析不同的客戶和市場劃分,根據(jù)消費者的喜好,找到企業(yè)的運營方式。這些大量數(shù)據(jù)中可能隱藏著規(guī)律性的東西,通過建模技術(shù)就可以找到大量數(shù)據(jù)

39、中的這種關(guān)聯(lián)性。數(shù)據(jù)挖掘常與統(tǒng)計學(xué)中的一些分析方法聯(lián)合起來應(yīng)用,所以想要掌握基于大數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù),統(tǒng)計分析也是必不可少的。唿在業(yè)界上,基于大數(shù)據(jù)的數(shù)據(jù)挖掘被稱為大數(shù)據(jù)挖掘,其包括基于內(nèi)容的大數(shù)據(jù)挖掘和基于結(jié)構(gòu)的大數(shù)據(jù)挖掘。唿唿4.2.1 基于內(nèi)容的大數(shù)據(jù)挖掘唿唿就內(nèi)容的大數(shù)據(jù)挖掘包括實體關(guān)聯(lián)分析和網(wǎng)絡(luò)搜索技術(shù)。唿1.實體關(guān)聯(lián)分析唿命名實體是指在現(xiàn)實世界中存在的具體的或抽象的實體,它具有特定的意義。從大數(shù)據(jù)中挖掘命名實體中所蘊含的內(nèi)在信息,關(guān)鍵在于對命名實體及其關(guān)系的數(shù)據(jù)挖掘。唿在社會媒體生成的大數(shù)據(jù)中,實體類型越來越多,越來越細,它們之間的關(guān)系也越來越復(fù)雜。對于實體關(guān)系的挖掘,是基于內(nèi)容大

40、數(shù)據(jù)挖掘領(lǐng)域的研究重點,研究人員提出了基于規(guī)則和基于機器學(xué)習(xí)的方法并初具成效。唿2.網(wǎng)絡(luò)搜索技術(shù)唿網(wǎng)絡(luò)信息搜索的研究重點在社會媒體出現(xiàn)之后轉(zhuǎn)移到了排序?qū)W習(xí)算法,它專注于提高搜索質(zhì)量。唿以損失函數(shù)為優(yōu)化目標(biāo)的排序?qū)W習(xí)算法,尋找在搜索領(lǐng)域中常用的評價標(biāo)準(zhǔn)下的最好的排序函數(shù),它文檔表示為特征向量,目前現(xiàn)有的模型在處理用戶需求的多樣性、重要性和相關(guān)性等不同的目標(biāo),在排序方面仍有不足。唿此外,社會媒體關(guān)注的數(shù)據(jù)段文本特征,對關(guān)鍵詞的表達深入理解和分析,精確掌握用戶的查詢意圖也是網(wǎng)絡(luò)搜索技術(shù)關(guān)注的內(nèi)容。唿唿唿唿唿4.2.2 基于結(jié)構(gòu)的大數(shù)據(jù)挖掘唿唿社會網(wǎng)絡(luò),以用戶之間的關(guān)系為連線,以社會媒體用戶為節(jié)點構(gòu)建

41、而成的網(wǎng)絡(luò)。它不僅是用戶間社會關(guān)系的反映,也是用戶間信息交互的載體。社會網(wǎng)絡(luò)具有結(jié)構(gòu)多尺度性、網(wǎng)絡(luò)動態(tài)演化性和關(guān)系異質(zhì)性三方面特性。唿在社會網(wǎng)絡(luò)中,個體因興趣愛好、血緣、行業(yè)、專業(yè)等多方面的因素,進而形成了緊密的圈子,這種對外關(guān)系稀疏而對內(nèi)關(guān)系緊密的結(jié)構(gòu)被稱為社區(qū)。社會網(wǎng)絡(luò)所普遍具有的結(jié)構(gòu)特征就是社區(qū)結(jié)構(gòu),它的存在對于大數(shù)據(jù)的網(wǎng)絡(luò)演化、信息擴散、高效搜索定具有重要意義。唿針對社區(qū)結(jié)構(gòu)的研究,大致可劃分為社區(qū)結(jié)構(gòu)演化、社區(qū)發(fā)現(xiàn)等方向。隨著數(shù)據(jù)的積累、時間的推移,大數(shù)據(jù)挖掘的結(jié)構(gòu)熱點將會注重于社區(qū)演化的研究。唿唿4.3 基于大數(shù)據(jù)的數(shù)據(jù)挖掘的意義唿唿在大數(shù)據(jù)時代下,基于大數(shù)據(jù)的數(shù)據(jù)挖掘有著無比重要

42、的意義,這是其他工作都無法替代的,人們通過對大量數(shù)據(jù)的專業(yè)分析,可以對現(xiàn)有的商業(yè)模式、企業(yè)決策提供寶貴的數(shù)據(jù)支持。目前,幾乎所有的國際知名企業(yè)中的管理建議都是根據(jù)數(shù)據(jù)分析結(jié)論作為依據(jù)而提出的,在分析和解決問題時也開始傾向于用數(shù)據(jù)說話,不掌握大量數(shù)據(jù)時無法提出合理的、科學(xué)的、可行的建議的。此外,當(dāng)大量的數(shù)據(jù)量積累到一定程度后,數(shù)據(jù)也會發(fā)出信息,對這些數(shù)據(jù)進行分析處理后,人們就可以從這些大量數(shù)據(jù)中找到感興趣的有效的信息。唿唿4.4 基于大數(shù)據(jù)的數(shù)據(jù)挖掘的應(yīng)用唿唿1.市場營銷領(lǐng)域唿數(shù)據(jù)挖掘技術(shù)的應(yīng)用最早和最多的領(lǐng)域就是營銷領(lǐng)域,通過對大量消費數(shù)據(jù)的分析與挖掘,可以發(fā)現(xiàn)消費者的消費習(xí)慣和特點,進而來提

43、高銷售額。目前,數(shù)據(jù)挖掘在市場營銷領(lǐng)域已經(jīng)不再局限于超市購物等方面,它已經(jīng)在金融領(lǐng)域普遍應(yīng)用,如數(shù)據(jù)挖掘在保險行業(yè)的應(yīng)用,在電子商務(wù)領(lǐng)域的應(yīng)用,在銀行系統(tǒng)的應(yīng)用等等。利用數(shù)據(jù)挖掘技術(shù)可以分析消費者的消費行為,為營銷領(lǐng)域帶來潛在的客戶和不菲的效益。唿2.制造業(yè)唿基于大數(shù)據(jù)的數(shù)據(jù)挖掘在制造業(yè)領(lǐng)域中有著舉足輕重的地位,通過對生產(chǎn)的各種數(shù)據(jù)進行專業(yè)的分析與處理,進而提高生產(chǎn)效率以及良品率,如對產(chǎn)品缺陷數(shù)據(jù)的分析可以發(fā)現(xiàn)造成產(chǎn)品缺陷的環(huán)節(jié)以及各種因素,從而改進生產(chǎn)環(huán)節(jié),提高生產(chǎn)效率以及利益。唿3.教育領(lǐng)域唿基于大數(shù)據(jù)的數(shù)據(jù)挖掘在教育領(lǐng)域中,解決了如何全面掌握學(xué)生的心理情況、學(xué)習(xí)狀況、以及教學(xué)資源優(yōu)化配置

44、等一系列問題。唿唿4.科學(xué)研究唿在進行科學(xué)研究中,統(tǒng)計分析方法是最重要的科學(xué)探索方法,這需要經(jīng)常性的分析各種大量的觀測數(shù)據(jù)和實驗數(shù)據(jù),找到相應(yīng)的規(guī)律性和隱藏的信息,進行這樣的數(shù)據(jù)分析和唿數(shù)據(jù)挖掘都需要特定的數(shù)據(jù)挖掘算法,利用大數(shù)據(jù)挖掘技術(shù)能找到更加科學(xué)的、更加合理的數(shù)據(jù)之間的規(guī)律以及我們未能發(fā)現(xiàn)的信息。例如對宇宙的探索、對dna數(shù)據(jù)的分析等等。唿唿沈陽工程學(xué)院畢業(yè)論文 第5章 傳統(tǒng)數(shù)據(jù)挖掘與大數(shù)據(jù)挖掘的異同唿唿第5章 傳統(tǒng)數(shù)據(jù)挖掘與大數(shù)據(jù)挖掘的異同唿唿在當(dāng)下的信息化產(chǎn)業(yè)中,大數(shù)據(jù)這個代表著信息世界新時代的開始,逐漸開始被人們所認(rèn)知,基于大數(shù)據(jù)的各種技術(shù)也在蓬勃發(fā)展,在處理大數(shù)據(jù)的過程中,數(shù)據(jù)挖

45、掘又是最重要的一步,那么基于大數(shù)據(jù)的數(shù)據(jù)挖掘與傳統(tǒng)上的數(shù)據(jù)挖掘究竟有什么不同?這是我們主要探究的問題。唿數(shù)據(jù)挖掘的概念最早出現(xiàn)在70年代,他的目的是挖掘出隱藏在數(shù)據(jù)中的對人們有用的知識。而大數(shù)據(jù)是近幾年提出的,它指的是數(shù)據(jù)量非常龐大的、關(guān)系非常復(fù)雜的海量數(shù)據(jù)資源。唿數(shù)據(jù)挖掘與大數(shù)據(jù)挖掘的異同主要體現(xiàn)在數(shù)據(jù)存儲方面、數(shù)據(jù)處理技術(shù)等方面的不同。唿唿5.1 數(shù)據(jù)存儲方面唿唿5.1.1 容量方面唿唿傳統(tǒng)數(shù)據(jù)挖掘在數(shù)據(jù)容量方面是比較小的,在當(dāng)今信息世界的高速發(fā)展下,我們所接收的數(shù)據(jù)容量非常大,而傳統(tǒng)數(shù)據(jù)挖掘在提出的時候,信息技術(shù)還沒有發(fā)展到可以接收容量非常大的數(shù)據(jù),所以傳統(tǒng)數(shù)據(jù)挖掘所挖掘的對象數(shù)據(jù)相對比

46、當(dāng)今的對象數(shù)據(jù)時比較小的。唿基于大數(shù)據(jù)的數(shù)據(jù)挖掘?qū)ο髷?shù)據(jù)是相當(dāng)龐大的,一般我們所說的“大數(shù)據(jù)”通常可以達到pb級的數(shù)據(jù)規(guī)模。因此,大數(shù)據(jù)存儲系統(tǒng)也應(yīng)該具備一定的擴展能力,存儲系統(tǒng)的擴展要簡便,易實現(xiàn),一般可以通過增加磁盤或模塊來實現(xiàn)存儲系統(tǒng)的擴展,理想狀態(tài)下是不需要停機就可以實現(xiàn)存儲系統(tǒng)的擴展。唿唿5.1.2 延遲方面唿唿大數(shù)據(jù)應(yīng)用問題是具有實時性的,現(xiàn)在的“大數(shù)據(jù)”應(yīng)用環(huán)境都需要較高的iops性能,比如hpc高性能計算等。此外,隨著服務(wù)器虛擬化的普及也導(dǎo)致了系統(tǒng)對iops性能的高要求。為了解決這些問題,各種模式的固態(tài)存儲設(shè)備得以高速發(fā)展,從簡單的服務(wù)器內(nèi)部高速緩存到全固態(tài)介質(zhì)并且可擴展的存儲

47、系統(tǒng)高性能閃存存儲。這可以大大降低延遲時間,提升系統(tǒng)效率。唿唿5.1.3 安全方面唿唿無論何種技術(shù)、何種方法,最終的目的都是要應(yīng)用在日常生活中。對于某些行業(yè)例如軍事數(shù)據(jù)、國家情報以及金融數(shù)據(jù)等都具有特殊的安全標(biāo)準(zhǔn)與保密需求,這些對于it工作者并沒有什么實質(zhì)性的不同,但這都需要無條件遵從的,但是大數(shù)據(jù)挖掘往往需要多種類型數(shù)據(jù)作為參考,難免會涉及這些比較敏感的領(lǐng)域,而傳統(tǒng)數(shù)據(jù)挖掘不會有這種多類數(shù)據(jù)混合分析的情況,所以基于大數(shù)據(jù)的數(shù)據(jù)挖掘催生出一些新的、急需解決的安全性問題,這也是傳統(tǒng)數(shù)據(jù)挖掘與大數(shù)據(jù)挖掘在安全方面的不同之處。唿唿5.1.4 成本方面唿唿對于那些想要使用大數(shù)據(jù)挖掘技術(shù)的企業(yè)來說,傳統(tǒng)

48、數(shù)據(jù)挖掘與大數(shù)據(jù)挖掘在成本方面有著相當(dāng)大的差別,最關(guān)鍵的問題就是成本控制問題。因為大數(shù)據(jù)需要更新的存儲系統(tǒng)、更快的處理效率等問題,這就意味著在大數(shù)據(jù)挖掘過程中提高每一臺計算機的處理效率是必要的,而且要盡可能地減少那些比較昂貴的部件?,F(xiàn)在比較流行的技術(shù)是重復(fù)數(shù)據(jù)刪除等技術(shù),它可以處理多種數(shù)據(jù)類型,提升存儲效率。在當(dāng)前數(shù)據(jù)量不斷增長的環(huán)境下,如果能減少后端的存儲消耗,哪怕是降低了很少的百分點,對于大數(shù)據(jù)挖掘的非常重要的。唿唿5.1.5 數(shù)據(jù)積累方面唿唿想要做數(shù)據(jù)挖掘,數(shù)據(jù)存儲是必不可少的,我們所存儲的數(shù)據(jù)都是有應(yīng)用準(zhǔn)備的,而許多應(yīng)用都會涉及到法律或者是行業(yè)規(guī)則等問題,這就需要我們存儲的數(shù)據(jù)不是要存

49、儲一段時間,而是很長時間,它可能是幾年,也可能是幾十年,那么在存儲的這段時間里,數(shù)據(jù)是會不斷的積累的,而數(shù)據(jù)挖掘都是基于時間段來進行的。要想長期保存數(shù)據(jù),需要我們開發(fā)出一款能夠保持?jǐn)?shù)據(jù)一致性特性的存儲系統(tǒng)。唿唿5.2 數(shù)據(jù)處理方面唿唿5.2.1 處理工具方面唿唿數(shù)據(jù)挖掘由于工作量重大,如若單靠傳統(tǒng)的人工編程實現(xiàn),耗費的資源以及時間過于巨大,其性能也不穩(wěn)定,因此,必須依賴于專業(yè)的挖掘工具。傳統(tǒng)的數(shù)據(jù)挖掘處理工具有sas公司的enterprise miner以及ibm公司的intelligent miner等等。而大數(shù)據(jù)的處理工具有hadoop以及mapreduce等等。唿sa

50、s公司的enterprise miner是一個非常具有競爭力的數(shù)據(jù)挖掘處理工具,集成了多種數(shù)據(jù)挖掘算法,主要有關(guān)聯(lián)、聚類、決策樹、神經(jīng)元網(wǎng)絡(luò)和經(jīng)典的統(tǒng)計回歸技術(shù)。它易于理解和使用,比較適合初學(xué)者和有經(jīng)驗的用戶使用,它允許一個分析者通過構(gòu)造一個使用鏈接連接數(shù)據(jù)結(jié)點和處理結(jié)點的可視數(shù)據(jù)流圖建造一個模型。它也能運行在客戶/服務(wù)器上或(計算機的外圍設(shè)備)能獨立運行的配置上。唿ibm公司的intelligent miner是一個非常強大的數(shù)據(jù)挖掘處理工具,它集成了多種數(shù)據(jù)挖掘算法,主要有單變量曲線,雙變量統(tǒng)計,線性回歸,因子分析,主變量分析,分唿類,分群,關(guān)聯(lián),相似序列,序列模式,預(yù)

51、測等等。它能處理很多數(shù)據(jù)類型如數(shù)據(jù)庫表,數(shù)據(jù)庫視圖,平面文件等結(jié)構(gòu)化數(shù)據(jù)和顧客信件,在線服務(wù),傳真,電子郵件,網(wǎng)頁等半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。它能自動生成典型數(shù)據(jù)集、發(fā)現(xiàn)關(guān)聯(lián)、發(fā)現(xiàn)序列規(guī)律、概念性分類和可視化的呈現(xiàn),還可以自動實現(xiàn)數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘和結(jié)果呈現(xiàn)這一整套數(shù)據(jù)挖掘操作。唿hadoop是一種分布式處理的軟件框架,是一種可以處理大數(shù)據(jù)的數(shù)據(jù)處理工具,是一種可以讓用戶簡單使用并架構(gòu)的分布式計算平臺。它提供給用戶開發(fā)和運行處理海量數(shù)據(jù)的應(yīng)用程序。它具有可靠、高效、可伸縮的特點。hadoop的可靠性在與進行數(shù)據(jù)處理的時候,hadoop會先假設(shè)它所計算的數(shù)據(jù)和所存儲的數(shù)據(jù)會失敗,為了保證

52、失敗的節(jié)點可以重新分布處理,它會維護多個工作數(shù)據(jù)副本。hadoop的高效性在于為了加快處理數(shù)據(jù)的速度,因此它以并行方式運行并處理數(shù)據(jù)。hadoop的可伸縮性在于可以處理pb級數(shù)據(jù)。唿mapreduce是一種用于大數(shù)據(jù)并行運算的編程模型。map是映射,reduce是規(guī)約,mapreduce思想主要是借鑒于函數(shù)式編程語言、矢量編程語言的特性。它最主要的功能是將不會分布式并行編程的編程人員將自己所編的程序運行在分布式系統(tǒng)上。mapreduce指定了一個映射(map)函數(shù),用來把一組鍵值對映射成一組新的鍵值對,并發(fā)的規(guī)約(reduce)函數(shù)用來保證所有映射的鍵值對中的每一個共享相同的鍵組。唿唿5.2.

53、2 存儲工具方面唿 唿數(shù)據(jù)挖掘的研究對象是各種類型的數(shù)據(jù),這些數(shù)據(jù)必須先存儲在相應(yīng)的數(shù)據(jù)庫中才能實現(xiàn)數(shù)據(jù)挖掘。傳統(tǒng)的數(shù)據(jù)挖掘所研究的對象數(shù)據(jù)主要是結(jié)構(gòu)化數(shù)據(jù),它可以存儲在許多數(shù)據(jù)庫中如mysql數(shù)據(jù)庫、sql serve數(shù)據(jù)庫和oracle數(shù)據(jù)庫等。基于大數(shù)據(jù)的數(shù)據(jù)挖掘所研究的對象除了結(jié)構(gòu)化數(shù)據(jù)外,更多的是半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)類型,這些數(shù)據(jù)的存儲可以存儲在nosql數(shù)據(jù)庫中。唿nosql數(shù)據(jù)庫指的并不是一款數(shù)據(jù)庫,它泛指非關(guān)系型數(shù)據(jù)庫,主要用于存儲半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)類型的數(shù)據(jù)。nosql數(shù)據(jù)庫可以用來解決超大規(guī)模和高并發(fā)的sns類型的web2.0網(wǎng)站所帶來的大規(guī)模數(shù)據(jù)集合以及多重數(shù)據(jù)種

54、類的挑戰(zhàn)。這是存儲大數(shù)據(jù)的主要手段。唿唿5.2.3 數(shù)據(jù)計算方面唿唿大數(shù)據(jù)與云計算是密不可分的,是相伴而生的,二者就像掌心掌背一樣是共同出現(xiàn)的。大數(shù)據(jù)中的數(shù)據(jù)因為數(shù)據(jù)量非常龐大,必然無法應(yīng)用一臺計算機處理,所以它必須采用分布式架構(gòu),也就是云計算。而大數(shù)據(jù)的特色就在于對這些有意義的海量數(shù)據(jù)進行分布式的數(shù)據(jù)挖掘處理,而分布式數(shù)據(jù)挖掘必須依托云計算的分布式處理、分布式數(shù)據(jù)庫、云存儲與虛擬化技術(shù)。唿隨著云時代的降臨,大數(shù)據(jù)也越來越受到人們的關(guān)注,在商業(yè)中,大數(shù)據(jù)指的是企業(yè)唿創(chuàng)造的大量半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)如果下載到傳統(tǒng)的關(guān)系型數(shù)據(jù)庫進行分析,會花費大量的時間以及金錢。大數(shù)據(jù)需要特殊的技術(shù),以

55、有效的處理大量的容忍時間內(nèi)的數(shù)據(jù)。大數(shù)據(jù)分析常和云計算密切聯(lián)系,因為分析實時的大數(shù)據(jù)集需要mapreduce這樣的框架來向多臺計算機分配任務(wù)。目前適用于大數(shù)據(jù)的技術(shù)也有很多種,比較成熟的有大規(guī)模并行處理數(shù)據(jù)庫(mpp)、數(shù)據(jù)挖掘電網(wǎng)、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計算、互聯(lián)網(wǎng)和可擴展的存儲系統(tǒng)。唿通過上述比較,可以發(fā)現(xiàn)傳統(tǒng)數(shù)據(jù)挖掘與基于大數(shù)據(jù)的數(shù)據(jù)挖掘在算法、目的、分析方法上都是相同的,但二者在數(shù)據(jù)的存儲上、數(shù)據(jù)的處理上、數(shù)據(jù)的計算上都有著很大的不同。唿唿沈陽工程學(xué)院畢業(yè)論文 結(jié) 論唿唿結(jié) 論唿唿在大數(shù)據(jù)時代下,數(shù)據(jù)挖掘是最關(guān)鍵的工作。因為數(shù)據(jù)挖掘是通過預(yù)測未來趨勢以及行為,做出科學(xué)的、基于知識的決策支持。伴隨著大數(shù)據(jù)的數(shù)據(jù)管理、檢索技術(shù)的研究發(fā)展,基于大數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)也將迎來巨大的發(fā)展機遇,數(shù)據(jù)挖掘技術(shù)的應(yīng)用也將更加廣泛。唿那么傳統(tǒng)數(shù)據(jù)挖掘與基于大數(shù)據(jù)的數(shù)據(jù)挖掘究竟有何不同?在系統(tǒng)的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論