數(shù)據(jù)挖掘技術(shù)分析與研究.doc_第1頁(yè)
數(shù)據(jù)挖掘技術(shù)分析與研究.doc_第2頁(yè)
數(shù)據(jù)挖掘技術(shù)分析與研究.doc_第3頁(yè)
數(shù)據(jù)挖掘技術(shù)分析與研究.doc_第4頁(yè)
數(shù)據(jù)挖掘技術(shù)分析與研究.doc_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘技術(shù)分析與研究 學(xué) 院 專 業(yè) 研 究 方 向 學(xué) 生 姓 名 學(xué) 號(hào) 任課教師姓名 任課教師職稱 2013 年 6月 23日 數(shù)據(jù)挖掘技術(shù)綜述摘要:隨著信息技術(shù)的迅速發(fā)展,數(shù)據(jù)庫(kù)的規(guī)模不斷擴(kuò)大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無(wú)法辨別隱藏在其中的能對(duì)決策提供支持的信息,而傳統(tǒng)的查詢、報(bào)表工具無(wú)法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價(jià)值的潛在知識(shí),數(shù)據(jù)挖掘(DataMining)技術(shù)由此應(yīng)運(yùn)而生。本文主要介紹了數(shù)據(jù)挖掘的基本概念、數(shù)據(jù)挖掘的過(guò)程、數(shù)據(jù)挖掘所需的工具、數(shù)據(jù)挖掘的任務(wù)、數(shù)據(jù)挖掘未來(lái)的研究方向、數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域和未來(lái)發(fā)展所面臨的一些問(wèn)題。關(guān)鍵字:數(shù)據(jù)挖掘數(shù)據(jù)挖掘工具QUESTDBMiner網(wǎng)站數(shù)據(jù)挖掘研究方向應(yīng)用領(lǐng)域 引言 數(shù)據(jù)是知識(shí)的源泉。但是,擁有大量的數(shù)據(jù)與擁有許多有用的知識(shí)完全是兩回事。過(guò)去幾年中,從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)這一領(lǐng)域發(fā)展的很快。廣闊的市場(chǎng)和研究利益促使這一領(lǐng)域的飛速發(fā)展。計(jì)算機(jī)技術(shù)和數(shù)據(jù)收集技術(shù)的進(jìn)步使人們可以從更加廣泛的范圍和幾年前不可想象的速度收集和存儲(chǔ)信息。收集數(shù)據(jù)是為了得到信息,然而大量的數(shù)據(jù)本身并不意味信息。盡管現(xiàn)代的數(shù)據(jù)庫(kù)技術(shù)使我們很容易存儲(chǔ)大量的數(shù)據(jù)流,但現(xiàn)在還沒(méi)有一種成熟的技術(shù)幫助我們分析、理解并使數(shù)據(jù)以可理解的信息表示出來(lái)。在過(guò)去,我們常用的知識(shí)獲取方法是由知識(shí)工程師把專家經(jīng)驗(yàn)知識(shí)經(jīng)過(guò)分析、篩選、比較、綜合、再提取出知識(shí)和規(guī)則。然而,由于知識(shí)工程師所擁有知識(shí)的有局限性,所以對(duì)于獲得知識(shí)的可信度就應(yīng)該打個(gè)折扣。目前,傳統(tǒng)的知識(shí)獲取技術(shù)面對(duì)巨型數(shù)據(jù)倉(cāng)庫(kù)無(wú)能為力,數(shù)據(jù)挖掘技術(shù)就應(yīng)運(yùn)而生。數(shù)據(jù)的迅速增加與數(shù)據(jù)分析方法的滯后之間的矛盾越來(lái)越突出,人們希望在對(duì)已有的大量數(shù)據(jù)分析的基礎(chǔ)上進(jìn)行科學(xué)研究、商業(yè)決策或者企業(yè)管理,但是目前所擁有的數(shù)據(jù)分析工具很難對(duì)數(shù)據(jù)進(jìn)行深層次的處理,使得人們只能望“數(shù)”興嘆。數(shù)據(jù)挖掘正是為了解決傳統(tǒng)分析方法的不足,并針對(duì)大規(guī)模數(shù)據(jù)的分析處理而出現(xiàn)的。目前,在需要處理大數(shù)據(jù)量的科研領(lǐng)域中,數(shù)據(jù)挖掘受到越來(lái)越多的關(guān)注,同時(shí),在實(shí)際問(wèn)題中,大量成功運(yùn)用數(shù)據(jù)挖掘的實(shí)例說(shuō)明了數(shù)據(jù)挖掘?qū)茖W(xué)研究具有很大的促進(jìn)作用。數(shù)據(jù)挖掘可以幫助人們對(duì)大規(guī)模數(shù)據(jù)進(jìn)行高效的分析處理,以節(jié)約時(shí)間,將更多的精力投入到更高層的研究中,從而提高科研工作的效率。 數(shù)據(jù)挖掘技術(shù)1、 數(shù)據(jù)挖掘的概念 數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過(guò)程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來(lái)可能發(fā)生的行為。數(shù)據(jù)挖掘的過(guò)程也叫知識(shí)發(fā)現(xiàn)的過(guò)程。2、 數(shù)據(jù)挖掘的過(guò)程數(shù)據(jù)挖掘是指一個(gè)完整的過(guò)程,該過(guò)程從大型數(shù)據(jù)庫(kù)中挖掘先前未知的、有效的、可實(shí)用的信息,并使用這些信息做出決策或豐富知識(shí)。下圖描述了數(shù)據(jù)挖掘的基本過(guò)程和主要步驟可視化工具數(shù)據(jù)挖掘工具數(shù)據(jù)庫(kù)3、 數(shù)據(jù)挖掘的工具 在數(shù)據(jù)挖掘技術(shù)日益發(fā)展的同時(shí),許多數(shù)據(jù)挖掘的商業(yè)軟件工具也逐漸問(wèn)世。數(shù)據(jù)挖掘工具主要有兩類:特定領(lǐng)域的數(shù)據(jù)挖掘工具和通用的數(shù)據(jù)挖掘工具。下面簡(jiǎn)單介紹兩種數(shù)據(jù)挖掘工具:1.QUEST QUEST是IBM公司Almaden研究中心開發(fā)的一個(gè)多任務(wù)數(shù)據(jù)挖掘系統(tǒng),目的是為新一代決策支持系統(tǒng)的應(yīng)用開發(fā)提供高效的數(shù)據(jù)開采基本構(gòu)件。系統(tǒng)具有如下特點(diǎn):u 提供了專門在大型數(shù)據(jù)庫(kù)上進(jìn)行各種開采的功能:關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、時(shí)間序列聚類、決策樹分類、遞增式主動(dòng)開采等。u 各種開采算法具有近似線性(O(n))計(jì)算復(fù)雜度,可適用于任意大小的數(shù)據(jù)庫(kù)。u 算法具有找全性,即能將所有滿足指定類型的模式全部尋找出來(lái)。(4)為各種發(fā)現(xiàn)功能設(shè)計(jì)了相應(yīng)的并行算法。2.DBMiner DBMiner是加拿大SimonFraser大學(xué)開發(fā)的一個(gè)多任務(wù)數(shù)據(jù)挖掘系統(tǒng),它的前身是DBLearn。該系統(tǒng)設(shè)計(jì)的目的是把關(guān)系數(shù)據(jù)庫(kù)和數(shù)據(jù)開采集成在一起,以面向?qū)傩缘亩嗉?jí)概念為基礎(chǔ)發(fā)現(xiàn)各種知識(shí)。DBMiner系統(tǒng)具有如下特色:u 能完成多種知識(shí)的發(fā)現(xiàn):泛化規(guī)則、特性規(guī)則、關(guān)聯(lián)規(guī)則、分類規(guī)則、演化知識(shí)、偏離知識(shí)等。u 綜合了多種數(shù)據(jù)開采技術(shù):面向?qū)傩缘臍w納、統(tǒng)計(jì)分析、逐級(jí)深化發(fā)現(xiàn)多級(jí)規(guī)則、元規(guī)則引導(dǎo)發(fā)現(xiàn)等方法。u 實(shí)現(xiàn)了基于客戶/服務(wù)器體系結(jié)構(gòu)的Unix和PC(Windows/NT)版本的系統(tǒng)。u 提出了一種交互式的類SQL語(yǔ)言數(shù)據(jù)開采查詢語(yǔ)言DMQL。4、 數(shù)據(jù)挖掘技術(shù)的任務(wù)數(shù)據(jù)挖掘技術(shù)主要有四種開采任務(wù):u 數(shù)據(jù)總結(jié)是對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。數(shù)據(jù)挖掘是從數(shù)據(jù)泛化的角度來(lái)討論數(shù)據(jù)總結(jié)。u 分類發(fā)現(xiàn)這是一項(xiàng)非常重要的任務(wù),分類是運(yùn)用分類器把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè),用于對(duì)未來(lái)數(shù)據(jù)進(jìn)行預(yù)測(cè)。u 聚類是把一組個(gè)體按照相似性歸成若干類別,它的目的是使得屬于同一類別的個(gè)體之間的距離盡可能的小,而不同類別的個(gè)體間的距離盡可能的大。u 關(guān)聯(lián)規(guī)則是指事物之間的聯(lián)系具有多大的支持度和可信度。有意義的關(guān)聯(lián)規(guī)則必須給定兩個(gè)閾值:最小支持度和最小可信度。 數(shù)據(jù)挖掘未來(lái)的研究方向和熱點(diǎn)1、 數(shù)據(jù)挖掘未來(lái)的研究方向 當(dāng)前,數(shù)據(jù)挖掘研究方興未艾,其研究與開發(fā)的總體水平相當(dāng)于數(shù)據(jù)庫(kù)技術(shù)在70年代所處的地位,迫切需要類似于關(guān)系模式、DBMS系統(tǒng)和SQL查詢語(yǔ)言等理論和方法的指導(dǎo),才能使數(shù)據(jù)挖掘的應(yīng)用得以普遍推廣。預(yù)計(jì)在本世紀(jì)數(shù)據(jù)挖掘的研究還會(huì)形成更大的高潮,研究焦點(diǎn)可能會(huì)集中到以下幾個(gè)方面:n 尋求數(shù)據(jù)挖掘過(guò)程中的可視化方法,使知識(shí)發(fā)現(xiàn)的過(guò)程能夠被用戶理解,也便于在知識(shí)發(fā)現(xiàn)的過(guò)程中進(jìn)行人機(jī)交互;n 發(fā)現(xiàn)語(yǔ)言的形式化描述,即研究專門用于知識(shí)發(fā)現(xiàn)的數(shù)據(jù)挖掘語(yǔ)言,也許會(huì)像SQL語(yǔ)言一樣走向形式化和標(biāo)準(zhǔn)化;n 研究在網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘技術(shù)(WebMining),特別是在因特網(wǎng)上建立數(shù)據(jù)挖掘服務(wù)器,并且與數(shù)據(jù)庫(kù)服務(wù)器配合,實(shí)現(xiàn)WebMining;n 處理的數(shù)據(jù)將會(huì)涉及到更多的數(shù)據(jù)類型,這些數(shù)據(jù)類型或者比較復(fù)雜,或者是結(jié)構(gòu)比較獨(dú)特。為了處理這些復(fù)雜的數(shù)據(jù),就需要一些新的和更好的分析和建立模型的方法,同時(shí)還會(huì)涉及到為處理這些復(fù)雜或獨(dú)特?cái)?shù)據(jù)所做的費(fèi)時(shí)和復(fù)雜數(shù)據(jù)準(zhǔn)備的一些工具和軟件。n 加強(qiáng)對(duì)各種非結(jié)構(gòu)化數(shù)據(jù)的開采(DataMiningforAudioVideo),如對(duì)文本數(shù)據(jù)、圖形數(shù)據(jù)、視頻圖像數(shù)據(jù)、聲音數(shù)據(jù)乃至綜合多媒體數(shù)據(jù)的開采;交互式發(fā)現(xiàn)和知識(shí)的維護(hù)更新。2、 分析 隨著Web技術(shù)的發(fā)展,各類電子商務(wù)網(wǎng)站風(fēng)起云涌,建立起一個(gè)電子商務(wù)網(wǎng)站并不困難,困難的是如何讓您的電子商務(wù)網(wǎng)站有效益。要想有效益就必須吸引客戶,增加能帶來(lái)效益的客戶忠誠(chéng)度。電子商務(wù)業(yè)務(wù)的競(jìng)爭(zhēng)比傳統(tǒng)的業(yè)務(wù)競(jìng)爭(zhēng)更加激烈,原因有很多方面,其中一個(gè)因素是客戶從一個(gè)電子商務(wù)網(wǎng)站轉(zhuǎn)換到競(jìng)爭(zhēng)對(duì)手那邊,只需點(diǎn)擊幾下鼠標(biāo)即可。網(wǎng)站的內(nèi)容和層次、用詞、標(biāo)題、獎(jiǎng)勵(lì)方案、服務(wù)等任何一個(gè)地方都有可能成為吸引客戶、同時(shí)也可能成為失去客戶的因素。而同時(shí)電子商務(wù)網(wǎng)站每天都可能有上百萬(wàn)次的在線交易,生成大量的記錄文件(Logfiles)和登記表,如何對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘,充分了解客戶的喜好、購(gòu)買模式,甚至是客戶一時(shí)的沖動(dòng),設(shè)計(jì)出滿足于不同客戶群體需要的個(gè)性化網(wǎng)站,進(jìn)而增加其競(jìng)爭(zhēng)力,幾乎變得勢(shì)在必行。若想在競(jìng)爭(zhēng)中生存進(jìn)而獲勝,就要比您的競(jìng)爭(zhēng)對(duì)手更了解客戶。3、 電子商務(wù)網(wǎng)站數(shù)據(jù)挖掘 在對(duì)網(wǎng)站進(jìn)行數(shù)據(jù)挖掘時(shí),所需要的數(shù)據(jù)主要來(lái)自于兩個(gè)方面:一方面是客戶的背景信息,此部分信息主要來(lái)自于客戶的登記表;而另外一部分?jǐn)?shù)據(jù)主要來(lái)自瀏覽者的點(diǎn)擊流(Click-stream),此部分?jǐn)?shù)據(jù)主要用于考察客戶的行為表現(xiàn)。但有的時(shí)候,客戶對(duì)自己的背景信息十分珍重,不肯把這部分信息填寫在登記表上,這就會(huì)給數(shù)據(jù)分析和挖掘帶來(lái)不便。在這種情況之下,就不得不從瀏覽者的表現(xiàn)數(shù)據(jù)中來(lái)推測(cè)客戶的背景信息,進(jìn)而再加以利用。就分析和建立模型的技術(shù)和算法而言,網(wǎng)站的數(shù)據(jù)挖掘和原來(lái)的數(shù)據(jù)挖掘差別并不是特別大,很多方法和分析思想都可以運(yùn)用。所不同的是網(wǎng)站的數(shù)據(jù)格式有很大一部分來(lái)自于點(diǎn)擊流,和傳統(tǒng)的數(shù)據(jù)庫(kù)格式有區(qū)別。因而對(duì)電子商務(wù)網(wǎng)站進(jìn)行數(shù)據(jù)挖掘所做的主要工作是數(shù)據(jù)準(zhǔn)備。目前,有很多廠商正在致力于開發(fā)專門用于網(wǎng)站挖掘的軟件。 數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的。目前,在很多領(lǐng)域,數(shù)據(jù)挖掘(datamining)都是一個(gè)很時(shí)髦的詞,尤其是在如銀行、電信、保險(xiǎn)、交通、零售(如超級(jí)市場(chǎng))等商業(yè)領(lǐng)域。數(shù)據(jù)挖掘不僅是面向特定數(shù)據(jù)庫(kù)的簡(jiǎn)單檢索查詢調(diào)用,而且要對(duì)這些數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計(jì),分析,綜合和推理,以指導(dǎo)實(shí)際問(wèn)題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對(duì)未來(lái)的活動(dòng)進(jìn)行預(yù)測(cè)。1、 在科學(xué)研究中應(yīng)用 從科學(xué)研究方法學(xué)的角度看,科學(xué)研究可分為三類:理論科學(xué)、實(shí)驗(yàn)科學(xué)和計(jì)算科學(xué)。計(jì)算科學(xué)是現(xiàn)代科學(xué)的一個(gè)重要標(biāo)志。計(jì)算科學(xué)工作者主要和數(shù)據(jù)打交道,每天要分析各種大量的實(shí)驗(yàn)或觀測(cè)數(shù)據(jù)。隨著先進(jìn)的科學(xué)數(shù)據(jù)收集工具的使用,如觀測(cè)衛(wèi)星、遙感器、DNA分子技術(shù)等,數(shù)據(jù)量非常大,傳統(tǒng)的數(shù)據(jù)分析工具無(wú)能為力,因此必須有強(qiáng)大的智能型自動(dòng)數(shù)據(jù)分析工具才行。 數(shù)據(jù)挖掘在天文學(xué)上有一個(gè)非常著名的應(yīng)用系統(tǒng):SKICAT(SkyImageCatalogingandAnalysisTool)。它是美國(guó)加州理工學(xué)院噴氣推進(jìn)實(shí)驗(yàn)室(即設(shè)計(jì)火星探測(cè)器漫游者號(hào)的實(shí)驗(yàn)室)與天文科學(xué)家合作開發(fā)的用于幫助天文學(xué)家發(fā)現(xiàn)遙遠(yuǎn)的類星體的一個(gè)工具。SKICAT既是第一個(gè)獲得相當(dāng)成功的數(shù)據(jù)挖掘應(yīng)用,也是人工智能技術(shù)在天文學(xué)和空間科學(xué)上第一批成功應(yīng)用之一。利用SKICAT,天文學(xué)家已發(fā)現(xiàn)了16個(gè)新的極其遙遠(yuǎn)的類星體,該項(xiàng)發(fā)現(xiàn)能幫助天文工作者更好地研究類星體的形成以及早期宇宙的結(jié)構(gòu)。數(shù)據(jù)挖掘在生物學(xué)上的應(yīng)用主要集中于分子生物學(xué)特別是基因工程的研究上?;蜓芯恐校幸粋€(gè)著名的國(guó)際性研究課題人類基因組計(jì)劃。據(jù)報(bào)道,1997年3月,科學(xué)家宣布已完成第一步計(jì)劃:繪制人類染色體基因圖。然而這僅僅是第一步,更重要的是對(duì)基因圖進(jìn)行解釋從而發(fā)現(xiàn)各種蛋白質(zhì)(有10,000多種不同功能的蛋白質(zhì))和RNA分子的結(jié)構(gòu)和功能。近幾年,通過(guò)用計(jì)算生物分子系列分析方法,尤其是基因數(shù)據(jù)庫(kù)搜索技術(shù)己在基因研究上作出了很多重大發(fā)現(xiàn)。2、 在商業(yè)上的應(yīng)用在商業(yè)領(lǐng)域特別是零售業(yè),數(shù)據(jù)挖掘的運(yùn)用是比較成功的。由于MIS系統(tǒng)在商業(yè)的普遍使用,特別是碼技術(shù)的使用,可以收集到大量關(guān)于購(gòu)買情況的數(shù)據(jù),并且數(shù)據(jù)量在不斷激增。利用數(shù)據(jù)挖掘技術(shù)可以為經(jīng)營(yíng)管理人員提供正確的決策手段,這樣對(duì)促進(jìn)銷售及提高競(jìng)爭(zhēng)力是大有幫助的。3、 在金融上的應(yīng)用 在金融領(lǐng)域,數(shù)據(jù)量是非常巨大的,銀行、證券公司等交易數(shù)據(jù)和存儲(chǔ)量都是很大的。而對(duì)于信用卡欺詐行為,銀行每年的損失非常大。因此,可以利用數(shù)據(jù)挖掘?qū)蛻粜抛u(yù)進(jìn)行分析。典型的金融分析領(lǐng)域有投資評(píng)估和股票交易市場(chǎng)預(yù)測(cè)。4、 在醫(yī)學(xué)上的應(yīng)用 數(shù)據(jù)挖掘在醫(yī)學(xué)上的應(yīng)用十分廣泛,從分子制藥到醫(yī)療診斷,都可以利用數(shù)據(jù)挖掘的手段來(lái)提高效率和效益。在藥物合成方面,通過(guò)對(duì)藥物分子化學(xué)結(jié)構(gòu)的分析,可以確定藥物中哪種原子或原子基因?qū)κ裁床∧軌虬l(fā)揮作用,這樣在合成新藥時(shí),可根據(jù)新藥的分子結(jié)構(gòu)確定該藥將有可能治療哪一種病。數(shù)據(jù)挖掘還可用于工業(yè)、農(nóng)業(yè)、交通、電信、軍事、Internet等其它行業(yè)。數(shù)據(jù)挖掘具有廣泛的應(yīng)用前景,它既可應(yīng)用于決策支持,也可應(yīng)用于數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)中。數(shù)據(jù)挖掘作為決策支持和分析的工具,可以用于構(gòu)造知識(shí)庫(kù)。在DBMS中,數(shù)據(jù)挖掘可以用于語(yǔ)義查詢優(yōu)化、完整性約束和不一致檢驗(yàn)等。 數(shù)據(jù)挖掘面臨的問(wèn)題和挑戰(zhàn) 數(shù)據(jù)挖掘應(yīng)從以下三方面加以考慮,一是用數(shù)據(jù)挖掘解決什么樣的商業(yè)問(wèn)題,二是為進(jìn)行數(shù)據(jù)挖掘所做的數(shù)據(jù)準(zhǔn)備,三是數(shù)據(jù)挖掘的各種分析算法。 數(shù)據(jù)挖掘的分析算法主要來(lái)自于以下兩個(gè)方面:統(tǒng)計(jì)分析和人工智能(機(jī)器學(xué)習(xí)、模式識(shí)別等)。數(shù)據(jù)挖掘研究人員和數(shù)據(jù)挖掘軟件供應(yīng)商,在這一方面所做的主要工作是優(yōu)化現(xiàn)有的一些算法,以適應(yīng)大數(shù)據(jù)量。另外需要強(qiáng)調(diào)的是,任何一種數(shù)據(jù)挖掘的算法,不管是統(tǒng)計(jì)分析方法、神經(jīng)元網(wǎng)絡(luò)、各種樹分析方法,還是遺傳算法,沒(méi)有一種算法是萬(wàn)能的。不同的商業(yè)問(wèn)題,需要用不同的方法去解決。即使對(duì)于同一個(gè)商業(yè)問(wèn)題,可能有多種算法,這個(gè)時(shí)候,也需要評(píng)估對(duì)于這一特定問(wèn)題和特定數(shù)據(jù)哪一種算法表現(xiàn)好。 做數(shù)據(jù)挖掘研究的人,往往把主要的精力用于改進(jìn)現(xiàn)有算法和研究新算法上。人們都知道數(shù)據(jù)準(zhǔn)備是必不可少的一步,但很少有人去真正花時(shí)間和精力去研究。其實(shí)數(shù)據(jù)挖掘最后成功與失敗,是否有經(jīng)濟(jì)效益,數(shù)據(jù)準(zhǔn)備起到了至關(guān)重要的作用。數(shù)據(jù)準(zhǔn)備包含很多方面:一是從多種數(shù)據(jù)源去綜合數(shù)據(jù)挖掘所需要的數(shù)據(jù),保證數(shù)據(jù)的綜合性、易用性、數(shù)據(jù)的質(zhì)量和數(shù)據(jù)的時(shí)效性,這有可能要用到數(shù)據(jù)倉(cāng)庫(kù)的思想和技術(shù);另一方面就是如何從現(xiàn)有數(shù)據(jù)中衍生出所需要的指標(biāo),這主要取決于數(shù)據(jù)挖掘者的分析經(jīng)驗(yàn)和工具的方便性。 人們通常把數(shù)據(jù)挖掘工具看得過(guò)份神秘,認(rèn)為只要有了一個(gè)數(shù)據(jù)挖掘工具,就能自動(dòng)挖掘出所需要的信息,就能更好地進(jìn)行企業(yè)運(yùn)作,這是認(rèn)識(shí)上的一個(gè)誤區(qū)。其實(shí)要想真正做好數(shù)據(jù)挖掘,數(shù)據(jù)挖掘工具只是其中的一個(gè)方面,同時(shí)還需要對(duì)企業(yè)業(yè)務(wù)的深入了解和數(shù)據(jù)分析經(jīng)驗(yàn)。一個(gè)企業(yè)要想在未來(lái)的市場(chǎng)中具有競(jìng)爭(zhēng)力,必須有一些數(shù)據(jù)挖掘方面的專家,專門從事數(shù)據(jù)分析和數(shù)據(jù)挖掘工作。再同其他部門協(xié)調(diào),把挖掘出來(lái)的信息供管理者決策參考,最后把挖掘出的知識(shí)物化。在國(guó)內(nèi)的企業(yè)中,還很少有決策人員認(rèn)識(shí)到這一點(diǎn)。如果管理者沒(méi)有這方面的意識(shí),數(shù)據(jù)挖掘和數(shù)據(jù)分析就很難發(fā)揮應(yīng)有的作用,很容易走向兩個(gè)極端,一是認(rèn)為數(shù)據(jù)挖掘沒(méi)有用處,二是開始認(rèn)為數(shù)據(jù)挖掘是萬(wàn)能的。如此得到的結(jié)果往往與初始期望相去太遠(yuǎn)。 雖然數(shù)據(jù)挖掘技術(shù)已經(jīng)在各方面都得到了廣泛的應(yīng)用,但數(shù)據(jù)挖掘技術(shù)的研究還不夠成熟,在應(yīng)用上有很大的局限性。正是這些局限性,促使數(shù)據(jù)挖掘技術(shù)進(jìn)一步的發(fā)展:l 挖掘的對(duì)象;數(shù)據(jù)庫(kù)更大,維數(shù)更高,屬性之間更復(fù)雜,數(shù)據(jù)挖掘處理的數(shù)據(jù)通常十分巨大。l 數(shù)據(jù)丟失問(wèn)題;因大部分?jǐn)?shù)據(jù)庫(kù)不是為知識(shí)發(fā)現(xiàn)而定做的,那么它就有可能會(huì)存在一些重要的數(shù)據(jù)和屬性丟失的問(wèn)題。l 多種形式的輸入數(shù)據(jù);目前數(shù)據(jù)挖掘工具能處理的數(shù)據(jù)形式有限,一般只能處理數(shù)值型的結(jié)構(gòu)化數(shù)據(jù)。l 網(wǎng)絡(luò)與分布式環(huán)境的KDD問(wèn)題;隨網(wǎng)絡(luò)的發(fā)展,資源的豐富,技術(shù)人員各自獨(dú)立處理分離數(shù)據(jù)庫(kù)的工作方式應(yīng)是可協(xié)作的。l 個(gè)人隱私問(wèn)題;l 與其他系統(tǒng)的集成問(wèn)題。 結(jié)束語(yǔ) 數(shù)據(jù)挖掘現(xiàn)在越來(lái)越為更多的人們所關(guān)注,被認(rèn)為是未來(lái)最有發(fā)展前景和廣闊市場(chǎng)潛力的新興學(xué)科之一。隨著信息技術(shù)和數(shù)據(jù)庫(kù)技術(shù)的不斷發(fā)展,各行各業(yè)的人們掌握了大量的數(shù)據(jù),在競(jìng)爭(zhēng)日益激烈的現(xiàn)今社會(huì)里,如何迅速有效的獲得隱藏在數(shù)據(jù)之后的有用的知識(shí)信息,成為眾

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論