數(shù)據(jù)挖掘的應(yīng)用_第1頁(yè)
數(shù)據(jù)挖掘的應(yīng)用_第2頁(yè)
數(shù)據(jù)挖掘的應(yīng)用_第3頁(yè)
數(shù)據(jù)挖掘的應(yīng)用_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘的應(yīng)用近年來(lái)隨著數(shù)據(jù)庫(kù)和計(jì)算機(jī)網(wǎng)絡(luò)的廣泛應(yīng)用,加上使用先進(jìn)的自動(dòng)數(shù)據(jù)生成和采集工具,人們所擁有的數(shù)據(jù)量急劇增大。條形碼技術(shù)在商業(yè)上的普遍使用使得很多行業(yè)每天都積累了大量數(shù)據(jù),如超級(jí)市場(chǎng)上的POS系統(tǒng)每天都要存儲(chǔ)上萬(wàn)筆的顧客購(gòu)買數(shù)據(jù)。先進(jìn)的現(xiàn)代科學(xué)觀測(cè)儀器的使用造成每天都要產(chǎn)生巨量的數(shù)據(jù),如各種同步衛(wèi)星每小時(shí)傳回地球的遙感圖像數(shù)據(jù)就達(dá)50giga(千兆)字節(jié)。Internet的迅猛發(fā)展使得網(wǎng)絡(luò)上的各種資源信息異常豐富,在其中進(jìn)行信息的查找真如大海撈針。

數(shù)據(jù)的迅速增加與數(shù)據(jù)分析方法的滯后之間的矛盾越來(lái)越突出,人們也希望能夠在對(duì)已有的大量數(shù)據(jù)分析的基礎(chǔ)上進(jìn)行科學(xué)研究、商業(yè)決策或者企業(yè)管理,但是目前所擁有的數(shù)據(jù)分析工具很難對(duì)數(shù)據(jù)進(jìn)行深層次的處理,使得人們只能望"數(shù)"興嘆。數(shù)據(jù)挖掘正是為了解決傳統(tǒng)分析方法的不足,并針對(duì)大規(guī)模數(shù)據(jù)的分析處理而出現(xiàn)的。數(shù)據(jù)挖掘從大量數(shù)據(jù)中提取出隱藏在數(shù)據(jù)之后的有用的信息,它被越來(lái)越多的領(lǐng)域所采用,并取得了較好的效果,為人們的正確決策提供了很大的幫助。

(一)科學(xué)研究:

從科學(xué)研究方法學(xué)的角度看,科學(xué)研究可分為三類:理論科學(xué)、實(shí)驗(yàn)科學(xué)和計(jì)算科學(xué)。計(jì)算科學(xué)是現(xiàn)代科學(xué)的一個(gè)重要標(biāo)志。計(jì)算科學(xué)工作者主要和數(shù)據(jù)打交道,每天要分析各種大量的實(shí)驗(yàn)或觀測(cè)數(shù)據(jù)。隨著先進(jìn)的科學(xué)數(shù)據(jù)收集工具的使用,如觀測(cè)衛(wèi)星、遙感器、DNA分子技術(shù)等,數(shù)據(jù)量非常大,傳統(tǒng)的數(shù)據(jù)分析工具無(wú)能為力,因此必須有強(qiáng)大的智能型自動(dòng)數(shù)據(jù)分析工具才行。

在天文學(xué)上有一個(gè)系統(tǒng):SKICAT(SkyImageCatalogingandAnalysisTool)。它是美國(guó)加州理工學(xué)院噴氣推進(jìn)實(shí)驗(yàn)室(即設(shè)計(jì)火星探測(cè)器漫游者號(hào)的實(shí)驗(yàn)室)與天文科學(xué)家合作開發(fā)的用于幫助天文學(xué)家發(fā)現(xiàn)遙遠(yuǎn)的類星體的一個(gè)工具。SKICAT既是第一個(gè)獲得相當(dāng)成功的數(shù)據(jù)挖掘應(yīng)用,也是人工智能技術(shù)在天文學(xué)和空間科學(xué)上第一批成功應(yīng)用之一。利用SKICAT,天文學(xué)家已發(fā)現(xiàn)了16個(gè)新的極其遙遠(yuǎn)的類星體,該項(xiàng)發(fā)現(xiàn)能幫助天文工作者更好地研究類星體的形成以及早期宇宙的結(jié)構(gòu)。SKICAT不僅提供對(duì)數(shù)據(jù)庫(kù)的管理,并且通過(guò)訓(xùn)練可以對(duì)天體進(jìn)行辨識(shí)。它采用了模塊化設(shè)計(jì),共有三個(gè)主要功能模塊:分類建立、分類管理及統(tǒng)計(jì)分析。其中,分類建立是通過(guò)有示范的訓(xùn)練建立對(duì)天體的辨識(shí)機(jī)制。對(duì)天體的辨識(shí)是進(jìn)行其它數(shù)據(jù)分析的前提,只有將天體識(shí)別出來(lái)以后,如是星系還是星球,才能進(jìn)行相應(yīng)的研究。使用SKICAT對(duì)天體數(shù)據(jù)進(jìn)行分析,一方面是通過(guò)機(jī)器學(xué)習(xí)將知識(shí)提取過(guò)程由學(xué)習(xí)算法完成,從而可以實(shí)現(xiàn)對(duì)大批量數(shù)據(jù)的分析,另一方面是辨識(shí)那些亮度很低、人工難以判讀的天體圖像,以進(jìn)行后續(xù)分析。SKICAT通過(guò)有效地對(duì)天體圖像的特征進(jìn)行定義,對(duì)那些亮度較低的圖像可以得到比人工分類更好的結(jié)果。將僅由象素包含的關(guān)于天體的多維信息通過(guò)變換形成低維空間內(nèi)的向量空間,并進(jìn)而利用示范學(xué)習(xí)進(jìn)行分類,以達(dá)到人工直接觀察無(wú)法達(dá)到的分類精度。

數(shù)據(jù)挖掘在生物學(xué)上的應(yīng)用主要集中于分子生物學(xué)特別是基因工程的研究上?;蜓芯恐?有一個(gè)著名的國(guó)際性研究課題——人類基因組計(jì)劃。據(jù)報(bào)道,1997年3月,科學(xué)家宣布已完成第一步計(jì)劃:繪制人類染色體基因圖。然而這僅僅是第一步,更重要的是對(duì)基因圖進(jìn)行解釋從而發(fā)現(xiàn)各種蛋白質(zhì)(有10,000多種不同功能的蛋白質(zhì))和RNA分子的結(jié)構(gòu)和功能。近幾年,通過(guò)用計(jì)算生物分子系列分析方法,尤其是基因數(shù)據(jù)庫(kù)搜索技術(shù)已在基因研究上作出了很多重大發(fā)現(xiàn)。(二)市場(chǎng)行銷:

由于管理信息系統(tǒng)和POS系統(tǒng)在商業(yè)尤其是零售業(yè)內(nèi)的普遍使用,特別是條形碼技術(shù)的使用,從而可以收集到大量關(guān)于用戶購(gòu)買情況的數(shù)據(jù),并且數(shù)據(jù)量在不斷激增。對(duì)市場(chǎng)行銷來(lái)說(shuō),通過(guò)數(shù)據(jù)分析了解客戶購(gòu)物行為的一些特征,對(duì)提高競(jìng)爭(zhēng)力及促進(jìn)銷售是大有幫助的。利用數(shù)據(jù)挖掘技術(shù)通過(guò)對(duì)用戶數(shù)據(jù)的分析,可以得到關(guān)于顧客購(gòu)買取向和興趣的信息,從而為商業(yè)決策提供了可靠的依據(jù)。數(shù)據(jù)庫(kù)數(shù)據(jù)挖掘在行銷業(yè)上的應(yīng)用可分為兩類:數(shù)據(jù)庫(kù)行銷(databasemarketing)和貨籃分析(basketanalysis)。

數(shù)據(jù)庫(kù)行銷的任務(wù)是通過(guò)交互式查詢、數(shù)據(jù)分割和模型預(yù)測(cè)等方法來(lái)選擇潛在的顧客以便向它們推銷產(chǎn)品,通過(guò)對(duì)已有的顧客數(shù)據(jù)的分析,可以將用戶分為不同級(jí)別,級(jí)別越高,其購(gòu)買的可能性就越大。為進(jìn)行行銷分析,首先必須將已有的用戶信息進(jìn)行手工分類,分類的依據(jù)可以由專家根據(jù)用戶的實(shí)際表現(xiàn)給出,這樣得到訓(xùn)練數(shù)據(jù)后,由數(shù)據(jù)挖掘進(jìn)行學(xué)習(xí)將用戶進(jìn)行分類的模式,這樣當(dāng)一個(gè)新用戶到來(lái)時(shí),可以有已經(jīng)學(xué)習(xí)后的系統(tǒng)給出其購(gòu)買可能性的預(yù)測(cè)結(jié)果,從而可以根據(jù)結(jié)果有針對(duì)性地對(duì)顧客進(jìn)行推銷。

貨籃分析是分析市場(chǎng)銷售數(shù)據(jù)(如POS數(shù)據(jù)庫(kù))以識(shí)別顧客的購(gòu)買行為模式,例如:如果A商品被選購(gòu),那么B商品被購(gòu)買的可能性為95%,從而幫助確定商店貨架的布局排放以促銷某些商品,并且對(duì)進(jìn)貨的選擇和搭配上也更有目的性。這方面的系統(tǒng)有:OpportunityExplorer,它可用于超市商品銷售異常情況的因果分析等;另外IBM公司也開發(fā)了識(shí)別顧客購(gòu)買行為模式的一些工具(IntelligentMiner和QUEST中的一部分)。

(三)金融投資:

典型的金融分析領(lǐng)域有投資評(píng)估和股票交易市場(chǎng)預(yù)測(cè),分析方法一般采用模型預(yù)測(cè)法(如神經(jīng)網(wǎng)絡(luò)或統(tǒng)計(jì)回歸技術(shù))。由于金融投資的風(fēng)險(xiǎn)很大,在進(jìn)行投資決策時(shí),更需要通過(guò)對(duì)各種投資方向的有關(guān)數(shù)據(jù)進(jìn)行分析,以選擇最佳的投資方向。目前國(guó)內(nèi)有很多進(jìn)行股票分析的軟件,并且定期有專家進(jìn)行股票交易預(yù)測(cè),這些人工的預(yù)測(cè)一般是根據(jù)自己的經(jīng)驗(yàn)再通過(guò)對(duì)已有的股票數(shù)據(jù)的分析而得到的,由于是人工處理,很難對(duì)更大量的股市數(shù)據(jù)進(jìn)行分析。無(wú)論是投資評(píng)估還是股票市場(chǎng)預(yù)測(cè),都是對(duì)事物發(fā)展的一種預(yù)測(cè),而且是建立在對(duì)數(shù)據(jù)的分析基礎(chǔ)之上的。數(shù)據(jù)挖掘可以通過(guò)對(duì)已有數(shù)據(jù)的處理,找到數(shù)據(jù)對(duì)象之間的關(guān)系,然后利用學(xué)習(xí)得到的模式進(jìn)行合理的預(yù)測(cè)。這方面的系統(tǒng)有FidelityStockSelector,LBSCapitalManagement。前者的任務(wù)是使用神經(jīng)網(wǎng)絡(luò)模型選擇投資,后者則使用了專家系統(tǒng)、神經(jīng)網(wǎng)絡(luò)和基因算法技術(shù)來(lái)輔助管理多達(dá)6億美元的有價(jià)證券。

(四)欺詐甄別:銀行或商業(yè)上經(jīng)常發(fā)生詐騙行為,如惡性透支等,這些給銀行和商業(yè)單位帶來(lái)了巨大的損失。對(duì)這類詐騙行為進(jìn)行預(yù)測(cè),哪怕正確率很低的預(yù)測(cè),都會(huì)減少發(fā)生詐騙的機(jī)會(huì),從而減少損失。進(jìn)行詐騙甄別主要是通過(guò)總結(jié)正常行為和詐騙行為之間的關(guān)系,得到詐騙行為的一些特性,這樣當(dāng)某項(xiàng)業(yè)務(wù)符合這些特征時(shí),可以向決策人員提出警告。這方面應(yīng)用非常成功的系統(tǒng)有:FALCON系統(tǒng)和FAIS系統(tǒng)。FALCON是HNC公司開發(fā)的信用卡欺詐估測(cè)系統(tǒng),它已被相當(dāng)數(shù)量的零售銀行用于探測(cè)可疑的信用卡交易;FALCON的數(shù)據(jù)格式主要針對(duì)一些流行的信用卡公司,如VISA,MASTER等,因此它的應(yīng)用面很大。FAIS則是一個(gè)用于識(shí)別與洗錢有關(guān)的金融交易的系統(tǒng),它使用的是一般的政府?dāng)?shù)據(jù)表單。(五)產(chǎn)品制造:

隨著現(xiàn)代技術(shù)越來(lái)越多地應(yīng)用于產(chǎn)品制造業(yè),制造業(yè)已不是人們想象中的手工勞動(dòng),而是集成了多種先進(jìn)科技的流水作業(yè)。在產(chǎn)品的生產(chǎn)制造過(guò)程中常常伴隨有大量的數(shù)據(jù),如產(chǎn)品的各種加工條件或控制參數(shù)(如時(shí)間、溫度等控制參數(shù)),這些數(shù)據(jù)反映了每個(gè)生產(chǎn)環(huán)節(jié)的狀態(tài),不僅為生產(chǎn)的順利進(jìn)行提供了保證,而且通過(guò)對(duì)這些數(shù)據(jù)的分析,得到產(chǎn)品質(zhì)量與這些參數(shù)之間的關(guān)系。這樣通過(guò)數(shù)據(jù)挖掘?qū)@些數(shù)據(jù)的分析,可以對(duì)改進(jìn)產(chǎn)品質(zhì)量提出針對(duì)性很強(qiáng)的建議,而且有可能提出新的更高效節(jié)約的控制模式,從而為制造廠家?guī)?lái)極大的回報(bào)。這方面的系統(tǒng)有CASSIOPEE(由Acknosoft公司用KATE發(fā)現(xiàn)工具開發(fā)的),已用于診斷和預(yù)測(cè)在制造波音飛機(jī)制造過(guò)程中可能出現(xiàn)的問(wèn)題。

(六)通信網(wǎng)絡(luò)管理:

現(xiàn)代社會(huì)越來(lái)越依賴于通信系統(tǒng)來(lái)溝通信息,通信系統(tǒng)的結(jié)構(gòu)非常復(fù)雜,如何保證通信系統(tǒng)安全運(yùn)轉(zhuǎn)成為一個(gè)極其重要的問(wèn)題。在通信網(wǎng)絡(luò)運(yùn)行過(guò)程中,會(huì)產(chǎn)生一系列警告,這些警告有的可以置之不理,而有的如果不及時(shí)采取措施則會(huì)帶來(lái)不可挽回的損失。由于警告產(chǎn)生的隨機(jī)性很大,究竟哪些警告可以不予理睬,哪些警告必須迅速處理往往很難判斷,一般需要由人工根據(jù)經(jīng)驗(yàn)進(jìn)行處理,效率不高。數(shù)據(jù)挖掘可以通過(guò)分析已有的警告信息的正確處理方法以及警告之間的前后關(guān)系的記錄,得到警告之間的關(guān)聯(lián)規(guī)則,這些有價(jià)值的信息可用于網(wǎng)絡(luò)故障的定位檢測(cè)和嚴(yán)重故障的預(yù)測(cè)等等任務(wù)中。根據(jù)當(dāng)前的警告信息,就可以得到其后續(xù)發(fā)生各種情況的可能性,對(duì)危險(xiǎn)事件可以起到預(yù)防的作用,從而使通信網(wǎng)絡(luò)得以安全運(yùn)轉(zhuǎn)。這方面的系統(tǒng)有:芬蘭Helsinki大學(xué)與一家遠(yuǎn)程通信設(shè)備制造廠家合作的TASA系統(tǒng)。

(七)Internet應(yīng)用:

Internet的迅猛發(fā)展,尤其是Web的全球普及,使得Web上信息量無(wú)比豐富,Web上的數(shù)據(jù)信息不同于數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)有規(guī)范的結(jié)構(gòu),如關(guān)系數(shù)據(jù)庫(kù)的二維表結(jié)構(gòu);畢竟數(shù)據(jù)庫(kù)的創(chuàng)建是為了機(jī)器可讀,因此有統(tǒng)一的格式,它是一種結(jié)構(gòu)化的文件。Web上的信息則不然,主要是文檔,它的初始創(chuàng)建目的是為了人類使用。文檔結(jié)構(gòu)性差,好者半結(jié)構(gòu)化,壞者如純自然語(yǔ)言文本則毫無(wú)結(jié)構(gòu)。因此Web上的開采發(fā)現(xiàn)需要用到不同于常規(guī)數(shù)據(jù)庫(kù)開采的很多技術(shù)。下面將從信息發(fā)現(xiàn)和用戶訪問(wèn)模式發(fā)現(xiàn)兩個(gè)不同的Web開采任務(wù)角度對(duì)這方面工作的研究現(xiàn)狀進(jìn)行評(píng)述。

Web信息發(fā)現(xiàn)也稱信息搜索或查詢。它的一般過(guò)程是,用戶向系統(tǒng)提出查詢條件,系統(tǒng)調(diào)用搜索引擎開始工作,然后把搜索結(jié)果提交給用戶。根據(jù)用戶希望查找的對(duì)象可分為兩種:資源發(fā)現(xiàn)和信息提取。前者目的在于根據(jù)用戶要求找出有關(guān)的Web文檔位置;后者則是能自動(dòng)從有關(guān)文檔中抽取出滿足用戶需要的信息。資源發(fā)現(xiàn)本質(zhì)上是網(wǎng)上搜索,關(guān)鍵在于自動(dòng)生成Web文檔的索引。典型的索引生成系統(tǒng)有WebCrawler和AltaVista等等,它們能對(duì)上百萬(wàn)數(shù)量的Web文檔進(jìn)行索引,文檔中的每個(gè)單詞的倒排索引均保存起來(lái),技術(shù)上類似全文檢索。用戶通過(guò)輸入關(guān)鍵詞就能對(duì)所有建了索引的文檔進(jìn)行檢索。目前在用的索引系統(tǒng)有十幾種,用戶輸入同樣的關(guān)鍵詞在不同的索引下可能會(huì)得到不同的返回結(jié)果。為了提高搜索的準(zhǔn)確度,研究人員又開發(fā)了一種建立在上述索引系統(tǒng)之上的高層系統(tǒng)——MetaCrawler,它能并行地把用戶輸入的關(guān)鍵詞提交給9種不同的索引系統(tǒng),然后把這9種系統(tǒng)的:研制新的更好的索引系統(tǒng)、利用已有索引系統(tǒng)或搜索引擎(如Yahoo)開發(fā)高層次的搜索或發(fā)現(xiàn)系統(tǒng)。相比之下,后者的研究更為活躍。從技術(shù)上看,自動(dòng)文檔分類或歸類方法將對(duì)這方面的研究有很大作用。用戶使用Web獲取信息的過(guò)程中需要不停地從一個(gè)Web站點(diǎn)通過(guò)超文本鏈接跳轉(zhuǎn)到另一個(gè)站點(diǎn),這種過(guò)程存在一定的普遍性,發(fā)現(xiàn)此規(guī)律即是Web用戶訪問(wèn)模式發(fā)現(xiàn)。這是一種完全不同于上述所講的資源發(fā)現(xiàn)的任務(wù)。理解Web上的用戶訪問(wèn)模式有這些好處:輔助改進(jìn)分布式網(wǎng)絡(luò)系統(tǒng)的設(shè)計(jì)性能,如在有高度相關(guān)的站點(diǎn)間提供快速有效的訪問(wèn)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論