數(shù)據(jù)挖掘技術(shù)論文開題報(bào)告_第1頁
數(shù)據(jù)挖掘技術(shù)論文開題報(bào)告_第2頁
數(shù)據(jù)挖掘技術(shù)論文開題報(bào)告_第3頁
數(shù)據(jù)挖掘技術(shù)論文開題報(bào)告_第4頁
數(shù)據(jù)挖掘技術(shù)論文開題報(bào)告_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)挖掘技術(shù)論文開題報(bào)告畢業(yè)都是需要進(jìn)行論文的寫作,數(shù)據(jù)挖掘技術(shù)論文的開題報(bào)告怎么寫?下面是小編整理的數(shù)據(jù)挖掘技術(shù)論文開題報(bào)告,歡迎閱讀!數(shù)據(jù)挖掘技術(shù)綜述數(shù)據(jù)挖掘(DataMining)是一項(xiàng)較新的數(shù)據(jù)庫技術(shù),它基于由日常積累的大量數(shù)據(jù)所構(gòu)成的數(shù)據(jù)庫,從中發(fā)現(xiàn)潛在的、有價(jià)值的信息——稱為知識,用于支持決策。數(shù)據(jù)挖掘是一項(xiàng)數(shù)據(jù)庫應(yīng)用技術(shù),本文首先對數(shù)據(jù)挖掘進(jìn)行概述,闡明什么是數(shù)據(jù)挖掘,數(shù)據(jù)挖掘的技術(shù)是什么,然后介紹數(shù)據(jù)挖掘的常用技術(shù),數(shù)據(jù)挖掘的主要過程,如何進(jìn)行數(shù)據(jù)挖掘,主要應(yīng)用領(lǐng)域以及國內(nèi)外現(xiàn)狀分析。一.研究背景及意義近十幾年來,隨著數(shù)據(jù)庫系統(tǒng)的廣泛流行以及計(jì)算機(jī)技術(shù)的快速發(fā)展,人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的能力大幅度提高。千萬個(gè)數(shù)據(jù)庫被用于商業(yè)管理、政府辦公、科學(xué)研究和工程開發(fā)等,特別是網(wǎng)絡(luò)系統(tǒng)的流行,使得信息爆炸性增長。這一趨勢將持續(xù)發(fā)展下去。大量信息在給人們帶來方便的同時(shí)也帶來了一大堆的問題:第一是信息過量,難以消化;第二是信息真假難以辨認(rèn);第三是信息安全難以保證;第四是信息形式不一致,難以統(tǒng)一處理。面對這種狀況,一個(gè)新的挑戰(zhàn)被提出來:如何才能不被信息的汪洋大海所淹沒,從中及時(shí)發(fā)現(xiàn)有用的知識,提高信息利用率呢?這時(shí)出現(xiàn)了新的技術(shù)——數(shù)據(jù)挖掘(DataMining)技術(shù)便應(yīng)用而生了。面對海量的存儲數(shù)據(jù),如何從中發(fā)現(xiàn)有價(jià)值的信息或知識,成為一項(xiàng)非常艱巨的任務(wù)。數(shù)據(jù)挖掘就是為迎合這種要求而產(chǎn)生并迅速發(fā)展起來的。數(shù)據(jù)挖掘研究的目的主要是發(fā)現(xiàn)知識、使數(shù)據(jù)可視化、糾正數(shù)據(jù)。二.概述1,數(shù)據(jù)挖掘數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。這些數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),也可以是半結(jié)構(gòu)化的,如文本,圖形,圖像數(shù)據(jù),甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的,可以是演繹的,也可以是歸納的。發(fā)現(xiàn)了的知識可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以進(jìn)行數(shù)據(jù)自身的維護(hù)。數(shù)據(jù)挖掘借助了多年來數(shù)理統(tǒng)計(jì)技術(shù)和人工智能以及知識工程等領(lǐng)域的研究成果構(gòu)建自己的理論體系,是一個(gè)交叉學(xué)科領(lǐng)域,可以集成數(shù)據(jù)數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等技術(shù)。 2,數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘就是對觀測到的數(shù)據(jù)集進(jìn)行分析,目的是發(fā)現(xiàn)未知的關(guān)系和以數(shù)據(jù)擁有者可以理解并對其有價(jià)值的新穎方式來總結(jié)數(shù)據(jù)。它利用各種分析方法和分析工具在大規(guī)模海量數(shù)據(jù)中建立模型和發(fā)現(xiàn)數(shù)據(jù)間關(guān)系的過程,這些模型和關(guān)系可以用來做出決策和預(yù)測。數(shù)據(jù)挖掘的過程就是知識發(fā)現(xiàn)的過程,其所能發(fā)現(xiàn)的知識有如下幾種:廣義型知識,反映同類事物共同性質(zhì)的知識;特征型知識,反映事物各方面的特征知識;差異型知識,反映不同事物之間屬性差別的知識;關(guān)聯(lián)型知識,反映事物之間依賴或關(guān)聯(lián)的知識;預(yù)測型知識,根據(jù)歷史的和當(dāng)前的數(shù)據(jù)推測未來數(shù)據(jù);偏離型知識,揭示事物偏離常規(guī)的異?,F(xiàn)象。所有這些知識都可以在不同的概念層次上被發(fā)現(xiàn),隨著概念樹的提升,從微觀到中觀再到宏觀,以滿足不同用戶、不同層次決策的需要。數(shù)據(jù)挖掘是涉及數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計(jì)、機(jī)械學(xué)、人工神經(jīng)網(wǎng)絡(luò)、可視化、并行計(jì)算等的交叉學(xué)科,是目前國際上數(shù)據(jù)庫和決策支持領(lǐng)域的最前沿的研究方向之一。3,數(shù)據(jù)挖掘的功能數(shù)據(jù)挖掘通過預(yù)測未來趨勢及行為,做出預(yù)測性的、基于知識的決策。數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有意義的知識,按其功能可分為以下幾類。關(guān)聯(lián)分析(AssociationAnalysis)關(guān)聯(lián)分析能尋找到數(shù)據(jù)庫中大量數(shù)據(jù)的相關(guān)聯(lián)系,常用的一種技術(shù)為關(guān)聯(lián)規(guī)則和序列模式。關(guān)聯(lián)規(guī)則是發(fā)現(xiàn)一個(gè)事物與其他事物間的相互關(guān)聯(lián)性或相互依賴性。聚類輸入的數(shù)據(jù)并無任何類型標(biāo)記,聚類就是按一定的規(guī)則將數(shù)據(jù)劃分為合理的集合,即將對象分組為多個(gè)類或簇,使得在同一個(gè)簇中的對象之間具有較高的相似度,而在不同簇中的對象差別很大。聚類增強(qiáng)了人們對客觀現(xiàn)實(shí)的認(rèn)識,是概念描述和偏差分析的先決條件。聚類技術(shù)主要包括傳統(tǒng)的模式識別方法和數(shù)學(xué)分類學(xué)。自動預(yù)測趨勢和行為數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中進(jìn)行分類和預(yù)測,尋找預(yù)測性信息,自動地提出描述重要數(shù)據(jù)類的模型或預(yù)測未來的數(shù)據(jù)趨勢,這樣以往需要進(jìn)行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。。概念描述對于數(shù)據(jù)庫中龐雜的數(shù)據(jù),人們期望以簡潔的描述形式來描述匯集的數(shù)據(jù)集。概念描述就是對某類對象的內(nèi)涵進(jìn)行描述并概括出這類對象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。生成一個(gè)類的特征性只涉及該類對象中所有對象的共性。生成區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。偏差檢測數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實(shí)例、不滿足規(guī)則的特例、觀測結(jié)果與模型預(yù)測值的偏差、量值隨時(shí)間的變化等。偏差檢測的基本方法是尋找觀測結(jié)果與參照值之間有意義的差別。這常用于金融銀行業(yè)中檢測欺詐行為,或市場分析中分析特殊消費(fèi)者的消費(fèi)習(xí)慣。三.目前的研究現(xiàn)狀及存在的主要問題自KDD一詞首次出現(xiàn)在1989年8月舉行的第11屆國際聯(lián)合人工智能學(xué)術(shù)會議以來。迄今為止,由美國人工智能協(xié)會主辦的KDD國際研討會已經(jīng)召開了13次,規(guī)模由原來的專題討論會發(fā)展到國際學(xué)術(shù)大會,人數(shù)由二三十人到超過千人論文收錄數(shù)量也迅速增加,研究重點(diǎn)也從發(fā)現(xiàn)方法逐漸轉(zhuǎn)向系統(tǒng)應(yīng)用直到轉(zhuǎn)向大規(guī)模綜合系統(tǒng)的開發(fā),并且注重多種發(fā)現(xiàn)策略和技術(shù)的集成,以及多種學(xué)科之間的相互滲透。其他內(nèi)容的專題會議也把數(shù)據(jù)挖掘和知識發(fā)現(xiàn)列為議題之一,成為當(dāng)前計(jì)算機(jī)科學(xué)界的一大熱點(diǎn)。與國外相比,國內(nèi)對DMKD的研究稍晚,沒有形成整體力量。1993年國家自然科學(xué)基金首次支持我們對該領(lǐng)域的研究項(xiàng)目。目前,國內(nèi)的許多科研單位和高等院校競相開展知識發(fā)現(xiàn)的基礎(chǔ)理論及其應(yīng)用研究,這些單位包括清華大學(xué)、中科院計(jì)算技術(shù)研究所、空軍第三研究所、海軍裝備論證中心等。其中,北京系統(tǒng)工程研究所對模糊方法在知識發(fā)現(xiàn)中的應(yīng)用進(jìn)行了較深入的研究,北京大學(xué)也在開展對數(shù)據(jù)立方體代數(shù)的研究,華中理工大學(xué)、復(fù)旦大學(xué)、浙江大學(xué)、中國科技大學(xué)、中科院數(shù)學(xué)研究所、吉林大學(xué)等單位開展了對關(guān)聯(lián)規(guī)則開采算法的優(yōu)化和改造;南京大學(xué)、四川聯(lián)合大學(xué)和上海交通大學(xué)等單位探討、研究了非結(jié)構(gòu)化數(shù)據(jù)的知識發(fā)現(xiàn)以及 Web數(shù)據(jù)挖掘。四.研究內(nèi)容1,數(shù)據(jù)挖掘的過程數(shù)據(jù)挖掘是指一個(gè)完整的過程,該過程從大型數(shù)據(jù)庫中挖掘先前未知的、有效的、可實(shí)用的信息,并使用這些信息做出決策或豐富知識。數(shù)據(jù)挖掘的一般過程如下流程圖所示:圖1,數(shù)據(jù)掘的一般過程神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)方法是模擬人腦神經(jīng)元結(jié)構(gòu), 以MP模型和Hebb學(xué)習(xí)規(guī)則為基礎(chǔ)。它主要有三種神經(jīng)網(wǎng)絡(luò)模型:前饋式網(wǎng)絡(luò)、反饋式網(wǎng)絡(luò)、自組織網(wǎng)絡(luò)。為決策樹決策樹學(xué)習(xí)著眼于從一組無次序、無規(guī)則的事中推理出決策樹表示形式的分類規(guī)則。它采用自頂向下的遞歸方式,在決策樹的內(nèi)部結(jié)點(diǎn)進(jìn)行屬性值的比較并根據(jù)不同的屬性值判斷從該結(jié)點(diǎn)向下的分支,在決策樹的葉結(jié)點(diǎn)得到結(jié)論。遺傳算法遺傳算法是一種優(yōu)化技術(shù),是模擬生物進(jìn)化過程的算法。基于進(jìn)化理論,并采用遺傳結(jié)合、遺傳變異以及自然選擇等設(shè)計(jì)方法。由三個(gè)基本算子組成:繁殖、交叉、變異。傳統(tǒng)統(tǒng)計(jì)分析這類技術(shù)建立在傳統(tǒng)的數(shù)理統(tǒng)計(jì)的基礎(chǔ)上。在數(shù)據(jù)庫字段項(xiàng)之間存在兩種關(guān)系:函數(shù)關(guān)系(能用函數(shù)公式表示的確定性關(guān)系)和相關(guān)關(guān)系(不能用函數(shù)公式表示,但仍是相關(guān)確定性關(guān)系),對它們的分析可采用判別分析、因子分析、相關(guān)分析、多元回歸分析及偏最小二乘回歸方法等。關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則是發(fā)現(xiàn)一個(gè)事物與其他事物間的相互關(guān)聯(lián)性或相互依賴性。關(guān)聯(lián)規(guī)則是展示屬性:值頻繁地在給定數(shù)據(jù)集中一起出現(xiàn)的條件,是數(shù)據(jù)挖掘中作用比較廣泛的知識之一??梢暬夹g(shù)可視化技術(shù)是利用計(jì)算機(jī)圖形學(xué)和圖像技術(shù),將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上顯示出來,并進(jìn)行交互處理的理論、方法和技術(shù)。可視化數(shù)據(jù)挖掘技術(shù)將可視化有機(jī)地融合到數(shù)據(jù)挖掘之中,使用戶對于數(shù)據(jù)挖掘有一個(gè)更加直接直觀清晰的了解,提供讓用戶有效、主動參與數(shù)據(jù)挖掘過程的方法。3,數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的。它不僅是面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用,而且要對這些數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計(jì),分析,綜合和推理,以指導(dǎo)實(shí)際問題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對未來的活動進(jìn)行預(yù)測。一般DataMining較長被應(yīng)用的領(lǐng)域包括金融業(yè)、保險(xiǎn)業(yè)、零售業(yè)、直效行銷業(yè)、通訊業(yè)、制造業(yè)以及醫(yī)療服務(wù)業(yè)等。更廣義的說法是:數(shù)據(jù)挖掘意味著在一些事實(shí)或觀察數(shù)據(jù)的集合中尋找模式的決策支持過程。4,數(shù)據(jù)挖掘的發(fā)展方向目前,數(shù)據(jù)挖掘的研究方面主要有:數(shù)據(jù)庫知識發(fā)現(xiàn)方面,將知識發(fā)現(xiàn)(KDD與數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫系統(tǒng)和Web數(shù)據(jù)庫系統(tǒng)緊密結(jié)合,力圖充分利用 Web中的豐富資源;機(jī)器學(xué)習(xí)方面,進(jìn)一步研究知識發(fā)現(xiàn)方法,希望克服現(xiàn)存算法的計(jì)算性瓶頸,如注重對Bayes(貝葉斯)方法以及Boosting算法的研究和提高;統(tǒng)計(jì)領(lǐng)域,加大傳統(tǒng)統(tǒng)計(jì)方法在數(shù)據(jù)挖掘中的應(yīng)用。數(shù)據(jù)挖掘研究正蓬勃開展,在今后還會掀起更大的波瀾,其研究焦點(diǎn)集中到以下幾個(gè)方面:研究專門用于知識發(fā)現(xiàn)的數(shù)據(jù)挖掘語言,也許會像 SQL語言一樣走向形式化和標(biāo)準(zhǔn)化;尋求數(shù)據(jù)挖掘過程中的可視化方法,使得知識發(fā)現(xiàn)的過程能夠被用戶理解,也便于在知識發(fā)現(xiàn)過程中的人機(jī)交互;研究在網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘技術(shù),特別是在Internet上建立數(shù)據(jù)挖掘服務(wù)器,與數(shù)據(jù)庫服務(wù)器配合,實(shí)現(xiàn)數(shù)據(jù)挖掘;加強(qiáng)對各種非結(jié)構(gòu)化數(shù)據(jù)的挖掘,如文本數(shù)據(jù)、圖形圖像數(shù)據(jù)、多媒體數(shù)據(jù)。5,數(shù)據(jù)挖掘的新技術(shù)Web數(shù)據(jù)挖掘技術(shù)首要解決半結(jié)構(gòu)化數(shù)據(jù)源模型和半結(jié)構(gòu)化數(shù)據(jù)模型的查詢與集成問題。這就必須要有一個(gè)模型來清晰地描述Web上的數(shù)據(jù),而尋找一個(gè)半結(jié)構(gòu)化的數(shù)據(jù)模型是解決問題的關(guān)鍵所在。除此之外,還需要一種半結(jié)構(gòu)化模型抽取技術(shù),即自動地從現(xiàn)有數(shù)據(jù)中抽取半結(jié)構(gòu)化模型的技術(shù)。XML可看作一種半結(jié)構(gòu)化的數(shù)據(jù)模型,可以很容易地將XML的文檔描述與關(guān)系數(shù)據(jù)庫中的屬性對應(yīng)起來,實(shí)施精確地查詢與模型抽取。利用設(shè)計(jì)人員不僅能創(chuàng)建文字和圖形,而且還能構(gòu)建文檔類型定義的多層次、相互依存的系統(tǒng)、數(shù)據(jù)樹、元數(shù)據(jù)、超鏈接結(jié)構(gòu)和樣式表。6,數(shù)據(jù)挖掘面臨的問題和挑戰(zhàn)雖然數(shù)據(jù)挖掘技術(shù)已經(jīng)在各方面都得到了廣泛的應(yīng)用,但數(shù)據(jù)挖掘技術(shù)的研究還不夠成熟,在應(yīng)用上有很大的局限性。正是這些局限性,促使數(shù)據(jù)挖掘技術(shù)進(jìn)一步的發(fā)展:(1)挖掘的對象數(shù)據(jù)庫更大,維數(shù)更高,屬性之間更復(fù)雜,數(shù)據(jù)挖掘處理的數(shù)據(jù)通常十分巨大。(2)數(shù)據(jù)丟失問題因大部分?jǐn)?shù)據(jù)庫不是為知識發(fā)現(xiàn)而定做的,那么它就有可能會存在一些重要的數(shù)據(jù)和屬性丟失的問題。(3)多種形式的輸入數(shù)據(jù)目前數(shù)據(jù)挖掘工具能處理的數(shù)據(jù)形式有限,一般只能處理數(shù)值型的結(jié)構(gòu)化數(shù)據(jù)。(4)網(wǎng)絡(luò)與分布式環(huán)境的KDD問題隨網(wǎng)絡(luò)的發(fā)展,資源的豐富,技術(shù)人員各自獨(dú)立處理分離數(shù)據(jù)庫的工作方式應(yīng)是可協(xié)作的。五.研究達(dá)到的預(yù)期結(jié)果系統(tǒng)的介紹數(shù)據(jù)挖掘技術(shù),使更多的研究人員在數(shù)據(jù)庫中發(fā)現(xiàn)有用的,有潛在價(jià)值的數(shù)據(jù)知識。六.小結(jié)通

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論