大數(shù)據(jù)分析挖掘與應(yīng)用課件_第1頁(yè)
大數(shù)據(jù)分析挖掘與應(yīng)用課件_第2頁(yè)
大數(shù)據(jù)分析挖掘與應(yīng)用課件_第3頁(yè)
大數(shù)據(jù)分析挖掘與應(yīng)用課件_第4頁(yè)
大數(shù)據(jù)分析挖掘與應(yīng)用課件_第5頁(yè)
已閱讀5頁(yè),還剩35頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)分析、挖掘與應(yīng)用數(shù)據(jù)挖掘與智能信息系統(tǒng)實(shí)驗(yàn)室

大數(shù)據(jù)分析、挖掘與應(yīng)用數(shù)據(jù)挖掘一、大數(shù)據(jù)分析與挖掘

大數(shù)據(jù)的基本概念比較有代表性:

1)3V定義,即認(rèn)為大數(shù)據(jù)需滿足3個(gè)特點(diǎn):規(guī)模性(Volume)、多樣性(Variety)和高速性(Velocity)。

2)4V定義,即嘗試在3V的基礎(chǔ)上增加一個(gè)新的特性。關(guān)于第四個(gè)V的說(shuō)法并不統(tǒng)一,IDC認(rèn)為大數(shù)據(jù)還應(yīng)當(dāng)具有價(jià)值性(Value),大數(shù)據(jù)的價(jià)值往往呈現(xiàn)出稀疏性的特點(diǎn)。而IBM認(rèn)為大數(shù)據(jù)必然具有真實(shí)性(Veracity)。

3)維基百科對(duì)大數(shù)據(jù)的定義則簡(jiǎn)單明了:大數(shù)據(jù)是指利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時(shí)間超過(guò)可容忍時(shí)間的數(shù)據(jù)集。一、大數(shù)據(jù)分析與挖掘大數(shù)據(jù)的基本概念二、大數(shù)據(jù)處理架構(gòu)大數(shù)據(jù)處理模式

1)流處理(StreamProcessing),即直接處理流處理的基本理念是數(shù)據(jù)的價(jià)值會(huì)隨著時(shí)間的流逝而不斷減少。因此,盡可能快地對(duì)最新的數(shù)據(jù)做出分析并給出結(jié)果是所有流數(shù)據(jù)處理模式的共同目標(biāo)。

2)批處理(BatchProcessing),即先存儲(chǔ)后處理

Google公司在2004年提出的MapReduce編程模型是最具代表性的批處理模式。

二、大數(shù)據(jù)處理架構(gòu)大數(shù)據(jù)處理模式

MAPREDUCE執(zhí)行流程圖

MAPREDUCE執(zhí)行流程圖

MapReduce模型首先將用戶的原始數(shù)據(jù)源進(jìn)行分塊,然后分別交給不同的Map任務(wù)區(qū)處理。Map任務(wù)從輸入中解析出Key/Value對(duì)集合,然后對(duì)這些集合執(zhí)行用戶自行定義的Map函數(shù)得到中間結(jié)果,并將該結(jié)果寫(xiě)入本地硬盤(pán)。Reduce任務(wù)從硬盤(pán)上讀取數(shù)據(jù)之后,會(huì)根據(jù)key值進(jìn)行排序,將具有相同key值的組織在一起。最后用戶自定義的Reduce函數(shù)會(huì)作用于這些排好序的結(jié)果并輸出最終結(jié)果。

MapReduce模型首先將用戶的原始數(shù)據(jù)

MapReduce的核心設(shè)計(jì)思想:

1)將問(wèn)題分而治之;

2)把計(jì)算推到數(shù)據(jù)而不是把數(shù)據(jù)推到計(jì)算,有效的避免數(shù)據(jù)傳輸過(guò)程中產(chǎn)生的大量通訊開(kāi)銷。

MapReduce模型簡(jiǎn)單,且現(xiàn)實(shí)中很多問(wèn)題都可用MapReduce模型來(lái)表示。因此該模型公開(kāi)后,立刻受到極大的關(guān)注,并在生物信息學(xué)、文本挖掘等領(lǐng)域得到廣泛的應(yīng)用。MapReduce的核心設(shè)計(jì)思想:大數(shù)據(jù)處理的基本流程

1)數(shù)據(jù)抽取與集成

2)數(shù)據(jù)分析面臨著一些新的挑戰(zhàn):數(shù)據(jù)量大并不一定意味著數(shù)據(jù)價(jià)值的增加,相反這往往意味著數(shù)據(jù)噪音的增多;大數(shù)據(jù)時(shí)代的算法需要進(jìn)行調(diào)整,準(zhǔn)確率不再是大數(shù)據(jù)應(yīng)用的最主要指標(biāo);數(shù)據(jù)結(jié)果好壞的衡量。

3)數(shù)據(jù)解釋(可視化技術(shù))大數(shù)據(jù)處理的基本流程大數(shù)據(jù)分析挖掘與應(yīng)用課件三、天體光譜大數(shù)據(jù)分析與挖掘

我國(guó)已建造一臺(tái)大天區(qū)面積多目標(biāo)光纖光譜望遠(yuǎn)鏡(LAMOST),是國(guó)家重大科學(xué)工程項(xiàng)目,也是世界上光譜獲取率最高的望遠(yuǎn)鏡。預(yù)計(jì)LAMOST所觀測(cè)到的光譜數(shù)據(jù)容量將有可能達(dá)到4TB;巡天所覆蓋的波段為3700埃至9000埃,即其觀測(cè)屬性可達(dá)數(shù)千維,是典型的高維數(shù)據(jù);數(shù)據(jù)類型:圖像和FITS文件等??茖W(xué)目標(biāo):“星系紅移巡天”、“恒星和銀河系的結(jié)構(gòu)特征”和“多波段認(rèn)證”。

天體光譜大數(shù)據(jù)分析處理主要內(nèi)容:預(yù)處理(去噪、歸一化等)、分類與識(shí)別、測(cè)量(紅移等參數(shù))等。三、天體光譜大數(shù)據(jù)分析與挖掘我國(guó)已建

一條SEYFERT2光譜數(shù)據(jù)圖(紅移為0)

天體光譜是天體電磁輻射按照波長(zhǎng)的有序排列,蘊(yùn)含著天體的重要物理信息,例如:天體的化學(xué)成份、天體的表面溫度、直徑、質(zhì)量、光度以及天體的視向運(yùn)動(dòng)和自轉(zhuǎn)。天文學(xué)家和天體物理學(xué)家通過(guò)分析天體光譜的信息,不僅可以研究宇宙中物質(zhì)的分布特征,還可以研究天體的形成和隨時(shí)間的演化等重大科學(xué)問(wèn)題。一條SE

由于天文界對(duì)宇宙的認(rèn)識(shí)還比較有限,LAMOST巡天計(jì)劃的一個(gè)重要任務(wù)是要發(fā)現(xiàn)一些新的、特殊類型的天體,因此,如何利用數(shù)據(jù)挖掘技術(shù)從海量天體光譜數(shù)據(jù)中發(fā)現(xiàn)未知的、特殊的天體及天體規(guī)律是數(shù)據(jù)挖掘值得研究和探索的新應(yīng)用領(lǐng)域。

面向特定任務(wù)的數(shù)據(jù)挖掘是當(dāng)前數(shù)據(jù)挖掘領(lǐng)域發(fā)展的趨勢(shì)之一。以LAMOST項(xiàng)目為背景,對(duì)天體光譜數(shù)據(jù)挖掘技術(shù)進(jìn)行了研究,其研究成果不僅具有重要的理論價(jià)值,而且可直接應(yīng)用到LAMOST中,為國(guó)家重大科學(xué)工程提供技術(shù)支撐。由于天文界對(duì)宇宙的認(rèn)識(shí)還比較有限,LA近年來(lái)主持承擔(dān)的部分課題[1]海量高維天體光譜數(shù)據(jù)挖掘及其并行化研究(61272263),國(guó)家自然科學(xué)基金,2013.1-2016.12,(在研)[2]面向LAMOST天文光譜特征線的數(shù)據(jù)挖掘方法研究(61073145),國(guó)家自然科學(xué)基金,2011.1-2013.12,(在研)[3]面向天文光譜的數(shù)據(jù)挖掘算法性能分析與并行化研究(61111120317),國(guó)家自然科學(xué)基金委國(guó)際合作與交流項(xiàng)目,2011.6-2011.12,(結(jié)題)[4]基于加權(quán)和約束概念格的數(shù)據(jù)挖掘方法與天體光譜數(shù)據(jù)挖掘技術(shù)(60773014),國(guó)家自然科學(xué)基金,2008.1-2010.12,(結(jié)題)[5]基于數(shù)據(jù)網(wǎng)格的分布式數(shù)據(jù)挖掘方法研究(60911120478),國(guó)家自然科學(xué)基金委國(guó)際合作與交流項(xiàng)目,2009.9-2010.3,(結(jié)題)[6]基于背景知識(shí)的數(shù)據(jù)挖掘方法及其在LAMOST中的應(yīng)用(60573075),國(guó)家自然科學(xué)基金,2006.1-2008.12,(結(jié)題)[7]海量天體光譜數(shù)據(jù)挖掘算法研究與實(shí)現(xiàn)(2003AA133060),國(guó)家“863”高技術(shù)計(jì)劃子課題,2003.8-2005.8(結(jié)題)近年來(lái)主持承擔(dān)的部分課題[1]海量高維天體光譜數(shù)據(jù)挖掘及其主要成果之一:

基于概念格的天體光譜離群數(shù)據(jù)挖掘系統(tǒng)

將概念格中每個(gè)概念節(jié)點(diǎn)內(nèi)涵描述為天體光譜數(shù)據(jù)特征子空間,提出了一種天體光譜離群數(shù)據(jù)識(shí)別方法。首先將概念節(jié)點(diǎn)的內(nèi)涵縮減看作天體光譜特征子空間,并依據(jù)稀疏度系數(shù)閾值確定稀疏子空間;其次對(duì)于稀疏子空間,依據(jù)稠密度系數(shù)判定祖先概念節(jié)點(diǎn)內(nèi)涵是否為稠密子空間,進(jìn)而判斷出概念節(jié)點(diǎn)外延中包含的數(shù)據(jù)對(duì)象是否為天體光譜離群數(shù)據(jù);最后以離散化天體光譜數(shù)據(jù)作為形式背景,實(shí)驗(yàn)驗(yàn)證了利用該方法識(shí)別出的天體光譜離群數(shù)據(jù)是準(zhǔn)確的、完備的和有效的。主要成果之一:

基于概念格的天體光譜離群數(shù)據(jù)挖掘系統(tǒng)大數(shù)據(jù)分析挖掘與應(yīng)用課件典型論文[1]JifuZhang,SulanZhang,KaiH.Chang,andXiaoQin.AnOutlierMiningAlgorithmBasedonConstrainedConceptLattice,InternationalJournalofSystemsScience(accept)[2]SulanZhang,PingGuo,JifuZhang,XinxinWang,andWitoldPedrycz.ACompletenessAnalysisofFrequentWeightedConceptLatticesandTheirAlgebraicProperties,Data&KnowledgeEngineering,81–82(2012):104–117[3]JifuZhang,YiyongJiang,KaiH.Changetal.AConceptLatticeBasedOutlierMiningMethodinLowDimensionalSubspaces.PatternRecognitionLetters,2009,30(15):1434-1439[4]張繼福;張素蘭;蔣義勇.基于約束概念格的天體光譜局部離群數(shù)據(jù)挖掘系統(tǒng),光譜學(xué)與光譜分析,2009,29(2):551-555[5]張繼福等.基于概念格的天體光譜離群數(shù)據(jù)識(shí)別方法,自動(dòng)化學(xué)報(bào),2008,34(9):1060-1066[6]JianghuiCai;JifuZhang;ZhaoXujun.AStarSpectrumOutlierMiningSystemBasedonSimulatedAnnealing,InternationalJournalofInnovativeComputing,InformationandControl,2008,4(9):2263-2271典型論文[1]JifuZhang,SulanZhan主要成果之二:

天體光譜數(shù)據(jù)相關(guān)性分析系統(tǒng)

以國(guó)家重大科學(xué)工程LAMOST項(xiàng)目為背景,利用一階謂詞邏輯作為天體光譜知識(shí)表示技術(shù),提出了一種約束FP樹(shù)及其構(gòu)造算法,從而有效地提高了天體光譜數(shù)據(jù)相關(guān)性分析的針對(duì)性和效率,并在此基礎(chǔ)上,提出了一種基于約束FP樹(shù)的天體光譜數(shù)據(jù)相關(guān)性分析方法。實(shí)驗(yàn)結(jié)果分析表明,利用該相關(guān)性分析方法挖掘天體光譜數(shù)據(jù)特征和物理化學(xué)性質(zhì)之間存在的相關(guān)性,是可行的和有價(jià)值的。主要成果之二:

天體光譜數(shù)據(jù)相關(guān)性分析系統(tǒng)大數(shù)據(jù)分析挖掘與應(yīng)用課件典型論文[1]JifuZhang,XujunZhao,SulanZhang,ShuYin,andXiaoQin.InterrelationAnalysisofCelestialSpectraDatausingConstrainedFrequentPatternTrees,Knowledge-BasedSystems41(2013):77-88.[2]JianghuiCai,XujunZhao,ShiweiSun,JifuZhang,HaifengYang.Stellarspectraassociationruleminingmethodbasedonweightedfrequentpatterntree.ResearchinAstronomyandAstrophysics,2013,13(3):334-342[3]張繼福;趙旭俊.一種基于約束FP樹(shù)的天體光譜數(shù)據(jù)相關(guān)性分析方法,模式識(shí)別與人工智能,2009,22(4):639-646[4]趙旭??;張繼福.基于約束FP樹(shù)的天體光譜數(shù)據(jù)相關(guān)性分析系統(tǒng)研究,光譜學(xué)與光譜分析,2008,28(12):2996-2999[5]張繼福;趙旭俊.基于關(guān)聯(lián)規(guī)則的恒星光譜數(shù)據(jù)相關(guān)性分析,高技術(shù)通訊,2006,16(6):575-579典型論文[1]JifuZhang,XujunZhao其他成果:天體光譜數(shù)據(jù)模糊聚類及其并行化系統(tǒng)基于智能計(jì)算、剪枝技術(shù)和屬性相關(guān)性的離群數(shù)據(jù)挖掘及其并行化方法天體光譜數(shù)據(jù)分類與識(shí)別系統(tǒng)

………其他成果:天體光譜數(shù)據(jù)模糊聚類及其并行化系統(tǒng)四、正在開(kāi)展的主要研究工作基于MapReduce模型的天體光譜大數(shù)據(jù)并行挖掘技術(shù)(聚類、離群、關(guān)聯(lián)等)集群環(huán)境下的數(shù)據(jù)密集型計(jì)算關(guān)鍵技術(shù)(數(shù)據(jù)放置策略、I/O性能分析、負(fù)載均衡調(diào)度策略、磁盤(pán)節(jié)能等)海量高維數(shù)據(jù)挖掘算法與天體光譜數(shù)據(jù)挖掘技術(shù)四、正在開(kāi)展的主要研究工作基于MapReduce模型的天體光

大數(shù)據(jù)分析、挖掘與應(yīng)用數(shù)據(jù)挖掘與智能信息系統(tǒng)實(shí)驗(yàn)室

大數(shù)據(jù)分析、挖掘與應(yīng)用數(shù)據(jù)挖掘一、大數(shù)據(jù)分析與挖掘

大數(shù)據(jù)的基本概念比較有代表性:

1)3V定義,即認(rèn)為大數(shù)據(jù)需滿足3個(gè)特點(diǎn):規(guī)模性(Volume)、多樣性(Variety)和高速性(Velocity)。

2)4V定義,即嘗試在3V的基礎(chǔ)上增加一個(gè)新的特性。關(guān)于第四個(gè)V的說(shuō)法并不統(tǒng)一,IDC認(rèn)為大數(shù)據(jù)還應(yīng)當(dāng)具有價(jià)值性(Value),大數(shù)據(jù)的價(jià)值往往呈現(xiàn)出稀疏性的特點(diǎn)。而IBM認(rèn)為大數(shù)據(jù)必然具有真實(shí)性(Veracity)。

3)維基百科對(duì)大數(shù)據(jù)的定義則簡(jiǎn)單明了:大數(shù)據(jù)是指利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時(shí)間超過(guò)可容忍時(shí)間的數(shù)據(jù)集。一、大數(shù)據(jù)分析與挖掘大數(shù)據(jù)的基本概念二、大數(shù)據(jù)處理架構(gòu)大數(shù)據(jù)處理模式

1)流處理(StreamProcessing),即直接處理流處理的基本理念是數(shù)據(jù)的價(jià)值會(huì)隨著時(shí)間的流逝而不斷減少。因此,盡可能快地對(duì)最新的數(shù)據(jù)做出分析并給出結(jié)果是所有流數(shù)據(jù)處理模式的共同目標(biāo)。

2)批處理(BatchProcessing),即先存儲(chǔ)后處理

Google公司在2004年提出的MapReduce編程模型是最具代表性的批處理模式。

二、大數(shù)據(jù)處理架構(gòu)大數(shù)據(jù)處理模式

MAPREDUCE執(zhí)行流程圖

MAPREDUCE執(zhí)行流程圖

MapReduce模型首先將用戶的原始數(shù)據(jù)源進(jìn)行分塊,然后分別交給不同的Map任務(wù)區(qū)處理。Map任務(wù)從輸入中解析出Key/Value對(duì)集合,然后對(duì)這些集合執(zhí)行用戶自行定義的Map函數(shù)得到中間結(jié)果,并將該結(jié)果寫(xiě)入本地硬盤(pán)。Reduce任務(wù)從硬盤(pán)上讀取數(shù)據(jù)之后,會(huì)根據(jù)key值進(jìn)行排序,將具有相同key值的組織在一起。最后用戶自定義的Reduce函數(shù)會(huì)作用于這些排好序的結(jié)果并輸出最終結(jié)果。

MapReduce模型首先將用戶的原始數(shù)據(jù)

MapReduce的核心設(shè)計(jì)思想:

1)將問(wèn)題分而治之;

2)把計(jì)算推到數(shù)據(jù)而不是把數(shù)據(jù)推到計(jì)算,有效的避免數(shù)據(jù)傳輸過(guò)程中產(chǎn)生的大量通訊開(kāi)銷。

MapReduce模型簡(jiǎn)單,且現(xiàn)實(shí)中很多問(wèn)題都可用MapReduce模型來(lái)表示。因此該模型公開(kāi)后,立刻受到極大的關(guān)注,并在生物信息學(xué)、文本挖掘等領(lǐng)域得到廣泛的應(yīng)用。MapReduce的核心設(shè)計(jì)思想:大數(shù)據(jù)處理的基本流程

1)數(shù)據(jù)抽取與集成

2)數(shù)據(jù)分析面臨著一些新的挑戰(zhàn):數(shù)據(jù)量大并不一定意味著數(shù)據(jù)價(jià)值的增加,相反這往往意味著數(shù)據(jù)噪音的增多;大數(shù)據(jù)時(shí)代的算法需要進(jìn)行調(diào)整,準(zhǔn)確率不再是大數(shù)據(jù)應(yīng)用的最主要指標(biāo);數(shù)據(jù)結(jié)果好壞的衡量。

3)數(shù)據(jù)解釋(可視化技術(shù))大數(shù)據(jù)處理的基本流程大數(shù)據(jù)分析挖掘與應(yīng)用課件三、天體光譜大數(shù)據(jù)分析與挖掘

我國(guó)已建造一臺(tái)大天區(qū)面積多目標(biāo)光纖光譜望遠(yuǎn)鏡(LAMOST),是國(guó)家重大科學(xué)工程項(xiàng)目,也是世界上光譜獲取率最高的望遠(yuǎn)鏡。預(yù)計(jì)LAMOST所觀測(cè)到的光譜數(shù)據(jù)容量將有可能達(dá)到4TB;巡天所覆蓋的波段為3700埃至9000埃,即其觀測(cè)屬性可達(dá)數(shù)千維,是典型的高維數(shù)據(jù);數(shù)據(jù)類型:圖像和FITS文件等??茖W(xué)目標(biāo):“星系紅移巡天”、“恒星和銀河系的結(jié)構(gòu)特征”和“多波段認(rèn)證”。

天體光譜大數(shù)據(jù)分析處理主要內(nèi)容:預(yù)處理(去噪、歸一化等)、分類與識(shí)別、測(cè)量(紅移等參數(shù))等。三、天體光譜大數(shù)據(jù)分析與挖掘我國(guó)已建

一條SEYFERT2光譜數(shù)據(jù)圖(紅移為0)

天體光譜是天體電磁輻射按照波長(zhǎng)的有序排列,蘊(yùn)含著天體的重要物理信息,例如:天體的化學(xué)成份、天體的表面溫度、直徑、質(zhì)量、光度以及天體的視向運(yùn)動(dòng)和自轉(zhuǎn)。天文學(xué)家和天體物理學(xué)家通過(guò)分析天體光譜的信息,不僅可以研究宇宙中物質(zhì)的分布特征,還可以研究天體的形成和隨時(shí)間的演化等重大科學(xué)問(wèn)題。一條SE

由于天文界對(duì)宇宙的認(rèn)識(shí)還比較有限,LAMOST巡天計(jì)劃的一個(gè)重要任務(wù)是要發(fā)現(xiàn)一些新的、特殊類型的天體,因此,如何利用數(shù)據(jù)挖掘技術(shù)從海量天體光譜數(shù)據(jù)中發(fā)現(xiàn)未知的、特殊的天體及天體規(guī)律是數(shù)據(jù)挖掘值得研究和探索的新應(yīng)用領(lǐng)域。

面向特定任務(wù)的數(shù)據(jù)挖掘是當(dāng)前數(shù)據(jù)挖掘領(lǐng)域發(fā)展的趨勢(shì)之一。以LAMOST項(xiàng)目為背景,對(duì)天體光譜數(shù)據(jù)挖掘技術(shù)進(jìn)行了研究,其研究成果不僅具有重要的理論價(jià)值,而且可直接應(yīng)用到LAMOST中,為國(guó)家重大科學(xué)工程提供技術(shù)支撐。由于天文界對(duì)宇宙的認(rèn)識(shí)還比較有限,LA近年來(lái)主持承擔(dān)的部分課題[1]海量高維天體光譜數(shù)據(jù)挖掘及其并行化研究(61272263),國(guó)家自然科學(xué)基金,2013.1-2016.12,(在研)[2]面向LAMOST天文光譜特征線的數(shù)據(jù)挖掘方法研究(61073145),國(guó)家自然科學(xué)基金,2011.1-2013.12,(在研)[3]面向天文光譜的數(shù)據(jù)挖掘算法性能分析與并行化研究(61111120317),國(guó)家自然科學(xué)基金委國(guó)際合作與交流項(xiàng)目,2011.6-2011.12,(結(jié)題)[4]基于加權(quán)和約束概念格的數(shù)據(jù)挖掘方法與天體光譜數(shù)據(jù)挖掘技術(shù)(60773014),國(guó)家自然科學(xué)基金,2008.1-2010.12,(結(jié)題)[5]基于數(shù)據(jù)網(wǎng)格的分布式數(shù)據(jù)挖掘方法研究(60911120478),國(guó)家自然科學(xué)基金委國(guó)際合作與交流項(xiàng)目,2009.9-2010.3,(結(jié)題)[6]基于背景知識(shí)的數(shù)據(jù)挖掘方法及其在LAMOST中的應(yīng)用(60573075),國(guó)家自然科學(xué)基金,2006.1-2008.12,(結(jié)題)[7]海量天體光譜數(shù)據(jù)挖掘算法研究與實(shí)現(xiàn)(2003AA133060),國(guó)家“863”高技術(shù)計(jì)劃子課題,2003.8-2005.8(結(jié)題)近年來(lái)主持承擔(dān)的部分課題[1]海量高維天體光譜數(shù)據(jù)挖掘及其主要成果之一:

基于概念格的天體光譜離群數(shù)據(jù)挖掘系統(tǒng)

將概念格中每個(gè)概念節(jié)點(diǎn)內(nèi)涵描述為天體光譜數(shù)據(jù)特征子空間,提出了一種天體光譜離群數(shù)據(jù)識(shí)別方法。首先將概念節(jié)點(diǎn)的內(nèi)涵縮減看作天體光譜特征子空間,并依據(jù)稀疏度系數(shù)閾值確定稀疏子空間;其次對(duì)于稀疏子空間,依據(jù)稠密度系數(shù)判定祖先概念節(jié)點(diǎn)內(nèi)涵是否為稠密子空間,進(jìn)而判斷出概念節(jié)點(diǎn)外延中包含的數(shù)據(jù)對(duì)象是否為天體光譜離群數(shù)據(jù);最后以離散化天體光譜數(shù)據(jù)作為形式背景,實(shí)驗(yàn)驗(yàn)證了利用該方法識(shí)別出的天體光譜離群數(shù)據(jù)是準(zhǔn)確的、完備的和有效的。主要成果之一:

基于概念格的天體光譜離群數(shù)據(jù)挖掘系統(tǒng)大數(shù)據(jù)分析挖掘與應(yīng)用課件典型論文[1]JifuZhang,SulanZhang,KaiH.Chang,andXiaoQin.AnOutlierMiningAlgorithmBasedonConstrainedConceptLattice,InternationalJournalofSystemsScience(accept)[2]SulanZhang,PingGuo,JifuZhang,XinxinWang,andWitoldPedrycz.ACompletenessAnalysisofFrequentWeightedConceptLatticesandTheirAlgebraicProperties,Data&KnowledgeEngineering,81–82(2012):104–117[3]JifuZhang,YiyongJiang,KaiH.Changetal.AConceptLatticeBasedOutlierMiningMethodinLowDimensionalSubspaces.PatternRecognitionLetters,2009,30(15):1434-1439[4]張繼福;張素蘭;蔣義勇.基于約束概念格的天體光譜局部離群數(shù)據(jù)挖掘系統(tǒng),光譜學(xué)與光譜分析,2009,29(2):551-555[5]張繼福等.基于概念格的天體光譜離群數(shù)據(jù)識(shí)別方法,自動(dòng)化學(xué)報(bào),2008,34(9):1060-1066[6]JianghuiCai;JifuZhang;ZhaoXujun.AStarSpectrumOutlierMiningSystemBasedonSimulatedAnnealing,InternationalJournalofInnovativeComputing,InformationandControl,2008,4(9):2263-2271典型論文[1]JifuZhang,SulanZhan主要成果之二:

天體光譜數(shù)據(jù)相關(guān)性分析系統(tǒng)

以國(guó)家重大科學(xué)工程LAMOST項(xiàng)目為背景,利用一階謂詞邏輯作為天體光譜知識(shí)表示技術(shù),提出了一種約束FP樹(shù)及其構(gòu)造算法,從而有效地提高了天體光譜數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論