




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
天文學(xué)中的數(shù)據(jù)挖掘張彥霞國家天文臺(tái)2011.11.10貴陽LAMOST概要必要性概念技巧問題展望文獻(xiàn)LAMOST海量數(shù)據(jù)NVO(IVOA)注冊(cè)的數(shù)據(jù)資源有~14,000一些大型的天文數(shù)據(jù)庫包括NASA空間天文項(xiàng)目已經(jīng)完成或正在進(jìn)行的大型天文巡天項(xiàng)目,如:MACHO和相關(guān)的暗物質(zhì)巡天:~1TBDPOSS:3TB2MASS:10TBGALEX:30TBSDSS:40TB將來的巨型巡天項(xiàng)目,如:PanSTARRS:每晚
10TB,預(yù)計(jì)最終40PBLSST(LargeSynopticSurveyTelescope):2018開始運(yùn)行,with3-Gigapixelcamera每30秒10GB每晚30TB,持續(xù)十年預(yù)計(jì)最終的圖像數(shù)據(jù)100PB–所有數(shù)據(jù)公開!!!預(yù)計(jì)最終的星表數(shù)據(jù)30PB實(shí)時(shí)事件挖掘:每晚事件10,000-100,000個(gè),持續(xù)十年每三晚巡全天一次:制作天體的電影LAMOST天文學(xué):數(shù)據(jù)驅(qū)動(dòng)的科學(xué)天文學(xué):是發(fā)現(xiàn)驅(qū)動(dòng)的科學(xué)
?驅(qū)動(dòng)發(fā)現(xiàn)的因素:–新問題–新的思想–新模型–新理論–更重要的是新數(shù)據(jù)!
天文學(xué):是發(fā)現(xiàn)驅(qū)動(dòng)的科學(xué)?發(fā)現(xiàn)導(dǎo)致:–新的問題–新思想–新模型–新理論–更重要的是
...更多的新數(shù)據(jù)!?因此,需要更有效的挖掘和分析算法或工具天文學(xué)家一直在從事數(shù)據(jù)挖掘
“Thedataaremine,andyoucan’thavethem!”?嚴(yán)格意義上講...?天文學(xué)家喜歡對(duì)事物進(jìn)行分類
...
(監(jiān)督學(xué)習(xí).如,分類)?天文學(xué)家喜歡對(duì)事物歸類
...
(非監(jiān)督學(xué)習(xí).如,聚類)?天文學(xué)家更希望發(fā)現(xiàn)新的天體或現(xiàn)象
...(半監(jiān)督學(xué)習(xí).如,離群探測(cè))天文中的數(shù)據(jù)挖掘課題壓縮(如.圖像和光譜)分類
(如.恒星,星系,或伽馬射線暴)重建
(如.星系模糊圖像的重建,弱引力透鏡質(zhì)量分布的重建)特征抽取(如.恒星、星系和類星體的重要特征)參數(shù)估計(jì)(如.恒星參數(shù)估計(jì),測(cè)光紅移預(yù)測(cè),太陽系外行星的軌道參數(shù),或宇宙參數(shù))模型選擇
(如.一顆恒星有幾顆行星繞轉(zhuǎn)?)
Ofer
Lahav,2006,astro-ph/0610703Summaryonthe4thmeetingon“StatisticalChallengeinModernAstronomy”heldatPennStateUniversityinJune2006過去:
100到1000個(gè)獨(dú)立的分布的異構(gòu)數(shù)據(jù)/元數(shù)據(jù)
/信息庫.目前:天文數(shù)據(jù)可以從融合的分布資源中獲得,如虛擬天文臺(tái).將來:
隨著大型巡天項(xiàng)目的發(fā)展,天文學(xué)在未來將越來越成為數(shù)據(jù)密集型的科學(xué).挑戰(zhàn):
越來越難于將數(shù)據(jù)傳輸?shù)接脩簟?/p>
算法移植到數(shù)據(jù)!天文學(xué)研究的轉(zhuǎn)變數(shù)據(jù)驅(qū)動(dòng)到數(shù)據(jù)密集天文學(xué)一直以來就是數(shù)據(jù)驅(qū)動(dòng)的科學(xué)現(xiàn)在成為數(shù)據(jù)密集型的科學(xué):
天文信息學(xué)(Astroinformatics
)!面向數(shù)據(jù)的天文學(xué)研究=“第四范式”科學(xué)知識(shí)發(fā)現(xiàn)大數(shù)據(jù)集的優(yōu)點(diǎn):很好地統(tǒng)計(jì)分析典型或特殊事件自動(dòng)搜尋稀有事件ScientificKnowledge!第四范式:數(shù)據(jù)密集型的科學(xué)發(fā)現(xiàn)定義數(shù)據(jù)挖掘:從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。
巨量?jī)r(jià)值
EDPMISDSS知識(shí)發(fā)現(xiàn)的優(yōu)點(diǎn)產(chǎn)生快速響應(yīng)發(fā)布EDP:電子數(shù)據(jù)加工MIS:管理信息系統(tǒng)DSS:決策支持系統(tǒng)數(shù)據(jù)挖掘—知識(shí)發(fā)現(xiàn)(KDD)過程的核心數(shù)據(jù)清潔數(shù)據(jù)融合數(shù)據(jù)庫數(shù)據(jù)倉庫知識(shí)特定任務(wù)的數(shù)據(jù)選擇數(shù)據(jù)挖掘模式評(píng)估數(shù)據(jù)挖掘:知識(shí)發(fā)現(xiàn)的過程數(shù)據(jù)挖掘數(shù)據(jù)庫系統(tǒng)統(tǒng)計(jì)學(xué)其它學(xué)科信息科學(xué)機(jī)器學(xué)習(xí)&人工智能可視化數(shù)據(jù)挖掘:多學(xué)科的交叉學(xué)科
KDD:機(jī)遇和挑戰(zhàn)
數(shù)據(jù)豐富知識(shí)貧乏驅(qū)動(dòng)技術(shù):(互動(dòng)的管理信息系統(tǒng),OLAP,并行計(jì)算,Web,etc.)競(jìng)爭(zhēng)的壓力數(shù)據(jù)挖掘技術(shù)的成熟KDD人工神經(jīng)網(wǎng)絡(luò)支持矢量機(jī)決策樹
遺傳算法近鄰算法規(guī)則推導(dǎo)
粗糙集數(shù)據(jù)挖掘的常用技術(shù)數(shù)據(jù)總結(jié)分類分析聚類分析回歸分析關(guān)聯(lián)規(guī)則分析序列模式分析依賴關(guān)系分析偏差分析模式分析或統(tǒng)計(jì)分析時(shí)序數(shù)據(jù)分析其它數(shù)據(jù)挖掘的任務(wù)分類分析定義按照某種規(guī)則,新的數(shù)據(jù)被劃分到已知類別中的一類。這個(gè)規(guī)則是通過具有標(biāo)簽的數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí)獲得的。應(yīng)用恒星分成不同的光譜型,星系按哈勃或形態(tài)分類,活動(dòng)星系核進(jìn)一步細(xì)分,等等方法神經(jīng)網(wǎng)絡(luò)決策樹Na?veBayesianNetworks支持矢量機(jī)學(xué)習(xí)矢量量化遺傳算法…….采用何種分類器?分類器可以沿幾個(gè)正交的軸來訓(xùn)練,探索所有的維數(shù)比較困難不同的任務(wù)需要不同的分類器來實(shí)現(xiàn).分類算法決策樹,OC1神經(jīng)網(wǎng)絡(luò)最近鄰規(guī)則或其他算法觀測(cè)參量流量,位置,色參數(shù),變化參量,空間擴(kuò)展,…X射線,可見光,紅外,...訓(xùn)練樣本W(wǎng)GACAT,ROSATAllSkySurvey,...分類粗分:恒星
vs.河外天體細(xì)分:A0vs.B0…,AGNvs.QSOvs.星系聚類分析定義:按照某種規(guī)律聚在一起的稱為一類。所用的數(shù)據(jù)是無標(biāo)簽的,通過非監(jiān)督的學(xué)習(xí)方式訓(xùn)練數(shù)據(jù),類間的差異盡可能地大,而類內(nèi)的差異盡可能地小。應(yīng)用:SDSS的雙色圖恒星聚在一塊
如香蕉狀,類星體則偏離該區(qū)域。方法:K均值聚類Hierarchicalclustering預(yù)期最大算法(ExpectationMaximizationalgorithm)高斯混合模型(Gaussianmixturemodeling)主成分分析……優(yōu)越性
新的概念(Conceptdiscovery)點(diǎn)滴知識(shí)(Bootstrappingknowledge)聚類分析1Djorgovski,etal.基本的天文問題
–1聚類問題:在數(shù)據(jù)集中查找聚類的天體統(tǒng)計(jì)意義和科學(xué)意義上各個(gè)類別的重要性是什么?找“朋友的朋友”或近鄰的最優(yōu)算法?N>1010,如何有效地排序、分類?維數(shù)~1000–因此,若干子空間搜索問題是否存在兩點(diǎn)或更高階的相關(guān)性?N>1010,N-point相關(guān)怎么做?與N2logN成正比的算法顯然不能用基本的天文問題
–2離群探測(cè):(未知的未知)找到那些超出我們預(yù)期的天體或事件
(不屬于已知類別)這些有可能是真正的科學(xué)發(fā)現(xiàn)或垃圾因此,離群探測(cè)可用于:新奇發(fā)現(xiàn)–Nobelprize?異常探測(cè)–探測(cè)系統(tǒng)是否正常工作?數(shù)據(jù)質(zhì)量保證–數(shù)據(jù)流是否正常工作?在1000維空間中或感興趣的子空間(低維空間)中,如何最優(yōu)化地探測(cè)到離群?怎樣衡量“興趣度”?降維問題:尋找相關(guān)性和參數(shù)的基平面維數(shù)成千上萬維災(zāi)!參數(shù)之間的相關(guān)性?線性或非線性混合?本征值或緊致表示是否可以代表整個(gè)數(shù)據(jù)集的性質(zhì)?基本的天文問題
–3基本的天文問題
–4疊加和分解問題:在參數(shù)空間中重疊的天體找出它們的所屬類別假設(shè)1010
天體在1000維空間中重疊怎么辦?如何最優(yōu)地分解和抽取不同類型的天體?一些約束條件如何應(yīng)用?最優(yōu)化問題:在高維參數(shù)空間中如何找到復(fù)雜的多變量函數(shù)的最優(yōu)解(最佳擬合、全局最大似然)基本的天文問題
–5為什么需要分布的數(shù)據(jù)挖掘?由于…
“JustChecking”…許多重大的科學(xué)發(fā)現(xiàn)產(chǎn)生于多數(shù)據(jù)源的交叉證認(rèn):--類星體--Gamma-raybursts--極亮紅外星系--X射線黑洞雙星--射電星系
...天文數(shù)據(jù)的分布性
不同的人、研究所、項(xiàng)目、國家、機(jī)構(gòu),…數(shù)據(jù)的異構(gòu)性(如,數(shù)據(jù)庫,圖像,星表,文件系統(tǒng),網(wǎng)頁,文檔數(shù)據(jù)圖書館,二進(jìn)制,文本,結(jié)構(gòu)的,非結(jié)構(gòu)的,…)天文學(xué)家要查詢和挖掘這些數(shù)據(jù)需要進(jìn)行兩步操作盡管虛擬天文臺(tái)驅(qū)動(dòng)數(shù)據(jù)發(fā)現(xiàn)和融合,但是仍然不能有助于大型數(shù)據(jù)挖掘的開展分布的數(shù)據(jù)挖掘分布的數(shù)據(jù)挖掘有兩種類型:分布的挖掘數(shù)據(jù)挖掘分布的數(shù)據(jù)第一類要求復(fù)雜的算法移植到數(shù)據(jù)第二類多種形式,數(shù)據(jù)整體存放或分割上集中,
或者數(shù)據(jù)分布存放在不同的地方實(shí)踐數(shù)據(jù)挖掘線性或非線性高斯或非高斯連續(xù)或離散是否存在缺值對(duì)比特征和樣本數(shù)按照數(shù)據(jù)挖據(jù)的任務(wù)和特征,選擇合適的數(shù)據(jù)挖掘算法未來天文數(shù)據(jù)的挑戰(zhàn)統(tǒng)計(jì)、計(jì)算和挖掘方法用于peta-和exa-量級(jí)的可擴(kuò)張性在海量多維數(shù)據(jù)空間中同時(shí)多點(diǎn)擬合的算法優(yōu)化用于探索PB級(jí)數(shù)據(jù)的緊致表示的多分辨率、多級(jí)、分形、分級(jí)方法和結(jié)構(gòu)PB量級(jí)數(shù)據(jù)的可視化分析
(包括特征探測(cè),模型和有趣事件或天體的發(fā)現(xiàn),相關(guān)關(guān)系、聚類,新類型天體的發(fā)現(xiàn),降維)高維PB級(jí)數(shù)據(jù)的索引和聯(lián)合存儲(chǔ)技巧(樹、圖、網(wǎng)絡(luò)拓?fù)洌㏄B級(jí)數(shù)據(jù)庫的快速查詢和搜索方法成功的數(shù)據(jù)挖掘項(xiàng)目(I)http://dame.dsf.unina.it/●
測(cè)光紅移估計(jì)●球狀星團(tuán)搜尋●多波段測(cè)光暫源分類●天文圖像分割http:///vostat/成功的數(shù)據(jù)挖掘項(xiàng)目(II)VOSTATStatisticalAnalysisfortheVirtualObservatory
VOStat項(xiàng)目通過網(wǎng)頁服務(wù)為天文學(xué)家提供了一套工具。天文學(xué)家可以按照需要調(diào)用簡(jiǎn)單的或復(fù)雜的程序來實(shí)現(xiàn)自己的任務(wù)。這套工具是基于大的開源的統(tǒng)計(jì)計(jì)算語言和環(huán)境R開發(fā)的。所有的統(tǒng)計(jì)計(jì)算在VOStat
的服務(wù)器端進(jìn)行,算完后再傳給用戶。天文會(huì)議或組織ADASS(TheAstronomicalData
AnalysisSoftwareandSystems)ADA(TheAstronomicalDataAnalysis)SummerSchoolinStatisticsforAstronomersStatisticalChallengesinModernAstronomyAstroinformatics
Astrostatistics數(shù)據(jù)挖掘的參考文獻(xiàn)(I)“FromDataMiningToKnowledgeDiscovery:AnOverview.”
Fayyad,U.M.,Piatetsky-Shapiro,G.,andSmyth,P.
InAdvancesInKnowledgeDiscoveryAndDataMining,eds.U.M.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,AAAIPress/TheMITPress,MenloPark,CA.,1996,pp.1-34.“DataMiningandMachineLearninginAstronomy”,
Ball,
Nicholas
M.;Brunner,
Robert
J.InternationalJournalofModernPhysicsD,Volume19,Issue07,pp.1049-1106(2010).
■“ScientificDataMininginAstronomy”
Borne,
Kirk
eprintarXiv:0911.0505■“DataMiningandDiscoveryofAstronomicalKnowledge”
Al-Naymat,
Ghazi
ScientificDataMiningandKnowledgeDiscovery,,Volume.ISBN978-3-642-02789-5.Springer-VerlagBerlinHeidelberg,2009,p.319數(shù)據(jù)挖掘的參考文獻(xiàn)(II)“數(shù)據(jù)挖掘技術(shù)在天文學(xué)中的應(yīng)用”
張彥霞趙永恒.
科研信息化技術(shù)與應(yīng)用,2011,V2(3):13-27“Miningknowledgeinastrophysicalmassivedatasets”
Brescia,
Massimo;Longo,
Giuseppe;Pasian,
Fabio
NuclearInstrumentsandMethodsin
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年中國可編程全自動(dòng)軟水器數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2 2025年小學(xué)教師資格考試復(fù)習(xí)寶典及試題
- 遺產(chǎn)繼承協(xié)議仲裁合同
- 2023年新疆公務(wù)員《行政職業(yè)能力測(cè)驗(yàn)》試題真題及答案
- 纖維專業(yè)知識(shí)培訓(xùn)課件
- 公司活動(dòng)策劃與執(zhí)行進(jìn)度報(bào)告
- 機(jī)械工程材料與設(shè)計(jì)實(shí)踐試題庫
- 公司加盟連鎖經(jīng)營合同書
- 江蘇省南通市如皋市2024-2025學(xué)年高一上學(xué)期期末教學(xué)質(zhì)量調(diào)研生物學(xué)試卷(必修)(含答案)
- 新聞媒體新聞稿件授權(quán)發(fā)布協(xié)議
- 安全資料之九
- 新譯林版一年級(jí)下冊(cè)英語全冊(cè)教案
- Unit2 Last weekend A Lets learn(教案)人教PEP版英語六年級(jí)下冊(cè)
- 全新供土協(xié)議
- 發(fā)電機(jī)組檢修方案技術(shù)指導(dǎo)
- 第2課《讓美德照亮幸福人生》第2框《做守家庭美德的好成員》-【中職專用】《職業(yè)道德與法治》同步課堂課件
- 條件概率與全概率公式高二下學(xué)期數(shù)學(xué)人教A版(2019)選擇性必修第三冊(cè)
- (正式版)JBT 10437-2024 電線電纜用可交聯(lián)聚乙烯絕緣料
- 法律知識(shí)圖譜構(gòu)建及應(yīng)用
- 八卦的基本介紹及其科學(xué)內(nèi)涵
- (建筑制圖)課程綜合自測(cè)題3(試卷和答案)
評(píng)論
0/150
提交評(píng)論