面向地基廣角相機陣星表數(shù)據(jù)管理系統(tǒng)的設計與驗證(2),天文學論文_第1頁
面向地基廣角相機陣星表數(shù)據(jù)管理系統(tǒng)的設計與驗證(2),天文學論文_第2頁
面向地基廣角相機陣星表數(shù)據(jù)管理系統(tǒng)的設計與驗證(2),天文學論文_第3頁
面向地基廣角相機陣星表數(shù)據(jù)管理系統(tǒng)的設計與驗證(2),天文學論文_第4頁
面向地基廣角相機陣星表數(shù)據(jù)管理系統(tǒng)的設計與驗證(2),天文學論文_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

面向地基廣角相機陣星表數(shù)據(jù)管理系統(tǒng)的設計與驗證(2),天文學論文如此圖1所示,GWAC相機陣將整個觀測天區(qū)劃分為40塊,每塊子天區(qū)由一個CCD負責采集數(shù)據(jù),且所有CCD每15s同步地產(chǎn)生一次數(shù)據(jù)。采集到的原始數(shù)據(jù)為圖像,并經(jīng)過預處理、點源提取〔把光學影像轉(zhuǎn)化為數(shù)字信號,構(gòu)成星表數(shù)據(jù)〕和星表天測定標〔將一個星表中的星亮度校準到天文領域通用的標準下〕等天文處理經(jīng)過,轉(zhuǎn)換為每顆星一行記錄的星表數(shù)據(jù)。該星表數(shù)據(jù)對天文科研數(shù)據(jù)而言,最重要的2個屬性是星的亮度和相對應的時間戳。根據(jù)瞬時星亮度或變化規(guī)律的異常能夠分析該星的異變,而該異變現(xiàn)象能夠用于探知宇宙的變化和對已有物理模型的驗證。根據(jù)長期星亮度的變化規(guī)律可繪制該星的光變曲線,以用于分析星的長時標的變化周期,如發(fā)現(xiàn)漂泊行星。從實時角度來看,持續(xù)產(chǎn)生的星表數(shù)據(jù)主要有下面3個特征:1〕多鏡頭并行輸出。固然每個CCD最終產(chǎn)生的星表數(shù)據(jù)量不大,但是40個CCD每隔15s就會產(chǎn)生規(guī)模龐大的數(shù)據(jù)量。這些數(shù)據(jù)需要及時存儲便于查詢。2〕實時瞬變源發(fā)現(xiàn)。異常天文現(xiàn)象稍縱即逝,為了給天文科研人員留出足夠的時間觀測異常星,要求整個數(shù)據(jù)處理系統(tǒng)能夠?qū)崟r捕獲異常星變化,并給予報警。3〕秒級查詢。天文科研人員往往需要對瞬變源或疑似瞬變源的最近歷史數(shù)據(jù)快速查詢,以便綜合分析該天文現(xiàn)象。上述需求對后臺的天文數(shù)據(jù)處理系統(tǒng)提出了宏大的挑戰(zhàn),要求系統(tǒng)能夠快速響應,尤其對于當晚的星表數(shù)據(jù)而言要求能夠做到快存快取。從持久化角度來看,GWAC所有的歷史數(shù)據(jù)都要進行持久化操作,以便離線狀態(tài)下對星表數(shù)據(jù)進行光變曲線規(guī)律的分析和一定的數(shù)據(jù)挖掘工作。固然為離線經(jīng)過,但也要求查詢經(jīng)過要在合理的時間范圍給予響應。對GWAC數(shù)據(jù)管理系統(tǒng)的要求可總結(jié)為:1〕高數(shù)據(jù)吞吐能力,所有相機陣15s內(nèi)產(chǎn)生的觀測星表可用于查詢的延遲時間控制在15s以內(nèi);2〕在數(shù)據(jù)高速采集下能夠完成實時分析,面對持續(xù)不斷的高密度海量星表的快速關聯(lián)計算能力,即每個CCD每15s產(chǎn)生的星表數(shù)據(jù)與模板星表相關聯(lián)〔穿插認證:將觀測的目的星映射到模板星表的已經(jīng)知道星的經(jīng)過〕構(gòu)成光變曲線;3〕每個觀測夜的2TB星表最晚完成持久化時間保證在下一個觀測夜開場前;4〕從長期存儲的角度而言,管理系統(tǒng)需要有極強的海量數(shù)據(jù)管理能力,至少要能知足6PB數(shù)據(jù)的存儲和離線查詢能力。1.3天文數(shù)據(jù)管理系統(tǒng)的相關工作目前國內(nèi)外天文數(shù)據(jù)庫的主要功能仍集中在電子化歸檔、搜索和下載等方面,且主要歷經(jīng)3個階段[7]1〕興起階段,此時的天文數(shù)據(jù)庫主要基于文件系統(tǒng)的數(shù)據(jù)存儲。較為著名的有法國特斯拉斯堡的恒星數(shù)據(jù)中心CDS〔centredeDonnesstellaires,即centerforstellardata〕的天文天體數(shù)據(jù)交互服務SIMBAD〔setofidentifications,measurements,andbibliographyforastronomicaldata〕,利用計算機管理天文數(shù)據(jù),能夠?qū)?shù)據(jù)加以歸檔、排序和整理,并為全球星表提供穿插辨別和文獻目錄檢索功能。2〕關系數(shù)據(jù)庫實現(xiàn)天文數(shù)據(jù)管理階段,以提供星表服務的VizieR和SDSS為代表。到20世紀90年代末,SIMBAD服務已經(jīng)無法知足更為復雜的查詢需求,CDS又開發(fā)了更為強大的VizieR系統(tǒng)。VizieR底層依靠關系數(shù)據(jù)模型,支持基于ID和位置的搜索,且沒有最大搜索半徑的要求,具有較快的響應速度,但搜索的定制程度較低。除此之外,另一個專業(yè)的天文數(shù)據(jù)管理服務為斯隆數(shù)字巡天SDSS自主開發(fā)的數(shù)據(jù)庫。SDSS的天文數(shù)據(jù)庫Skyserver[8]是基于微軟的SQLServer定制開發(fā)的,具有快速查詢、批量下載、SQL檢索和可視化圖形界面等特點。這一階段的天文數(shù)據(jù)管理開場在數(shù)據(jù)庫的基礎上定制了各種天文數(shù)據(jù)的科學應用,以知足天文數(shù)據(jù)特殊的檢索需求。3〕即將到來的超大天文數(shù)據(jù)庫階段,以美國大口徑全景巡天LSST和SKA〔squarekilometrearray〕為代表[2]一些新興的天文領域如伽瑪暴、超新星爆發(fā)對時域天文觀測的要求愈加迫切,直接導致天文數(shù)據(jù)量的爆發(fā)式增長。美國LSST設計每15s記錄3幅10億像素級的圖像,每晚收集的數(shù)據(jù)量大約15~30TB,每3d可巡天1次,估計2022年接受觀測任務。澳大利亞SKA計劃每秒產(chǎn)生的數(shù)據(jù)量大于12TB,一天產(chǎn)生的原始圖像為1EB,估計從2020年開場第一階段的建設。上述大型天文觀測項目已對當下的數(shù)據(jù)管理框架產(chǎn)生了宏大的挑戰(zhàn),高吞吐量、大規(guī)模存儲與快速的查找已成為了主要的問題。值得一提的是,萬萌等人[9]已對當下的GWAC數(shù)據(jù)管理場景進行了一定的研究工作,并提出了基于MonetDB數(shù)據(jù)庫的管理方案。已開發(fā)出的GWAC數(shù)據(jù)生成器gwac_dbgen[6]能夠模擬一個CCD連續(xù)產(chǎn)生的真實數(shù)據(jù)格式和量級。除此之外,基于該生成器的模擬數(shù)據(jù)使用SQL實現(xiàn)了MonetDB數(shù)據(jù)庫內(nèi)的穿插認證算法以避免數(shù)據(jù)的移動。但當累計數(shù)據(jù)規(guī)模較大時,MonetDB的擴展性較差且入庫時間不夠穩(wěn)定。2面向GWAC的星表數(shù)據(jù)管理系統(tǒng)設計結(jié)合GWAC天文大數(shù)據(jù)的特性和研究現(xiàn)在狀況,本文采用兩級緩存架構(gòu)和星表簇模型,建立一個高性能、可擴展的面向GWAC的星表數(shù)據(jù)管理系統(tǒng)。該系統(tǒng)能夠?qū)嵢缃?5s內(nèi)存儲多鏡頭并行輸出的數(shù)據(jù)、瞬變源發(fā)現(xiàn)和提供秒級查詢服務,除此之外星表簇模型有利于平衡持久化時間與離線查詢效率。如此圖2所示,該系統(tǒng)中和數(shù)據(jù)管理相關的部件主要包括4個部分:一級緩存管理、二級緩存管理、數(shù)據(jù)持久化和查詢引擎。在文獻[9]中,所有CCD產(chǎn)生星表匯入同一個MonetDB數(shù)據(jù)庫后,再使用SQL對其進行穿插認證,進而產(chǎn)生一定的性能瓶頸。本文設計的GWAC星表數(shù)據(jù)管理系統(tǒng)為分布式構(gòu)造,一級緩存為分布式節(jié)點的本地內(nèi)存,二級緩存為分布式分享內(nèi)存。當某CCD客戶端發(fā)送星表數(shù)據(jù)進入系統(tǒng)后,系統(tǒng)會在某節(jié)點上開創(chuàng)建立對應客戶端的接收端接收星表數(shù)據(jù),直接進行穿插認證,然后將星表數(shù)據(jù)交由瞬變源發(fā)現(xiàn)模塊進行異常檢測,最后每個CCD對應的接收端將星表數(shù)據(jù)寫入分布式分享內(nèi)存中,供用戶實現(xiàn)高速查詢。設計一級緩存的目的是:1〕不同CCD產(chǎn)生的星表數(shù)據(jù)是無分享的〔shared-nothing〕,因而處理就具備了并行性;2〕瞬變源的發(fā)現(xiàn)與預警需要實時檢測,因而需要獲取數(shù)據(jù)后盡快在本地處理;3〕為了保證分布式分享內(nèi)存故障后數(shù)據(jù)高可靠,需要使用本地內(nèi)存做緩存實現(xiàn)延時寫。設計二級緩存的目的是:1〕天文研究者會在某顆星異常后,快速查詢其近期的光變曲線以快速定位科學發(fā)現(xiàn),但事先并不知道哪顆星會異常,因而需要將一個觀測夜的數(shù)據(jù)緩存入分布式分享內(nèi)存中供研究者快速查詢;2〕一級緩存容量是有限的,缺乏以承載一個CCD的整個觀測夜數(shù)據(jù)。在觀測夜結(jié)束后,將當下觀測夜的數(shù)據(jù)持久化到硬盤。由于實際需求決定了星之間沒有過多物理關聯(lián),

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論