如何處理FAST天文大數(shù)據(jù)-第1篇_第1頁(yè)
如何處理FAST天文大數(shù)據(jù)-第1篇_第2頁(yè)
如何處理FAST天文大數(shù)據(jù)-第1篇_第3頁(yè)
如何處理FAST天文大數(shù)據(jù)-第1篇_第4頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 如何處理FAST天文大數(shù)據(jù) 今天演講的內(nèi)容包括三方面:FAST早期科學(xué)數(shù)據(jù)中心、網(wǎng)絡(luò)傳輸?shù)膯?wèn)題、我們自主知識(shí)產(chǎn)權(quán)FAST分布式計(jì)算軟件架構(gòu)和具體處理的問(wèn)題。最后還有一些天文普及。2014年9月中國(guó)科學(xué)院國(guó)家天文臺(tái)與貴州師范大學(xué)共同簽署了FAST早期科學(xué)數(shù)據(jù)中心,耗費(fèi)1年半的時(shí)間建立,我們?cè)缙诳茖W(xué)數(shù)據(jù)中心是在FAST運(yùn)行階段探索FAST數(shù)據(jù)的創(chuàng)術(shù)、存儲(chǔ)、計(jì)算、安全和管理的最高效、最穩(wěn)定、最經(jīng)濟(jì)的方法。數(shù)據(jù)的網(wǎng)絡(luò)傳輸數(shù)據(jù)的網(wǎng)絡(luò)傳輸非常重要,F(xiàn)AST建好以后,就有大量的數(shù)據(jù)要來(lái),首先要解決的就是傳輸?shù)膯?wèn)題。FAST數(shù)據(jù)傳輸?shù)耐ㄓ嵔Y(jié)構(gòu)并不簡(jiǎn)單,從貴陽(yáng)到FAST現(xiàn)場(chǎng)一共是300公里,這300公里,要跨

2、省,要跨州、跨縣,一共有21個(gè)周轉(zhuǎn)節(jié)點(diǎn),當(dāng)時(shí)是2個(gè)G的專(zhuān)線直接拉到我們實(shí)驗(yàn)室。傳輸結(jié)構(gòu)主要包括兩條線,一旦出現(xiàn)問(wèn)題,數(shù)據(jù)保證不會(huì)中斷,這是我們通訊的結(jié)構(gòu)。FAST脈沖性搜索分布式超算硬件機(jī)構(gòu),我們走的路還是有借鑒意義的。在FAST計(jì)算里面,我們有四種計(jì)算節(jié)點(diǎn),A計(jì)算節(jié)點(diǎn)在每一臺(tái)服務(wù)器里面加8塊GPU卡,其中2個(gè)CPU,一共有10臺(tái),這個(gè)計(jì)算節(jié)點(diǎn)我們的理論峰值可以到664T浮點(diǎn)預(yù)算。第二種計(jì)算節(jié)點(diǎn)B,每一臺(tái)PC級(jí)加2塊GPU卡,一個(gè)CPU,一共有60臺(tái),峰值我們可以達(dá)到1.02的浮點(diǎn)計(jì)算。第三種計(jì)算節(jié)點(diǎn),我們是每一臺(tái)服務(wù)器我們兩塊GPU再加一個(gè)CPU,一共是14臺(tái),總的計(jì)算結(jié)果是235P浮點(diǎn)預(yù)算

3、。第四種可以看得更簡(jiǎn)單,很一般的PC機(jī),每一臺(tái)PC機(jī)只有一塊GPU加一個(gè)CPU,最高峰值是378的浮點(diǎn)預(yù)算。所有144個(gè)節(jié)點(diǎn)的理論峰值2.16P浮點(diǎn)預(yù)算,就是每秒2000萬(wàn)億次浮點(diǎn)預(yù)算。CPU+GPU的計(jì)算節(jié)點(diǎn)是有自主知識(shí)產(chǎn)權(quán)設(shè)置定制的,從這個(gè)角度來(lái)說(shuō),我們這個(gè)還是非常經(jīng)濟(jì)和低成本的運(yùn)轉(zhuǎn),我們覺(jué)得非常非常合適貴州的實(shí)際情況。FAST分布式計(jì)算軟件架構(gòu)我們數(shù)量級(jí)的提高了脈沖星的搜索速度,原來(lái)一臺(tái)計(jì)算機(jī)單線程要用6004秒,但是我們用自主設(shè)定的設(shè)備計(jì)算只需36秒,計(jì)算速度提高了200倍。在搜索速度方面,F(xiàn)AST要求我們的計(jì)算要求壓力越來(lái)越大,但是我們只要再增加設(shè)備把架構(gòu)一擴(kuò)充,還可以上百倍增加這個(gè)

4、速度。數(shù)據(jù)計(jì)算出來(lái)以后,得到一些侯選題,從這些候選題里就可以找到我們需要的東西。以前用人的眼睛來(lái)找,現(xiàn)在利用計(jì)算機(jī)能不能找出來(lái),這關(guān)系到人工智能深度學(xué)習(xí)的問(wèn)題。FAST脈沖星搜索計(jì)算處理是怎樣一個(gè)過(guò)程呢?從FAST下線以后到現(xiàn)在,我們一共收到的數(shù)據(jù)是1.436PB,也就是10的15次方?,F(xiàn)在大概收到2個(gè)PB不到,數(shù)據(jù)量很大,而且這些數(shù)據(jù)越往后面會(huì)越多。拿到數(shù)據(jù),我們第一件事兒就是要消除觀測(cè)數(shù)據(jù)中的干擾信號(hào)。搜索脈沖星形,必須消除觀測(cè)數(shù)據(jù)中的干擾信號(hào)。第二就是消色散,脈沖星發(fā)出的射電信號(hào)在星際介質(zhì)中會(huì)產(chǎn)生色散,就像陽(yáng)光通過(guò)棱鏡會(huì)散開(kāi)成彩色光帶,這是因?yàn)椴煌念l率的信號(hào)在介質(zhì)中傳播速度不同而導(dǎo)致的

5、。從脈沖星發(fā)出脈沖信號(hào),經(jīng)過(guò)漫長(zhǎng)的時(shí)間,再通過(guò)復(fù)雜而遙遠(yuǎn)的星際介質(zhì),頻率高的先到達(dá)FAST的接收天線,頻率低的后到,整個(gè)信號(hào)波長(zhǎng)就會(huì)被拉開(kāi)了,我要消色散就是要解決這一問(wèn)題。消色散以后,我們?cè)谕ㄟ^(guò)快速傅里葉變換計(jì)算消色散信號(hào)中包含的周期信號(hào),從而得到一個(gè)正確投射。最后就是折疊的問(wèn)題,為了增加信號(hào),我們需要將消色散后的信號(hào)按周期疊加,在這些周期信號(hào)里面信號(hào)很弱,但是疊加能讓它們?cè)鰪?qiáng)。這其中有很大的工作量,人工去做要花很長(zhǎng)的時(shí)間,所以現(xiàn)在人工智能很火,深度機(jī)器學(xué)習(xí)很火,我們用深度機(jī)器學(xué)習(xí)來(lái)找,效果很不錯(cuò)。目前我們中心的19個(gè)波束接收機(jī)已經(jīng)全部投入使用,產(chǎn)生的觀測(cè)數(shù)據(jù)量每天至少19TB,搜索計(jì)算任務(wù)艱

6、巨。FAST找到脈沖星開(kāi)啟了中國(guó)重大的科學(xué)基礎(chǔ)設(shè)備系統(tǒng)研創(chuàng)性的脈沖星,這是中國(guó)天眼首先發(fā)現(xiàn)兩顆脈沖星,第一顆脈沖星距我們地球是1.6萬(wàn)光年,我記得周期是1.83秒,第二顆距我們地球是4.1萬(wàn)光年,周期是590毫秒。最近我們協(xié)助國(guó)家天文臺(tái)發(fā)現(xiàn)90多顆新脈沖星候選體,證實(shí)了65個(gè)新脈沖星,其中包含了FAST發(fā)現(xiàn)的首個(gè)毫秒脈沖星,是至今發(fā)現(xiàn)的射電流量最弱的高能毫秒脈沖星之一。如果我們能夠找到毫秒級(jí)以上的脈沖星,那就是諾貝爾成就。FAST的科學(xué)普及剛才在休息的時(shí)候,我問(wèn)了歐陽(yáng)院士,我說(shuō)你怎么看流浪地球,歐陽(yáng)院士說(shuō)那是胡扯。為啥呢?太陽(yáng)是恒星,它是有壽命的。當(dāng)太陽(yáng)已經(jīng)走到主星系的這個(gè)地方,再過(guò)50億年,

7、我們太陽(yáng)要變成紅際星,最后消亡。時(shí)間應(yīng)該是50億年的嘛,怎么就是70年了呢?太陽(yáng)最后變成超紅際星,有可能變成中繼星,還有另一種可能變成黑洞。我們做了脈沖星及候選體數(shù)據(jù)庫(kù)平臺(tái),我們?yōu)殛P(guān)心脈沖星的天文學(xué)家和天文愛(ài)好者提供脈沖星的候選體等等有關(guān)方面的信息。我們建設(shè)天文網(wǎng)絡(luò)社區(qū),非常歡迎天文學(xué)家或者同學(xué)們來(lái)訪問(wèn),這個(gè)社區(qū)里面有很多新的東西。天文大數(shù)據(jù)的挑戰(zhàn)及應(yīng)用根據(jù)我們最近的了解,我們使用19個(gè)波束接收機(jī)接收數(shù)據(jù),已是原來(lái)單波束的4倍,隨著調(diào)試順利進(jìn)行,觀測(cè)時(shí)間在逐步增多,數(shù)據(jù)量至少是單波束數(shù)據(jù)量的19乘4倍,也就是19個(gè)波束接收的數(shù)據(jù)每秒是38G,一年要接收19個(gè)PB,經(jīng)過(guò)處理至少要存儲(chǔ)10到15個(gè)PB,就我們現(xiàn)在的計(jì)算處理能力,要滿(mǎn)足這么大的數(shù)據(jù)量,我們理論上的2.16PF的峰值預(yù)算還不夠,所以我們還在擴(kuò)大。但是未來(lái)發(fā)射的數(shù)據(jù)量可以到多少,如果是1ZB,那么數(shù)據(jù)量就非常非常驚人了。所以既然這么大的數(shù)據(jù)量,將來(lái)從FAST現(xiàn)場(chǎng)到貴陽(yáng),就不是100G光纖解決問(wèn)題,而是400G光纖。我們要大力支持FAST的科學(xué)研究,所以我們?cè)缙诳茖W(xué)數(shù)據(jù)中心大力支持天文臺(tái)做這個(gè)工作,我覺(jué)得有以下幾條意義。第一,它符合全省大數(shù)據(jù)戰(zhàn)略及大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃。第二,天文科學(xué)將是展示貴州文化旅游形象的珍貴名片。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論