一種基于ETL技術(shù)的遙感云服務(wù)框架的設(shè)計與實(shí)現(xiàn)_第1頁
一種基于ETL技術(shù)的遙感云服務(wù)框架的設(shè)計與實(shí)現(xiàn)_第2頁
一種基于ETL技術(shù)的遙感云服務(wù)框架的設(shè)計與實(shí)現(xiàn)_第3頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、 一種基于ETL技術(shù)的遙感云服務(wù)框架的設(shè)計與實(shí)現(xiàn) 韓海濤Summary:為改進(jìn)傳統(tǒng)遙感云服務(wù)框架中存在的性能問題,減少計算力資源的浪費(fèi),優(yōu)化用戶體驗(yàn),利用ETL(Extraction Transformation Loading,抽取轉(zhuǎn)換裝載)技術(shù)對傳統(tǒng)框架的用戶業(yè)務(wù)處理模式進(jìn)行了優(yōu)化,將用戶業(yè)務(wù)處理部分從虛擬設(shè)備轉(zhuǎn)移到計算集群,由高性能計算節(jié)點(diǎn)統(tǒng)一處理,并通過流程引擎進(jìn)行自動化管理和控制,最終,用戶通過Web接口實(shí)現(xiàn)需求的定義和對服務(wù)的訪問。經(jīng)原型測試表明:改進(jìn)框架實(shí)現(xiàn)了業(yè)務(wù)的自動化處理,并有效減少了I/O開支、提高了CPU利用率、提升了整體效率、優(yōu)化了用戶體驗(yàn)。Key:抽取轉(zhuǎn)換裝載;遙感;

2、數(shù)據(jù)技術(shù);云服務(wù):TP702文獻(xiàn)標(biāo)志碼:A:2095-5383(2020)02-0026-03Abstract: In order to improve the performance problems existing in the traditional remote sensing cloud service framework, reduce the waste of computing power resources, and optimize the user experience, ETL (Extraction Transformation Loading) technolog

3、y was used to optimize the user business processing mode of traditional framework. That is, the users business processing part was transferred from the virtual equipment to the computing cluster, which was processed by the high-performance computing node and was automatically managed and controlled

4、by the process engine. Finally, users realize the definition of requirements and access to services through the web interface. The prototype test shows that the improved framework realizes the automatic processing of business, effectively reduces the I/O expenses, improves the CPU utilization, impro

5、ves the overall efficiency and optimizes the user experience.Keywords:extraction transformation loading; remote sensing; data technology; cloud services隨著成像、通信、航空航天等技術(shù)的發(fā)展,遙感技術(shù)也得到了飛躍式發(fā)展,遙感數(shù)據(jù)也越來越顯示出數(shù)據(jù)量龐大、更新周期短、數(shù)據(jù)類型多樣等大數(shù)據(jù)特征1,而傳統(tǒng)的單機(jī)、網(wǎng)格化處理方式,已經(jīng)不能滿足海量遙感數(shù)據(jù)的處理需求2,因此,云計算技術(shù)在遙感產(chǎn)業(yè)中得到了廣泛應(yīng)用。現(xiàn)階段,這些應(yīng)用通常依托于由處理一般業(yè)務(wù)的云

6、服務(wù)改進(jìn)而來的框架3,但這種框架在處理遙感業(yè)務(wù)時,面對龐大的數(shù)據(jù)量和復(fù)雜的業(yè)務(wù)邏輯往往不能很好地滿足需求。為此,本文對業(yè)務(wù)處理的流程進(jìn)行了優(yōu)化,并利用ETL技術(shù)用戶友好和自動化程度高的特點(diǎn),對服務(wù)進(jìn)行了重新架構(gòu),設(shè)計并實(shí)現(xiàn)了一種用戶友好、高效、自動化的遙感云服務(wù)框架。1 相關(guān)技術(shù)1.1 遙感云服務(wù)遙感云服務(wù)是基于云計算整合了大規(guī)模遙感數(shù)據(jù)資源和技術(shù)資源,基于互聯(lián)網(wǎng)環(huán)境以按需共享的方式提供在線遙感應(yīng)用服務(wù)4。因此,遙感云服務(wù)是可以充分利用云計算技術(shù)的優(yōu)勢大大降低遙感數(shù)據(jù)的處理和使用成本,并且實(shí)現(xiàn)資源整合和按需共享的服務(wù)模式3。遙感云服務(wù)中用戶通過系統(tǒng)提供的虛擬設(shè)備,能夠在基于互聯(lián)網(wǎng)的輕量級設(shè)備上

7、完成對海量數(shù)據(jù)的訪問、處理、分析及共享,避免了本地存儲和網(wǎng)絡(luò)資源的浪費(fèi),降低了數(shù)據(jù)處理和使用成本。1.2 ETL技術(shù)在大型數(shù)據(jù)服務(wù)的構(gòu)建過程中,需要將各種分布的、異構(gòu)的數(shù)據(jù)源中的數(shù)據(jù)抽取后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)庫中,這個過程叫做抽取轉(zhuǎn)換裝載(Extraction Transformation Loading,ETL)5。ETL是數(shù)據(jù)服務(wù)構(gòu)建和使用過程中非常重要的一個步驟,ETL處理效率的高低、轉(zhuǎn)換質(zhì)量的好壞,直接影響著數(shù)據(jù)服務(wù)的建設(shè)和數(shù)據(jù)使用的有效性5。ETL技術(shù)包含了與各種數(shù)據(jù)源的連接、異構(gòu)數(shù)據(jù)的抽取、數(shù)據(jù)的清洗和轉(zhuǎn)化等具體的數(shù)據(jù)技術(shù)、并發(fā)處理、自動化流程管理等一系列綜合技術(shù)。

8、具有規(guī)范、安全、自動化、用戶友好等特點(diǎn)6。云服務(wù)中通常會把ETL相關(guān)模塊作為數(shù)據(jù)工程工具集成到存儲集群中,并開放接口供系統(tǒng)和用戶調(diào)用,以此實(shí)現(xiàn)對數(shù)據(jù)與工具的封裝。2 系統(tǒng)架構(gòu)與流程2.1 系統(tǒng)工作流程遙感云服務(wù)平臺通常通過基于虛擬化(Virtualization)技術(shù)的資源分配方式為用戶提供計存儲、帶寬、算力等資源。實(shí)現(xiàn)一種讓用戶租用1臺運(yùn)行在云端的高性能設(shè)備來處理業(yè)務(wù)的IaaS(Infrastructure-as-a-Service,基礎(chǔ)設(shè)施即服務(wù))。在單一的用戶使用周期內(nèi),允許用戶在虛擬設(shè)備上進(jìn)行一個或多個業(yè)務(wù)的處理,在每個業(yè)務(wù)的處理中,根據(jù)用戶需要需求,由虛擬設(shè)備請求并從存儲節(jié)點(diǎn)獲取數(shù)據(jù)

9、,獲取完成后在虛擬設(shè)備上對數(shù)據(jù)進(jìn)行處理、分析,最終獲取并存儲處理結(jié)果4。以此為基礎(chǔ),為避免數(shù)據(jù)的冗余傳輸,減少計算力資源的浪費(fèi),優(yōu)化用戶體驗(yàn),充分利用硬件性能,通過創(chuàng)建一個高性能計算節(jié)點(diǎn),以每個業(yè)務(wù)為單元,利用ETL技術(shù)了進(jìn)行封裝,對整體業(yè)務(wù)流程進(jìn)行了進(jìn)一步優(yōu)化。優(yōu)化后,在完成系統(tǒng)部署,向用戶提供服務(wù)之前,系統(tǒng)會向服務(wù)器申請創(chuàng)建一個高帶寬、高算力的持久性高性能計算節(jié)點(diǎn),該邏輯節(jié)點(diǎn)為遙感業(yè)務(wù)中大量圖像處理及復(fù)雜計算提供主要算力。如圖1所示,框架優(yōu)化后業(yè)務(wù)處理的過程需要經(jīng)歷3個階段。第1階段:當(dāng)用戶開始業(yè)務(wù)操作時,首先通過Web接口訪問服務(wù)來定義算法、創(chuàng)建業(yè)務(wù)流程,然后將流程的配置參數(shù)和用戶數(shù)據(jù)委

10、托給高性能計算節(jié)點(diǎn)。第2階段:計算節(jié)點(diǎn)按照業(yè)務(wù)流程,向存儲節(jié)點(diǎn)請求數(shù)據(jù),由存儲節(jié)點(diǎn)對各類異構(gòu)數(shù)據(jù)進(jìn)行提取。在獲取所有數(shù)據(jù)后,計算節(jié)點(diǎn)利用ETL工具進(jìn)行數(shù)據(jù)清洗和裝載,當(dāng)數(shù)據(jù)全部載入成功,系統(tǒng)將按照用戶定義的算法對數(shù)據(jù)進(jìn)行處理和運(yùn)算。第3階段:數(shù)據(jù)處理完成后系統(tǒng)通過Web將結(jié)果反饋給用戶,用戶根據(jù)自身需求保存和輸出最終結(jié)果。同時可以設(shè)置分享權(quán)限并將結(jié)果推送到存儲節(jié)點(diǎn),完成業(yè)務(wù)處理。2.2 系統(tǒng)架構(gòu)與模塊功能如圖2所示,根據(jù)流程優(yōu)化,系統(tǒng)總體架構(gòu)被設(shè)計為3部分。2.2.1 基礎(chǔ)數(shù)據(jù)存儲在Linux存儲集群的環(huán)境基礎(chǔ)上,部署了該系統(tǒng)的提取工具。對于存儲遙感數(shù)據(jù)的分布式文件系統(tǒng)、文件系統(tǒng)、結(jié)構(gòu)化數(shù)據(jù)庫

11、、NOSQL數(shù)據(jù)庫等不同的存儲形式,提取工具為其配置了連接各種數(shù)據(jù)源的接口,用于訪問各類不同的結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。根據(jù)數(shù)據(jù)的不同類型,系統(tǒng)預(yù)置了FTP、URI、數(shù)據(jù)訪問對象、數(shù)據(jù)交換文件、自定義字節(jié)流等傳輸方式,用于向計算集群傳輸數(shù)據(jù)。2.2.2 數(shù)據(jù)處理與運(yùn)算部署在計算集群上的計算節(jié)點(diǎn)利用Docker技術(shù)動態(tài)的處理各種業(yè)務(wù)邏輯,為每個業(yè)務(wù)實(shí)例分配系統(tǒng)資源,維護(hù)多個實(shí)例的并發(fā)安全。靜態(tài)資源由轉(zhuǎn)換工具(Translator)、 載入工具(Loader)以及遙感數(shù)據(jù)處理所需的各種工具構(gòu)成,可以被各個業(yè)務(wù)實(shí)例使用。以此為基礎(chǔ),計算節(jié)點(diǎn)創(chuàng)建的每個業(yè)務(wù)實(shí)例依托流程管理工具,控制各模塊按照流程有序執(zhí)行。

12、通信模塊負(fù)責(zé)流程各個階段中業(yè)務(wù)實(shí)例與存儲節(jié)點(diǎn)或用戶進(jìn)行一對一的交互和數(shù)據(jù)的傳輸。Nginx服務(wù)獨(dú)立于通信模塊,用于解決計算節(jié)點(diǎn)與用戶一對多通信問題,實(shí)現(xiàn)業(yè)務(wù)初始化信息的接收與最終處理結(jié)果的發(fā)布。2.2.3 用戶訪問接口用戶通過Web入口可登錄訪問服務(wù)。在用戶界面中可使用圖形或XML文本的形式來定義算法和需求。流程解析器會根據(jù)用戶定義的需求將其解析為能夠被計算節(jié)點(diǎn)接受的格式,并與用戶數(shù)據(jù)一起打包發(fā)送到計算節(jié)點(diǎn),開啟業(yè)務(wù)流程。3 原型系統(tǒng)實(shí)現(xiàn)與測試為測試原型系統(tǒng)性能,在2臺配置了24 GB內(nèi)存,24核CPU,1TB硬盤空間,操作系統(tǒng)為64位CentOS7的物理主機(jī)上,通過Docker技術(shù)先后模擬了

13、云服務(wù)運(yùn)行的2種框架。使用500 GB經(jīng)IMAPP預(yù)處理軟件包處理生成的MODIS 1B數(shù)據(jù)為測試數(shù)據(jù),以“從文件系統(tǒng)查找數(shù)據(jù)文件,提取其元數(shù)據(jù)后生成快視圖并將快視圖傳輸給用戶”的簡單業(yè)務(wù)流程為測試用例,進(jìn)行多用戶并發(fā)測試,來對比2種服務(wù)框架的性能。在傳統(tǒng)框架下,系統(tǒng)會在提供運(yùn)算服務(wù)的主機(jī)上,為用戶創(chuàng)建滿足數(shù)據(jù)處理需求的固定大小的虛擬設(shè)備,用戶在虛擬設(shè)備上利用Python執(zhí)行測試用例,每次執(zhí)行完成后系統(tǒng)會將虛擬設(shè)備初始化后分配給下一名用戶。在新的框架下,系統(tǒng)僅會分配一個滿足Web訪問需求的虛擬設(shè)備,讓多個用戶通過Web執(zhí)行用例。經(jīng)3輪測試,測試時間段內(nèi)系統(tǒng)資源的總體占用對比情況如表1所示。在高

14、并發(fā)狀態(tài)下,2種框架內(nèi)存使用率都較高。由于虛擬設(shè)備的網(wǎng)絡(luò)帶寬限制,傳統(tǒng)框架數(shù)據(jù)讀寫量更大,拖慢了整體效率。新框架下CPU空閑率低、利用率較高, 相對傳統(tǒng)框架會有更少的資源浪費(fèi)。4 結(jié)語本文設(shè)計并實(shí)現(xiàn)了一種基于ETL技術(shù)的遙感云服務(wù)框架。ETL技術(shù)不僅可以為數(shù)據(jù)的規(guī)范化管理提供支撐,更可以為用戶業(yè)務(wù)的自動化管理提供便利,圖形化的需求定義方式也能大大降低系統(tǒng)的使用門檻。將ETL技術(shù)應(yīng)用到遙感云服務(wù)中,不僅規(guī)范了遙感數(shù)據(jù)的管理,還為用戶提供更加友好的交互方式。同時對服務(wù)框架的優(yōu)化,在保證系統(tǒng)運(yùn)行效率的前提下,有效提高了系統(tǒng)資源的利用率,避免了浪費(fèi)。使遙感云服務(wù)能更多、更好地服務(wù)用戶。最后,由于系統(tǒng)的實(shí)現(xiàn)處于原型階段,其穩(wěn)定性及擴(kuò)展性仍存在一些問題,交互方式也需進(jìn)行優(yōu)化,對此本文作者將會做進(jìn)一步的研究和實(shí)驗(yàn)。Reference:1朱建章, 石強(qiáng), 陳鳳娥,等.遙感大數(shù)據(jù)研究現(xiàn)狀與發(fā)展趨勢J.中國圖象圖形學(xué)報, 2016, 21(11):1425-1439.2史園莉, 申文明, 熊文成,等.遙感數(shù)據(jù)集群處理作業(yè)調(diào)度管理系統(tǒng)研究J.計算機(jī)工程

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論