下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、基于云計算與彈性計算的基因組預(yù)測分析系統(tǒng)摘 要:該項目以云計算與彈性計算為實踐方法,基于多種平臺架構(gòu),對基因組預(yù)測分析系統(tǒng)進(jìn)行開發(fā)設(shè)計。采用MySQL 數(shù)據(jù)庫,通過Apach e構(gòu)建平臺,使用阿里云計算推出的彈性計算云服務(wù)器,運用Java Web來實現(xiàn)基因組預(yù)測分析功能。項目 遵循軟件工程生命周期,從需求分析、數(shù)據(jù)庫設(shè)計等多方面進(jìn)行詳細(xì)闡述,全面介紹了基因組預(yù)測分析的全過程,具有計算準(zhǔn)確 度高,頁面操作難度低,結(jié)果可視化等多個優(yōu)點,能夠為用戶提供良好的云計算服務(wù)。關(guān)鍵詞:云計算;彈性計算;Webserver架構(gòu)Genome Prediction and Analysis System Base
2、d on Cloud Computing andElastic ComputingAbstract: This project takes cloud computing and elastic computing as the practical methods,and develops and designs the genome prediction analysis system based on various platform architectures. The MySQL database is used to build the platform through Apache
3、,the elastic computing cloud server launched by Alibaba cloud computing is used to realize the function of genome prediction and analysis by using Java Web. The project follows the life cycle of software engineering, elaborates on the requirements analysis, database design and other aspects, and com
4、prehensively introduces the whole process of genome prediction and analysis. It has many advantages, such as high accuracy of calculation, low difficulty of page operation, and visualization of results. It can provide users with good cloud computing services.Keywords: cloud computing; elastic comput
5、ing; WebServer architecture0引言近幾年,信息技術(shù)與生物領(lǐng)域相融合的研究日趨豐富, 高通量測序技術(shù)(RNA-set)迅速發(fā)展,為海量數(shù)據(jù)的計算 提供了可能。云計算與基因預(yù)測整合了軟件與硬件資源,并 以易用、可統(tǒng)計使用量的服務(wù)方式向公眾提供分布式、并行 計算方案田。生物學(xué)信息內(nèi)容研討中常見輔助工具有基因組 裁剪、短二階對比與剖析氣無參考基因組的轉(zhuǎn)錄組剖析、 有參考基因組的轉(zhuǎn)錄組剖析、監(jiān)控突變基因、基因預(yù)估、基 因組注解、吸附剖析與基因同源性剖析等等叫目前這類生 物計算的相關(guān)軟件種類繁多,技術(shù)也日趨多樣化。在實際應(yīng) 用中,為了將計算時間最小化,通常會采用并行集群系統(tǒng)氣本文
6、基于對基因組預(yù)測分析的需求,采用全基因組選擇 (GS)方法,設(shè)計了基于云計算與彈性計算的基因組預(yù)測 分析系統(tǒng),本系統(tǒng)的核心內(nèi)容主要是基因組數(shù)據(jù)的預(yù)測分 析,基本功能包括數(shù)據(jù)文件的下載、瀏覽、共享、建設(shè)項目 的打造、業(yè)務(wù)流程的打造、業(yè)務(wù)流程及數(shù)據(jù)展現(xiàn)等等,主要 資源優(yōu)勢包括在線郵件認(rèn)證、下載文檔自動清理、權(quán)限自定 義及彈性計算。本系統(tǒng)實現(xiàn)了用戶對基因組預(yù)測分析的基本需求,并在 技術(shù)上有所突破,能夠為生物界基因組預(yù)測分析所用,能夠 幫助育種人員完成種子篩選,幫助生物科研人員更深刻地理 解基因變異是如何影響種子疾病、藥物反應(yīng)等其他生物進(jìn)程。本系統(tǒng)的研究依托吉林農(nóng)業(yè)科技學(xué)院的省級大學(xué)生創(chuàng)新 創(chuàng)業(yè)項目,
7、利用在吉林農(nóng)業(yè)科技學(xué)院的智慧農(nóng)業(yè)工程研究中 心的現(xiàn)有設(shè)備,對整體系統(tǒng)進(jìn)行了開發(fā)和調(diào)試。其中唐友教 授負(fù)責(zé)系統(tǒng)的整體設(shè)計和把控,么賀貴負(fù)責(zé)具體的系統(tǒng)實現(xiàn)。1基因組預(yù)測分析系統(tǒng)背景及意義全基因組選擇(GS)是一種遺傳選育價值(GEBV)抉 擇辦法,測試掩蓋整個基因組的原子標(biāo)記,而是選用整個基 因組的遺傳標(biāo)記信息內(nèi)容來對于個體展開遺傳評估,進(jìn)而取 得更低的選育價值估計精確性。在大數(shù)據(jù)網(wǎng)絡(luò)時代的今日, 生物信息內(nèi)容領(lǐng)域的數(shù)據(jù)呈指數(shù)級增長,怎樣高效精確地對 數(shù)據(jù)展開妥善處理、剖析是生物信息內(nèi)容領(lǐng)域的痛點之一。 根據(jù)相似難題,云計算的發(fā)展為其提供了良好的設(shè)計方案,研究人員可以通過網(wǎng)絡(luò)平臺獲得后臺提供的計算
8、能力、儲存 能力以及交通設(shè)施,對于海量的生物學(xué)信息內(nèi)容數(shù)據(jù)展開有 效儲存或者剖析。因此,本平臺出現(xiàn)能夠?qū)崿F(xiàn)低成本、高效 率、安全可靠的基因預(yù)測分析,從而推動信息生物領(lǐng)域更好 更快的發(fā)展。2基因組預(yù)測分析系統(tǒng)介紹2.1系統(tǒng)架構(gòu)設(shè)計Web 應(yīng)用框架(Web Application Framework)是一種計 算機(jī)軟件框架,用來支持動態(tài)門戶網(wǎng)站、網(wǎng)絡(luò)應(yīng)用程序以及 應(yīng)用服務(wù)的開發(fā),本系統(tǒng)是基于Web應(yīng)用框架展開設(shè)計的。 用戶在選用服務(wù)器時候通過HTTP協(xié)議銜接服務(wù)器,與此同 時向服務(wù)器發(fā)出請求,服務(wù)器在收到用戶請求時,展開靜態(tài) 與動態(tài)的辨別,如果是靜態(tài)頁面直接將請求結(jié)果發(fā)回瀏覽器 界面,反之,若是動
9、態(tài)界面,后續(xù)相應(yīng)代碼將在服務(wù)器執(zhí)行, 執(zhí)行完成后返回結(jié)果。本系統(tǒng)的Web應(yīng)用框架主要通過Struts2及Hibernate組 成,為了方便軟件的設(shè)計與組成,采納傳統(tǒng)的MVC (ModelView-Controller) 架構(gòu),將系統(tǒng)軟件分成三個基本部分:分 析模型(Model)、視圖(View)及控制器(Controller)。 Controller主要負(fù)責(zé)將請求轉(zhuǎn)發(fā)并妥善處理。View留給界面 工作人員展開圖形界面設(shè)計,分析模型用作程序員編程應(yīng)有 的基本功能、實現(xiàn)遺傳算法等等。2.2系統(tǒng)技術(shù)選型本系統(tǒng)采用Eclipse來實現(xiàn)功能。Eclipse是一個開放源 代碼的、基于Java的可擴(kuò)大開發(fā)網(wǎng)
10、絡(luò)平臺。本系統(tǒng)的開發(fā) 采用了 Hibernate,Struts框架搭建并與MySQL數(shù)據(jù)庫連接, 綜合運用了 Java、SQL、HTML等技術(shù)。系統(tǒng)設(shè)計依據(jù)全基 因組選擇辦法,通過測試掩蓋全基因組的原子標(biāo)記,利用全 基因組的遺傳標(biāo)記信息內(nèi)容對于個人展開遺傳評價,進(jìn)而取 得更低的選育價值估計精確度。本系統(tǒng)采用瀏覽器/服務(wù)器模式(B/S)模式,用戶通過 瀏覽器針對許多分布于網(wǎng)絡(luò)上的服務(wù)器進(jìn)行請求訪問,請求 通過服務(wù)器進(jìn)行處理,并將處理結(jié)果以及相應(yīng)的信息返回給 瀏覽器。使用戶可以不用安裝任何專門的軟件就能實現(xiàn)在任 何地方進(jìn)行系統(tǒng)操作,降低了開發(fā)成本,減少了維護(hù)費用。2.3研究方法本項目采用一個新基因
11、組選擇方法MMAP (Mining the Maximum Accuracy of Prediction)是根據(jù)目前流行的基因組 選擇方法建立方法庫,通過它去預(yù)測大量不同的物種對應(yīng)不 同表型數(shù)據(jù),采用交叉驗證得到精準(zhǔn)值,從而形成具有參考 價值的知識庫。然后根據(jù)知識庫采用挖掘技術(shù)選擇最優(yōu)GS 方法預(yù)測新的物種性狀,指導(dǎo)育種分析。知識庫內(nèi)現(xiàn)有三百 多種表型性狀測得精準(zhǔn)值,若有新GS方法將立即加入方法 庫,因而測得的新物種性狀預(yù)測精準(zhǔn)值就累積到知識庫中。 MMAP方法具體研究實現(xiàn)設(shè)計包括:實現(xiàn)GS方法庫程序及 接口、知識庫調(diào)用及累積流程(Knowledge)、迭代挖掘方 法過程(Mining)、收斂
12、閾值判斷(Convergence),數(shù)據(jù) 平臺(Platform)和命令執(zhí)行(Command) 5。本項目內(nèi)包 含了 MMAP、貝葉斯 A (Byase A)、貝葉斯 B (Bayes B)、 貝葉斯C (Bayes C)、貝葉斯Cpi (Bayes Cpi)等多種遺傳 算法可供選擇。本項目采用彈性計算的方法對云計算進(jìn)行技術(shù)支持。在 云環(huán)境下,用戶任務(wù)的請求量可能會比較大,如果系統(tǒng)只是 部署在單一服務(wù)器上,勢必會造成服務(wù)器過載,因此基于用 戶對不同計算能力的需求,本系統(tǒng)實現(xiàn)了彈性計算的解決方 案。彈性計算主要分為客戶端和服務(wù)端,其中服務(wù)端部署在 運行系統(tǒng)同一操作系統(tǒng)環(huán)境下,客戶端部署在任意終端
13、上。 服務(wù)端功能包括:監(jiān)測當(dāng)前系統(tǒng)的負(fù)載率、監(jiān)測當(dāng)前運行文 件的大小、智能分析當(dāng)前擁有的服務(wù)器數(shù)量、打包要計算的 文件、發(fā)送和接收文件??蛻舳斯δ馨ń邮辗?wù)端發(fā)送的 文件,調(diào)用本地資源進(jìn)行計算、計算完成后回傳結(jié)果文件。2.4系統(tǒng)流程圖則等待其他資源釋放圖1系統(tǒng)流程圖圖1為本平臺的系統(tǒng)流程圖,用戶能夠通過新建項目一 選擇文件一選擇參數(shù)一開始項目對自己上傳到本平臺的數(shù)據(jù) 進(jìn)行差異化分析。在計算結(jié)束后用戶可以下載結(jié)果文件,并 進(jìn)行圖形化分析,從而更加直觀的得出某一段基因組對此性 狀的影響則等待其他資源釋放圖1系統(tǒng)流程圖3基因組預(yù)測分析系統(tǒng)功能3.1實現(xiàn)功能介紹根據(jù)系統(tǒng)性能和安全的需求,系統(tǒng)實現(xiàn)應(yīng)該
14、包括以下功 能:(1)系統(tǒng)界面的各核心功能模塊清晰明了,頁面簡潔大 方,保證用戶體驗良好。系統(tǒng)程序要滿足硬件的可拓展性, 當(dāng)系統(tǒng)需要拓展儲存設(shè)備和計算設(shè)備時,保證系統(tǒng)能在正常 情況下進(jìn)行安全拓展。(2)系統(tǒng)架構(gòu)設(shè)計要滿足眾多用戶同 時登錄的需要,保證數(shù)據(jù)庫的并發(fā)量。要保障數(shù)據(jù)能及時備 份,當(dāng)系統(tǒng)出現(xiàn)故障時,能及時恢復(fù)數(shù)據(jù)并保證系統(tǒng)正常運 行。(3)外部安全針對網(wǎng)絡(luò)威脅,系統(tǒng)應(yīng)設(shè)置防火墻,防止 來自網(wǎng)絡(luò)的惡意攻擊。若出現(xiàn)攻擊事件,要能及時恢復(fù)數(shù)據(jù), 保障數(shù)據(jù)安全。內(nèi)部安全針對系統(tǒng)進(jìn)行加密,排除他人冒名 登錄以及賬號輕易被盜等安全隱患,保障合法用戶的使用安 全。(4)可以在保證預(yù)測模型準(zhǔn)確性的前提
15、下,利用多線程 技術(shù),對預(yù)測模型的分析計算速度進(jìn)行大幅度的提升(15倍 以上的提升,具體提升的速度看CPU的核心數(shù)量,一般來說 CPU的核心數(shù)量每多1倍,則運算速度會提升1倍,同時可 以利用GPU技術(shù)對計算方法進(jìn)行加速,因為GPU的核心數(shù) 量是CPU核心數(shù)量的幾百倍,則理論上計算速度也會提升 數(shù)百倍)。(5)在研究完成現(xiàn)有方法的基礎(chǔ)之上,將算法 以軟件包的形式部署到服務(wù)器上,并利用阿里云的彈性開啟 服務(wù)器技術(shù),通過負(fù)載均衡和彈性計算將軟件包以云服務(wù)器 的方式進(jìn)行配置,讓外界用戶能以Web服務(wù)訪問的形式訪 問本網(wǎng)站,用戶通過上傳文件和選擇計算方法就可以快速便 捷地使用本算法(軟件包),從而免除了
16、復(fù)雜的軟件依賴環(huán) 境的安裝。3.2功能介紹根據(jù)功能需求分析得出,系統(tǒng)的模塊設(shè)計共分為四大部 分:用戶登錄模塊、文件管理模塊、項目管理模塊和主頁面 模塊。包括但不僅限于以下功能:(1)用戶登錄:使用戶 登入本系統(tǒng)。(2)用戶管理:用戶管理包括用戶忘記密碼、 注冊。(3)項目展示:項目展示包括項目狀態(tài)的展示、流 程狀態(tài)的展示、流程的參數(shù)展示、流程計算的報告文件展示、 搜索流程、和對流程進(jìn)行排序展示。(4)私人文件頁面: 私人文件頁面包括對私人文件的上傳、下載、刪除、展示、 搜索和分享到公共文件頁面。(5)公共文件頁面:公共文 件頁面包括了對公共文件的下載、搜索和展示。(6)結(jié)果 文件頁面:結(jié)果文件
17、頁面包括了對結(jié)果文件的下載、搜索和 展示。(7)項目頁面:項目頁面包括對項目的添加、流程 的添加,對流程開始云計算、下載報告文件、對流程進(jìn)行刪 除和查看流程參數(shù)。(8)備份恢復(fù):備份恢復(fù)主要包括數(shù) 據(jù)備份、還原數(shù)據(jù)庫。(9)容災(zāi)初始化:容災(zāi)初始化主要 針對服務(wù)器端異常斷電之后,重啟本系統(tǒng)之前對系統(tǒng)進(jìn)行的 初始化操作。(10)用戶操作:用戶操作包括修改密碼,登 出系統(tǒng)。(11)后臺管理:后臺管理包括了禁止用戶登錄、 修改用戶可同時運算流程數(shù)和修改流程參數(shù)。3.3系統(tǒng)平臺首頁展示當(dāng)用戶注冊賬號后,在登錄頁輸入賬號和密碼,點擊登 錄,即可登入系統(tǒng)首頁。在首頁,用戶可以查看項目/流程 的詳細(xì)信息和參數(shù)
18、信息。系統(tǒng)首頁如圖2所示。圖2系統(tǒng)首頁3.4系統(tǒng)結(jié)果文件展示當(dāng)計算流程結(jié)束后,流程處于已完成狀態(tài),點擊項目管 理頁面的下載結(jié)果文件按鈕,即可下載計算完成的結(jié)果文 件,如表1所示。結(jié)果文件中各項數(shù)據(jù)展示了各個基因組之 間的相關(guān)性,正數(shù)即表明正相關(guān),負(fù)數(shù)即表明負(fù)相關(guān)。表1結(jié)果文件展示(部分)名稱葉寬(貝葉斯A)葉長(貝葉斯B)株高(貝葉斯B)P1 P2-0.063 578 137-0.088 430 149-3.879 559 999P1 P3-0.071 061 794-0.101 376 940-3.904 552 665P1 P4-0.065 696 269-0.093 167 208-3.
19、858 197 268P1 P50.003 245 037-0.033 051 972-4.458 409 188P1 P60.081 132 5475.270 686 291-0.808 609 825P1 P70.051 767 3275.257 924 232-0.929 165 487P1 P80.062 894 1045.252 769 059-4.936 267 078P1 P90.008 901 607-0.019 794 442-2.218 857 0243.5系統(tǒng)圖形化分析展示圖形化分析是根據(jù)結(jié)果文件數(shù)據(jù),在系統(tǒng)平臺上進(jìn)行動態(tài) 分析的方法。能夠直觀展示各個基因組之間的相關(guān)性。
20、縱坐標(biāo) 中,正數(shù)即表明正相關(guān),負(fù)數(shù)即表明負(fù)相關(guān)。橫坐標(biāo)代表了每一個個體的個體名,圖3就以葉寬(PH)、葉長(EH)、株 高(DTT)三種性狀為例子,進(jìn)行了基因組分析。經(jīng)過基因 型數(shù)據(jù)進(jìn)行分析,結(jié)果顯示:葉寬采用貝葉斯A方法為最 佳、葉長采用貝葉斯B方法為最佳、株高采用貝葉斯B方 法為最佳。一 -20q -40200-60-80個體名PH (BayesA)EH (BayesB)一 -20q -40200-60-80個體名PH (BayesA)EH (BayesB)DTT (BayesB)4基因組預(yù)測分析系統(tǒng)測試一般情況,本系統(tǒng)的運行總是運行在特定的環(huán)境下, 這種環(huán)境包括用戶的軟硬件環(huán)境和許多影響
21、運行的外部的環(huán) 境。為了給用戶提供更好的體驗,充分提高系統(tǒng)運行性能, 在進(jìn)行軟件開發(fā)之后,會對影響系統(tǒng)運行環(huán)境的關(guān)鍵因素進(jìn) 行測試(關(guān)鍵因素:系統(tǒng)的架構(gòu)、支撐軟件、網(wǎng)絡(luò)帶寬、硬 件配置、外部負(fù)載等)。4.1負(fù)載測試本測試方法是通過改變系統(tǒng)承受的負(fù)載大小和負(fù)載的方 式,從而模擬實際軟件運行的條件,發(fā)現(xiàn)系統(tǒng)中的問題。通 常采用增加訪問用戶的數(shù)量來觀察系統(tǒng)的云計算時間和數(shù)據(jù) 的吞吐量,以及系統(tǒng)運行的資源等。通過負(fù)載測試發(fā)現(xiàn)系統(tǒng) 存在的問題,比如內(nèi)存泄漏、不能實時同步等。負(fù)載測試是針對我們系統(tǒng)開始的,應(yīng)盡量符合正常的云 計算環(huán)境。在工具JMeter中為每個負(fù)載測試設(shè)置線程、循 環(huán)的次數(shù)和啟動周期等參數(shù)
22、值。針對本系統(tǒng),主要是監(jiān)控數(shù) 據(jù)吞吐量、數(shù)據(jù)處理效率以及數(shù)據(jù)請求的時間。經(jīng)過測試發(fā) 現(xiàn),本系統(tǒng)的數(shù)據(jù)吞吐量負(fù)載良好,響應(yīng)時間較短,能夠滿 足正常的云計算需求。4.2性能測試性能測試是一個受控的分析過程,通過一個個小實例來 完成系統(tǒng)的測試。通過性能測試發(fā)現(xiàn),在正常負(fù)載情況下(20 個用戶)開啟云計算功能的成功率為100%,響應(yīng)時間與單 個用戶響應(yīng)時間相同。5基因組預(yù)測分析系統(tǒng)總結(jié)與展望目前云計算已經(jīng)廣泛應(yīng)用在各個領(lǐng)域,相比傳統(tǒng)計算方 法其優(yōu)勢開始被廣泛接受。大數(shù)據(jù)時代,生物科學(xué)領(lǐng)域的數(shù) 據(jù)呈數(shù)量級增長,眾多問題開始涌現(xiàn),一方面是如何對數(shù)據(jù) 進(jìn)行有效儲存和整理,保障數(shù)據(jù)的安全,另一方面是如何 通過高效準(zhǔn)確的方式對海量數(shù)據(jù)進(jìn)行計算。以上兩點是生 物科學(xué)研究的癥結(jié)所在,云計算的出現(xiàn)為解決這些問題指 明了道路。本系統(tǒng)主要以全基因組選擇(GS)方法為載體,基于 B/S框架搭建了基于云計算與彈性計算的基因組預(yù)測分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 綜合執(zhí)法網(wǎng)絡(luò)課程設(shè)計
- 艱苦的軍訓(xùn)心得體會600字
- 醫(yī)院風(fēng)管理核心制度要點理論考核試題
- 煤礦井巷工程新規(guī)范質(zhì)量表
- 企業(yè)會計個人工作計劃11篇
- 個人崗位競聘演講稿(34篇)
- 光伏茶水費合同(2篇)
- 必修1至必修5數(shù)學(xué)試卷
- 工廠房屋出租合同
- 房屋場地租賃合同書樣書
- 公共衛(wèi)生事業(yè)管理專業(yè)職業(yè)生涯規(guī)劃書
- GB/T 43232-2023緊固件軸向應(yīng)力超聲測量方法
- 花藝師年度工作總結(jié)
- 新目標(biāo)漢語口語課本2課件-第2單元
- 二手車買賣合同(標(biāo)準(zhǔn)版范本)
- 新產(chǎn)品的試制與導(dǎo)入
- 聚酰胺酰亞胺實驗報告
- 污水處理廠污泥處理處置投標(biāo)方案
- 智能包裝設(shè)計智慧樹知到課后章節(jié)答案2023年下湖南工業(yè)大學(xué)
- 抖音快手短視頻創(chuàng)業(yè)項目融資商業(yè)計劃書模板(完整版)
- 上海市交大二附中2024屆數(shù)學(xué)七年級第一學(xué)期期末質(zhì)量跟蹤監(jiān)視模擬試題含解析
評論
0/150
提交評論