大數(shù)據(jù)課堂測驗2_第1頁
大數(shù)據(jù)課堂測驗2_第2頁
大數(shù)據(jù)課堂測驗2_第3頁
大數(shù)據(jù)課堂測驗2_第4頁
大數(shù)據(jù)課堂測驗2_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

PAGEPAGE10第頁(共3頁)中國醫(yī)科大學2012-2013學年第2學期期末考試PAGE1第頁(共×頁)中國醫(yī)科大學試卷紙簡述大數(shù)據(jù)的來源與數(shù)據(jù)類型大數(shù)據(jù)的來源非常多,如信息管理系統(tǒng)、網(wǎng)絡信息系統(tǒng)、物聯(lián)網(wǎng)系統(tǒng)、科學實驗系統(tǒng)等,其數(shù)據(jù)類型包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。2、大數(shù)據(jù)產(chǎn)生的三個階段(1)被動式生成數(shù)據(jù)(2)主動式生成數(shù)據(jù)感知式生成數(shù)據(jù)3、大數(shù)據(jù)處理的基本流程1.數(shù)據(jù)抽取與集成2.數(shù)據(jù)分析3.數(shù)據(jù)解釋4、大數(shù)據(jù)的特征4V1OVolume,Variety,Value,Velocity,On-Line5、適合大數(shù)據(jù)的四層堆棧式技術(shù)架構(gòu)6、大數(shù)據(jù)的整體技術(shù)和關鍵技術(shù)大數(shù)據(jù)的整體技術(shù)一般包括:數(shù)據(jù)采集、數(shù)據(jù)存取、基礎架構(gòu)、數(shù)據(jù)處理、統(tǒng)計分析、數(shù)據(jù)挖掘、模型預測和結(jié)果呈現(xiàn)等。大數(shù)據(jù)處理關鍵技術(shù)一般包括:大數(shù)據(jù)采集、大數(shù)據(jù)預處理、大數(shù)據(jù)存儲及管理、開發(fā)大數(shù)據(jù)安全大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)展現(xiàn)和應用(大數(shù)據(jù)檢索、大數(shù)據(jù)可視化、大數(shù)據(jù)應用、大數(shù)據(jù)安全等)。7、新一代數(shù)據(jù)體系的分類新一代數(shù)據(jù)體系中,將傳統(tǒng)數(shù)據(jù)體系中沒有考慮過的新數(shù)據(jù)源進行歸納與分類,可將其歸納到線上行為數(shù)據(jù)與內(nèi)容數(shù)據(jù)兩大類別。8、EDC系統(tǒng)的定義臨床試驗電子數(shù)據(jù)采集(ElectricDataCapture,EDC)系統(tǒng),在臨床試驗中的應用可以有效解決紙質(zhì)CRF存在的問題。EDC是通過互聯(lián)網(wǎng)從試驗中心(Sites)直接遠程收集臨床試驗數(shù)據(jù)的一種數(shù)據(jù)采集系統(tǒng)。9、EDC系統(tǒng)的基本功能數(shù)據(jù)錄入、數(shù)據(jù)導出、試驗設計、編輯檢查、操作痕跡、系統(tǒng)安全、在線交流、醫(yī)學編碼和支持多語言。10、EDC系統(tǒng)的優(yōu)點(1)提高了臨床研究的效率,縮短了臨床研究周期(2)通過邏輯檢查提高了數(shù)據(jù)質(zhì)量(3)對研究質(zhì)量的監(jiān)測更加方便11、大數(shù)據(jù)采集的數(shù)據(jù)來源大數(shù)據(jù)的三大主要來源為商業(yè)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)與傳感器數(shù)據(jù)。12、網(wǎng)絡數(shù)據(jù)采集和處理的四個主要模塊網(wǎng)絡爬蟲(Spider)、數(shù)據(jù)處理(DataProcess)、URL隊列(URLQueue)和數(shù)據(jù)(Data)。13、大數(shù)據(jù)集成在大數(shù)據(jù)領域中,數(shù)據(jù)集成技術(shù)也是實現(xiàn)大數(shù)據(jù)方案的關鍵組件。大數(shù)據(jù)中的集成是將大量不同類型的數(shù)據(jù)原封不動的保存在原地,而將處理過程適當?shù)姆峙浣o這些數(shù)據(jù)。這是一個并行處理的過程,當在這些分布式數(shù)據(jù)上執(zhí)行請求后,需要整合并返回結(jié)果。14、數(shù)據(jù)集成時應解決的問題數(shù)據(jù)集成時應解決的問題包括數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)的遷移、組織內(nèi)部的數(shù)據(jù)移動、從非結(jié)構(gòu)化數(shù)據(jù)中抽取信息和將數(shù)據(jù)處理移動到數(shù)據(jù)端。15、網(wǎng)絡數(shù)據(jù)處理的四個模塊及主要功能分詞(WordsAnalyze)、排重(ContentDeduplicate)、整合(Integrate)和數(shù)據(jù),如圖2-17所示。這四個模塊的主要功能如下。1)分詞:對抓取到的網(wǎng)頁內(nèi)容進行切詞處理。2)排重:對眾多的網(wǎng)頁內(nèi)容進行排重。3)整合:對不同來源的數(shù)據(jù)內(nèi)容進行格式上的整合。4)數(shù)據(jù):包含兩方面的數(shù)據(jù),SpiderData和DpData。16、大數(shù)據(jù)建模概念大數(shù)據(jù)建模是為了理解事物而對事物做出的一種抽象,是對事物的一種無歧義的書面描述。17、大數(shù)據(jù)分析模式分類根據(jù)實時性,可分為在線分析和離線分析根據(jù)數(shù)據(jù)規(guī)模,可分為內(nèi)存級、BI級和海量級根據(jù)算法復雜度的分類18、大數(shù)據(jù)建模流程定義問題、數(shù)據(jù)理解、數(shù)據(jù)準備、模型建立、模型評估、模型更新與結(jié)果部署等。19、大數(shù)據(jù)建模應遵循的規(guī)律以業(yè)務目標作為實現(xiàn)目標業(yè)務知識是每一步的核心做好數(shù)據(jù)預處理試驗對尋找解決方案是必要的數(shù)據(jù)中總含有模式數(shù)據(jù)挖掘增大對業(yè)務的認知預測提高了信息作用能力大數(shù)據(jù)建模的價值不在于預測的準確率模式因業(yè)務變化而變化20、數(shù)據(jù)可視化的概念數(shù)據(jù)可視化技術(shù)是指運用計算機圖形學和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像,然后在屏幕上顯示出來,利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的交互處理的理論、方法和技術(shù)。21、數(shù)據(jù)可視化流程22、數(shù)據(jù)可視化工具的特性1)實時性2)簡單操作3)更豐富的展現(xiàn)4)多種數(shù)據(jù)集成支持方式23、數(shù)據(jù)可視化在生物領域中的應用測序數(shù)據(jù)可視化分子結(jié)構(gòu)數(shù)據(jù)可視化關系網(wǎng)絡可視化臨床數(shù)據(jù)可視化24、Hadoop優(yōu)點1)可擴展(Scalable)2)低成本(Economical)3)高效率(Efficient)4)可靠(Reliable)25、Hadoop的核心模塊HDFS、MapReduce、Common及YARN,其中HDFS提供了海量數(shù)據(jù)的存儲,MapReduce提供了對數(shù)據(jù)的計算,Common為在通用硬件上搭建云計算環(huán)境提供基本的服務及接口,YARN可以控制整個集群并管理應用程序向基礎計算資源的分配。26、YARN的基本設計思想將MapReduce中的JobTracker拆分成了兩個獨立的服務:一個全局的資源管理器ResourceManager和每個應用程序特有的ApplicationMaster。其中ResourceManager負責整個系統(tǒng)的資源管理和分配,而ApplicationMaster則負責單個應用程序的管理。27、HiveHive最早是由Facebook設計,基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供類SQL查詢功能。28、HBaseHBase即HadoopDatabase,是一個分布式、面向列的開源數(shù)據(jù)庫。HBase主要用于需要隨機訪問、實時讀寫的大數(shù)據(jù)。29、AvroAvro是一個數(shù)據(jù)序列化系統(tǒng)。類似于其他序列化機制,Avro可以將數(shù)據(jù)結(jié)構(gòu)或者對象轉(zhuǎn)換成便于存儲和傳輸?shù)母袷剑湓O計目標是用于支持數(shù)據(jù)密集型應用,適合大規(guī)模數(shù)據(jù)的存儲與交換。30、ChukwaChukwa是開源的數(shù)據(jù)收集系統(tǒng),用于監(jiān)控和分析大型分布式系統(tǒng)的數(shù)據(jù)。31、PigPig是一個對大型數(shù)據(jù)集進行分析和評估的平臺。32、Spark原理Spark是一個開源的通用并行分布式計算框架,由加州大學伯克利分校的AMP實驗室開發(fā),支持內(nèi)存計算、多迭代批量處理、流處理和圖計算等多種范式。Spark基于MapReduce算法實現(xiàn)的分布式計算,擁有MapReduce所具有的優(yōu)點;但不同于MapReduce的是Job中間輸出和結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學習等需要迭代的MapReduce的算法。33、Spark的優(yōu)點輕量級快速處理支持多語言支持復雜查詢實時的流處理可以與Hadoop數(shù)據(jù)整合34、HDFS的設計目標高效的硬件響應流式數(shù)據(jù)訪問大規(guī)模數(shù)據(jù)集簡單的一致性模型異構(gòu)軟硬件平臺間的可移植性35、HDFS架構(gòu)——解釋下圖答案在P107-P10836、以一個文件FileA(大小100MB)為例,說明HDFS的工作原理。讀操作流程寫操作流程答案在P109-P11137、HDFS的4類源代碼基礎包實體實現(xiàn)包應用包WebHDFS相關包38、MapReduceMapReduce是一個針對大規(guī)模群組中海量數(shù)據(jù)處理的分布式編程模型。39、HDFS接口遠程過程調(diào)用接口與客戶端相關接口HDFS各服務器間的接口40、HDFS和MapReduce的關系HDFS在集群上實現(xiàn)了分布式文件系統(tǒng),MapReduce在集群上實現(xiàn)了分布式計算和任務處理。HDFS在MapReduce任務處理過程中提供了對文件操作和存儲的支持。MapReduce在HDFS的基礎上實現(xiàn)任務的分發(fā)、跟蹤、執(zhí)行等工作,并收集結(jié)果。41、MapReduce技術(shù)特征易于使用良好的伸縮性大規(guī)模數(shù)據(jù)處理42、MapReduce工作機制答案在P116-P11743、MapReduce執(zhí)行流程Map(映射)和Reduce(化簡)是它的主要思想,Map負責將數(shù)據(jù)打散,Reduce負責對數(shù)據(jù)進行聚集,用戶只需要實現(xiàn)Map和Reduce兩個接口,即可完成TB級數(shù)據(jù)的計算。向MapReduce框架提交一個計算作業(yè)時,它會首先進行Split(分片),將File(文件)分配為多個數(shù)據(jù)片段,保證作業(yè)的并行效率。然后Map把計算作業(yè)拆分成若干個Map任務,然后分配到不同的結(jié)點上去執(zhí)行,每一個Map任務處理輸入數(shù)據(jù)中的一部分。當Map任務完成后,它會生成一些中間文件,把這些文件重新組織作為Reduce階段的輸入,該過程稱為Shuffle(洗牌),洗牌的操作一般包含本地化混合、分區(qū)、排序、復制及合并。Reduce任務的主要目標就是把前面經(jīng)過洗牌的文件匯總到一起并輸出。44、CommonCommon為Hadoop的其他模塊提供了一些常用工具程序包,主要包括系統(tǒng)配置工具Configuration、遠程過程調(diào)用RPC、序列化機制和Hadoop抽象文件系統(tǒng)FileSystem等。在通用硬件上搭建云計算環(huán)境提供基本的服務,同時為軟件開發(fā)提供了API。45、大數(shù)據(jù)的一致性策略CAP,即一致性(Consistency)、可用性(Availability)和分區(qū)容錯性(PartitionTolerance)46、大數(shù)據(jù)分區(qū)技術(shù)通過一定的規(guī)則將超大型表分割成若干小塊來分別處理。表進行分區(qū)時需要使用分區(qū)鍵來標志每一行屬于哪一個分區(qū),分區(qū)鍵以列的形式保存在表中。47、幾種常見的數(shù)據(jù)分區(qū)算法范圍分區(qū)列表分區(qū)哈希分區(qū)48、分布式環(huán)境下的數(shù)據(jù)緩存技術(shù)特點高性能動態(tài)擴展性高可用性易用性49、NoSQL數(shù)據(jù)庫種類鍵值(Key-Value)存儲列存儲(Column-Oriented)文檔(Document-Oriented)存儲圖形存儲(Graph-Oriented)。50、四種類型NoSQL的特點及典型產(chǎn)品存儲類型特性典型工具鍵值存儲可以通過鍵快速查詢到值,值無需符合特定格式Redis列存儲可存儲結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),對某些列的高頻率查詢具有很好的I/O優(yōu)勢Bigtable、Hbase、Cassandra文檔存儲數(shù)據(jù)以文檔形式存儲,沒有固定格式CouchDB、MongoDB圖形存儲以圖形的形式存儲數(shù)據(jù)及數(shù)據(jù)之間的關系Neo4J51、BigtableBigtable是Google開發(fā)的一個分布式結(jié)構(gòu)化數(shù)據(jù)存儲系統(tǒng),運用按列存儲數(shù)據(jù)的方法,是一個未開源的系統(tǒng)。52、Bigtable數(shù)據(jù)庫的架構(gòu)答案在P135.53、Bigtable數(shù)據(jù)庫特點適合大規(guī)模海量數(shù)據(jù),PB級數(shù)據(jù)。分布式、并發(fā)數(shù)據(jù)處理,效率極高。易于擴展,支持動態(tài)伸縮。適用于廉價設備。適合于讀操作,不適合寫操作。不適用于傳統(tǒng)關系型數(shù)據(jù)庫。54、云計算定義云計算是一種用于對可配置共享資源池(網(wǎng)絡、服務器、存儲、應用和服務)通過網(wǎng)絡方便的、按需獲取的模型,它可以以最少的管理代價或以最少的服務商參與,快速地部署與發(fā)布。55、云計算基本特征規(guī)模經(jīng)濟性強大的虛擬化能力高可靠性高可擴展性通用性強按需服務價格低廉支持快速部署業(yè)務56、云計算服務模式基礎設施即服務(IaaS)、平臺即服務(PaaS)、軟件即服務(SaaS)是云計算的三種應用服務模式57、云計算部署模式公有云、私有云和混合云58、虛擬化技術(shù)把有限的、固定的資源根據(jù)不同需求進行重新規(guī)劃以達到最大利用率的思路,在IT領域就稱為虛擬化技術(shù)。59、云計算數(shù)據(jù)中心的構(gòu)成云計算數(shù)據(jù)中心本質(zhì)上由云計算平臺和云計算服務構(gòu)成60、云計算安全關鍵技術(shù)可信訪問控制密文檢索與處理數(shù)據(jù)存在與可使用性證明數(shù)據(jù)隱私保護虛擬安全技術(shù)云資源訪問控制可信云計算61、大數(shù)據(jù)解決方案系統(tǒng)架構(gòu)及各層功能平臺層:其中的大數(shù)據(jù)存儲平臺提供大數(shù)據(jù)存儲服務,大數(shù)據(jù)計算平臺提供大數(shù)據(jù)計算服務,多數(shù)據(jù)中心調(diào)度引擎為多區(qū)域智能中心的分析架構(gòu)提供數(shù)據(jù)調(diào)度服務。功能層:包括大數(shù)據(jù)集成、存儲、管理和挖掘部分,各部分為大數(shù)據(jù)存儲和挖掘提供相應功能。服務層:基于Web技術(shù)和OpenAPI技術(shù)提供大數(shù)據(jù)最終的展現(xiàn)服務。62、醫(yī)學大數(shù)據(jù)的種類醫(yī)院醫(yī)療大數(shù)據(jù)區(qū)域衛(wèi)生信息平臺大數(shù)據(jù)基于大量人群的醫(yī)學研究或疾病監(jiān)測大數(shù)據(jù)自我量化大數(shù)據(jù)網(wǎng)絡大數(shù)據(jù)生物信息大數(shù)據(jù)63、大數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)挖掘方法的區(qū)別傳統(tǒng)數(shù)據(jù)挖掘大數(shù)據(jù)挖掘樣本數(shù)量少量數(shù)據(jù)樣本分析與事物相關的所有數(shù)據(jù),研究的樣本數(shù)量趨近于總體數(shù)量事物之間的關系遵循事物之間的因果關系尋找事物之間的相關關系追求的目標追求絕對的準確性追求效率和趨勢挖掘方式采集方法,內(nèi)容分類,采信標準等都已存在即有規(guī)則,方法論完整挖掘新鮮事物,還沒有形成清晰的方法、路徑及評判標準64、醫(yī)學大數(shù)據(jù)挖掘的特點醫(yī)學數(shù)據(jù)挖掘隱私性醫(yī)學數(shù)據(jù)的多樣性醫(yī)學數(shù)據(jù)的不完整性醫(yī)學數(shù)據(jù)的冗余性醫(yī)學數(shù)據(jù)的動態(tài)性65、醫(yī)學大數(shù)據(jù)挖掘的主要方法自動疾病預測趨勢和行為關聯(lián)分析聚類分析模糊系統(tǒng)與進化算法66、醫(yī)學大數(shù)據(jù)挖掘的應用方向臨床決策支持系統(tǒng)醫(yī)療數(shù)據(jù)透明度醫(yī)學圖像挖掘生物信息學——DNA分析公眾健康67、基于互聯(lián)網(wǎng)大數(shù)據(jù)生物監(jiān)測

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論