HCIA-BigData-大數(shù)據(jù)復習資料

上傳人：靚*** IP屬地：河北上傳時間：2022-12-22 格式：DOCX 頁數(shù)：16 大?。?2.61KB 積分：12 舉報 版權申訴

已閱讀5頁，還剩11頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

hbase的主要特點有高可靠性、高性能、面向列額、可伸縮hbase默認使用HDFS作為其底層文件存儲系統(tǒng)HBase不適合具有完全ACID特性的應用場景HBase存儲模型哪些正確：KeyValue中擁有時間戳、類型等關鍵信息、同一個Key值可以關聯(lián)多個Value、每一個KeyValue都擁有一個Qualifier標識、即使Key相同Qualifier也相同的多個KeyValue,也可能有多個值，此時以時間戳來區(qū)分。HBase底層數(shù)據(jù)是以KeyValue的形式存在的。HBase的分布式存儲最基本的單元是Region.HBase的數(shù)據(jù)文件HFile中一個KeyValue格式包含Key、Value、TimeStamp,KeyType等內容。Hbase中當一個Region的size逐漸變大時，它會產(chǎn)生分裂。9關于HBase中HMaster的功能：負責RegionServer的負載均衡、負責建表/修改表/刪除表、Region負載均衡，Region分裂以及分裂后的Region分配、RegionServer失效后的Region遷移。HBase的主HMaster是通過ZooKeeper進行裁決選舉的。HBase的Region是由HRegionServer進程來管理的。HBase中RegionServer是HBase的數(shù)據(jù)服務進程，負責處理用戶數(shù)據(jù)的讀寫請求、HBase的數(shù)據(jù)處理和計算單元、管理所有的Region,Region可以在RegionServer之間遷移。HBase中Region的物理存儲單元是ColumnFamily0HBase中數(shù)據(jù)存儲的文件格式是HFile。HBase的某張表的RowKey劃分SplitKey為9,E,a,z,那么該表有5個Region0HBase元數(shù)據(jù)MetaRegion路由信息保存在ZooKeeper中。HBase的RegionSplit分裂流程：Split過程中并沒有真正的將文件分裂，僅僅是創(chuàng)建了引用文件、Split過程中被分裂的Region會暫停服務、Split為了減少Region中數(shù)據(jù)大小，從而將一個Region分裂成兩個Region。HBase讀取數(shù)據(jù)流程中涉及的角色或服務：ZooKeeper、HDFS、HRegionServerHBase中以下會觸發(fā)Flush操作場景：Region中MemStore的總大小，達到了預設的FlushSize閾值、MemStore占用內存的總量和RegionServer總內存比值超出了預設的閾值大小、當WALs中文件數(shù)量達到閾值時、HBase定期刷新Memstore,默認周期為1小時。HBase集群定時執(zhí)行Compaction的目的是減少同一個Region同一個ColumnFamily下的文件數(shù)目、提升數(shù)據(jù)讀取性能。21執(zhí)行HBase讀數(shù)據(jù)業(yè)務，需要讀取HFile、MemStore兩份數(shù)據(jù)。HBase中包含的一些典型的Filter：RowFilter、SingleColumnValueFilter^KeyOnlyFilter>FilterListHBase中OpenScanner的過程，會創(chuàng)建兩種不同的Scanner來讀取HFile和MemStore的數(shù)據(jù)。HFile對應的Scanner為StoreFileScanner,MemStore對應的Scanner為MemStoreScanneroHBase的BloomFilter不是用來過濾數(shù)據(jù)的。HBase二級索引：二級索引把要查找的列與rowkey關聯(lián)成一個索引表、此時列成新的rowkey,原rowkey成為value、二級索引查詢了2次。26二級索引為HBase提供了按照某些列的值進行索引的能力。二級索引先查索引表，再定位到數(shù)據(jù)表中的位置，不用全表掃描，時延小。HBase組件中，數(shù)據(jù)讀寫服務不需要連接Master執(zhí)行。HBase組件的描述：是面向列的、是分布式的、是一種NoSQL數(shù)據(jù)、存儲數(shù)據(jù)是以K-V的形式。29在大數(shù)據(jù)平臺中通過統(tǒng)一用戶管理系統(tǒng),可以實現(xiàn)平臺中的各種開源組件應用系統(tǒng)的用戶、角色和組織機構統(tǒng)一化管理，實現(xiàn)各種應用系統(tǒng)間跨域的單點登錄登出和統(tǒng)一的身份認證功能。30目前主流廠商的統(tǒng)一認證管理系統(tǒng)可以由統(tǒng)一認證管理模塊、統(tǒng)一身份認證服務器、身份信息存儲服務器組成。31華為大數(shù)據(jù)解決方案中，LadpServer作為目錄服務系統(tǒng)，能夠實現(xiàn)對大數(shù)據(jù)平臺的賬號進行集中管理，對于LdapServer表述：LdapServer基于OpenLDAP開源技術實現(xiàn)、LdapServer以BerkeleyDB作為默認的后端數(shù)據(jù)庫、LdapServer是基于LDAP標準協(xié)議的一種具體開源實現(xiàn)、LdapServer支持TCP/IP協(xié)議。LdapServer組織模型：LdapServer目錄信息是基于樹形結構來進行組織和存儲的、LdapServer目錄樹中的每一個節(jié)點都被稱作條目，并且擁有自己的唯一可區(qū)別的名稱DN(DistinguishedName)、LdapServer目錄樹的樹根一般定義域名de(DomainComponent)oLdapServer樹結構數(shù)據(jù)庫的存儲模式：域名de(DomainComponent)類似于關系型數(shù)據(jù)庫中的DataBase、組織單位ou(organizationunit)類似于DataBase數(shù)據(jù)庫中table的集合、用戶uid（UserID）類似于table中的主鍵、對象的名稱cn（CommonName）類似于table中單位數(shù)據(jù)的名稱。34華為大數(shù)據(jù)平臺中的LdapServer能支持查詢、更新、認證等不同類別的操作。35LdapServer的Group（組）是對用戶進行統(tǒng)一的組管理，如果用戶添加到該組中，該組的member屬性中就會添加成員的dn記錄。36不屬于單點登錄：訪問其他組件需要重新登錄不屬于KrbServer核心要素：KerberosKDCClientKerberos作為認證服務器中心，能夠向集群內所有服務以及客戶的二次開發(fā)應用提供統(tǒng)一的認證服務。39在統(tǒng)一認證的過程中，Kerberos的所有數(shù)據(jù)，包含用戶的密碼，用戶的附屬信息（例如用戶歸屬組信息）需要每次都從Ldap獲取。40Kerberos的優(yōu)勢：能夠防止暴力破解、防止重放攻擊、支持雙向鑒別、擁有較高的性能。41為了考慮性能最優(yōu)化，建議將所有集群中LdapServer都與KrbServer部署在相同節(jié)點上。Ldap默認使用端口：UDP389Kerberos服務角色中，KerberosServer主要是提供認證功能，KerberosAdmin主要提供用戶管理功能。Map,Partition,Reduce是MapReduce一定會有的過程。Copy和Sort/Merge是屬于Shuffle機制。YARN中，slave節(jié)點負責監(jiān)督Container的生命周期管理，監(jiān)控每個Container的資源使用（內存、CPU等）情況，管理日志和不同應用程序用到的附屬服務。對于容量調度器的任務選擇，資源利用量最低的隊列優(yōu)先，最小隊列層級優(yōu)先，資源回收請求隊列優(yōu)先。NodeManager的內存和CPU的數(shù)量可以通過yarn,nodemanager,resource,memory-mb,yarn,nodemanager,vmem-pmem-ratio,yarn,nodemanager,resource,cpu-vcore進行配置。YARN容量調度器的主要特點有容量保證、多重租賃、動態(tài)更新配置文件、靈活性。MapReduce適合離線計算。YARN是主從架構，其中“從”是指NodeManager。在YARN的任務調度流程中，申請和領取資源是ApplicationMaster負責的任務。假設每個用戶最低資源保障設置為yarn,scheduler,capacity,root.QueueA.minimum-user-limit-percent=24,貝！)以下說法錯誤的是第5個用戶提交任務時，每個用戶最多獲得20%的資源。YARN的基于標簽調度，是對NodeManager進行標簽化。實時計算不屬于Hadoop中MapReduce組件的特點。本地資源->同機架->任意機器是YARN調度器分配資源的順序。1Hadoop中，如果將yarn,scheduler,capacity,root.QueueA.minimumuser-1imit-percent設置為50,下面說法錯誤的是QueueA中的每個用戶最多只能獲得50%的資源。YARN服務中，如果要給隊列QueueA設置容量為30%,應該配置yarn,scheduler,capacity,root.QueueA.capacityo可以使用yarn,scheduler,capacity,root.QueueA.maximum-capacityYARN中設置隊列QueueA的最大使用資源量。Hadoop平臺中，要查看YARN服務中一個application的信息，通常需要使用application命令。Hadoop平臺中啟用YARN組件的日志聚集功能，需要配置yarn.logaggregation-enable參數(shù)。在MapReduce編程中，業(yè)務邏輯一般需要自行寫代碼實現(xiàn)mapper和reduceroMapReduce過程中，默認情況下，一個分片就是一個塊，也是一個MapTasko為減少寫入磁盤的數(shù)據(jù)量，MapReduce支持對MOF(MapOutFile)進行壓縮后再寫入。在YARN的任務調度中，一旦ApplicationMaster申請到資源后，便與對應的ResourceManager通信，要求它啟動任務是錯誤的。ResourceManager采用高可用方案，當ActiveResourceManager發(fā)現(xiàn)故障時，只能通過內置的ZooKeeper來啟動Standby的ResourceManager,將其狀態(tài)切換為Active是錯誤的。2 容量調度器在進行資源分配時，現(xiàn)有同級的2個列隊Q1和Q2,它們的容量均為30,其中Q1已使用8,Q2已使用14,則會優(yōu)先將資源分配給Q1。Hadoop系統(tǒng)中，如果HDFS文件系統(tǒng)的備份因子是3,那么MapReduce每次運行的task都要從3個有副本的機器上傳輸需要處理的文件段是錯誤的。ApplicationMaster采用輪詢的方式通過RPC協(xié)議向ResourceManager申請和領取資源。MapReduce的核心理念是將一個大的計算任務分解到集群每個節(jié)點上，充分運用集群資源，縮短運行時間。網(wǎng)站活性跟蹤、聚合統(tǒng)計系統(tǒng)運營數(shù)據(jù)(監(jiān)控數(shù)據(jù))、日志收集是Kafka的應用。在創(chuàng)建Topic時，副本數(shù)不得大于當前存活的Broker實例個數(shù)，否則創(chuàng)建Topic將會失敗，此外Kafka會將元數(shù)據(jù)信息存放到ZooKeeper上。Partition數(shù)量決定了每個Consumergroup中并發(fā)消費者的最大數(shù)量，每個Partition在存儲層面對應一個log文件，引入Partition機制，保證了Kafka的高吞吐能力，每個Partition都是有序且不可變的消息隊列。以下關于KafkaLogs中segmentfile的說法，通過索引信息可以快速定位message,使index元數(shù)據(jù)全部映射到memory,可以避免segmentfile的index數(shù)據(jù)10磁盤操作，索引文件稀疏存儲，可以大幅降低index文件元數(shù)據(jù)占用空間大小，稀疏存儲，即將原來的完整數(shù)據(jù)，只間隔的選擇多條進行存儲。Kafka消息傳輸保障通常有以下：最多一次(AtMostOnce),最少一次(AtLeaseOnce),僅有一次(ExactlyOnce)o一般作為消息隊列使用，不能夠保存數(shù)據(jù)是錯誤的。3Kafka集群中，Kafka服務端的角色是Broker。.如圖消費者從右至左順序讀取消息是錯誤的。.Kafka的服務端可以產(chǎn)生消息是錯誤的。.關于Kafka磁盤容量不足的告警，對于可能的原因以下分析不正確的是Broker節(jié)點故障導致。.Kafka集群在運行期間，直接依賴于zookeeper..在MRS服務中，關于創(chuàng)建Kafka的Topic中Kafka集群中Topic可以設置多個。.每個Topic只能被分成一個partition(區(qū))是錯誤的。.可以使用bin/kafka-topics.sh-describe查看Kafka某Topic的Partition詳細信息時.KafkaPartition偏移量offset是一個String型字符串是錯誤的。.為了提高Kafka的容錯性，Kafka支持Partition的復制策略，以下關于LeaderPartition和FollowerPartition的描述錯誤的是一個Kafka集群各個節(jié)點間不可能互為Leader和Follower。4以下關于KafkaPartition副本的特性描述不正確的是消費者和生產(chǎn)者都是從Leader中讀寫數(shù)據(jù)，也可直接與Follower交互。Kafka是一個高吞吐、分布式、基于發(fā)布訂閱的消息系統(tǒng)，利用Kafka技術可在廉價PCServer上搭建起大規(guī)模消息系統(tǒng)。一個典型的Kafka集群包含若干Producer,若干Broker,若干Consumer和一個ZooKeeper集群。Kafka中Partitionreplication之間同步數(shù)據(jù)，從Partition的Leader復制數(shù)據(jù)到Follower需要線程（ReplicaFetcherThread）,實際上復制是Follower（一個Follower相當于consumer）主動從Leader批量拉取消息的，這極大提高了吞吐量。KafkaLogssegment文件命名規(guī)則是partion全局的第一個segment從0開始，后續(xù)每個segment文件名為上一個全局partion的最大offset（偏移message數(shù)）。Kafka日志的清理方式有兩種：delete和compacto默認值是delete。MRS服務中，ZooKeeper服務不可用會導致Kafka服務不可用。Kafka所有消息都會被持久化到硬盤中，同時Kafka通過對TopicPartition設置Replication來保障數(shù)據(jù)可靠。KafkaConsumer消費數(shù)據(jù)總體流程是，Consumer連接指定TopicPartition所在的LeaderBroker,用主動獲取方式從Kafka中獲取消息。一個典型的Kafka集群中包含若干Producer（可以是web前端產(chǎn)生的PageView,或者是服務器日志，系統(tǒng)CPU、Memory等），若干Broker（Kafka支持水平擴展，一般broker數(shù)量越多，集群吞吐率越高），若干Consumer,以及一個Zookeeper集群。HIVE在Hive中，建表時可以指定桶的個數(shù)，數(shù)據(jù)可以根據(jù)桶的方式將不同數(shù)據(jù)放入不同桶中，分桶的好處是可以活得更好的查詢處理效率，使得抽樣更高效。建表、修改表、刪除表屬于HQL中的DDL?？芍苯訉⒈镜芈窂降奈募?、HDFS上的文件load到Hive表中，或者將其他表的結果集insertinto到Hive表。GROUPBY,UNIONALL,JOIN操作可以合并。HIVE支持靈活方便的ETL,可直接訪問HDFS以及Hbase,切易用易編程。Hive不能用于實時的在線數(shù)據(jù)分析。Hive不可以實現(xiàn)在大規(guī)模數(shù)據(jù)集上低延遲快速查詢的操作。Hive基于HDFS存儲，理論上存儲量無極限，但傳統(tǒng)數(shù)據(jù)倉庫存儲量有上限。Hive基于大數(shù)據(jù)平臺，查詢效率不一定比傳統(tǒng)數(shù)據(jù)倉庫快。Hive支持和存儲格式包括：Parquet,TextFile,SequenceFile,RCFile。Hive對Hbase沒有強依賴。若一個HiveServer不可用，整個Hive集群仍然可以正確使用。在WebHCat架構中，用戶能夠通過安全的HTTPS協(xié)議執(zhí)行以下操作：HiveDDL操作，運行MapReduce任務，運行HiveHql任務。數(shù)據(jù)庫、表、分區(qū)、桶屬于Hive的數(shù)據(jù)存儲模型。刪除外表時，只刪除外部表元數(shù)據(jù)，不刪除外部表數(shù)據(jù)。在Hive中，數(shù)據(jù)分區(qū)數(shù)量不是固定的。HiveSQL中創(chuàng)建表時可以指定列分隔表。創(chuàng)建外部表時需要指定externel關鍵字。uALTERTABLEemployeeADDcolumns（colummlstring）;"是增加列的操作。Hive支持超時重試機制。Hive支持普通試圖和物化視圖。Hive架構中Driver的作用是負責管理HiveQL執(zhí)行的生命周期，并貫穿Hive任務整個執(zhí)行期間。HiveServer將用戶提交的HQL語句進行編譯，解析成對應的Yarn任務、Spark任務或者HDFS操作，從而完成數(shù)據(jù)的提取、轉換、分析。Colocation（同分布）文件級的同分布實現(xiàn)文件的快速訪問，避免了因數(shù)據(jù)搬遷帶來的大量網(wǎng)絡開銷。通常情況下，Hive以文本文件存儲的表會以回車作為其行分隔符，可以指定表數(shù)據(jù)的輸入和輸出格式處理類。Hive在load時是不檢查數(shù)據(jù)是否符合schema的，Hive遵循的是schemaonread（讀時模式），只有在讀的時候Hive才檢查、解析具體的數(shù)據(jù)字段和schema□導入數(shù)據(jù)到Hive表時，不會檢查數(shù)據(jù)合法性，只有在讀數(shù)據(jù)時候檢查。Hive中“Groupby”指的是通過一定的規(guī)則將一個數(shù)據(jù)集劃分成若干個小的數(shù)據(jù)集，然后針對若干個小的數(shù)據(jù)集進行數(shù)據(jù)分組處理。Hive中“UNIONALL”操作符用于合并兩個或多個SELECT的結果集，結果集中，允許有重復值。ESElasticSearch可以作為類似MySQL的關系型數(shù)據(jù)庫進行使用。ElasticSearch集群中的節(jié)點有主從之分。ElasticSearch對ZooKeeper是有強依賴的。ElasticSearch的索引數(shù)據(jù)并不是只能保存在HDFS當中。ElasticSearch的Discovery模塊不存在單點故障的問題。ElasticSearch的shards索引分片可以把，索引數(shù)據(jù)打散分布到不同的節(jié)點。EsNode是ElasticSearch中的節(jié)點。ElasticSearch的一個索引默認有5個分片。假設ElasticSearch中的節(jié)點共有20個，應該設置最少投票數(shù)量是11來避免鬧裂問題。ElasticSearch采用倒排索引來索引數(shù)據(jù)。1L假設數(shù)據(jù)量有200GB左右，分片最大容量限制為30GB,那么分片數(shù)量最多設計為7或8左右比較合適。Get,Post,Delete屬于ElasticSearch的RESTful請求方式。ElasticSearch有基于全文搜索，基于詞條檢索的查詢類型。高性能、高擴展性、高可靠性是ElasticSearch的特點，高容錯性不是。在ElasticSearch的文檔上可以索引文檔內容，更新文檔內容，抓取文檔內容，刪除文檔內容。head,IKAnalyzer,bigdesk,Hadoop屬于ElasticSearch的擴展插件。HDFSHDFS不適用于（大量小文件存儲）、（隨機寫入）。HDFS的基本系統(tǒng)架構中包含以下DataNode和NameNode節(jié)點。HDFS關鍵特性：HA高可靠、健壯機制、多方式訪問機制和元數(shù)據(jù)持久化機制。HDFS聯(lián)邦環(huán)境下，NameSpace包含目錄、文件和塊。HBase的數(shù)據(jù)會被存儲到DataNodeA和DataNodeB以下機制保障了數(shù)據(jù)的完整性：重建失效數(shù)據(jù)盤的副本數(shù)據(jù)、集群數(shù)據(jù)均衡、元數(shù)據(jù)可靠性保證、安全模式。默認情況下，一份文件，HDFS會存3份HDFS中NameNode的主備仲裁，由ZooKeeperFailoverController組件控制。HDFS的副本放置策略中，同一機架不同的服務器之間的距離是2。如果Block的副本數(shù)為4,以下說法錯誤的是：4個Block都將寫入RAM-DISK。dfs-get命令從HDFS下載目錄/文件到本地。dfs-rm命令刪除文件。假設HDFS在寫入數(shù)據(jù)時只存2份，那么在寫入過程中，HDFSClient先將數(shù)據(jù)寫入DataNodel,再將數(shù)據(jù)寫入DataNode2。（錯）HDFS聯(lián)邦機制下，各NameNode間元數(shù)據(jù)是不共享的。（對）現(xiàn)有3個機架，有一個文件需要存3份，其中副本1和副本2存放在與Client相同的機架且不同的服務器上，根據(jù)HDFS的副本放置策略，副本3—定要存放在其他機架。（對）下圖展示了文件ABC的存放位置，其中文件A和D具有關聯(lián)性，他們的存儲位置符合Colocation同分布策略。（錯）HDFS存儲數(shù)據(jù)時，關鍵數(shù)據(jù)根據(jù)實際業(yè)務需要保存在具有高度可靠性的節(jié)點中，通過修改DataNode的存儲策略，系統(tǒng)可以將數(shù)據(jù)強制保存在指定的節(jié)點組中。（對）ZooKeeper可以為MRS中以下組件提供分布式管理支持：Hive、Flink、HBase、Sparko以下關于ZooKeeper的Leader選舉說法正確的是：ZooKeeper選舉Leader時，需要半數(shù)以上的票數(shù)；當實例數(shù)n為奇數(shù)時，假定n=2x+l,則成為Leader節(jié)點需要x+1票。ZooKeeper中的數(shù)據(jù)節(jié)點znode分為ephemeral和persistent類型。調用ZooKeeper客戶端命令中包含ip地址和端口號信息。ZKFC進程部署在HDFS中的ActiveNameNode和StandbyNameNode節(jié)點上。ZooKeeper的關鍵特性包含以下特性：等待無關性、最終一致性、原子性和可靠性。ZooKeeper在分布式應用中的主要作用不包括分配集群資源。ZooKeeper的Leader節(jié)點咋收到數(shù)據(jù)變更請求后的讀寫流程說法正確的是:先寫磁盤再寫內存。ZooKeeper關鍵特性中的原子性說法正確的是：更新只能全部完成或失敗，不會部分完成?？梢酝ㄟ^命令：set/no加data命令創(chuàng)建節(jié)點數(shù)據(jù)。Streaming主要通過ZooKeeper提供的watcher服務實現(xiàn)事件偵聽。在ZooKeeper和YARN的協(xié)同工作中，當ActiveResourceManager產(chǎn)生故障時，StandbyResourceManager會從Statestore目錄中獲取Application相關信息。當ZooKeeper集群的節(jié)點數(shù)為5節(jié)點時，集群的容災能力和6節(jié)點是等價的。以下關于ZKFC的說法錯誤的是：ZKFC進程需要在NameNode的節(jié)點和ZooKeeper的Leader節(jié)點中部署。關于ZooKeeper特性的描述錯誤的是：ZooKeeper節(jié)點數(shù)必須為奇數(shù)個。以下關于ZooKeeper可靠性含義說法正確的是：可靠性是指一條消息被一個server接收，它將被所有server接受。ZooKeeper的增強特性包括在審計日志中添加ephemeralnode被刪除的審計日志。（對）。ZooKeeper所有節(jié)點都可以處理讀請求。（對）RedisRedis默認的快照方式是A0F。（錯）Redis寫數(shù)據(jù)時是通過Hash計算來判斷Key的歸屬槽位。（對）Redis支持多數(shù)據(jù)庫。（對）Redis判斷一個鍵是否存在使用exist命令。（對）Redis中的命令是區(qū)分大小寫的。（錯）Redis的一個字符串類型的值存儲的最大容量是IGBo通過命令flushall可以清空Redis實例下所有數(shù)據(jù)庫的數(shù)據(jù)。Redis主要消耗內存物理資源。Redis中ttl命令是查看鍵的剩余生存時間。Redis中適合存儲對象的是hash數(shù)據(jù)類型。如果想要把key中存儲的數(shù)字值加1,使用incr命令。屬于set類型的命令的是：scard、sunion。Redis的使用場景：計數(shù)器應用、網(wǎng)站緩存、發(fā)布/訂閱功能、手機驗證碼。Redis的持久化AOF中寫命令的時機以下幾種：always、everysec和no。15.以下屬于Redis的優(yōu)化方法的是：精簡鍵值、限制Redis內存大小、關閉持久化、Slowlog配置。Spark1、Spark適用的場景有很多，包括批處理、實時流處理、交互式查詢和圖計算。2、Spark的特點包括了輕、快、靈、巧。3、Spark的重要角色有：Driver,ResourceManager,NodeManager。4、在MRS集群中，Spark與HDFS、YARN、Hive和Zookeeper都有交互。5、StructuredStreaming在Output階段可以定義不同的數(shù)據(jù)寫入方式，包括CompleteMode,AppendMode,UpdateMode三種。6、關于SparkSQL&Hive的區(qū)別與聯(lián)系，以下說法中正確的包括：SparkSQL的執(zhí)行引擎為SparkCore,Hive默認執(zhí)行引擎為MapReduce；SparkSQL兼容絕大部分Hive的語法和函數(shù)；SparkSQL依賴Hive的元數(shù)據(jù)。7、與MapReduce計算相比，Spark可以只用1/10的資源，就獲得3倍性能。8、Spark自帶的資源管理框架叫作Standalone。9、Spark的核心模塊叫作SparkCore。10、RDD是一個只讀的，可分區(qū)的分布式數(shù)據(jù)集；RDD具有血統(tǒng)機制；RDD是Spark對基礎數(shù)據(jù)的抽象；RDD默認存儲在內存。11、saveAsTextFile是經(jīng)典的Action算子。12、DataSet不需要反序列化就可執(zhí)行大部分操作；DataSet是一個由特定域的對象組成的強類型集合；DataSet與RDD高度類似，性能比RDD好。13、Spark的中間數(shù)據(jù)放在內存中，對于迭代運算、批處理計算的效率更高，延遲更低。14^Spark根據(jù)RDD的依賴關系來劃分Stage,調度器從DAG圖末端出發(fā)，逆向遍歷整個依賴關系鏈，遇到寬依賴就斷開,遇到室依賴就將其加入當前Stage?15、SparkonYarn-client適合用于測試環(huán)境,因為可以更快的看到APP的輸出。16、Yarn-client和Yarn-cluster主要區(qū)別是ApplicationMaster進程的區(qū)別。17、SparkStreaming容錯機制是指RDD中任意的Partition出錯,都可以根據(jù)其父RDD重新計算生成，如果父RDD丟失，可以找父RDD的父RDD。18、Streaming計算基于DStream,將流式計算分解成一系列短小的批處理作業(yè)。19、Spark框架包括SparkSQL,SparkStreaming,SparkGraphX,SparkMllib等諸多子模塊。20、Spark非常適合用作迭代計算。21、一個Spark應用程序運行時，如果某個task運行失敗，會被自動遷移到另一個Container中繼續(xù)運行。22>Spark任務的Container可以運行多個task。23^可以通過Loader實現(xiàn)與MRS數(shù)據(jù)交換的數(shù)據(jù)源包括FTPServer>MySQL>SFTPServero24、與開源Sqoop相比，Loader具有的增強特性包括：圖形化、高性能、高可靠、安全性。Loader1、Loader可以實現(xiàn)的轉換規(guī)則包括空值轉換、拼接轉換、長整型時間轉換。2、在Loader歷史作業(yè)記錄中，可以查看的內容包括：作業(yè)狀態(tài)、作業(yè)開始/運行時間、臟數(shù)據(jù)鏈接，但看不到錯誤行/錯誤文件數(shù)量.3、Loader的Shell腳本可以實現(xiàn)啟動作業(yè)、查看作業(yè)狀態(tài)、數(shù)據(jù)源查詢、停止作業(yè)。4、MRSLoader可以將HDFS數(shù)據(jù)導出至SFTP服務器、FTP服務器、Oracle數(shù)據(jù)庫、DB2數(shù)據(jù)庫等目標端。5、Loader中用于管理LoaderServer進程主備狀態(tài)的模塊叫作HAManagero6、創(chuàng)建Loader作業(yè)時必選項包括名稱、類型、連接，但不包括優(yōu)先級。7、創(chuàng)建Loader作業(yè)中，可以在輸入設置中設置過濾器類型。8、創(chuàng)建Loader作業(yè)時，可以在輸出中設置Map任務數(shù)。9、在MRSManager界面中，對Loader的操作包括啟動Loader實例、查看Loader服務狀態(tài)、配置Loader參數(shù)，但不包括切換Loader主備節(jié)點.10、MRS的Loader在創(chuàng)建作業(yè)時，連接器的作用是配置作業(yè)與外部數(shù)據(jù)源連接方式。11、在MRS中，創(chuàng)建Loader作業(yè)的進行數(shù)據(jù)轉換的正確步驟是輸入設置->轉換輸出大數(shù)據(jù)方案：.傳統(tǒng)數(shù)據(jù)庫是對“池塘中的魚”進行數(shù)據(jù)處理，目標明確；大數(shù)據(jù)的數(shù)據(jù)處理，是通過某些“魚”判斷其他是否存在。.硬件成本的降低，云計算的興起，智能終端的普及和社交需求的提升主力了大數(shù)據(jù)時代的蓬勃發(fā)展。.營銷分析，客戶分析，內部運營管理，供應鏈管理屬于企業(yè)大數(shù)據(jù)的應用場旦O.大數(shù)據(jù)的數(shù)據(jù)體量不斷增加，對數(shù)據(jù)存儲的物理安全性要求越來越高，對數(shù)據(jù)多副本魚容災機制也提出了更高的要求。.傳統(tǒng)的數(shù)據(jù)庫不適合處理PB級級別的數(shù)據(jù).傳統(tǒng)的數(shù)據(jù)庫沒有考慮數(shù)據(jù)的多樣性，尤其對結構化數(shù)據(jù)，非結構化數(shù)據(jù)和半結構化數(shù)據(jù)的兼容。.鯨鵬計算產(chǎn)業(yè)是基于Kunpeng處理器構建的全棧IT基礎設施，行業(yè)應用及服務，包括PC,服務器，存儲，操作系統(tǒng)，中間件，虛擬化，云服務，行業(yè)應用以及咨詢管理服務等。.華為鯉鵬處理器，智能SSD控制芯片，智能網(wǎng)卡芯片，智能管理芯片都屬于華為鰥鵬產(chǎn)業(yè)產(chǎn)品。.華為鯨鵬處理器的特點包括高效能計算，兼容ARM架構的高性能華為鯉鵬處理器和X86架構服務器的解決方案；安全可靠，鑄就穩(wěn)如泰山的高品質；開放生態(tài)，支持業(yè)界主流軟硬件，與開發(fā)者，伙伴和產(chǎn)業(yè)組織共同打造智能計算新底座。.華為云MapReduce服務供租戶完成可控的一站式企業(yè)級大數(shù)據(jù)集群云服務,完全兼容開源接口，結合華為云計算，存儲優(yōu)勢及大數(shù)據(jù)行業(yè)經(jīng)驗，為客戶提供高性能，低成本，靈活易用的全棧大數(shù)據(jù)平臺，輕松運行Hadoop,Spark,HBase,Kafka,Storm等大數(shù)據(jù)組件，實現(xiàn)實時與離線的分析挖掘，發(fā)現(xiàn)全新企業(yè)商機。.社交應用，企業(yè)關系分析，風控，防欺詐屬于圖引擎GES的應用場景。.大數(shù)據(jù)組件在鯉鵬和X86服務器在部署方式上有以下特點：單組件（比如HDFS）支持鰥鵬服務器和X86服務器混合部署；支持單集群內鯨鵬服務器和普通X86服務器混合部署；實現(xiàn)部分設備自主可控；性能無短板。.數(shù)據(jù)中臺技術架構的目標之一是為了解決傳統(tǒng)數(shù)據(jù)倉庫容易成為數(shù)據(jù)孤島,大數(shù)據(jù)平臺容易成為數(shù)據(jù)沼澤的弊端。.華為MRS能夠為客戶提供多點部署，基于Kerberos認證的安全控制，統(tǒng)計分析與數(shù)據(jù)挖掘，離線與實時數(shù)據(jù)處理。.MRS的存算分離架構能夠統(tǒng)一存儲消除數(shù)據(jù)孤島，彈性擴容提高利用率，高并發(fā)，存算資源均衡。.華為云MRS具有高性能；高可靠；易用性；高擴展性的特點。.華為云DWS能夠給客戶提供統(tǒng)一管理控制臺，萬億數(shù)據(jù)關聯(lián)分析秒級響應,支持GDS工具，保證數(shù)據(jù)和系統(tǒng)的高可靠性。.華為云DWS的典型應用場景包括企業(yè)級數(shù)據(jù)倉庫，數(shù)據(jù)集市，CRM/ERP,交易系統(tǒng)。.華為云CSS兼容ElasticSearchAPI；擴容節(jié)點，磁盤業(yè)務數(shù)據(jù)不中斷，更新詞庫業(yè)務不中斷；TB級數(shù)據(jù)檢索秒級返回，億級百維向量檢索秒級返回；不支持聲音等富文本與文本的融合檢索；.GES的典型應用場景包括物流配送，領域知識圖譜，企業(yè)關系分析，風控。.華為大數(shù)據(jù)服務能夠給客戶提供數(shù)據(jù)庫服務，數(shù)據(jù)的集成與開發(fā)，數(shù)據(jù)治理，可視化服務。.DAYU包含了數(shù)據(jù)集成，規(guī)范設計，數(shù)據(jù)開發(fā)，數(shù)據(jù)質量監(jiān)控，數(shù)據(jù)資產(chǎn)管理，數(shù)據(jù)可視化等功能，是具有智能數(shù)據(jù)管理能力的一站式治理運營平臺。Flink：1、Flink的兼容性體現(xiàn)在：能夠與Hadoop原有的Mappers和Reducers混合使用、能夠使用Hadoop的格式化輸入和輸出、YARN能夠作為Flink集群的資源調度管理器2、Flink流式處理的數(shù)據(jù)源類型包括：Files、SocketstreamsJDBC、Collections3、關于Flink中Transformation的說法正確的是：flatMap可以對文本進行切分、keyBy是將源頭數(shù)據(jù)按照key進行分組，以保證同一個key的源數(shù)據(jù)分到同樣的組中、filter操作是對每個元素執(zhí)行boolean函數(shù)、可以通過window設定時間窗口。4、Flink支持的時間操作類型包括：事件時間、采集時間、處理時間。5、Flink可以基于以下窗口進行統(tǒng)計：會話窗口、滾動窗口、時間窗口、滑動窗口6、Flink流式數(shù)據(jù)處理接口DataStreamAPI支持的語言包括：Java、Scala7、在MRS中，F(xiàn)link主要與YARN、ZooKeeper>HDFS、Kafka等組件進行交互。8、哪些場景不是Flink組件擅長的？迭代計算、數(shù)據(jù)存儲9、關于Flink窗口的描述錯誤的是：滾動窗口在時間上是重疊的、滑動窗口之間時間點不存在重疊。10、在MRS集群中，關于Flink與其它組件交互說法正確的是？Flink可以將接收的消息發(fā)送給Kafka>Flink的checkpoint的實現(xiàn)依賴于ZooKeeper、Flink任務的運行依賴Yarn來進行資源的調度管理、Flink可以在HDFS文件系統(tǒng)中讀寫數(shù)據(jù)。11、在MRS中，YARN、HDFS、ZooKeeper組件是Flink強依賴的。12、Flink關鍵特性描述不正確的是：SparkStreaming與Flink相比，時延更低。13、F

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

HCIA-BigData-大數(shù)據(jù)復習資料

文檔簡介

溫馨提示

最新文檔

評論

HCIA-BigData-大數(shù)據(jù)復習資料

文檔簡介

溫馨提示

最新文檔

評論

相關文檔