2023銀河麒麟服務器操作系統(tǒng)spark適配手冊_第1頁
2023銀河麒麟服務器操作系統(tǒng)spark適配手冊_第2頁
2023銀河麒麟服務器操作系統(tǒng)spark適配手冊_第3頁
2023銀河麒麟服務器操作系統(tǒng)spark適配手冊_第4頁
2023銀河麒麟服務器操作系統(tǒng)spark適配手冊_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

V4spark軟件適配手冊銀河麒麟服務器操作系統(tǒng)V4銀河麒麟服務器操作系統(tǒng)V4spark軟件適配手冊目錄目 概 系統(tǒng)概 環(huán)境概 SPARK軟件簡 SPARK的優(yōu) SPARK架 SPARK運行流程及特 SPARK運行流 SPARK運行特 SPARK軟件適 下載并解壓 安裝 運行測 使用自帶的PYTHONSHELL進行測 使用自帶的SPARKSHELL進行測 執(zhí)行PAGEVIEW測 銀河麒麟服務器操作系統(tǒng)V4銀河麒麟服務器操作系統(tǒng)V4spark軟件適配手冊概述系統(tǒng)概述銀河麒麟服務器操作系統(tǒng)主要面向軍隊綜合電子信息系統(tǒng)、金融系統(tǒng)以及電力系統(tǒng)等國家關鍵行業(yè)的服務器應用領域,突出高安全性、高可用性、高效數(shù)據(jù)處理、虛擬化等關鍵技術優(yōu)勢,針對關鍵業(yè)務構建的豐富高效、安全可靠的功能特性,兼容適配長城、聯(lián)想、浪潮、華為、曙光等國內(nèi)主流廠商的服務器整機產(chǎn)品,以及達夢、金倉、神通、南大通用等主要國產(chǎn)數(shù)據(jù)庫和中創(chuàng)、金蝶、東方通等國產(chǎn)中間件,滿足虛擬化、云計算和大數(shù)據(jù)時代,服務器業(yè)務對操作系統(tǒng)在性能、安全性及可擴展性等方面的需求,是一款具有高安全、高可用、高可靠、高性能的自主可控服務器操作系統(tǒng)。環(huán)境概述服務器型號長城信安擎天DF720服務器CPU類型飛騰2000+處理器操作系統(tǒng)版本Kylin-4.0.2-server-sp2-2000-內(nèi)核版本spark版本spark軟件簡介ApacheSpark是專為大規(guī)模數(shù)據(jù)處理而設計的快速通用的計算引擎。SparkUCBerkeleyAMPlab(加州大學伯克利分校的AMP實驗室)所開源的類HadoopMapReduce的通用并行框架,Spark,擁有HadoopMapReduce所具有的優(yōu)點;但不同于MapReduce的是——Job中間輸出結果可以保存在內(nèi)存中,從而不再需要讀寫HDFSSpark能更好地適用于數(shù)據(jù)挖掘與機器學習等需要迭代的MapReduce的算法。Spark是一種與Hadoop相似的開源集群計算環(huán)境,但是兩者之間還存在一些不同之處,這些有用的不同之處使Spark在某些工作負載方面表現(xiàn)得更加優(yōu)越,換句話說,Spark啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負載。Spark是在Scala語言中實現(xiàn)的,它將Scala用作其應用程序框架。與Hadoop不同,Spark和Scala能夠緊密集成,其中的Scala可以像操作本地集合對象一樣輕松地操作分布式數(shù)據(jù)集。盡管創(chuàng)建Spark是為了支持分布式數(shù)據(jù)集上的迭代作業(yè),但是實際上它是對Hadoop的補充,可以在Hadoop文件系統(tǒng)中并行運行。通過名為Mesos的第三方集群框架可以支持此行為。Spark由加州大學伯克利分校AMP實驗室(Algorithms,Machines,andPeopleLab)開發(fā),可用來構建大型的、低延遲的數(shù)據(jù)分析應用程序。Spark的優(yōu)點快速HadoopMapReduce相比,Spark基于內(nèi)存的運算要快100倍以上;而基于磁盤的運算也要快10倍以上。Spark實現(xiàn)了高效的DAG執(zhí)行引擎,可以通過基于內(nèi)存來高效地處理數(shù)據(jù)流。簡介易用SparkJava、PythonScalaAPI,還支持超過80種高級算法,使用戶可以快速構建不同應用。而且Spark支持交互式的PythonScalaShell,這意味著可以非常方便的在這些Shell中使用Spark集群來驗證解決問題的方法,而不是像以前一樣,需要打包、上傳集群、驗證等。這對于原型開發(fā)非常重要。通用性Spark提供了統(tǒng)一的解決方案。Spark(SparkSQL)、實時流處理(通過SparkStreaming)、機器學習(通過SparkMLlib)和圖計算(通過SparkGraphX)。這些不同類型的處理都可以在同一應用中無縫使用。Spark統(tǒng)一的解決方案非常具有吸引力,畢竟任何公司都想用統(tǒng)一的平臺處理問題,減少開發(fā)和維護的人力成本和部署平臺的物理成本。當然還有,作為統(tǒng)一的解決方案,Spark并沒有以犧牲性能為代價。相反,在性能方面Spark具有巨大優(yōu)勢??扇诤闲許park非常方便的與其他開源產(chǎn)品進行融合。比如,Spark可以使用Hadoop的YARN和ApacheMesos作為它的資源管理和調(diào)度器,并且可以處理所有Hadoop支持的數(shù)據(jù),包括HDFS、HBaseCassanda等。這對于已部署Hadoop集群的用戶特別重要,因為不需要做任何數(shù)據(jù)遷移就可以使用Spark強大的處理能力。Spark也可以不依賴第三方的資源管理器和調(diào)度器,它實現(xiàn)了Standalone作為其內(nèi)置資源管理器和調(diào)度框架,這樣進一步降低了Spark的使用門檻,使得所有人可以非常容易地部署和使用SparkSpark還提供了在EC2上部署Standalone的Spark集群的工具。Spark架構spark架構示意圖所示:SparkCore:包含Spark的基本功能;尤其是定義RDD的API、操作以及這兩者上的動作。其他Spark的庫都是構建在RDDSparkCore之上的。SparkSQL:提供通過ApacheHiveSQL變體Hive查詢語言(HiveQL)與Spark進行交互的API。每個數(shù)據(jù)庫表被當做一個RDD,SparkSQL查詢被轉換為Spark操作。SparkStreaming:對實時數(shù)據(jù)流進行處理和控制。SparkStreaming允許程序能夠像普通RDD一樣處理實時數(shù)據(jù)MLib:一個常用機器學習的算法庫,算法被實現(xiàn)為對RDDSpark操作。這個庫包含可擴展的學習算法,比如分類、回歸等需要對大量數(shù)據(jù)集進行迭代的操作GraphX:控制圖、并行圖操作和計算的一組算法和工具的集合。RDDAPI,包含控制圖、創(chuàng)建子圖、訪問路徑上所有頂點的操作Spark架構采用了分布式計算中的Master-Slave模型,Master是對應集群中的含有Master進程的節(jié)點,Slave是集群中含有Worker進程的節(jié)點。Master作為整個集群的控制器,負責整個集群的正常運行;Worker相當于是計算節(jié)點,接收主節(jié)點命令與進行狀態(tài)匯報;Executor負責任務的執(zhí)行;Client作為用戶的客戶端負責提交應用,Driver負責控制一個應用的執(zhí)行。Spark運行流程及特點Spark運行流程Spark運行流程圖如下:SparkApplication的運行環(huán)境,啟動SparkContext向資源管理器(可以是Standalone,Mesos,Yarn)申請運行Executor資源,并啟動StandaloneExecutorbackend;ExecutorSparkContext申請SparkContext將應用程序分發(fā)給SparkContext構建成DAG圖,將DAG圖分解成StageTaskset發(fā)送給TaskScheduler,最后由TaskSchedulerTask發(fā)送給Executor運行;TaskExecutor上運行,運行完釋放所有資源。Spark運行特點每個Application獲取專屬的executor進程,該進程在Application期間一直駐留,并以多線程方式運行TaskApplication隔離機制是有優(yōu)勢的,無論是從調(diào)度角度看(每個Driver調(diào)度它自己的任務),還是從運行角度看(來自不同ApplicationTask運行在不同JVM中),當然這樣意味著SparkApplication不能跨應用程序共享數(shù)據(jù),除非將數(shù)據(jù)寫入外部存儲系統(tǒng)。Spark與資源管理器無關,只要能夠獲取Executor進程,并能保持互相通信就可以了。SparkContextClient應該靠近Worker節(jié)點(Executor的節(jié)點),最好是在同一個RackSparkApplication運行過程中SparkContext和Executor之間有大量的信息互換。Task采用了數(shù)據(jù)本地性和推測執(zhí)行的優(yōu)化機制。spark軟件適配下載并解壓 /apache/spark/spark-2.4.3/spark-2.4.3-bin-$tarxvfspark-2.4.3-bin-hadoop2.7.tgz-C$$aptinstall修改環(huán)境變量:$$vimexportexportSCALA_HOME=/usr/share/scala-export使環(huán)境變量生效:$$source運行測試使用自帶的pythonshell進行測試$$cd/usr/local/spark-2.4.3-bin-$>>>lines=sc.textFile("/usr/local/spark-2.4.3-bin->>>>>>使用自帶的sparkshell進行測試$$./spark-運行結果如下圖:查看當前節(jié)點運行情況:$

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論