




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
ApacheSpark
Unit
7TextBContents
NewWords
Abbreviations
Phrases參考譯文NewWordsNewWordsPhrasesPhrasesAbbreviationsListeningtoTextAApacheSpark軟件ApacheSpark是用于機器學(xué)習(xí)和AI應(yīng)用程序的閃電般快速的開源數(shù)據(jù)處理引擎,并由最大的大數(shù)據(jù)開源社區(qū)提供支持。1.什么是ApacheSpark?ApacheSpark是用于大型數(shù)據(jù)集的開源數(shù)據(jù)處理引擎。它旨在提供大數(shù)據(jù)(特別是流數(shù)據(jù)、圖形數(shù)據(jù)、機器學(xué)習(xí)和人工智能應(yīng)用程序)所需的計算速度、可擴(kuò)展性和可編程性。Spark的分析引擎處理數(shù)據(jù)的速度比其他的快10到100倍。它具有內(nèi)置的并行性和容錯能力,可通過在大型計算機群集中分配處理工作來擴(kuò)展規(guī)模。它甚至包括用于編程語言的API,這些編程語言在數(shù)據(jù)分析人員和數(shù)據(jù)科學(xué)家中很流行,包括Scala、Java、Python和R。通常將Spark與ApacheHadoop進(jìn)行比較,尤其是與Hadoop的本地數(shù)據(jù)處理組件MapReduce進(jìn)行比較。Spark和MapReduce之間的主要區(qū)別在于,Spark處理數(shù)據(jù)并將數(shù)據(jù)保留在內(nèi)存中以供后續(xù)步驟使用,而無需寫入磁盤或從磁盤讀取數(shù)據(jù),從而大大加快了處理速度。參考譯文2.ApacheSpark如何工作?ApacheSpark具有分層的主/從體系結(jié)構(gòu)。SparkDriver是控制集群管理器的主節(jié)點,集群管理器管理工作器(從屬)節(jié)點并將數(shù)據(jù)結(jié)果傳遞給應(yīng)用程序客戶端。SparkDriver根據(jù)應(yīng)用程序代碼生成SparkContext,SparkContext可與群集管理器(Spark的獨立群集管理器或HadoopYARN、Kubernetes或Mesos等其他群集管理器)一起使用,以在節(jié)點之間分發(fā)和監(jiān)控執(zhí)行。它還創(chuàng)建了彈性分布式數(shù)據(jù)集(RDD),這是Spark處理速度優(yōu)異的關(guān)鍵。2.1彈性分布式數(shù)據(jù)集(RDD)彈性分布式數(shù)據(jù)集(RDD)是元素的容錯集合,可以在群集中的多個節(jié)點之間分布并并行處理。RDD是ApacheSpark中的基礎(chǔ)結(jié)構(gòu)。Spark通過引用數(shù)據(jù)源或通過使用SparkContext并行化方法將現(xiàn)有集合并行到RDD中進(jìn)行處理來加載數(shù)據(jù)。將數(shù)據(jù)加載到RDD中后,Spark會對內(nèi)存中的RDD執(zhí)行轉(zhuǎn)換和操作,這是Spark速度快的關(guān)鍵。Spark還會將數(shù)據(jù)存儲在內(nèi)存中,除非系統(tǒng)內(nèi)存不足或用戶決定將數(shù)據(jù)寫入磁盤以實現(xiàn)持久性存儲。參考譯文參考譯文RDD中的每個數(shù)據(jù)集都被劃分為邏輯分區(qū),可以在群集的不同節(jié)點上進(jìn)行計算。用戶可以執(zhí)行兩種類型的RDD操作:轉(zhuǎn)換和行動。轉(zhuǎn)換是應(yīng)用于創(chuàng)建新RDD的操作。行動用于指示ApacheSpark進(jìn)行計算并將結(jié)果傳遞回驅(qū)動器。Spark支持RDD上的許多行動和轉(zhuǎn)換。該分布是由Spark完成的,因此用戶不必?fù)?dān)心計算正確的分布。2.2有向無環(huán)圖(DAG)與MapReduce中的兩階段執(zhí)行過程相反,Spark創(chuàng)建一個有向無環(huán)圖(DAG)來調(diào)度任務(wù)和跨集群的工作節(jié)點的編排。當(dāng)Spark在任務(wù)執(zhí)行過程中行動和轉(zhuǎn)換數(shù)據(jù)時,DAG調(diào)度程序通過在整個集群中協(xié)調(diào)工作節(jié)點來提高效率。這種任務(wù)跟蹤使容錯成為可能,因為它會將記錄的操作重新應(yīng)用于來自先前狀態(tài)的數(shù)據(jù)。2.3DataFrame和Dataset除了RDD之外,Spark還處理其他兩種數(shù)據(jù)類型:DataFrame和Dataset。DataFrame是最常見的結(jié)構(gòu)化應(yīng)用程序編程接口(API),它們表示具有行和列的數(shù)據(jù)表。盡管RDD一直是Spark的關(guān)鍵功能,但現(xiàn)在處于維護(hù)模式。由于Spark的機器學(xué)習(xí)庫(MLlib)的普及,DataFrames作為MLlib的主要API發(fā)揮了主導(dǎo)作用。使用MLlibAPI時注意這一點很重要,因為DataFrames提供了不同語言(例如Scala、Java、Python和R)的統(tǒng)一性。Dataset是DataFrames的擴(kuò)展,提供了類型安全的、面向?qū)ο蟮木幊探涌?。默認(rèn)情況下,Dataset是強類型JVM對象的集合,這與DataFrames不同。SparkSQL允許從DataFrames和SQL數(shù)據(jù)存儲(例如ApacheHive)中查詢數(shù)據(jù)。當(dāng)以其他語言運行時,SparkSQL查詢將返回DataFrame或Dataset。
參考譯文2.4SparkCoreSparkCore是所有并行數(shù)據(jù)處理的基礎(chǔ),并處理調(diào)度、優(yōu)化、RDD和數(shù)據(jù)抽象。SparkCore為Spark庫、SparkSQL、SparkStreaming、MLlib機器學(xué)習(xí)庫和GraphX圖形數(shù)據(jù)處理提供了功能基礎(chǔ)。SparkCore和集群管理器將數(shù)據(jù)分布在整個Spark集群中并對其進(jìn)行抽象。這種分布和抽象使處理大數(shù)據(jù)變得非常快速而且用戶友好。2.5SparkAPISpark包含各種應(yīng)用程序編程接口(API),可將Spark的功能帶給最廣泛的受眾。SparkSQL允許以關(guān)系方式與RDD數(shù)據(jù)進(jìn)行交互。Spark還具有針對Scala、Java、Python和R的文檔豐富的API。Spark中每種語言的API在處理數(shù)據(jù)方面都有其特定的細(xì)微差別。RDD、DataFrame和Datasets在每種語言的API中都可用。通過使用多種語言的API,Spark使得具有開發(fā)、數(shù)據(jù)科學(xué)和統(tǒng)計背景的不同人群可以訪問大數(shù)據(jù)處理。參考譯文參考譯文3.ApacheSpark和機器學(xué)習(xí)Spark擁有各種庫,這些庫將功能擴(kuò)展到機器學(xué)習(xí)、人工智能(AI)和流媒體處理。3.1ApacheSparkMLlibApacheSpark的關(guān)鍵功能之一是SparkMLlib中提供的機器學(xué)習(xí)功能。ApacheSparkMLlib提供了一種開箱即用的解決方案,用于進(jìn)行分類和回歸、協(xié)作過濾、聚類、分布式線性代數(shù)、決策樹、隨機森林、梯度增強樹、頻繁模式挖掘、評估指標(biāo)和統(tǒng)計信息。MLlib的功能與Spark可以處理的各種數(shù)據(jù)類型相結(jié)合,使ApacheSpark成為必不可少的大數(shù)據(jù)工具。3.2SparkGraphX除了具有API功能外,Spark還具有SparkGraphX,這是Spark的新增功能,旨在解決圖形問題。GraphX是一種圖形抽象,它擴(kuò)展了RDD用于圖形和圖形并行計算的功能。SparkGraphX與圖數(shù)據(jù)庫集成,該圖數(shù)據(jù)庫存儲互連信息或連接信息的網(wǎng)絡(luò),例如社交網(wǎng)絡(luò)的信息。3.3SparkStreamingSparkStreaming是核心SparkAPI的擴(kuò)展,可實現(xiàn)實時數(shù)據(jù)流的可擴(kuò)展、容錯處理。在SparkStreaming處理數(shù)據(jù)時,它可以用Spark的機器學(xué)習(xí)和圖形處理算法將數(shù)據(jù)傳遞到文件系統(tǒng)、數(shù)據(jù)庫和實時儀表板,以進(jìn)行實時流分析。SparkStreaming基于SparkSQL引擎構(gòu)建,還允許增量批處理,從而可以更快地處理流數(shù)據(jù)。4.Spark與ApacheHadoop和MapReduce“Sparkvs.Hadoop”是網(wǎng)絡(luò)上經(jīng)常搜索的詞語,但如上所述,Spark是Hadoop的增強版——更具體地說,是對Hadoop的本機數(shù)據(jù)處理組件MapReduce的增強。實際上,Spark是基于MapReduce框架構(gòu)建的,如今大多數(shù)Hadoop發(fā)行版都包含Spark。與Spark一樣,MapReduce使程序員能夠編寫應(yīng)用程序,這些程序能夠通過在大型計算機集群并行處理部分?jǐn)?shù)據(jù)集來更快地處理大量數(shù)據(jù)集。MapReduce處理磁盤上的數(shù)據(jù),這就增加了讀取和寫入次數(shù),減慢了處理速度,而Spark在內(nèi)存中執(zhí)行計算,這要快得多。因此,Spark可以處理數(shù)據(jù)的速度比MapReduce快100倍。
參考譯文與MapReduce相比,Spark內(nèi)置的針對多種語言的API使它對開發(fā)人員更實用、更易上手,因為MapReduce以難以編程而著稱。與MapReduce不同,Spark可以使用YARN(Hadoop的資源管理和作業(yè)調(diào)度框架)在Hadoop群集上運行流處理應(yīng)用程序。如上所述,Spark添加了MLlib、GraphX和SparkSQL的功能。而且Spark可以處理Hadoop應(yīng)用程序之外的其他數(shù)據(jù)源(包括ApacheKafka)中的數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 100以內(nèi)三數(shù)加減法混合運算能力檢測模擬題帶答案
- 新生兒衣原體感染的健康宣教
- 培訓(xùn)機構(gòu)述職大會
- 輕度精神發(fā)育遲滯的健康宣教
- 患者腕帶信息核對管理制度
- 手術(shù)前病人的護(hù)理
- 小兒眼-耳-脊椎綜合征的健康宣教
- AFC中級工復(fù)習(xí)測試題
- 廣西玉林市2023-2024學(xué)年中考數(shù)學(xué)考試模擬沖刺卷含解析
- 2025海域使用權(quán)流轉(zhuǎn)租賃合同范本
- 2025年AR眼鏡行業(yè)市場規(guī)模及主要企業(yè)市占率分析報告
- 日常小學(xué)生防性侵安全教育課件
- 浙江首考2025年1月普通高等學(xué)校招生全國統(tǒng)一考試 歷史 含解析
- 市政城市環(huán)境管理
- 2025辦公樓租賃合同書范本
- 2025年高考英語二輪復(fù)習(xí)測試04 從句綜合+語法填空(測試)(原卷版)
- 春季肝膽排毒課件
- 第12課 遼宋夏金元時期經(jīng)濟(jì)的繁榮 教案2024-2025學(xué)年七年級歷史下冊新課標(biāo)
- 《安全生產(chǎn)治本攻堅三年行動方案》培訓(xùn)
- 16J914-1 公用建筑衛(wèi)生間
- 教學(xué)課件:《新時代新征程》
評論
0/150
提交評論