




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
Spark劃分stage2知識目標Spark中如何劃分stagestage01能力目標stage劃分思路stageshuffle與stage02學習目標3目錄01Spark中如何劃分stage02stage03stage劃分思路Spark中如何劃分stage4RDD之間有一系列的依賴關(guān)系,依賴關(guān)系又分為窄依賴和寬依賴。Spark中的Stage其實就是一組并行的任務(wù),任務(wù)是一個個的task。窄依賴指父RDD的每一個分區(qū)最多被一個子RDD的分區(qū)所用,表現(xiàn)為:一個父RDD的分區(qū)對應(yīng)于一個子RDD的分區(qū);兩個父RDD的分區(qū)對應(yīng)于一個子RDD的分區(qū)。寬依賴指子RDD的每個分區(qū)都要依賴于父RDD的所有分區(qū),這是shuffle類操作。stage5一個Job會被拆分為多組Task,每組任務(wù)被稱為一個Stage就像MapStage,ReduceStage。Stage的劃分在RDD的論文中有詳細的介紹,簡單的說是以shuffle和result這兩種類型來劃分。在Spark中有兩類task:(1)shuffleMapTask輸出是shuffle所需數(shù)據(jù),stage的劃分也以此為依據(jù),shuffle之前的所有變換是一個stage,shuffle之后的操作是另一個stage。stage6(2)resultTask輸出是result,比如rdd.parallize(1to10).foreach(println)這個操作沒有shuffle,直接就輸出了,那么只有它的task是resultTask,stage也只有一個;如果是rdd.map(x=>(x,1)).reduceByKey(_+_).foreach(println),這個job因為有reduce,所以有一個shuffle過程,那么reduceByKey之前的是一個stage,執(zhí)行shuffleMapTask,輸出shuffle所需的數(shù)據(jù),reduceByKey到最后是一個stage,直接就輸出結(jié)果了。如果job中有多次shuffle,那么每個shuffle之前都是一個stage。stage7會根據(jù)RDD之間的依賴關(guān)系將DAG圖劃分為不同的階段,對于窄依賴,由于partition依賴關(guān)系的確定性,partition的轉(zhuǎn)換處理就可以在同一個線程里完成,窄依賴就被spark劃分到同一個stage中,而對于寬依賴,只能等父RDDshuffle處理完成后,下一個stage才能開始接下來的計算。之所以稱之為ShuffleMapTask是因為它需要將自己的計算結(jié)果通過shuffle到下一個stage中。stage劃分思路8spark劃分stage的整體思路是:從后往前推,遇到寬依賴就斷開,劃分為一個stage;遇到窄依賴就將這個RDD加入該stage中。stage劃分思路9在spark中,Task的類型分為2種:ShuffleMapTask和ResultTask;簡單來說,DAG的最后一個階段會為每個結(jié)果的partition生成一個ResultTask,即每個Stage里面的Task的數(shù)量是由該Stage中最后一個RDD的Partition的數(shù)量所決定的!而其余所有階段都會生成ShuffleMapTask;之所以稱之為ShuffleMapTask是因為它需要將自己的計算結(jié)果通過shuffle到下一個stage中。shuffle與stage10shuffle是劃分DAG中stage的標識,同時影響Spark執(zhí)行速度的關(guān)鍵步驟.
RDD的Transformation函數(shù)中,又分為窄依賴(narrowdependency)和寬依賴(widedependency)的操作.窄依賴跟寬依賴的區(qū)別是是否發(fā)生shuffle(洗牌)操作.寬依賴會發(fā)生shuffle操作.窄依賴是子RDD的各個分片(part
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 印布油墨相關(guān)行業(yè)投資方案范本
- 代辦服務(wù)行業(yè)危機管理策略考核試卷
- 拍賣行業(yè)法律法規(guī)修訂影響分析考核試卷
- 科技與商業(yè)的交匯點-現(xiàn)代服務(wù)業(yè)的創(chuàng)新發(fā)展
- 無人機配送服務(wù)廣告考核試卷
- 聽力輔助耳機考核試卷
- 安全網(wǎng)絡(luò)空間安全態(tài)勢評估考核試卷
- 2025年細菌類診斷抗原項目發(fā)展計劃
- 科技發(fā)展中磁頭產(chǎn)品標準的創(chuàng)新與挑戰(zhàn)
- 研發(fā)項目中的著作權(quán)保護策略探討
- 【音樂】歌唱祖國-《彩色的中國》課件 2023-2024學年人音版初中音樂七年級上冊
- 轟趴館計劃書
- 檢驗檢測機構(gòu)質(zhì)量管理課件
- 2023年上海市16區(qū)數(shù)學中考二模匯編2 方程與不等式(39題)含詳解
- 中國民航大學開題報告模板
- 崗位之間工作銜接配合安全與職業(yè)衛(wèi)生事項課件
- 人民幣銀行結(jié)算賬戶管理系統(tǒng)培訓課件
- 04S516 混凝土排水管道基礎(chǔ)及接口
- 鋼結(jié)構(gòu)施工安全培訓
- 火鍋店消防知識培訓課件
- 超市商品結(jié)構(gòu)圖
評論
0/150
提交評論