版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
RDD類型操作目錄/Contents01
轉(zhuǎn)換算子02行動算子轉(zhuǎn)換算子01轉(zhuǎn)換算子Transformation:轉(zhuǎn)換算子,這類轉(zhuǎn)換并不觸發(fā)提交作業(yè),完成作業(yè)中間過程處理。下面是一些常用的轉(zhuǎn)換算子操作的API。操作介紹map(func)將RDD中的每個元素傳入自定義函數(shù),獲取一個新的元素,然后用新的元素組成新的RDDfilter(func)對RDD中每個元素進(jìn)行判斷,如果返回true則保留,返回false則剔除flatMap(func)與map類似,但是對每個元素都可以返回一個或多個新元素groupByKey(func)根據(jù)key進(jìn)行分組,每個key對應(yīng)一個Iterable<value>reduceByKey(func)對每個key對應(yīng)value進(jìn)行reduce操作轉(zhuǎn)換算子1.map(func)map(func)操作是對RDD中的每個元素都執(zhí)行一個指定的函數(shù)來產(chǎn)生一個新的RDD。2.filter(func)filter(func)操作會篩選出滿足條件(即func)的元素,返回一個新的數(shù)據(jù)集。3.flatMap(func)類似于map,但是每一個輸入元素,會被映射為0到多個輸出元素(因此,func函數(shù)的返回值是一個Seq,而不是單一元素)。在一個由(K,V)對組成的數(shù)據(jù)集上調(diào)用,返回一個(K,Seq[V])對的數(shù)據(jù)集。4.groupByKey(func)5.reduceByKey(func)顧名思義,reduceByKey就是對元素為KV對的RDD中Key相同的元素的Value進(jìn)行reduce,因此,Key相同的多個元素的值被reduce為一個值,然后與原RDD中的Key組成一個新的KV對。行動算子02行動算子Action:行動算子,這類算子會觸發(fā)SparkContext提交Job作業(yè)。下面是一些常用的行動算子操作的API。操作介紹
reduce(func)通過函數(shù)func聚集數(shù)據(jù)集中的所有元素。Func函數(shù)接受2個參數(shù),返回一個值。這個函數(shù)必須是關(guān)聯(lián)性的,確??梢员徽_的并發(fā)執(zhí)行collect()在Driver的程序中,以數(shù)組的形式,返回?cái)?shù)據(jù)集的所有元素。count()返回?cái)?shù)據(jù)集的元素個數(shù)take(n)返回一個數(shù)組,由數(shù)據(jù)集的前n個元素組成。first()返回?cái)?shù)據(jù)集的第一個元素(類似于take(1))foreach(func)在數(shù)據(jù)集的每一個元素上,運(yùn)行函數(shù)func。
saveAsTextFile(path)將數(shù)據(jù)集的元素,以textfile的形式,保存到本地文件系統(tǒng),hdfs或者任何其它hadoop支持的文件系統(tǒng)。Spark將會調(diào)用每個元素的toString方法,并將它轉(zhuǎn)換為文件中的一行文本行動算子1.reduce(func)reduce將RDD中元素兩兩傳遞給輸入函數(shù),同時產(chǎn)生一個新的值,新產(chǎn)生的值與RDD中下一個元素再被傳遞給輸入函數(shù)直到最后只有一個值為止。2.collect()在Driver的程序中,以數(shù)組的形式,返回?cái)?shù)據(jù)集的所有元素。這通常會在使用filter或者其它操作后,返回一個足夠小的數(shù)據(jù)子集再使用,直接將整個RDD集Collect返回,很可能會讓Driver程序OOM。3.count()count返回整個RDD的元素個數(shù)。我們可以定義一個RDD,使用count()來統(tǒng)計(jì)RDD的元素個數(shù)。
take和collect操作類似,只是collect操作獲取的所有數(shù)據(jù),而take操作是獲取前n個元素。4.take(n)5.first()first()的作用是返回?cái)?shù)據(jù)集的第一個元素.我們可以定義一個RDD,使用first()來獲取RDD中的第一個元素。6.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025下半年重慶市地震局事業(yè)單位招聘擬聘歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025下半年浙江省舟山引航站招聘引航員9人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025下半年四川遂寧高新區(qū)部分事業(yè)單位考試招聘擬聘用人員高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025下半年四川省廣安市華鎣市“小平故里英才”引進(jìn)急需緊缺專業(yè)人才17人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025上半年重慶市屬衛(wèi)生計(jì)生事業(yè)單位招聘擬聘歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025上半年江蘇省南通事業(yè)單位招聘95人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025上半年四川省甘孜州考試招聘事業(yè)單位人員163人筆試高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025上半年四川省內(nèi)江市“甜城英才”選聘活動402人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025上半年四川內(nèi)江市本級部分事業(yè)單位考聘55人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 成分分析產(chǎn)品行業(yè)相關(guān)投資計(jì)劃提議范本
- 軍事理論智慧樹知到期末考試答案2024年
- 小班故事《小狗賣冷飲》課件
- 2023水庫大壩震后安全檢查技術(shù)指南
- 2024年中小學(xué)財(cái)務(wù)管理知識筆試歷年真題薈萃含答案
- CNC數(shù)控編程述職報(bào)告
- 小學(xué)口才課教學(xué)大綱
- 生產(chǎn)車間環(huán)境改善方案
- 2023-2024學(xué)年四川省成都市錦江區(qū)七年級(上)期末數(shù)學(xué)試卷(含解析)
- 消防內(nèi)務(wù)條令全文文檔
- 中傳文史哲2023初試真題及答案
- DB4201T622-2020燃?xì)夤艿涝O(shè)施安全保護(hù)規(guī)程
評論
0/150
提交評論