2023學(xué)年完整公開課版RDD編程

上傳人：尖*** IP屬地：安徽上傳時(shí)間：2023-05-15 格式：PPTX 頁數(shù)：46 大?。?.07MB 積分：25 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩41頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

RDD編程RDD概念RDD概念DatasourceDatasourceRDDRDDRDDRDDRDDOutput創(chuàng)建創(chuàng)建轉(zhuǎn)換轉(zhuǎn)換轉(zhuǎn)換轉(zhuǎn)換動作RDD特性（1）高效的容錯性（2）中間結(jié)果持久化到內(nèi)存，數(shù)據(jù)在內(nèi)存中的多個RDD操作之間進(jìn)行傳遞，避免了不必要的讀寫磁盤開銷（3）存放的數(shù)據(jù)可以是Java對象，避免了不必要的對象序列化和反序列化RDD運(yùn)行原理RDD1RDD2窄依賴RDD3窄依賴RDD7RDD5RDD6RDD4RDD運(yùn)行原理寬依賴寬依賴RDD8RDD9RDD運(yùn)行過程Rdd1.join(rdd2).groupBy().filter(…)RDDobjectsDAGScheduler集群資源管理器TaskSchedulerThreadsBlockmanageWorkerDAG

任務(wù)集任務(wù)PairRDD鍵值對RDD（PairRDD）是指每個RDD元素都是（key，value）鍵值對類型，應(yīng)用場景很多。創(chuàng)建PairRDD（1）從文件系統(tǒng)中加載數(shù)據(jù)生成RDD，然后使用map()函數(shù)轉(zhuǎn)換為PairRDD

scala>vallines=sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt")scala>valpairRDD=lines.flatMap(line=>line.split("")).map(word=>(word,1))scala>pairRDD.foreach(println)(Hadoop,1)(Spark,1)(Hive,1)(Spark,1)創(chuàng)建PairRDD（2）通過并行集合創(chuàng)建PairRDD

scala>vallist=List("Hadoop","Spark","Hive","Spark")list:List[String]=List(Hadoop,Spark,Hive,Spark)scala>valrdd=sc.parallelize(list)rdd:org.apache.spark.rdd.RDD[String]=ParallelCollectionRDD[11]scala>valpairRDD=rdd.map(word=>(word,1))pairRDD:org.apache.spark.rdd.RDD[(String,Int)]scala>pairRDD.foreach(println)(Hadoop,1)(Spark,1)(Hive,1)(Spark,1)PairRDD轉(zhuǎn)換操作reduceByKey(func)

scala>pairRDD.reduceByKey((a,b)=>a+b).foreach(println)(Spark,2)(Hive,1)(Hadoop,1)PairRDD轉(zhuǎn)換操作groupByKey(func)scala>scala>pairRDD.groupByKey().foreach(println)(Spark,CompactBuffer(1,1))(Hive,CompactBuffer(1))(Hadoop,CompactBuffer(1))PairRDD轉(zhuǎn)換操作pairRDD.keys

scala>pairRDD.keys.foreach(println)HadoopSparkHiveSparkPairRDD轉(zhuǎn)換操作pairRDD.values

scala>pairRDD.values.foreach(println)1111PairRDD轉(zhuǎn)換操作sortByKey()

scala>pairRDD.sortByKey().foreach(println)(Hadoop,1)(Hive,1)(Spark,1)(Spark,1)小例子scala>valrdd=sc.parallelize(Array(("spark",2),("hadoop",6),("hadoop",4),("spark",6)))scala>rdd.mapValues(x=>(x,1)).reduceByKey((x,y)=>(x._1+y._1,x._2+y._2)).mapValues(x=>(x._1/x._2)).collect()res22:Array[(String,Int)]=Array((spark,4),(hadoop,5))給定一組鍵值對("spark",2),("hadoop",6),("hadoop",4),("spark",6)，鍵值對的key表示圖書名稱，value表示某天圖書銷量，請計(jì)算每個鍵對應(yīng)的平均值，也就是計(jì)算每種圖書的每天平均銷量。RDD操作RDDRDDRDDRDDRDDOutput創(chuàng)建創(chuàng)建轉(zhuǎn)換轉(zhuǎn)換轉(zhuǎn)換轉(zhuǎn)換動作DatasourceDatasourceRDD綜合案例1）

文本文件讀取，示例：18001,Spark,10018001,Python,5018001,Hadoop,3018001,Software,9418002,DataBase,1818002,Python,8218002,Hadoop,7618003,Hadoop,92RDD綜合案例2）選擇RDD或者PairRDD操作（1）總共有多少學(xué)生；（2）共開設(shè)來多少門課程；（3）Spark課程共有多少人選修；（4）某位同學(xué)的總成績平均分是多少。RDD綜合案例（1）總共有多少學(xué)生；vallines=sc.textFile("file:///usr/local/spark/students.txt")18001,Spark,10018001,Python,5018001,Hadoop,3018001,Software,9418002,DataBase,1818002,Python,8218002,Hadoop,7618003,Hadoop,92。。。。。。。RDD綜合案例（1）總共有多少學(xué)生；vallines=sc.textFile("file:///usr/local/spark/students.txt")valstudents=lines.map(row=>row.split(",")(0))180011800118001180011800218002

。。。。。。。RDD綜合案例（1）總共有多少學(xué)生；vallines=sc.textFile("file:///usr/local/spark/students.txt")valstudents=lines.map(row=>row.split(",")(0))valstudents_num=students.distinct()//去重操作180011800218003RDD綜合案例（1）總共有多少學(xué)生；vallines=sc.textFile("file:///usr/local/spark/students.txt")valstudents=lines.map(row=>row.split(",")(0))valstudents_num=students.distinct()//去重操作students_num.count//取得總數(shù)RDD綜合案例（2）共開設(shè)來多少門課程；vallines=sc.textFile("file:///usr/local/spark/students.txt")18001,Spark,10018001,Python,5018001,Hadoop,3018001,Software,9418002,DataBase,1818002,Python,8218002,Hadoop,7618003,Hadoop,92。。。。。。。RDD綜合案例（2）共開設(shè)來多少門課程；vallines=sc.textFile("file:///usr/local/spark/students.txt")valcourses=lines.map(row=>row.split(",")(1))SparkPythonHadoopSoftwarePythonHadoop。。。。。。。RDD綜合案例（2）共開設(shè)來多少門課程；vallines=sc.textFile("file:///usr/local/spark/students.txt")valcourses=lines.map(row=>row.split(",")(1))valcourses_num=num.distinct()//去重操作SparkPythonHadoopSoftwareRDD綜合案例（2）共開設(shè)來多少門課程；vallines=sc.textFile("file:///usr/local/spark/students.txt")valcourses=lines.map(row=>row.split(",")(1))valcourses_num=num.distinct()//去重操作courses_num.count//取得總數(shù)RDD綜合案例（3）Spark課程共有多少人選修；vallines=sc.textFile("file:///usr/local/spark/students.txt")18001,Spark,10018001,Python,5018001,Hadoop,3018001,Software,9418002,DataBase,1818002,Python,8218002,Hadoop,7618003,Hadoop,92。。。。。。。RDD綜合案例（3）Spark課程共有多少人選修；vallines=sc.textFile("file:///usr/local/spark/students.txt")valSpark=lines.fliter(row=>row.split(",")(1)==“Spark”)Spark.countRDD綜合案例（4）某位同學(xué)的總成績平均分是多少。vallines=sc.textFile("file:///usr/local/spark/students.txt")valrdd1=lines.map(row=>(row.split(",")(0),row.split(",")(2).toInt))(18001,100)(18001,50)(18001,30)(18001,94)。。。。。。。RDD綜合案例（4）某位同學(xué)的總成績平均分是多少。vallines=sc.textFile("file:///usr/local/spark/students.txt")valrdd1=lines.map(row=>(row.split(",")(0),row.split(",")(2).toInt))valrdd2=rdd1.mapValues(x=>(x,1))(18001,100,1)(18001,50,1)(18001,30,1)(18001,94,1)。。。。。。。RDD綜合案例（4）某位同學(xué)的總成績平均分是多少。vallines=sc.textFile("file:///usr/local/spark/students.txt")valrdd1=lines.map(row=>(row.split(",")(0),row.split(",")(2).toInt))valrdd2=rdd1.mapValues(x=>(x,1))valres=rdd2.reduceByKey((x,y)=>(x._1+y._1,x._2+y._2))(18001,274,4)(18002,……)RDD綜合案例（4）某位同學(xué)的總成績平均分是多少。vallines=sc.textFile("file:///usr/local/spark/students.txt")valrdd1=lines.map(row=>(row.split(",")(0),row.split(",")(2).toInt))valrdd2=rdd1.mapValues(x=>(x,1))valres=rdd2.reduceByKey((x,y)=>(x._1+y._1,x._2+y._2))res.mapValues(x=>x._1/x._2).collect()RDD操作——創(chuàng)建RDD（1）從本地文件系統(tǒng)中加載數(shù)據(jù)

（2）從分布式文件系統(tǒng)HDFS中加載數(shù)據(jù)scala>vallines=sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt")scala>vallines=sc.textFile("hdfs://localhost:9000/user/hadoop/word.txt")RDD操作——創(chuàng)建RDD（3）調(diào)用SparkContext的parallelize方法，在Driver中一個已經(jīng)存在的集合（數(shù)組）上創(chuàng)建。

scala>valarray=Array(1,2,3,4,5)array:Array[Int]=Array(1,2,3,4,5)scala>valrdd=sc.parallelize(array)rdd:org.apache.spark.rdd.RDD[Int]=ParallelCollectionRDD[13]atparallelizeat<console>:29RDD操作——創(chuàng)建RDD調(diào)用SparkContext的parallelize方法，也可以從列表中創(chuàng)建scala>vallist=List(1,2,3,4,5)list:List[Int]=List(1,2,3,4,5)scala>valrdd=sc.parallelize(list)rdd:org.apache.spark.rdd.RDD[Int]=ParallelCollectionRDD[14]atparallelizeat<console>:29RDD操作——轉(zhuǎn)換操作lines.filter(line=>line.contains(“spark”))RDD(lines)rdd.filter()IlikehadoopSparkisfastIlikeSparkSparkisfastIlikeSparkRDDRDD操作——轉(zhuǎn)換操作lines.map(line=>line.split(“”))RDD(lines)rdd.map()IlikehadoopSparkisfastIlikeSparkRDDArray(“I”,”like”,”hadoop”)Array(“Spark”,”is”,”fast”)Array(“I”,”like”,”spark”)RDD操作——轉(zhuǎn)換操作lines.flatmap(line=>line.split(“”))RDD(lines)rdd.flatmap()IlikehadoopSparkisfastIlikeSparkRDD“I””like”“hadoop”“Spark””is”“fast”“I””like”“Spark”RDD操作——轉(zhuǎn)換操作rdd.reduceByKey((a,b)=>a+b)RDD(“Iike”,1)(“hadoop”,1)(“Spark”,1)(“fast”,1)(”like”,1)(“Spark”,1)rdd.reduceByKey()(“Iike”,2)(“hadoop”,1)(“Spark”,2)(“fast”,1)RDD中間結(jié)果key,Value-list例如：(spark，（1,1））RDD操作——轉(zhuǎn)換操作rdd.reduceByKey((a,b)=>a+b)RDD(“Iike”,1)(“hadoop”,1)(“Spark”,1)(“fast”,1)(”like”,1)(“Spark”,1)rdd.reduceByKey()(“Iike”,2)(“hadoop”,1)(“Spark”,2)(“fast”,1)RDDspark，（1,1））RDD操作——動作操作count()

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

2023學(xué)年完整公開課版RDD編程

文檔簡介

溫馨提示

最新文檔

評論

2023學(xué)年完整公開課版RDD編程

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔