【Spark-创新互联

spark-core:
rdd api =>算子
scala:
高阶函数/ 高阶api

创新互联建站专注于企业全网整合营销推广、网站重做改版、满洲网站定制设计、自适应品牌网站建设、H5网站设计成都做商城网站、集团公司官网建设、外贸网站建设、高端网站制作、响应式网页设计等建站业务,价格优惠性价比高,为满洲等各大城市提供网站开发制作服务。

1.构建rdd
1.从已经存在集合
2.已经存在外部数据源
1.textFile :
1.Spark creates one partition for each block of the file hdfs [没有问题的]
2. you cannot have fewer partitions than blocks

val rdd = sc.textFile("hdfs://bigdata32:9000/wc.data")  2
3 =》 3 

	保存: 
		saveAstextFile:

落地hdfs文件的个数:
mapreduce =》 reduce task数量
spark-core =》 最终的rdd的分区数

2.RDD 相关的操作
1.transformations 【转换操作】:
create a new dataset from an existing one
2.actions 【触发job执行的操作】
which return a value to the driver program 【spark client、控制台】
after running a computation on the dataset. 【rdd】
构建rdd:
1.从已经存在集合
2.已经存在外部数据源
3.从已经存在rdd转换生成一个新的rdd
transformation:
1.All transformations in Spark are lazy =》 懒加载

rdda =>rddb =>rddc  =>不会立即执行 不会触发job的执行
rdd.map().fitler. 
=》 rdd 血缘关系

action:
触发作业的执行

好处: mapreduce
1=>2=>3=>4
spark-core: job pipiline
1=>2=>3=>4 action =>job作业的执行

transformation:

1.map : 一一映射
处理rdd里面每一个元素

2.filter
map相关的算子、kv类型的算子、other算子
3.map相关的算子
makeRDD =>了解 =》 parallelize
map vs mapPartitions:
1.map 一个作用的rdd里面每一个元素
2.mapPartitions 作用的rdd里面 分区

需求: spark-core:
	map filter =》 不让用 如何实现 功能?  平台
		MapPartitionsRDD
Actions

1.collect()
2.foreach() 输出 :
driver :
1.控制台
2.hdfs 不这样用
3.db

你是否还在寻找稳定的海外服务器提供商?创新互联www.cdcxhl.cn海外机房具备T级流量清洗系统配攻击溯源,准确流量调度确保服务器高可用性,企业级服务器适合批量采购,新人活动首月15元起,快前往官网查看详情吧

文章名称:【Spark-创新互联
转载源于:https://www.cdcxhl.com/article10/ccsedo.html

成都网站建设公司_创新互联,为您提供虚拟主机营销型网站建设标签优化网站导航网站维护关键词优化

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联

手机网站建设