记载我的spark源码阅读火花-创新互联

记载我的spark源码阅读火花

创新互联建站主营池州网站建设的网络公司,主营网站建设方案,app软件开发,池州h5小程序设计搭建,池州网站营销推广欢迎池州等地区企业咨询

知识点:

1、seq:列表,适合存有序重复数据,进行快速插入/删除元素等场景,

Set是集合,适合存无序非重复数据,进行快速查找海量元素等场景

memoryKeys = Seq(
  )

2、private 声明变量为私有

private val hadoopConf = SparkHadoopUtil.get.newConfiguration(conf)

private[this] val value

private[spark],声明变量为私有,并且在包spark是可见的,这里的[spark],是一种保护的作用域。

这是Master的类声明,同样在master域里

private[master] class Master(

3、没有括号的函数

下面是个函数调用

hellotheworld     //无参数不括号

4、可变参数的函数

(s:*)={
  s.foreach(x=>(x))
}

5、函数的奇葩定义:

(x:y:):=x+y          =(x:y:)=>x+y       (x:)(y:):=x+y        anonymous=(x:y:)=>x+y

6、import:可以在任何地方出现,作用范围是直到包含该语句的块末尾,好处是避免产生名称冲突。

SparkConf(loadDefaults: Boolean) Cloneable Logging {

  SparkConf._

7、this:函数的末尾最后一句

setExecutorEnv(variables: Seq[(StringString)]): SparkConf = {
  ((kv) <- variables) {
    setExecutorEnv(kv)
  }
  }

该函数返回SparkConf类型的值

8、模式匹配之master配置类型

master match{
case "local" =>
case LOCAL_N_REGEX(threads) =>
case LOCAL_N_FAILURES_REGEX(threads, maxFailures) =>
case SPARK_REGEX(sparkUrl) =>
case LOCAL_CLUSTER_REGEX(numSlaves, coresPerSlave, memoryPerSlave) =>
case "yarn-standalone" | "yarn-cluster" =>
case "yarn-client" =>
case SIMR_REGEX(simrUrl) =>
case mesosUrl @ MESOS_REGEX(_) =>

可见有上述几种配置类型

9、scala的Parallelize实现

第一种RDD生产方式,就是从本地的collection生成,可以看见生成的是ParallelCollectionRDD类型的

parallelize[T: ClassTag](
    seq: Seq[T]numSlices: Int = defaultParallelism): RDD[T] = withScope {
  assertNotStopped()
  ParallelCollectionRDD[T](seqnumSlicesMap[IntSeq[String]]())
}

另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。

分享名称:记载我的spark源码阅读火花-创新互联
转载源于:https://www.cdcxhl.com/article24/hdice.html

成都网站建设公司_创新互联,为您提供响应式网站面包屑导航微信公众号网站排名用户体验静态网站

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联

网站建设网站维护公司