目录:
-
-
- 一、What is RDD?
-
-
- 1、RDD是一个弹性分布式数据集
- 2、RDD是一个弹性的分布式的数据集,是spark的基本抽象,RDD是不可变的,并且它由多个partition构成(可能分布在多台机器上,可以存memory上,也可以存disk里等等),可以进行并行操作
- 3、弹性:分布式计算时可容错
- 4、不可变:一旦产生就不能被改变
- 5、RDD中的数据是不可变的,分区存在的,也就是每次调用RDD就会形成新的RDD,旧的RDD中的数据是不会发生改变的
- 6、RDD 的基本概念:
- 7、RDD的全称:
- 8、RDD的五大特征:
-
- 二、Spark RDD分为两大类:
- 基于官网分为两类:transfotmation、Action
- 基于个人讲为四类:transfotmation、Action、create、presist
- 概念篇整理
-
-
-
- 缓冲效果:
-
-
- 三、RDD的依赖:
-
- RDD 分为宽依赖和窄依赖区分。
- 以下链接是常用算子整理:
-
- 转载著名出处,尊重原创。
- 如有错误,欢迎指正。
-

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/69015.html