2025年Spark RDD 的详解

Spark RDD 的详解目录 一 What is RDD 1 RDD 是一个弹性分布式数据集 2 RDD 是一个弹性的分布式的数据集 是 spark 的基本抽象 RDD 是不可变的 并且它由多个 partition 构成 可能分布在多台机器上 可以存 memory 上 也可以存 disk 里等等

大家好,我是讯享网,很高兴认识大家。


讯享网

目录:

      • 一、What is RDD?
          • 1、RDD是一个弹性分布式数据集
          • 2、RDD是一个弹性的分布式的数据集,是spark的基本抽象,RDD是不可变的,并且它由多个partition构成(可能分布在多台机器上,可以存memory上,也可以存disk里等等),可以进行并行操作
          • 3、弹性:分布式计算时可容错
          • 4、不可变:一旦产生就不能被改变
          • 5、RDD中的数据是不可变的,分区存在的,也就是每次调用RDD就会形成新的RDD,旧的RDD中的数据是不会发生改变的
          • 6、RDD 的基本概念:
          • 7、RDD的全称:
          • 8、RDD的五大特征:
      • 二、Spark RDD分为两大类:
      • 基于官网分为两类:transfotmation、Action
      • 基于个人讲为四类:transfotmation、Action、create、presist
      • 概念篇整理
            • 缓冲效果:
      • 三、RDD的依赖:
        • RDD 分为宽依赖和窄依赖区分。
      • 以下链接是常用算子整理:
        • 转载著名出处,尊重原创。
        • 如有错误,欢迎指正。
小讯
上一篇 2025-01-07 07:51
下一篇 2025-01-06 11:02

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/69015.html