120-RDD的数据结构是怎么样的?

120-RDD的数据结构是怎么样的?

00:00
00:50

RDD的数据结构是怎么样的?


一个RDD对象,包含如下5个核心属性。

1)一个分区列表,每个分区里是RDD的部分数据(或称数据块)。

2)一个依赖列表,存储依赖的其他RDD。

3)一个名为compute的计算函数,用于计算RDD各分区的值。

4)分区器(可选),用于键/值类型的RDD,比如某个RDD是按散列来分区。

5)计算各分区时优先的位置列表(可选),比如从HDFS上的文件生成RDD时,RDD分区的位置优先选择数据所在的节点,这样可以避免数据移动带来的开销。


以上内容来自专辑
用户评论

    还没有评论,快来发表第一个评论!