描述Spark集群计算中RDD的含义和作用。_睦霖题库

简答题描述Spark集群计算中RDD的含义和作用。

正确答案：Spark的核心概念是RDD (resilientdistributed dataset)，指的是一个只读的，可分区的分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间重用。Spark解决迭代计算的主要实现思想就是RDD，把所有计算的数据保存在分布式的内存中。迭代计算通常情况下都是对同一个数据集做反复的迭代计算，数据在内存中将大大提升IO操作。这也是Spark涉及的核心：内存计算。Spark和RDD的关系可以理解为：RDD是一种具有容错性基于内存的集群计算抽象方法，Spark则是这个抽象方法的实现。
答案解析：
关注下方微信公众号，在线模考后查看

热门试题