试题详情
- 简答题描述Spark集群计算中RDD的含义和作用。
- Spark的核心概念是RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。Spark解决迭代计算的主要实现思想就是RDD,把所有计算的数据保存在分布式的内存中。迭代计算通常情况下都是对同一个数据集做反复的迭代计算,数据在内存中将大大提升IO操作。这也是Spark涉及的核心:内存计算。Spark和RDD的关系可以理解为:RDD是一种具有容错性基于内存的集群计算抽象方法,Spark则是这个抽象方法的实现。
关注下方微信公众号,在线模考后查看
热门试题
- 下列程序的功能是根据如下计算公式计算su
- 拓扑排序的主要功能是什么?对于一个存在拓
- 顺序存储结构只适用于存储线性结构。
- 请设计一C语言函数(注:只要求写出该函数
- 设非空单链表的结点构造为。若要删除该链表
- 非空二叉排序树中的任意一棵子树也是二叉排
- 若从无向图中任意一个顶点出发进行1次深度
- 设满二叉树的深度为k,现采用顺序表示法存
- 有人说,采用折半查找法一定比采用顺序查找
- 虚拟段式存储管理中,若逻辑地址的段内地址
- 简要描述如何采用Axis实现Web服务。
- 一棵度为2的树与一棵二叉树有何区别?
- 若x和y均为int类型的变量,则依次执行
- 下列的进程状态转换中,()转换是不可能发
- 概要设计主要是把各项()转换成系统的()
- 在UML描述整体和部分关系时,有()和(
- 流程图与数据流图有什么主要区别?
- 在链接堆栈中插入一个新的元素等价于在链表
- 若5个元素A,B,C,D,E按此先后次序
- 以下scanf函数调用语句中对结构体变