spark中的rdd是一个（）数据集A、弹性分布式B、弹性计算C、运送数据D、心跳

题目

spark中的rdd是一个（）数据集

A、弹性分布式
B、弹性计算
C、运送数据
D、心跳

相似考题

1.Spark可以从()分布式文件系统中读取数据。A.TachyonB.HiveC.HbaseD.HDFS

2.Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性

3.以下关于sparkstreaming说法正确的是（）A、spark streaming分布式微批架构B、spark streaming实时存储架构C、spark streaming是普通存储架构D、spark streaming分布式实时计算架构

4.下列不属于Google云计算平台技术架构的是()。A.结构化数据表BigTableB.弹性云计算EC2C.并行数据处理MapReduceD.分布式锁Chubby

更多“spark中的rdd是一个（）数据集A、弹性分布式B、弹性计算C、运送数据D、心跳”相关问题

第1题：

spark中弹性分布式数据集指的是哪个（）
- A、RDD
- B、Driver
- C、Master
- D、Map
正确答案:A
第2题：

spark中的弹性分布式数据集相当于java中的（）概念
- A、类
- B、接口
- C、方法
- D、内部类
正确答案:A
第3题：

spark的源码是由哪几种语言编写完成的（）
- A、acheSpark是一种快速、通用、可扩展的大数据分析引擎
- B、spark为分布式数据集的处理提供了一个有效框架，并以高效的方式处理分布式数据集
- C、spark强调一站式解决方案，集批处理、实时流处理、交互式查询与图计算于一体，避免了多种运算场景下需要部署不同集群带来的资源浪费
- D、spark可以将数据分析过程的中间输出保存在内存中，从而不需要从外部持久化存储中反复读写数据，相较mapreduce能更好地适用于数据挖掘和机器学习等需要迭代运算的场景
正确答案:A,B
第4题：

描述Spark集群计算中RDD的含义和作用。

正确答案:Spark的核心概念是RDD (resilientdistributed dataset)，指的是一个只读的，可分区的分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间重用。Spark解决迭代计算的主要实现思想就是RDD，把所有计算的数据保存在分布式的内存中。迭代计算通常情况下都是对同一个数据集做反复的迭代计算，数据在内存中将大大提升IO操作。这也是Spark涉及的核心：内存计算。Spark和RDD的关系可以理解为：RDD是一种具有容错性基于内存的集群计算抽象方法，Spark则是这个抽象方法的实现。
第5题：

RDD特性包含如下哪些？（）
- A、一组分片（Partition），即数据集的基本组成单位
- B、一个计算每个分区的函数
- C、RDD之间的依赖关系
- D、一个列表，存储存取每个Partition的优先位置（preferredlocation）
正确答案:A,B,C,D
第6题：

RDD（ResilientDistributedDataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合

正确答案:正确
第7题：

SparkSQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用

正确答案:正确
第8题：

spark中的rdd不存储数据，存储的是（）
- A、业务逻辑
- B、物理数据
- C、数据库数据
- D、物理逻辑
正确答案:A
第9题：

下列不属于Google云计算平台技术架构的是（）
- A、并行数据处理MapReduce
- B、分布式锁Chubby
- C、结构化数据表BigTable
- D、弹性云计算EC2
正确答案:D
第10题：

判断题
Spark是基于内存的计算，所有的Spark程序运行过程中的数据只能存储在内存中。
A
对
B
错

正确答案：对
解析：暂无解析
第11题：

单选题
下列有关RDD的说法中错误的是（）。
A
RDD是一个只读的，可分区的分布式数据集。
B
RDD默认存储在磁盘，当磁盘不足时，溢写到内存。
C
RDD数据以分区的形式在集群中存储。
D
RDD具有血统机制，发生数据丢失时，可快速进行数据恢复。

正确答案： B
解析：暂无解析
第12题：

问答题
描述Spark集群计算中RDD的含义和作用。

正确答案： Spark的核心概念是RDD (resilientdistributed dataset)，指的是一个只读的，可分区的分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间重用。Spark解决迭代计算的主要实现思想就是RDD，把所有计算的数据保存在分布式的内存中。迭代计算通常情况下都是对同一个数据集做反复的迭代计算，数据在内存中将大大提升IO操作。这也是Spark涉及的核心：内存计算。Spark和RDD的关系可以理解为：RDD是一种具有容错性基于内存的集群计算抽象方法，Spark则是这个抽象方法的实现。
解析：暂无解析
第13题：

spark中以下哪些特性是rdd的特性（）
- A、计算移动
- B、数据不移动
- C、数据移动
- D、计算不移动
正确答案:A,C,D
第14题：

spark在进行数据切分的时候，决定了partition的哪些属性（）
- A、冗余性
- B、一致性
- C、rdd之间具有依赖性
- D、每个rdd都会提供一批最优的计算位置
正确答案:A,B
第15题：

rdd是spark中个哪个架构提出的概念（）
- A、spark core
- B、spark streaming
- C、mlbase
- D、Grophx
正确答案:A
第16题：

与RDD类似，DataFrame也是一个分布式数据容器

正确答案:正确
第17题：

spark框架中，机器学习库的框架是哪个（）
- A、hadoop
- B、spark？streaming
- C、mlbase
- D、RDD
正确答案:C
第18题：

worker组件在spark的任务调度中具有以下哪个作用（）
- A、计算数据
- B、存储数据
- C、运送数据
- D、心跳检测
正确答案:A
第19题：

spark为分布式数据集的处理提供了一个有效框架，并以高效的方式处理（）数据集
- A、单机
- B、集中式
- C、分布式
- D、NOSQL
正确答案:C
第20题：

SparkSQL是一个用来处理结构化数据的spark组件。它提供了一个叫做（）的可编程抽象数据模型
- A、DataFrames
- B、Table
- C、DataSet
- D、RDD
正确答案:A
第21题：

问答题
Spark是基于内存计算的大数据计算平台，试述Spark的主要特点。

正确答案： S.park具有如下4个主要特点：
①运行速度快；②容易使用；③通用性；④运行模式多样。
解析：暂无解析
第22题：

单选题
下列不属于Google云计算平台技术架构的是（）。
A
并行数据处理MapReduce
B
分布式锁Chubby
C
结构化数据表BigTable
D
弹性云计算EC2

正确答案： A
解析：
第23题：

判断题
Spark是一个类似于MapReduce的分布式计算框架，其核心是弹性分布式数据集
A
对
B
错

正确答案：对
解析：暂无解析

spark中的rdd是一个（）数据集A、弹性分布式B、弹性计算C、运送数据D、心跳

题目

相似考题

更多“spark中的rdd是一个（）数据集A、弹性分布式B、弹性计算C、运送数据D、心跳”相关问题

相关内容