更多“spark中的rdd是一个()数据集A、弹性分布式B、弹性计算C、运送数据D、心跳”相关问题
  • 第1题:

    spark中弹性分布式数据集指的是哪个()

    • A、RDD
    • B、Driver
    • C、Master
    • D、Map

    正确答案:A

  • 第2题:

    spark中的弹性分布式数据集相当于java中的()概念

    • A、类
    • B、接口
    • C、方法
    • D、内部类

    正确答案:A

  • 第3题:

    spark的源码是由哪几种语言编写完成的()

    • A、acheSpark是一种快速、通用、可扩展的大数据分析引擎
    • B、spark为分布式数据集的处理提供了一个有效框架,并以高效的方式处理分布式数据集
    • C、spark强调一站式解决方案,集批处理、实时流处理、交互式查询与图计算于一体,避免了多种运算场景下需要部署不同集群带来的资源浪费
    • D、spark可以将数据分析过程的中间输出保存在内存中,从而不需要从外部持久化存储中反复读写数据,相较mapreduce能更好地适用于数据挖掘和机器学习等需要迭代运算的场景

    正确答案:A,B

  • 第4题:

    描述Spark集群计算中RDD的含义和作用。


    正确答案:Spark的核心概念是RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。Spark解决迭代计算的主要实现思想就是RDD,把所有计算的数据保存在分布式的内存中。迭代计算通常情况下都是对同一个数据集做反复的迭代计算,数据在内存中将大大提升IO操作。这也是Spark涉及的核心:内存计算。Spark和RDD的关系可以理解为:RDD是一种具有容错性基于内存的集群计算抽象方法,Spark则是这个抽象方法的实现。

  • 第5题:

    RDD特性包含如下哪些?()

    • A、一组分片(Partition),即数据集的基本组成单位
    • B、一个计算每个分区的函数
    • C、RDD之间的依赖关系
    • D、一个列表,存储存取每个Partition的优先位置(preferredlocation)

    正确答案:A,B,C,D

  • 第6题:

    RDD(ResilientDistributedDataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合


    正确答案:正确

  • 第7题:

    SparkSQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用


    正确答案:正确

  • 第8题:

    spark中的rdd不存储数据,存储的是()

    • A、业务逻辑
    • B、物理数据
    • C、数据库数据
    • D、物理逻辑

    正确答案:A

  • 第9题:

    下列不属于Google云计算平台技术架构的是()

    • A、并行数据处理MapReduce
    • B、分布式锁Chubby
    • C、结构化数据表BigTable
    • D、弹性云计算EC2

    正确答案:D

  • 第10题:

    判断题
    Spark是基于内存的计算,所有的Spark程序运行过程中的数据只能存储在内存中。
    A

    B


    正确答案:
    解析: 暂无解析

  • 第11题:

    单选题
    下列有关RDD的说法中错误的是()。
    A

    RDD是一个只读的,可分区的分布式数据集。

    B

    RDD默认存储在磁盘,当磁盘不足时,溢写到内存。

    C

    RDD数据以分区的形式在集群中存储。

    D

    RDD具有血统机制,发生数据丢失时,可快速进行数据恢复。


    正确答案: B
    解析: 暂无解析

  • 第12题:

    问答题
    描述Spark集群计算中RDD的含义和作用。

    正确答案: Spark的核心概念是RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。Spark解决迭代计算的主要实现思想就是RDD,把所有计算的数据保存在分布式的内存中。迭代计算通常情况下都是对同一个数据集做反复的迭代计算,数据在内存中将大大提升IO操作。这也是Spark涉及的核心:内存计算。Spark和RDD的关系可以理解为:RDD是一种具有容错性基于内存的集群计算抽象方法,Spark则是这个抽象方法的实现。
    解析: 暂无解析

  • 第13题:

    spark中以下哪些特性是rdd的特性()

    • A、计算移动
    • B、数据不移动
    • C、数据移动
    • D、计算不移动

    正确答案:A,C,D

  • 第14题:

    spark在进行数据切分的时候,决定了partition的哪些属性()

    • A、冗余性
    • B、一致性
    • C、rdd之间具有依赖性
    • D、每个rdd都会提供一批最优的计算位置

    正确答案:A,B

  • 第15题:

    rdd是spark中个哪个架构提出的概念()

    • A、spark core
    • B、spark streaming
    • C、mlbase
    • D、Grophx

    正确答案:A

  • 第16题:

    与RDD类似,DataFrame也是一个分布式数据容器


    正确答案:正确

  • 第17题:

    spark框架中,机器学习库的框架是哪个()

    • A、hadoop
    • B、spark?streaming
    • C、mlbase
    • D、RDD

    正确答案:C

  • 第18题:

    worker组件在spark的任务调度中具有以下哪个作用()

    • A、计算数据
    • B、存储数据
    • C、运送数据
    • D、心跳检测

    正确答案:A

  • 第19题:

    spark为分布式数据集的处理提供了一个有效框架,并以高效的方式处理()数据集

    • A、单机
    • B、集中式
    • C、分布式
    • D、NOSQL

    正确答案:C

  • 第20题:

    SparkSQL是一个用来处理结构化数据的spark组件。它提供了一个叫做()的可编程抽象数据模型

    • A、DataFrames
    • B、Table
    • C、DataSet
    • D、RDD

    正确答案:A

  • 第21题:

    问答题
    Spark是基于内存计算的大数据计算平台,试述Spark的主要特点。

    正确答案: S.park具有如下4个主要特点:
    ①运行速度快;②容易使用;③通用性;④运行模式多样。
    解析: 暂无解析

  • 第22题:

    单选题
    下列不属于Google云计算平台技术架构的是(  )。
    A

    并行数据处理MapReduce

    B

    分布式锁Chubby

    C

    结构化数据表BigTable

    D

    弹性云计算EC2


    正确答案: A
    解析:

  • 第23题:

    判断题
    Spark是一个类似于MapReduce的分布式计算框架,其核心是弹性分布式数据集
    A

    B


    正确答案:
    解析: 暂无解析