参考答案和解析
错误
更多“Hadoop实现的PageRank的MapReduce算法中每轮迭代需要一轮MapReduce”相关问题
  • 第1题:

    Hadoop中执行MapReduce任务不含哪种方式()。

    A.Mahout

    B.Hadoopjar

    C.Shell脚本

    D.Python


    正确答案:A

  • 第2题:

    Hadoop是Java开发的,所以MapReduce只支持Java语言编写。( )

    此题为判断题(对,错)。


    正确答案:错误

  • 第3题:

    MapReduce框架提供了一种序列化键/值对的方法,支持这种序列化的类能够在Map和Reduce过程中充当键或值,以下说法错误的是()

    A.实现Writable接口的类是值

    B.实现WritableComparable接口的类可以是值或键

    C.Hadoop的基本类型Text并不实现WritableComparable接口

    D.键和值的数据类型可以超出Hadoop自身支持的基本类型


    正确答案:C

  • 第4题:

    基于RUP的软件过程是一个迭代过程。一个开发周期包括初始、细化、构建和移交四个阶段,每次通过这四个阶段就会产生一代软件,采用迭代式开发( )。

    A.在每一轮迭代中都要进行测试与集成
    B.每一轮迭代的重点是对特定的用例进行部分实现
    C.在后续迭代中强调用户的主动参与
    D.通常以功能分解为基础

    答案:A
    解析:
    RUP中的软件过程在时间上被分解为4个顺序的阶段,分别是初始阶段、细化阶段、构建阶段和移交阶段。初始阶段的任务是为系统建立业务模型并确定项目的边界。细化阶段的任务是分析问题领域,建立完善的架构,淘汰项目中最高风险的元素。在构建阶段,要开发所有剩余的构件和应用程序功能,把这些构件集成为产品。移交阶段的重点是确保软件对最终用户是可用的。基于RUP的软件过程是一个迭代过程,通过初始、细化、构建和移交4个阶段就是一个开发周期,每次经过这4个阶段就会产生一代产品,在每一轮迭代中都要进行测试与集成。

  • 第5题:

    与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快10倍以上


    正确答案:正确

  • 第6题:

    hadoop中的mapreduce是基于什么运行的计算框架()

    • A、内存
    • B、磁盘
    • C、内存加磁盘
    • D、网络

    正确答案:B

  • 第7题:

    MapReduce是一种编程模型,用户只需通过编写()函数来实现自己的计算逻辑。

    • A、SQL
    • B、map
    • C、Reduce
    • D、逻辑

    正确答案:B,C

  • 第8题:

    问答题
    Spark的出现是为了解决Hadoop MapReduce的不足,试列举Hadoop MapReduce的几个缺陷,并说明Spark具备哪些优点。

    正确答案: (1)Hadoop存在以下缺点:
    ①表达能力有限;②磁盘IO开销大;③延迟高
    (2)Spark主要有如下优点:
    ①Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作,还提供了多种数据集操作类型,编程模型比MapReduce更灵活;
    ②Spark提供了内存计算,中间结果直接存放内存中,带来更高的迭代运算效率;
    ③Spark基于DAG的任务调度执行机制,要优于MapReduce的迭代执行机制。
    解析: 暂无解析

  • 第9题:

    多选题
    MapReduce是一种编程模型,用户只需通过编写()函数来实现自己的计算逻辑。
    A

    SQL

    B

    map

    C

    Reduce

    D

    逻辑


    正确答案: D,B
    解析: 暂无解析

  • 第10题:

    问答题
    试述hadoop和谷歌的mapreduce、gfs等技术之间的关系

    正确答案: Hadoop的核心是分布式文件系统HDFS和MapReduce,HDFS是谷歌文件系统GFS的开源实现,MapReduces是针对谷歌MapReduce的开源实现。
    解析: 暂无解析

  • 第11题:

    问答题
    请阐述MapReduce1.0体系结构中存在的问题。

    正确答案: (1)存在单点故障;
    (2)JobTracker“大包大揽”导致任务过重;
    (3)容易出现内存溢出;
    (4)资源划分不合理。
    解析: 暂无解析

  • 第12题:

    单选题
    Hadoop中MapReduce组件擅长处理哪种场景的计算任务?()
    A

    迭代计算

    B

    离线计算

    C

    实时交互计算

    D

    流式计算


    正确答案: C
    解析: 暂无解析

  • 第13题:

    在DES算法中,需要进行16轮加密,每一轮的子密钥长度为()

    A、16

    B、32

    C、48

    D、64


    正确答案:CE

  • 第14题:

    下列关于MapReduce说法不正确的是( )。

    A.MapReduce是一种计算框架

    B.MapReduce来源于google的学术论文

    C.MapReduce程序只能用java语言编写

    D.MapReduce隐藏了并行计算的细节,方便使用


    正确答案:C

  • 第15题:

    有关MapReduce的输入输出,说法错误的是()

    A.链接多个MapReduce作业时,序列文件是首选格式

    B.FileInputFormat中实现的getSplits()可以把输入数据划分为分片,分片数目和大小任意定义

    C.想完全禁止输出,可以使用NullOutputFormat

    D.每个reduce需将它的输出写入自己的文件中,输出无需分片


    正确答案:B
    解析:分片数目在numSplits中限定,分片大小必须大于mapred.min.size个字节,但小于文件系统的块

  • 第16题:

    Hadoop之父DougCutting曾曰Spark迟早会把mapreduce给取代,意味着hadoop已经走向没落,会被取代逐渐淘汰


    正确答案:错误

  • 第17题:

    MapReduce更适合以下哪种大数据处理业务

    • A、ETL
    • B、迭代挖掘算法
    • C、图挖掘算法
    • D、统计

    正确答案:A,D

  • 第18题:

    若不针对MapReduce编程模型中的key和value值进行特别设置,下列哪一项是MapReduce不适宜的运算()。

    • A、Max
    • B、Min
    • C、Count
    • D、Average

    正确答案:D

  • 第19题:

    问答题
    请描述在YARN框架中执行一个MapReduce程序时,从提交到完成需要经历的具体步骤。

    正确答案: ①用户编写客户端应用程序,向YARN提交应用程序,提交的内容包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。
    ②YARN中的ResourceManager负责接收和处理来自客户端的请求。接到客户端应用程序请求后,ResourceManager里面的调度器会为应用程序分配一个容器。同时,ResourceManager的应用程序管理器会与该容器所在的NodeManager通信,为该应用程序在该容器中启动一个ApplicationMaster。
    ③ApplicationMaster被创建后会首先向ResourceManager注册,从而使得用户可以通过ResourceManager来直接查看应用程序的运行状态。
    ④ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请资源。
    ⑤ResourceManager以“容器”的形式向提出申请的ApplicationMaster分配资源,一旦ApplicationMaster申请到资源后,就会与该容器所在的NodeManager进行通信,要求它启动任务。
    ⑥当ApplicationMaster要求容器启动任务时,它会为任务设置好运行环境(包括环境变量、JAR包、二进制程序等),然后将任务启动命令写到一个脚本中,最后通过在容器中运行该脚本来启动任务。
    ⑦各个任务通过某个RPC协议向ApplicationMaster汇报自己的状态和进度,让ApplicationMaster可以随时掌握各个任务的运行状态,从而可以在任务失败时重启任务。
    ⑧应用程序运行完成后,ApplicationMaster向ResourceManager的应用程序管理器注销并关闭自己。若ApplicationMaster因故失败,ResourceManager中的应用程序管理器会监测到失败的情形,然后将其重新启动,直到所有任务执行完毕。
    解析: 暂无解析

  • 第20题:

    单选题
    关于Hive和Hadoop其他组件的关系,以下描述错误的是?()
    A

    Hive最终将数据存储在HDFS中

    B

    HiveSQL其本质是执行MapReduce任务

    C

    Hive是Hadoop平台的数据仓库工具

    D

    Hive对HBase有强依赖


    正确答案: D
    解析: 暂无解析

  • 第21题:

    多选题
    MapReduce更适合以下哪种大数据处理业务
    A

    ETL

    B

    迭代挖掘算法

    C

    图挖掘算法

    D

    统计


    正确答案: D,A
    解析: 暂无解析

  • 第22题:

    单选题
    MapReduce适合做下列哪项()。
    A

    迭代计算

    B

    离线计算

    C

    实时交互计算

    D

    流式计算


    正确答案: B
    解析: 暂无解析

  • 第23题:

    问答题
    试述MapReduce和Hadoop的关系。

    正确答案: 谷歌公司最先提出了分布式并行编程模型MapReduce, Hadoop MapReduce是它的开源实现。谷歌的MapReduce运行在分布式文件系统GFS上,与谷歌类似,HadoopMapReduce运行在分布式文件系统HDFS上。相对而言,HadoopMapReduce 要比谷歌MapReduce 的使用门槛低很多,程序员即使没有任何分布式程序开发经验,也可以很轻松地开发出分布式程序并部署到计算机集群中。
    解析: 暂无解析

  • 第24题:

    问答题
    MapReduce 是处理大数据的有力工具,但不是每个任务都可以使用MapReduce 来进行处理。试述适合用MapReduce来处理的任务或者数据集需满足怎样的要求。

    正确答案: 适合用MapReduce来处理的数据集,需要满足一个前提条件:待处理的数据集可以分解成许多小的数据集,而且每一个小数据集都可以完全并行地进行处理。
    解析: 暂无解析