关于Hadoop和Spark的相互关系,以下说法正确的是?
A.Hadoop和Spark可以相互协作
B.Hadoop负责数据的存储和管理
C.Spark负责数据的计算
D.Spark要操作Hadoop中的数据,需要先启动HDFS
第1题:
hadoop和spark的都是并行计算,两者都是用mr模型来进行并行计算,hadoop的一个作业称为job,job里面分为maptask和reducetask,每个task都是在自己的进程中运行的,当task结束时,进程也会结束
第2题:
与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快10倍以上
第3题:
spark架构中cache算子应具有以下哪些特性?()
第4题:
以下和spark中一个action算子对应的是()
第5题:
hadoop和spark的都是并行计算,两者都是用mr模型来进行并行计算,hadoop的一个作业称为job,job里面分为map?task和reduce?task,每个task都是在自己的进程中运行的,当task结束时,进程也会结束
第6题:
下列选项中是spark组件的有?()
第7题:
内存计算下,Spark?比?Hadoop?快10倍
第8题:
以下关于“逻辑”的说法不正确的是()
第9题:
Hive最终将数据存储在HDFS中
HiveSQL其本质是执行MapReduce任务
Hive是Hadoop平台的数据仓库工具
Hive对HBase有强依赖
第10题:
Strom实时计算延迟度为毫秒级
Strom吞吐量高
SparkStreaming不支持且完善事务机制
SparkStreaming支持动态调整并行度
第11题:
调用RDD的Transformation算子可以立即发起job
NodeManager负责整个集群的资源统一调度和分配。
Yarn-client适合测试,Yarn-cluster适合生产。
Dataset具有RDD和DataFrame的优点,又避免它们的缺点。
第12题:
第13题:
Hadoop之父DougCutting曾曰Spark迟早会把mapreduce给取代,意味着hadoop已经走向没落,会被取代逐渐淘汰
第14题:
以下选项中可以在spark中编写sql的框架是()
第15题:
spark架构中会出现控制算子的原因是以下哪个选项()
第16题:
以下选项中是spark的核心框架的是()
第17题:
关于spark中cache算子与persist算子关系叙述正确的是()
第18题:
以下哪个选项是spark的核心框架?()
第19题:
Spark可以使用Hadoop的YARN和ApacheMesos作为它的资源管理和调度器,并且可以处理所有Hadoop支持的数据,包括HDFS、HBase和Cassandra等
第20题:
第21题:
Flink能够支持Yarn,能够从HDFS和HBase中获取数据
能够使用所有的Hadoop的格式化输入和输出
能够使用Hadoop原有的Mappers和Reducers,但不能与Flink的操作混合使用
能够更快的运行Hadoop的作业
第22题:
第23题:
对
错
第24题:
Hadoop只提供了一种API
Hadoop提供了新旧两种API
新API可以完全兼容Hadoop2.0
旧API不能够完全兼容Hadoop2.0