saveAsSequenceFile动作算子将数据集中的元素以Hadoopsequencefile的格式保存到指定的目录下,可以使HDFS或者其他Hadoop支持的文件系统
第1题:
第2题:
关于数据备份说法错误的是()
第3题:
创建rdd可以有如下几种?()
第4题:
Hive?是建立在Hadoop?之上的,所有?Hive?的数据都是存储在HDFS?中的
第5题:
Spark可以使用Hadoop的YARN和ApacheMesos作为它的资源管理和调度器,并且可以处理所有Hadoop支持的数据,包括HDFS、HBase和Cassandra等
第6题:
分布式文件系统HDFS主要由哪些功能模块构成()
第7题:
支持回收站机制,以及副本数的动态设置机制
数据存储以数据块为单位,存储在操作系统的HDFS文件系统上
提供JAVAAPI,HTTP方式,SHELL方式访问HDFS数据
HDFS对外仅呈现多个统一的文件系统
第8题:
适合数据批量处理
数据处理能力极强
最大化吞吐率
允许计算向数据迁移
适合多线程问题
第9题:
将数据备份到文件时,必须指定文件要保存的名称和位置
备份文件可以保存到硬盘、软盘或任何其他可以保存文件的可移动或不可移动媒体
将数据备份到磁带时,计算机必须接有磁带设备
备份工具支持使用CD-RW(可重写光盘)和CD-R(可读写光盘)
第10题:
大量小文件存储
高容错,高吞吐量
低延迟读取
流式数据访问
第11题:
(难度:中等)可以使用Flume将MySQL中的数据写入hdfs中
答案:(yes)
第12题:
( 难度:中等)下列关于Hadoop API的说法正确的是
A.Hadoop的文件API不是通用的,只用于HDFS文件系统
B.Configuration类的默认实例化方法是以HDFS系统的资源配置为基础的
C.FileStatus对象存储文件和目录的元数据
D.FSDataInputStream是javio.DataInputStream的子类
答案:BCD
第13题:
hadoop中的hdfs实现底层是通过以下哪个选项实现的()
第14题:
saveAsText算子将数据集的元素以textfile的形式保存到HDFS文件系统或者其他支持的文件系统,对于每个元素,Spark将会调用toString方法,将它装换为文件中的文本
第15题:
Hadoop分布式文件系统(HDFS)具有()的特性。
第16题:
Hive架构建立在Hadoop之上的,所有Hive中数据都是存储在HDFS中
第17题:
HDFS无法高效存储大量小文件,想让它能处理好小文件,比较可行的改进策略不包括().
第18题:
Flink能够支持Yarn,能够从HDFS和HBase中获取数据
能够使用所有的Hadoop的格式化输入和输出
能够使用Hadoop原有的Mappers和Reducers,但不能与Flink的操作混合使用
能够更快的运行Hadoop的作业
第19题:
Hive最终将数据存储在HDFS中
HiveSQL其本质是执行MapReduce任务
Hive是Hadoop平台的数据仓库工具
Hive对HBase有强依赖
第20题:
对
错
第21题:
对
错
第22题:
NameNode
DataNode
ZooKeeper
JobTraoker
第23题:
( 难度:中等)以下哪些命令可以查看hadoop中的文件大小
A.hdfs dfs -ls
B.hdfs dfs -cat
C.hdfs dfs -count
D.hdfs dfs -du
答案:ACD