A、Crawler
B、Jsoup
C、Hertrix
D、Nutch
第1题:
54、下面关于Storm框架设计描述正确的是:
A.Storm运行在分布式集群中,其运行任务的方式与Hadoop类似
B.在Hadoop上运行的是MapReduce作业,而在Storm上运行的是“Topology”
C.Storm集群采用P2P架构
D.Storm采用了Zookeeper来作为分布式协调组件
第2题:
【多选题】Hadoop 集群可以运行在()3个模式。
A.单机模式
B.伪分布式模式
C.完全分布式模式
D.脱机模式
第3题:
3、下面描述正确的是:
A.Hadoop和Spark不能部署在同一个集群中
B.Hadoop只包含了存储组件,不包含计算组件
C.Spark是一个分布式计算框架,可以和Hadoop组合使用
D.Spark和Hadoop是竞争关系,二者不能组合使用
第4题:
14、网站根目录中哪个文件里面的内容会告诉爬虫哪些数据是可以爬取的,哪些数据是不可以爬取的
A.robot.txt
B.robot.html
C.robots.txt
D.robots.html
第5题:
关于Hadoop生态系统以下描述正确的是
A.Hadoop已经不再只是起初的HDFS 和MapReduce,而是代表了核心即Core Hadoop,Hadoop项目以及与之相关的一个生态系统。#B.Hive是一种新的结构化查询语言。Sqoop支持Hadoop和关系数据库或大型机之间传输数据。Pig一个基于Hadoop的大规模数据分析工具。它们都属于数据访问的组建。#C.Flume是一个可伸缩的、可靠的系统,用于从各种来源收集和移动集群日志。ZooKeeper通过简单的编程接口实现分布式系统的分布式协调服务。它们都属于数据管理的组建。#D.以上都正确