SparkSQL是一个用来处理结构化数据的spark组件。它提供了一个叫做()的可编程抽象数据模型
第1题:
在面向对象的程序设计中,将数据和处理数据的操作封装成一个整体就定义了一种事物的类型,称作“类”。类是一种抽象的概念,属于该类的一个实例叫做“【 】”。
第2题:
第3题:
SparkSQL的应运而生,它是将SparkSQL转换成RDD,然后提交到集群执行,执行效率非常快
第4题:
spark中的rdd是一个()数据集
第5题:
spark中以下哪些特性是rdd的特性()
第6题:
spark在进行数据切分的时候,决定了partition的哪些属性()
第7题:
Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询(SparkSQL)、实时流处理(SparkStreaming)、机器学习(SparkMLlib)和图计算(GraphX)
第8题:
spark框架中,机器学习库的框架是哪个()
第9题:
Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、SparkStreaming、GraphX、MLlib等子项目
第10题:
spark为分布式数据集的处理提供了一个有效框架,并以高效的方式处理()数据集
第11题:
AH是IPSec的一个组件,用来保证数据的完整性。
第12题:
( 难度:中等)关于spark中RDD说法错误的是:
A.宽依赖指的是多个子RDD的分区会依赖同一个父RDD的分区,关系是一对多
B.窄依赖指的是每一个父RDD的分区最多被子RDD的一个分区使用,是一对一的
C.宽依赖中会有shuffle的产生
D.窄依赖中会有shuffle的产生
答案:D
第13题:
第14题:
大数据服务是一个复杂的系统,它提供了数据从产生到消亡整个生命周期的数据处理功能。
第15题:
以下属于spark启动后进程的是()
第16题:
sparkSql不支持查询原生的RDD
第17题:
sparkSql仅仅支持查询原生的RDD,其他方式的查询都不支持
第18题:
rdd是spark中个哪个架构提出的概念()
第19题:
sparkSql可以访问hive数据,并将其结果取回作为RDD使用
第20题:
RDD(ResilientDistributedDataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合
第21题:
SparkSQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用
第22题:
spark中的rdd不存储数据,存储的是()
第23题:
数据库
数据库管理系统
数据模型
关系型数据库管理系统