教育
 -大数据技术原理与应用-章节资料考试资料-厦门大学【】
 第1章 大数据概述 单元测验
 1、【单选题】第三次信息化浪潮的标志是:
 A、个人电脑的普及
 B、互联网的普及
 C、云计算、大数据、物联网技术的普及
 D、虚拟现实技术的普及
 参考资料【 】
 2、【单选题】就数据的量级而言,1PB数据是多少TB?
 A、512
 B、1024
 C、1000
 D、2048
 参考资料【 】
 3、【单选题】以下关于云计算、大数据和物联网之间的关系,论述错误的是:
 A、云计算侧重于数据分析
 B、云计算、大数据和物联网三者紧密相关,相辅相成
 C、物联网可以借助于云计算实现海量数据的存储
 D、物联网可以借助于大数据实现海量数据的分析
 参考资料【 】
 4、【单选题】以下哪个不是大数据时代新兴的技术:
 A、Hadoop
 B、Spark
 C、HBase
 D、MySQL
 参考资料【 】
 5、【单选题】每种大数据产品都有特定的应用场景,以下哪个产品是用于批处理的:
 A、MapReduce
 B、Pregel
 C、Dremel
 D、Storm
 参考资料【 】
 6、【单选题】每种大数据产品都有特定的应用场景,以下哪个产品是用于流计算的:
 A、 GraphX
 B、S4
 C、Hive
 D、Impala
 参考资料【 】
 7、【单选题】每种大数据产品都有特定的应用场景,以下哪个产品是用于图计算的:
 A、Cassandra
 B、Flume
 C、Storm
 D、Pregel
 参考资料【 】
 8、【单选题】每种大数据产品都有特定的应用场景,以下哪个产品是用于查询分析计算的:
 A、MapReduce
 B、HDFS
 C、Dremel
 D、S4
 参考资料【 】
 9、【多选题】数据产生方式大致经历了三个阶段,包括:
 A、运营式系统阶段
 B、用户原创内容阶段
 C、感知式系统阶段
 D、移动互联网数据阶段
 参考资料【 】
 10、【多选题】大数据发展的三个阶段是:
 A、萌芽期
 B、低谷期
 C、成熟期
 D、大规模应用期
 参考资料【 】
 11、【多选题】大数据的特性包括:
 A、数据量大
 B、数据类型繁多
 C、处理速度快
 D、价值密度低
 参考资料【 】
 12、【多选题】图领奖获得者、著名数据库专家Jim Gray博士认为,人类自古以来在科学研究上先后经历了哪几种范式:
 A、实验科学
 B、理论科学
 C、计算科学
 D、数据密集型科学
 参考资料【 】
 13、【多选题】大数据带来思维方式的三个转变是:
 A、精确而非全面
 B、全样而非抽样
 C、效率而非精确
 D、相关而非因果
 参考资料【 】
 14、【多选题】大数据主要有哪几种计算模式:
 A、批处理计算
 B、流计算
 C、图计算
 D、查询分析计算
 参考资料【 】
 15、【多选题】云计算的典型服务模式包括三种:
 A、PaaS
 B、 IaaS
 C、SaaS
 D、MaaS
 参考资料【 】
 第2章 大数据处理架构Hadoop 单元测验
 1、【单选题】启动hadoop所有进程的命令是:
 A、start-dfs.sh
 B、start-hadoop.sh
 C、start-all.sh
 D、start-hdfs.sh
 参考资料【 】
 2、【单选题】以下对Hadoop的说法错误的是:
 A、Hadoop的核心是HDFS和MapReduce
 B、Hadoop是基于Java语言开发的,只支持Java语言编程
 C、Hadoop2.0增加了NameNode HA和Wire-compatibility两个重大特性
 D、Hadoop MapReduce是针对谷歌MapReduce的开源实现,通常用于大规模数据集的并行计算
 参考资料【 】
 3、【单选题】以下哪个不是Hadoop的特性:
 A、高容错性
 B、高可靠性
 C、成本高
 D、支持多种编程语言
 参考资料【 】
 4、【单选题】以下名词解释不正确的是:
 A、HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开源实现
 B、HBase:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTable的开源实现
 C、Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储
 D、Zookeeper:针对谷歌Chubby的一个开源实现,是高效可靠的协同工作系统
 参考资料【 】
 5、【多选题】以下哪些组件是Hadoop的生态系统的组件:
 A、MapReduce
 B、HDFS
 C、 Oracle
 D、HBase
 参考资料【 】
 6、【多选题】以下哪个命令可以用来操作HDFS文件:
 A、hadoop fs
 B、hdfs dfs
 C、hadoop dfs
 D、hdfs fs
 参考资料【 】
 第3章 分布式文件系统HDFS 单元测验
 1、【单选题】HDFS的命名空间不包含:
 A、目录
 B、文件
 C、块
 D、字节
 参考资料【 】
 2、【单选题】对HDFS通信协议的理解错误的是:
 A、HDFS通信协议都是构建在IoT协议基础之上的
 B、名称节点和数据节点之间则使用数据节点协议进行交互
 C、客户端与数据节点的交互是通过RPC(Remote Procedure Call)来实现的
 D、客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互
 参考资料【 】
 3、【单选题】采用多副本冗余存储的优势不包含:
 A、加快数据传输速度
 B、节约存储空间
 C、容易检查数据错误
 D、保证数据可靠性
 参考资料【 】
 4、【单选题】假设已经配置好环境变量,启动Hadoop和关闭Hadoop的命令分别是:
 A、start-hdfs.sh,stop-hdfs.sh
 B、start-dfs.sh,stop-dfs.sh
 C、start-dfs.sh,stop-hdfs.sh
 D、start-hdfs.sh,stop-dfs.sh
 参考资料【 】
 5、【单选题】分布式文件系统HDFS采用了主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,一类存储元数据叫 ,另一类存储具体数据叫 :
 A、名称节点,数据节点
 B、数据节点,名称节点
 C、名称节点,主节点
 D、从节点,主节点
 参考资料【 】
 6、【单选题】下面关于分布式文件系统HDFS的描述正确的是:
 A、分布式文件系统HDFS是一种关系型数据库
 B、分布式文件系统HDFS是Google Bigtable的一种开源实现
 C、分布式文件系统HDFS是谷歌分布式文件系统GFS(Google File System)的一种开源实现
 D、分布式文件系统HDFS比较适合存储大量零碎的小文件
 参考资料【 】
 7、【多选题】以下对名称节点理解正确的是:
 A、名称节点通常用来保存元数据
 B、名称节点的数据保存在内存中
 C、名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问
 D、名称节点用来负责具体用户数据的存储
 参考资料【 】
 8、【多选题】以下对数据节点理解正确的是:
 A、数据节点用来存储具体的文件内容
 B、数据节点的数据保存在磁盘中
 C、数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作
 D、数据节点通常只有一个
 参考资料【 】
 9、【多选题】HDFS只设置唯一一个名称节点带来的局限性包括:
 A、性能的瓶颈
 B、命名空间的限制
 C、隔离问题
 D、集群的可用性
 参考资料【 】
 10、【多选题】以下HDFS相关的shell命令不正确的是:
 A、hadoop fs -ls <path>:显示<path>指定的文件的详细信息
 B、hadoop dfs mkdir <path>:创建<path>指定的文件夹
 C、hadoop fs -copyFromLocal <path1> <path2>:将路径<path2>指定的文件或文件夹复制到路径<path1>指定的文件夹中
 D、hdfs dfs -rm <path>:删除路径<path>指定的文件
 参考资料【 】
 第4章 分布式数据库HBase单元测验
 1、【单选题】HBase是一种 数据库
 A、行式数据库
 B、列式数据库
 C、文档数据库
 D、关系数据库
 参考资料【 】
 2、【单选题】下列对HBase数据模型的描述错误的是:
 A、HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳
 B、HBase列族支持动态扩展,可以很轻松地添加一个列族或列
 C、HBase中执行更新操作时,会删除数据旧的版本,并生成一个新的版本
 D、每个HBase表都由若干行组成,每个行由行键(row key)来标识
 参考资料【 】
 3、【单选题】下列说法正确的是:
 A、HBase的实现包括的主要功能组件是库函数,一个Master主服务器和一个Region服务器
 B、Zookeeper是一个集群管理工具,常用于分布式计算,提供配置维护、域名服务、分布式同步等
 C、如果不启动Hadoop,则HBase完全无法使用
 D、如果通过HBase Shell插入表数据,可以插入一行数据或一个单元格数据
 参考资料【 】
 4、【单选题】在HBase数据库中,每个Region的建议最佳大小是:
 A、100MB-200MB
 B、500MB-1000MB
 C、1GB-2GB
 D、2GB-4GB
 参考资料【 】
 5、【单选题】HBase三层结构的顺序是:
 A、Zookeeper文件,.MEATA.表,-ROOT-表
 B、Zookeeper文件,-ROOT-表,.MEATA.表
 C、-ROOT-表,Zookeeper文件,.MEATA.表
 D、.MEATA.表,Zookeeper文件,-ROOT-表
 参考资料【 】
 6、【单选题】客户端是通过 级寻址来定位Region:
 A、一
 B、二
 C、三
 D、四
 参考资料【 】
 7、【单选题】关于HBase Shell命令解释错误的是:
 A、 create:创建表
 B、list:显示表的所有数据
 C、put:向表、行、列指定的单元格添加数据
 D、get:通过表名、行、列、时间戳、时间范围和版本号来获得相应单元格的值
 参考资料【 】
 8、【多选题】下列对HBase的理解正确的是:
 A、HBase是一个行式分布式数据库,是Hadoop生态系统中的一个组件
 B、 HBase是针对谷歌BigTable的开源实现
 C、HBase多用于存储非结构化和半结构化的松散数据
 D、HBase是一种关系型数据库,现成功应用于互联网服务领域
 参考资料【 】
 9、【多选题】HBase和传统关系型数据库的区别在于哪些方面:
 A、数据模型
 B、 数据操作
 C、存储模式
 D、数据索引
 参考资料【 】
 10、【多选题】访问HBase表中的行,有哪些方式:
 A、通过单个行健访问
 B、通过一个行健的区间来访问
 C、全表扫描
 D、通过某列的值区间
 参考资料【 】
 第5章 NoSQL数据库 单元测验
 1、【单选题】下列关于NoSQL数据库和关系型数据库的比较,不正确的是:
 A、NoSQL数据库具有弱一致性,关系型数据库具有强一致性
 B、NoSQL数据库很容易实现数据完整性,关系型数据库很难实现数据完整性
 C、NoSQL数据库的可扩展性比传统的关系型数据库更好
 D、NoSQL数据库缺乏统一的查询语言,而关系型数据库有标准化查询语言
 参考资料【 】
 2、【单选题】以下对各类数据库的理解错误的是:
 A、HBase数据库是列族数据库,可扩展性强,支持事务一致性
 B、文档数据库的数据是松散的,XML和JSON 文档等都可以作为数据存储在文档数据库中
 C、键值数据库的键是一个字符串对象,值可以是任意类型的数据,比如整型和字符型等
 D、图数据库灵活性高,支持复杂的图算法,可用于构建复杂的关系图谱
 参考资料【 】
 3、【单选题】下列数据库属于文档数据库的是:
 A、MySQL
 B、HBase
 C、Redis
 D、MongoDB
 参考资料【 】
 4、【单选题】 NoSQL数据库的三大理论基石不包括:
 A、 CAP
 B、 BASE
 C、最终一致性
 D、ACID
 参考资料【 】
 5、【多选题】关于NoSQL数据库和关系数据库,下列说法正确的是:
 A、关系数据库有关系代数理论作为基础,NoSQL数据库没有统一的理论基础
 B、NoSQL数据库可以支持超大规模数据存储,具有强大的横向扩展能力
 C、大多数NoSQL数据库很难实现数据完整性
 D、NoSQL数据库和关系数据库各有优缺点,但随着NoSQL的发展,终将取代关系数据库
 参考资料【 】
 6、【多选题】 NoSQL数据库的类型包括:
 A、键值数据库
 B、列族数据库
 C、文档数据库
 D、图数据库
 参考资料【 】
 7、【多选题】CAP是指:
 A、一致性
 B、可用性
 C、持久性
 D、分区容忍性
 参考资料【 】
 8、【多选题】NoSQL数据库的BASE特性是指:
 A、基本可用
 B、软状态
 C、最终一致性
 D、持续性
 参考资料【 】
 第6章 云数据库 单元测验
 1、【单选题】下列Amazon的云数据库属于关系数据库的是:
 A、Amazon SimpleDB
 B、Amazon RDS
 C、Amazon DynamoDB
 D、Amazon Redshift
 参考资料【 】
 2、【单选题】下列关于UMP系统的说法不正确的是:
 A、UMP系统是低成本和高性能的MySQL云数据库方案
 B、Controller服务器向UMP集群提供各种管理服务,实现集群成员管理、元数据存储等功能
 C、 Agent服务器部署在运行MySQL进程的机器上,用来管理每台物理机上的MySQL实例
 D、Mnesia是UMP系统的一个组件,是一个分布式数据库管理系统,且不支持事务
 参考资料【 】
 3、【多选题】UMP依赖的开源组件包括:
 A、Mnesia
 B、LVS
 C、RabbitMQ
 D、ZooKeeper
 参考资料【 】
 4、【多选题】在UMP系统中,Zookeeper主要发挥的作用包括:
 A、作为全局的配置服务器
 B、提供分布式锁,选出一个集群的“总管”
 C、监控所有MySQL实例
 D、负责集群负载均衡
 参考资料【 】
 5、【多选题】UMP系统设计了哪些机制来保证数据安全:
 A、SSL数据库连接
 B、记录用户操作日志
 C、数据访问IP白名单
 D、SQL拦截
 参考资料【 】
 第7章 MapReduce 单元测验
 1、【单选题】下列说法错误的是:
 A、Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写
 B、MapReduce框架采用了Master/Slave架构,包括一个Master和若干个Slave
 C、Map函数将输入的元素转换成<key,value>形式的键值对
 D、不同的Map任务之间不能互相通信
 参考资料【 】
 2、【单选题】在使用MapReduce程序WordCount进行词频统计时,对于文本行“hello hadoop hello world”,经过WordCount程序的Map函数处理后直接输出的中间结果,应该是下面哪种形式:
 A、<"hello",1,1>、<"hadoop",1>和<"world",1>
 B、<"hello",2>、<"hadoop",1>和<"world",1>
 C、<"hello",<1,1>>、<"hadoop",1>和<"world",1>
 D、<"hello",1>、<"hello",1>、<"hadoop",1>和<"world",1>
 参考资料【 】
 3、【单选题】对于文本行“hello hadoop hello world”,经过WordCount的Reduce函数处理后的结果是:
 A、<"hello",1,1><"hadoop",1><"world",1>
 B、<"hello",2><"hadoop",1><"world",1>
 C、 <"hello",<1,1>><"hadoop",1><"world",1>
 D、<"hello",1><"hello",1><"hadoop",1><"world",1>
 参考资料【 】
 4、【多选题】下列关于传统并行计算框架(比如MPI)和MapReduce并行计算框架比较正确的是:
 A、前者是共享式(共享内存/共享存储),容错性差,后者是非共享式的,容错性好
 B、前者所需硬件价格贵,可扩展性差,后者硬件便宜,扩展性好
 C、前者相比后者学习起来更难
 D、前者适用于实时、细粒度计算、计算密集型,后者适用于批处理、非实时、数据密集型
 参考资料【 】
 5、【多选题】MapReduce1.0的体系结构主要由哪几个部分组成:
 A、Client
 B、JobTracker
 C、TaskTracker
 D、Task
 参考资料【 】
 第8章 Hadoop再探讨 单元测验
 1、【单选题】下列说法正确的是:
 A、第二名称节点无法解决单点故障问题
 B、第二名称节点是热备份
 C、HDFS HA提供高可用性,可以实现可扩展性、系统性能和隔离性
 D、HDFS HA可用性不好
 参考资料【 】
 2、【单选题】HDFS Federation设计不能解决“单名称节点”存在的哪个问题:
 A、HDFS集群扩展性
 B、性能更高效
 C、良好的隔离性
 D、单点故障问题
 参考资料【 】
 3、【多选题】下列哪些是Hadoop1.0存在的问题:
 A、抽象层次低
 B、表达能力有限
 C、开发者自己管理作业之间的依赖关系
 D、执行迭代操作效率低
 参考资料【 】
 4、【多选题】下列对Hadoop各组件的理解正确的是:
 A、Pig:处理大规模数据的脚本语言
 B、Tez:支持DAG作业的计算框架
 C、Oozie:工作流和协作服务引擎
 D、Kafka:分布式发布订阅消息系统
 参考资料【 】
 5、【多选题】对新一代资源管理调度框架YARN的理解正确的是:
 A、YARN可以实现“一个集群多个框架”,即在一个集群上部署一个统一的资源调度管理框架
 B、YARN的体系结构包含三个组件:ResourceManager,NodeManager,ApplicationMaster
 C、YARN既是资源管理调度框架,也是一个计算框架
 D、MapReduce2.0是运行在YARN之上的计算框架,由YARN来为MapReduce提供资源管理调度服务
 参考资料【 】