大数据开发的一次面试题及延伸

    xiaoxiao2023-11-08  160

    华润集团的大数据开发笔试题20道选择题,包括单选和多选题

    一、单选题

    1.关于SecondaryNameNode,哪一选项是正确的? (my:C)

    A、它是NameNode的热备

    B、它对内存没有要求

    C、他的目的是帮助NameNode合并编辑日志,减少NameNode启动时间。

    D、SecondaryNameNode应与NameNode部署到同一节点上。

    2.Client端上传文件的时候下列哪项是正确的?(my:B)

    A、数据经过NameNode传递给DataNode

    B、Client端将文件切分为Block,依次上传

    C、Client只上传数据到一台DataNode,然后由NameNode负责Block复制工作

    3.下面与HDFS类似的框架是?(my:C)

    A、NTFS

    B、FAT32

    C、GFS

    D、EXT3

    4.以下描述错误的是?(my:D)

    A、输入分片inputsplit其实是对数据的引用

    B、MultipleInputs可以设置多个数据源以及它们对应的输入格式

    C、可以通过重载isSplittable()方法来避免文件分片

    D、ReduceTask需要等到所有的map输出都复制完才进行merge

    5、以下哪种不是Hadoop对于小文件的处理方式 (my:D)

    A、SequenceFile

    B、ConbinedInputFormat

    C、Archive

    D、ByteBuffer

    6、默认的Namenode web管理端口是?(my:A)

    A、50070

    B、8020

    C、50030

    D、22

    7、关系型数据库与HDFS之间相互数据迁移的工具?(my:D)

    A、distop

    B、fsck

    C、fastcopy

    D、sqoop

    8、hadoop2.x采用什么技术构建源代码?(my:C)

    A、ant

    B、ivy

    C、maven

    D、makefile

    9、以下属于oozie作用的是?(my:C) A、作业监控

    B、日志收集

    C、工作流调度

    D、集群管理

    10、下面那个类的声明是正确的?(my:D)

    A、abstract final class A{}

    B、abstract private B(){}

    C、protected private C

    D、public abstract class D{}

    11、默认的mapreduce输入格式是?(my:A)

    A、TextInputFormat

    B、keyValue TextInputFormat

    C、NlinearInputFormat

    D、SequenceFileInputFormat

    12、以下哪个组件可以指定对key进行reduce分发的策略?(my:C)

    A、RecordReader

    B、Combiner

    C、Partitioner

    D、FileInputFormat

    13、以下哪些是是RDD的特点?(my: ABD)

    A、可分区

    B、可序列化

    C、可修改

    D、可持久化

    14、关于spark累加器,下面哪些是正确的?(my:ABC)

    A、支持加法

    B、支持数值类型

    C、可并行

    D、不支持自定义类型

    15、Spark支持的分布式部署方式中哪些是正确的?(my:ABC)

    A、standalone

    B、spark on mesos

    C、spark on YARN

    D、Spark on local

    16、下列哪些是RDD的缓存方法?(my:AB)

    A、persist

    B、cache

    C、memory

    17.下面哪些对Hbase的描述是正确的?(my:BCD) A、不是开源的

    B、是面向列的

    C、是分布式的

    D、是一种NoSQL数据库

    18、下面哪些概念是HBase框架中使用到的?(my:AC)

    A、HDFS

    B、GridFS

    C、Zookeeper

    D、ExT3

    19.哪些组件的元数据存储在zookeeper中?(my:BC)

    A、hbase

    B、storm

    C、kafka

    D、spark

    20.hadoop生态圈汇总的类sql查询引擎包括?(my:BD)

    A、impala

    B、prestodb

    C、drill

    D、hive

    以上是我个人的答案,不知道正确与否,仅仅是作为一次面试的记录,有感兴趣的朋友,可以自己私下做一下相应的答案。

    另附上一些相关材料:

    hadoop生态圈各个组件简介

    Hbase总结(六)hbase37个笔试题

    Spark支持三种分布式部署方式

    spark的广播变量和累加器的用法

    Spark RDD概念学习系列之RDD的五大特征

    RDD的5大特点

    面试题--精选Hadoop选择题 important

    MapReduce类型与格式(输入与输出)

    hadoop最新自测题及答案

    Hadoop关于处理大量小文件的问题和解决方法

    关于hadoop处理大量小文件情况的解决方法

    secondary namenode和namenode的区别

     

     

     

    最新回复(0)