常见大数据面试题目
大数据面试题
主播:蚂蚁文化传媒 播放:5万次最近更新: 2022-12-22
节目列表
正序 | 倒序
- 1129-请谈谈对ZooKeeper对事务性的支持?
- 2128-ZooKeeper使用的ZAB协议与Paxo算法的异同?
- 3127-ZooKeeper节点类型?
- 4126-谈谈你对ZooKeeper的理解?
- 5125-ZooKeeper集群中服务器之间是怎样通信的?
- 6123-ZooKeeper能否收到每次节点变化的通知?
- 7122-ZooKeeper中使用watch的注意事项有哪些?
- 8121-ZooKeeper对节点的watch监听是永久的吗?为什么?
- 9120-RDD的数据结构是怎么样的?
- 10119-spark和Mapreduce快? 为什么快呢? 快在哪里呢?
- 11118-Spark RDD 和 MapReduce2的区别?
- 12117-常见的数压缩方式,你们生产集群采用了什么压缩方式,提升了多少效率?
- 13116-CAPCACITY调度模式的优点和缺点?
- 14115-FAIR调度模式的优点和缺点?
- 15114-FIFO调度模式的基本原理、优点和缺点?
- 16113-Spark中standalone模式特点,有哪些优点和缺点?
- 17112-Spark中的HashShufle的有哪些不足?
- 18111-窄依赖父RDD的partition和子RDD的parition是不是都是一对一的关系?
- 19110-如何理解Standalone模式下,Spark资源分配是粗粒度的?
- 20109-rangePartioner分区器特点?
- 21109-doGet()方法和doPost()方法有什么区别?
- 22108-RangePartitioner分区的原理?
- 23107-spark hashParitioner的弊端是什么?
- 24106-Spark累加器有哪些特点?
- 25105-导致Executor产生FULL gc 的原因,可能导致什么问题?
- 26105-导致Executor产生FULL gc 的原因,可能导致什么问题?
- 27104-列出你所知道的调度器,说明其工作原理?
- 28103-运行在yarn中Application有几种类型的container?
- 29102-不启动Spark集群Master和work服务,可不可以运行Spark程序?
- 30101-RDD通过Linage(记录数据更新)的方式为何很高效?
- 31100-cache和pesist的区别?
- 32099-什么是RDD宽依赖和窄依赖?
- 33098-RDD机制?
- 34097-Mapreduce和Spark的都是并行计算,那么他们有什么相同和区别?
- 35096-Spark中Worker的主要工作是什么?
- 36095-Spark技术栈有哪些组件?
- 37094-driver的功能是什么?
- 38093-map与flatMap的区别?
- 39092-collect功能是什么,其底层是怎么实现的?
- 40091-RDD创建有哪几种方式?
- 41090-如何从Kafka中获取数据?
- 42089-Spark有哪些聚合类的算子?
- 43088-Sort-based shuffle的缺陷
- 44087-不需要排序的hash shuffle是否一定比需要排序的sort shuffle速度快?
- 45086-Spark应用程序的执行过程是什么?
- 46085-介绍parition和block有什么关联关系?
- 47084-Spark使用parquet文件存储格式能带来哪些好处?
- 48083-谈谈你对container的理解?
- 49082-Spark on Yarn 模式有哪些优点?
- 50081-描述Yarn执行一个任务的过程?
- 51080-介绍一下join操作优化经验?
- 52079-Spark为什么要持久化,一般什么场景下要进行persist操作?
- 53078-RDD有哪些缺陷?
- 54077-RDD的弹性表现在哪几点?
- 55076-spark的优化怎么做?
- 56075-spark工作机制?
- 57074-简单说一下hadoop和spark的shuffle相同和差异?
- 58073-Spark为什么比mapreduce快?
- 59072-spark的有几种部署模式,每种模式特点?
- 60071-kafka的消费者方式?
- 61070-kafka的balance是怎么做的?
- 62069-如何保证Kafka的消息有序
- 63068-Kafka有可能在生产后发生消息偏移吗?
- 64067-Kafka是否可以脱离ZooKeeper独立运行?
- 65066-请说明Kafka相对于传统的消息传递方法有什么优势?
- 66065-请说明什么是传统的消息传递方法?
- 67064-Kafka 分区数可以增加或减少吗?为什么?
- 68063-Kafka 新旧消费者的区别?
- 69062-Kafka 缺点有哪些?
- 70061-Kafka 是如何实现高吞吐率的?
- 71060-谈一谈 Kafka 的再均衡?
- 72059-Kafka新建的分区会在哪个目录下创建?
- 73058-Kafka创建Topic时如何将分区放置到不同的Broker中?
- 74057-Kafka 高效文件存储设计特点?
- 75056-Kafka消息是采用Pull模式,还是Push模式?
- 76055-Kafka 消费者是否可以消费指定分区消息?
- 77054-数据传输的事务有几种?
- 78053-LEO、HW、LSO、LW等分别代表什么?
- 79052-请简述下你在哪些场景下会选择 Kafka?
- 80051-Kafka 都有哪些特点?
- 81050-说说对Hive桶表的理解?
- 82049-Hive内部表和外部表的区别?
- 83048-Hive有哪些方式保存元数据,各有哪些特点?
- 84047-请谈一下Hive的特点?
- 85046-Hive的两张表关联,使用MapReduce怎么实现?
- 86045-Hive底层与数据库交互原理?
- 87044-Hive的HSQL转换为MapReduce的过程?
- 88043-Hive表关联查询,如何解决数据倾斜的问题?
- 89042-HBase集群安装注意事项有哪些?
- 90041-HBase在进行模型设计时重点在什么地方?
- 91040-Hbase中的memstore是用来做什么的?
- 92039-HBase内部机制是什么?
- 93038-HBase读写流程?
- 94037-HRegionServer宕机如何处理?
- 95036-请列举几个HBase优化方法?
- 96035-每天百亿数据存入HBase,如何保证数据的存储正确?
- 97034-简述HBase中compact用途是什么?
- 98033-描述HBase中scan和get的功能以及实现的异同?
- 99032-描述HBase的rowKey的设计原则?
- 100031-HBase适用于怎样的情景?
- 101030-HBase和Hive的区别?
- 102029-HBase的特点是什么?
- 103028-HDFS小文件优化方法?
- 104026-MapReduce优化方法?
- 105025-MapReduce跑得慢的原因?
- 106024-说一说MapReduce 2.0 容错性?
- 107023-说一说Hadoop的调度器?
- 108022-为什么会产生 yarn,它解决了什么问题,有什么优势?
- 109021-什么样的计算不能用mr来提速?
- 110020-如何使用mapReduce实现两个表的join
- 111019-Hadoop的缓存机制(Distributedcache)?
- 112018-描述mapReduce中combiner的作用是什么?
- 113017-MapTask和ReduceTask工作机制?
- 114016-谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化
- 115015-HAnamenode 是如何工作的
- 116014-HDFS组成架构有哪及部分组成?
- 117013-NameNode与SecondaryNameNode 的区别?
- 118012-secondary namenode工作机制?
- 119011-HDFS的存储机制是什么?
- 120010-HDFS 常见问题
- 121009-正常工作的Hadoop集群中需要启动哪些进程,作用是啥
- 122008- 解释“hadoop”和“hadoop 生态系统”两个概念
- 123007-Hadoop生态圈的组件并做简要描述
- 124006-Flume有哪些组件,flume的source、channel、sink具体是做什么的
- 125005- flume和kafka采集日志区别,采集日志时中间停了,怎么记录之前的日志?
- 126004- flume不采集Nginx日志,通过Logger4j采集日志,优缺点是什么?
- 127003-Flume与Kafka的选取
- 128002-Flume丢包问题
- 129001-Flume使用场景
相关专辑