大数据面试项目

xiaofei
大数据技术
2025-02-22 16:27:26
36

简述信息一览：

1、大数据面试题及答案谁能分享一下
2、大数据Hive面试题(一)
3、面试大数据时要怎么准备

大数据面试题及答案谁能分享一下

答案：MapReduce由Map和Reduce两阶段组成，Map阶段对本地磁盘输出排序数据，Reduce阶段对数据进行归并排序，数据按key分组后交给reduce处理。在Hadoop x中排序无法避免，Hadoop x可通过关闭相关配置避免。

答案：RDD，即Resilient Distributed Dataset，是Spark的基本数据抽象，代表一个不可变、可分区的并行计算***。RDD中的数据可在内存或磁盘中存储，分区的结构可动态调整。面试题4：列举并比较Spark中常用算子的区别。

（图片来源网络，侵删）

大数据是与复杂和大型数据集相关的术语。关系数据库无法处理大数据，这就是使用特殊工具和方法对大量数据执行操作的原因。大数据使公司能够更好地了解其业务，并帮助他们从定期收集的非结构化和原始数据中获取有意义的信息。大数据还允许公司***取数据支持的更好的业务决策。

大数据Hive面试题(一)

面试题四：如何在Hive中实现两张表的关联？对于关联操作，若其中一张表为小表，***用map端join加载小表进行聚合。

Hive支持存储格式包括TEXTFILE、SEQUENCEFILE、ORC与PARQUET。列式存储和行式存储各有特点，列式存储在查询少数字段时效率高，行式存储在查询整行数据时效率高。

（图片来源网络，侵删）

Hive的sort by和order by的区别在于，order by会进行全局排序，只有一个reduce任务，数据量大时处理速度慢；而sort by不进行全局排序，仅保证每个reduce任务内的数据有序，不能确保全局排序，需设置mapred.reduce.tasks大于1。希望这些关于Hive的面试题能帮助你更好地准备面试。