Avro是一个数据序列化系统,设计用于支持大批量数据交换的应用。
SequenceFile是Hadoop提供的一种二进制文件支持,具有使用方便、可分割、可压缩的特点。
Hive存储格式表示表数据在文件中的组织形式。
Hive压缩格式也压缩算法
严格模式主要是保证任务的执行完去按照我们的设计来完成,不出纰漏。
Hive中可同时执行多个Stage,这就是并行执行优化。
本地模式优化主要适应输入数据集比较小的场景。
Hive在一些简单的Select查询时,可以使用Fetch抓取优化。
在特殊场景下,通过矢量查询能更快得到结果。
谓词相当于Hive SQL中的过滤条件,下推表示前移。