Hive优化——矢量化查询优化


发布于 2017-04-08 / 39 阅读 / 0 评论 /
在特殊场景下,通过矢量查询能更快得到结果。

Hive的矢量化查询优化,依赖于CPU的矢量化计算,CPU的矢量化计算的基本原理如下图:

Hive的矢量化查询,可以极大地提高一些典型的查询场景下的CPU使用效率,比如scans、filters、aggregates、joins等。

要使用此优化,必须把数据保存为ORC格式。

相关参数有1个:

(1)set hive.vectorized.execution.enables=true;——开启矢量化计算。默认为false。

若执行计划中出现了“Execution mode: vectorized”字样,则表示使用了矢量化计算。

官方文档说明请参考:https://cwiki.apache.org/confluence/display/hive/vectorized+query+execution