Hive的矢量化查询优化,依赖于CPU的矢量化计算,CPU的矢量化计算的基本原理如下图:
Hive的矢量化查询,可以极大地提高一些典型的查询场景下的CPU使用效率,比如scans、filters、aggregates、joins等。
要使用此优化,必须把数据保存为ORC格式。
相关参数有1个:
(1)set hive.vectorized.execution.enables=true;——开启矢量化计算。默认为false。
若执行计划中出现了“Execution mode: vectorized”字样,则表示使用了矢量化计算。
官方文档说明请参考:https://cwiki.apache.org/confluence/display/hive/vectorized+query+execution