Hive优化——并行执行优化


发布于 2017-04-12 / 32 阅读 / 0 评论 /
Hive中可同时执行多个Stage,这就是并行执行优化。

Hive会将一个SQL语句转化成1个或多个Stage,每个Stage对应一个MR Job。默认情况下,Hive同时只会执行一个Stage,但是某SQL语句可能会包含多个Stage,但这多个Stage可能并非完全互相依赖,也就是说有些Stage是可以并行执行的。此处提到的并行执行是指这些Stage的并行执行。

相关参数有2个:

(1)set hive.exec.parallel=true;

启用并行执行优化。

(2)set hive.exec.parallel.thread.number=8;

同一个SQL允许最大并行度。默认为8。