Hive会将一个SQL语句转化成1个或多个Stage,每个Stage对应一个MR Job。默认情况下,Hive同时只会执行一个Stage,但是某SQL语句可能会包含多个Stage,但这多个Stage可能并非完全互相依赖,也就是说有些Stage是可以并行执行的。此处提到的并行执行是指这些Stage的并行执行。
相关参数有2个:
(1)set hive.exec.parallel=true;
启用并行执行优化。
(2)set hive.exec.parallel.thread.number=8;
同一个SQL允许最大并行度。默认为8。