當前位置:編程學習大全網 - 源碼下載 - Hive SQL語句執行順序

Hive SQL語句執行順序

Hive 中 sql 語句的執行順序如下:

from .. where .. join .. on .. select .. group by .. select .. having .. distinct .. order by .. limit .. union/union all

下面我們通過壹個 sql 語句分析下:

上面這條 sql 語句是可以成功執行的,我們看下它在 MR 中的執行順序:

Map 階段

Reduce 階段

上面這個執行順序到底對不對呢,我們可以通過 explain 執行計劃來看下,內容過多,我們分階段來看。

我們看到 Stage-5 是根,也就是最先執行 Stage-5,Stage-2 依賴 Stage-5,Stage-0 依賴 Stage-2。

圖中標 ① 處是表掃描操作,註意先掃描的 b 表,也就是 left join 後面的表,然後進行過濾操作(圖中標 ② 處),我們 sql 語句中是對 a 表進行的過濾,但是 Hive 也會自動對 b 表進行相同的過濾操作,這樣可以減少關聯的數據量。

先掃描 a 表(圖中標 ① 處);接下來進行過濾操作 idno > '112233'(圖中標 ② 處);然後進行 left join,關聯的 key 是 idno(圖中標 ③ 處);執行完關聯操作之後會進行輸出操作,輸出的是三個字段,包括 select 的兩個字段加 group by 的壹個字段(圖中標 ④ 處);然後進行 group by 操作,分組方式是 hash(圖中標 ⑤ 處);然後進行排序操作,按照 idno 進行正向排序(圖中標 ⑥ 處)。

首先進行 group by 操作,註意此時的分組方式是 mergepartial 合並分組(圖中標 ① 處);然後進行 select 操作,此時輸出的字段只有兩個了,輸出的行數是 30304 行(圖中標 ② 處);接下來執行 having 的過濾操作,過濾出 count_user>1 的字段,輸出的行數是 10101 行(圖中標 ③ 處);然後進行 limit 限制輸出的行數(圖中標 ④ 處);圖中標 ⑤ 處表示是否對文件壓縮,false 不壓縮。

限制最終輸出的行數為 10 行。

通過上面對 SQL 執行計劃的分析,總結以下幾點:

  • 上一篇:智能指令源代碼
  • 下一篇:股票cci指標多少買入
  • copyright 2024編程學習大全網