Hive SQL語句執行順序

Hive 中 sql 語句的執行順序如下：

from .. where .. join .. on .. select .. group by .. select .. having .. distinct .. order by .. limit .. union/union all

下面我們通過壹個 sql 語句分析下：

上面這條 sql 語句是可以成功執行的，我們看下它在 MR 中的執行順序：

Map 階段 ：

Reduce 階段 ：

上面這個執行順序到底對不對呢，我們可以通過 explain 執行計劃來看下，內容過多，我們分階段來看。

我們看到 Stage-5 是根，也就是最先執行 Stage-5，Stage-2 依賴 Stage-5，Stage-0 依賴 Stage-2。

圖中標 ① 處是表掃描操作，註意先掃描的 b 表，也就是 left join 後面的表，然後進行過濾操作（圖中標 ② 處），我們 sql 語句中是對 a 表進行的過濾，但是 Hive 也會自動對 b 表進行相同的過濾操作，這樣可以減少關聯的數據量。

先掃描 a 表（圖中標 ① 處）；接下來進行過濾操作 idno > '112233'（圖中標 ② 處）；然後進行 left join，關聯的 key 是 idno（圖中標 ③ 處）；執行完關聯操作之後會進行輸出操作，輸出的是三個字段，包括 select 的兩個字段加 group by 的壹個字段（圖中標 ④ 處）；然後進行 group by 操作，分組方式是 hash（圖中標 ⑤ 處）；然後進行排序操作，按照 idno 進行正向排序（圖中標 ⑥ 處）。

首先進行 group by 操作，註意此時的分組方式是 mergepartial 合並分組（圖中標 ① 處）；然後進行 select 操作，此時輸出的字段只有兩個了，輸出的行數是 30304 行（圖中標 ② 處）；接下來執行 having 的過濾操作，過濾出 count_user>1 的字段，輸出的行數是 10101 行（圖中標 ③ 處）；然後進行 limit 限制輸出的行數（圖中標 ④ 處）；圖中標 ⑤ 處表示是否對文件壓縮，false 不壓縮。

限制最終輸出的行數為 10 行。

通過上面對 SQL 執行計劃的分析，總結以下幾點：

上一篇:智能指令源代碼

下一篇:股票cci指標多少買入

拼多多可以幫忙助力嗎如果妳也需要的話?謝謝了可以互幫互助嗎