當前位置:編程學習大全網 - 網站源碼 - Sqoop工作原理是什麽?

Sqoop工作原理是什麽?

Sqoop是壹款用於把關系型數據庫中的數據導入到hdfs中或者hive中的工具,當然也支持把數據從hdfs或者hive導入到關系型數據庫中。

Sqoop也是基於Mapreduce來做的數據導入。

關於sqoop的原理

sqoop的原理比較簡單,就是根據用戶指定的sql或者字段參數,從數據庫中讀取數據導入到hive或者hdfs中。也支持基於數據庫導出工具導出,不過受限於數據庫的版本。

在導出的過程中,sqoop會自動切分mapreduce任務。比如某個字段的主鍵是從1到1000,那麽當設置num-mappers為2時,第壹個mr任務會讀取1-500的數據,第二個mr任務會讀取500-1000的數據。如果是字符串還有其他的劃分方法.

關於架構

sqoop目前有兩個大版本,第壹個版本比較簡單,只能使用命令行

第二個版本引入了sqoop server,統壹處理連接等信息,並提供多種連接方式,還引入了權限控制,另外規範了連接的各項配置。

  • 上一篇:如何錄制迅雷看看裏面的電影
  • 下一篇:請高手編寫壹個通達信選股程序?
  • copyright 2024編程學習大全網