當前位置:編程學習大全網 - 源碼下載 - 如何添加Hadoop依賴通過Maven

如何添加Hadoop依賴通過Maven

Hadoop開發中需要用到至少不下10個的依賴包,它們相互間的依賴關系比較復雜,不同版本的依賴關系也有所不同,而間接依賴導致的程序錯誤並不會在運行之前報錯,因此確定適合壹個版本的依賴包,會耗費相當多的時間。Maven是壹個依賴管理和項目構建的工具,它利用慣例組織Java項目的結構,並允許通過簡單的配置定義直接依賴,而直接依賴所需的其他依賴則會通過事先定義好的關系列表自動下載,大大節省了開發者本身的工作量。

使用Maven管理依賴,相比於下載到lib文件夾再導入項目,有以下優勢:

節省找尋合適依賴所需的時間

便於依賴升級以適配不同的Hadoop版本

依賴下載到本地庫後可重復使用

縮小版本管理的文件體積

Maven在主流的Java IDE上都有插件,Eclipse可通過安裝m2eclipse,但這裏個人推薦與智能化程度更高、聯網更迅速、體驗更流暢的IntelliJ IDEA配合,以下就簡要介紹IntelliJ IDEA如何使用Maven。(以IntelliJ IDEA 13為例,它自帶了Maven的支持,無需安裝插件)

New Project -> Maven新建壹個Maven項目,在屬性欄填寫GroupId(項目或組織的唯壹標識)和ArtifactId(項目的通用名稱):

Next之後填寫項目名和項目位置:

新建項目之後有彈窗提示,選擇自動導入:

項目生成後的架構是這樣的,我們在src/main/java路徑下寫項目代碼,pom.xml是項目統壹的配置文件。

因為我們線上用的是Cloudera的Hadoop版本,所以我們需要在pom.xml的project節點下添加壹個CDH5的Maven遠程依賴倉庫(參考Using the CDH 5 Maven Repository)

開發壹個普通的Hadoop項目,我們壹般需要hadoop-common、hadoop-core兩組依賴;如果需要讀取HDFS上的文件內容,則需要hadoop-hdfs和hadoop-client另外兩組依賴;如果需要讀取HBase的數據,則需要再加入hbase-client。(以上均為artifactId,以CDH5.1.0為例)

IntelliJ IDEA提供了對pom文件非常智能的自動補全和實時查詢功能:

  • 上一篇:騰訊遊戲平臺旗下有多少遊戲?
  • 下一篇:MA線的參數設置多少最合適
  • copyright 2024編程學習大全網