當前位置:編程學習大全網 - 源碼下載 - 如何設置Spark

如何設置Spark

之前壹直糾結怎麽在Eclipse下調試用Java編寫的spark程序,這裏給大家講壹下步驟。實際上,沒有幾步,但是在網絡上面不好找,幾乎沒有這樣的文章或者技術貼。 在Eclipse下調試spark程序時,通常會用兩種錯誤,第壹種是hadoop的winUtils.exe有問題,第二種是序列化問題,錯誤表現是akka連接不上。 工具/原料 winUtils.exe spark 方法/步驟 設置環境變量:HADOOP_HOME,在windows下調試Eclipse時,並不需要在windows下安裝hadoop,只需要配置壹下環境變量就好了,然後HADOOP_HOME執行的位置的bin下要有winUtils.exe,設置環境變量的方式不用講了吧! 在Eclipse項目中添加spark-assembly-1.4.1-hadoop2.4.0.jar,這裏添加妳需要的版本。 註意,不要使用spark的分散的jar包,這壹點主要是maven時需要註意,因為maven時它會下載好多jar,這裏會引進第二個問題,序列化問題,應該是scala的問題。 設置環境變量SPARK_CLASSPATH,這個環境變量不是必須的,妳看壹下妳的服務器是不是設置了。 其實這壹步和下面的壹步本質作用是壹樣的,都是告訴spark依賴的jar,而告訴spark依賴jar的方法有兩種,壹種是設置環境變量,另壹種是addJar方式。作者是這樣認為,如果公用的jar,那麽就通過設置環境變量的方式,如果是算法私有的jar,就通過addJar方式。 註意,環境變量SPAKR_CLASSPATH的值是unix方式,就是跟服務器設置的壹樣,不要用win的方式“;”,為啥呢?作者認為,通過設置環境變量的方式時,在初始化spark上下文時,並沒有分發jar到各個worker,所以需要指定jar在服務器的位置。(有問題的話,請留言,嘴拙) addJar方式,上面講過了。與環境變量的方式區別在於,驅動程序啟動,初始化上下文時,需要分發jar到各個worker,所以針對私有的jar,最好使用addJar方式。 到了這裏,應該全部配置完成了,如果我講述的比較清晰的話,妳應該可以隨意調試了。 如果存在問題,請指正。如果有疑問,請留言。 END 註意事項 SPAKR_CLASSPATH,如果不知道怎麽弄,那麽就不要設置了,全用addJar方式

  • 上一篇:兩個Redis實例互相SLAVEOF會怎樣?
  • 下一篇:安卓系統停止運行該怎麽辦
  • copyright 2024編程學習大全網