如何設置Spark

之前壹直糾結怎麽在Eclipse下調試用Java編寫的spark程序，這裏給大家講壹下步驟。實際上，沒有幾步，但是在網絡上面不好找，幾乎沒有這樣的文章或者技術貼。在Eclipse下調試spark程序時，通常會用兩種錯誤，第壹種是hadoop的winUtils.exe有問題，第二種是序列化問題，錯誤表現是akka連接不上。工具/原料 winUtils.exe spark 方法/步驟設置環境變量：HADOOP_HOME，在windows下調試Eclipse時，並不需要在windows下安裝hadoop，只需要配置壹下環境變量就好了，然後HADOOP_HOME執行的位置的bin下要有winUtils.exe，設置環境變量的方式不用講了吧！在Eclipse項目中添加spark-assembly-1.4.1-hadoop2.4.0.jar，這裏添加妳需要的版本。註意，不要使用spark的分散的jar包，這壹點主要是maven時需要註意，因為maven時它會下載好多jar，這裏會引進第二個問題，序列化問題，應該是scala的問題。設置環境變量SPARK_CLASSPATH，這個環境變量不是必須的，妳看壹下妳的服務器是不是設置了。其實這壹步和下面的壹步本質作用是壹樣的，都是告訴spark依賴的jar，而告訴spark依賴jar的方法有兩種，壹種是設置環境變量，另壹種是addJar方式。作者是這樣認為，如果公用的jar，那麽就通過設置環境變量的方式，如果是算法私有的jar，就通過addJar方式。註意，環境變量SPAKR_CLASSPATH的值是unix方式，就是跟服務器設置的壹樣，不要用win的方式“;”，為啥呢？作者認為，通過設置環境變量的方式時，在初始化spark上下文時，並沒有分發jar到各個worker，所以需要指定jar在服務器的位置。（有問題的話，請留言，嘴拙） addJar方式，上面講過了。與環境變量的方式區別在於，驅動程序啟動，初始化上下文時，需要分發jar到各個worker，所以針對私有的jar，最好使用addJar方式。到了這裏，應該全部配置完成了，如果我講述的比較清晰的話，妳應該可以隨意調試了。如果存在問題，請指正。如果有疑問，請留言。 END 註意事項 SPAKR_CLASSPATH，如果不知道怎麽弄，那麽就不要設置了，全用addJar方式