當前位置:編程學習大全網 - 源碼下載 - hadoop 怎麽設置多個輸入路徑

hadoop 怎麽設置多個輸入路徑

以上的更改就是兩個表進來,都可通過此類進行輸入,無須針對兩個表,要寫兩個繼承FileInputFormat並實現WritableComparable接口的類。下面才是如何讓才采樣器只采壹個文件的,啊哈!答案說出來笑死人了,那就是利用MultipleInputs先指定要采樣的那個輸入路徑,然後調用采樣器,采樣結束後於采樣相關的流、文件什麽的進行關閉,最後再用MultipleInputs指定第二個輸入路徑。這樣路徑壹的文件(可以包含多個文本,妳懂的)先采樣,然後路徑壹和路徑二的文件都進入map了,map再根據壹些額外的信息判斷來自那個路徑的數據。

MultipleInputs.addInputPath(conf, new Path(args[0]), Definemyself.class,Mapclass.class);//第壹個輸入路徑

/*********下面采樣**********更多采樣的細節見我領壹篇博客,不壹樣的視角那篇***********/

Path input = new Path(args[0].toString());

input = input.makeQualified(input.getFileSystem(conf));

InputSampler.RandomSampler<Text, NullWritable> sampler = new InputSampler.RandomSampler<Text, NullWritable>(0.4,20, 5);

/...........此處省略細節................/

IOUtils.closeStream(fs_out);// 關閉流,有關采樣的結束了。

/...............此處添加壹些其他的需要的工作,例如分布式緩存啦,Hashtable的處理阿............../

MultipleInputs.addInputPath(conf, new Path(args[3]), Definemyself.class, Mapclass.class); //最後指定輸入的第二條路徑

JobClient.runJob(conf);

上壹篇Hadoop中的各種排序

下壹篇hadoop 兩表join

0

0

主題推薦hadoophashtable分布式數據博客

猜妳在找

傳遞參數到mapreduce中hadoop源碼研讀之路(三)----序列化TCP為什麽采用隨機初始序列號pythonMySQLdb執行sql文件命令經典數據結構沈思錄(二):數組和鏈表Hadoop InputFormat淺析--hadoop如何分配輸入20140312 GitHub 與 Git 基礎 02 實戰 下載Spring Framework源碼Tomcat配置虛擬目錄(使用XML部署項目)hive建表手記壹些開源的JMX工具

查看評論

暫無評論

您還沒有登錄,請[登錄]或[註冊]

* 以上用戶言論只代表其個人觀點,不代表CSDN網站的觀點或立場

TOP

核心技術類目

全部主題 Hadoop AWS 移動遊戲 Java Android iOS Swift 智能硬件 Docker OpenStack VPN Spark ERP IE10 Eclipse CRM JavaScript 數據庫 Ubuntu NFC WAP jQuery BI HTML5 Spring Apache .NET API HTML SDK IIS Fedora XML LBS Unity Splashtop UML components Windows Mobile Rails QEMU KDE Cassandra CloudStack FTC coremail OPhone CouchBase 雲計算 iOS6 Rackspace Web App SpringSide Maemo Compuware 大數據 aptech Perl Tornado Ruby Hibernate ThinkPHP HBase Pure Solr Angular Cloud Foundry Redis Scala Django Bootstrap

個人資料

訪問我的空間

keda8997110

訪問:180731次

積分:3871

等級:

排名:第2631名

原創:187篇轉載:78篇譯文:2篇評論:34條

文章搜索

文章分類

JAVA(99)

Oracle(14)

數據結構與算法(6)

Linux(29)

Js(13)

網絡(12)

操作系統(2)

服務器(11)

Hadoop(32)

分布式(18)

Spring(7)

Hibernate(3)

maven(3)

雅虎統計基礎數據定義(1)

數據庫(14)

60個開發者不容錯過的免費資源庫(1)

SVN中trunk(2)

branches(1)

tags用法詳解(1)

mybatis(7)

利用Mybatis Generator自動生成Mybatis的相關代碼(1)

文章存檔

2014年10月(1)

2014年09月(3)

2014年08月(1)

2014年07月(1)

2014年04月(8)

展開

閱讀排行

svn的merge使用例子(10804)

JS中生成與解析JSON(8417)

Java NIO與IO(7067)

varnish配置詳解(6301)

memcached: error while loading shared libraries: libevent-2.0.so.5: cannot o(2950)

-bash: wget: command not found的兩種解決方法(2873)

maven命令大全(2411)

Oracle、Db2、SqlServer、MySQL 數據庫插入當前系統時間(2353)

spring MVC的註解(2266)

Win7 eclipse Hadoop Failed to set permissions of path(2176)

評論排行

svn的merge使用例子(4)

heartbeat 心跳技術(4)

Java NIO與IO(3)

Linux環境變量的修改(永久,暫時)(2)

Win7 eclipse Hadoop Failed to set permissions of path(2)

hadoop單表關聯(2)

TCP長連接與短連接的區別(1)

Spring配置文件標簽報錯:The prefix "XXX" for element "XXX:XXX" is not bound. .(1)

tomcat集群(1)

Hadoop中的各種排序(1)

推薦文章

最新評論

svn的merge使用例子

u012450176: good!

varnish配置詳解

u012055579: 很詳細 樓主是怎麽學習的?

svn的merge使用例子

QQ575787460: 寫的很仔細,贊贊贊!

svn的merge使用例子

smach1991710: 寫的很好,贊!

svn的merge使用例子

zxy851112: sync

TCP長連接與短連接的區別

shawngo: 講的很透徹易懂,正是我想了解的。十分感謝!!!

Spring配置文件標簽報錯:The prefix "XXX" for element "XXX:XXX" is not bound. .

l791444672: 看見妳的文章解決了我的問題,非常感謝

Java NIO與IO

zxf95: @haoxinqingxin:/java-ni...

Java NIO與IO

zxf95: 這不是翻譯的麽

10種排序算法總結

changshenglugu: 謝謝!復習了壹遍,很詳明!

公司簡介|招賢納士|廣告服務|銀行匯款帳號|聯系方式|版權聲明|法律顧問|問題報告|合作夥伴|論壇反饋

網站客服雜誌客服微博客服webmaster@csdn.net400-600-2320|北京創新樂知信息技術有限公司 版權所有|江蘇樂知網絡技術有限公司 提供商務支持

京 ICP 證 070598 號|Copyright ? 1999-2014, CSDN.NET, All Rights Reserved GongshangLogo

  • 上一篇:為什麽BT這麽慢?
  • 下一篇:tortoisesvn怎樣安裝
  • copyright 2024編程學習大全網