问个Hadoop Word Count的简单问题 - Programming版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 问个Hadoop Word Count的简单问题

相关主题
● 菜鸟请教个hadoop streaming job 的问题 (转载)	● 一个101的面试题
● Mrjob很赞	● 诡异的异常处理
● 是否值得把业务逻辑做到Hbase coprocessor里面?	● 如何用hadoop 析取各种数据？
● aws EMR能设置一个mapper吗？	● 能不能在hadoop中用open mpi?
● Re: 请教板上老司机关于组和以后的发展方向	● Binary GCD algorithm
● hadoop java 里面的SomeClass.class 是什么意思？	● 请教：Map reduce到底是什么啊 (转载)
● 关于big data	● 版上有做编译的大牛么？问个问题
● 关于mapreduce一问	● ZK框架用处大吗？

相关话题的讨论汇总
话题: word话题: count话题: hadoop话题: reduce

进入Programming版参与讨论

1

(共1页)

l********s 发帖数: 358	1 我有很多个文件，每个文件中每一行都是一个word。用Hadoop来统计所有的word，和每个word总共出现的次数。程序很简单： Map(): context.write(word, one) Reduce(): for (IntWritable val : values) { sum += val.get(); } context.write(key, new IntWritable(sum)); 我的问题是如果我同时想要知道word的总数目，这样我就可以用来计算word出现的频率。有什么办法我可以在同一个map-reduce的job里面得到word的总数目？（当然，在我 dump out每个word出现的次数后，我可以在建一个map-reduce的job来得到总数目）。
z****e 发帖数: 54598	2 居然上来问作业怎么做
l********s 发帖数: 358	3 不是作业啦，纯粹工作之余学点新东西。其实我在map-reduce前逐行把文件读进来，得到总的count就可以，只是想知道有什么更容易的办法。我还是自己找本hadoop的cookbook来看看吧
y******u 发帖数: 804	4 貌似可以调整input format，不过貌似default就是你要求的这种格式请仔细看 http://hadoop.apache.org/docs/stable/mapred_tutorial.html 搜索 inputformat
n*******h 发帖数: 67	5 First find a string that you know will definitely not appear as a word in the text files. Let's say the string is 'xiaojiangsb'. Then in your mapper: emit both (word, 1) and ('xiaojiangsb', 1) for every word After reducing with your reducer, you will get the total word count associated with key 'xiaojiangsb'. To be efficient, you should use a combiner on the mapper nodes. 【在 l********s 的大作中提到】 : 我有很多个文件，每个文件中每一行都是一个word。用Hadoop来统计所有的word，和每 : 个word总共出现的次数。 : 程序很简单： : Map(): : context.write(word, one) : Reduce(): : for (IntWritable val : values) { : sum += val.get(); : } : context.write(key, new IntWritable(sum));
c*****a 发帖数: 1638	6 没看懂你的问题。 count（distinct word）还是count（×）不过答案是用counter，前者在reducr里面，后者在mapper里面【在 l********s 的大作中提到】 : 我有很多个文件，每个文件中每一行都是一个word。用Hadoop来统计所有的word，和每 : 个word总共出现的次数。 : 程序很简单： : Map(): : context.write(word, one) : Reduce(): : for (IntWritable val : values) { : sum += val.get(); : } : context.write(key, new IntWritable(sum));

1

(共1页)

进入Programming版参与讨论

相关主题
● ZK框架用处大吗？	● Re: 请教板上老司机关于组和以后的发展方向
● C++ template Questions (转载)	● hadoop java 里面的SomeClass.class 是什么意思？
● 帮看看C++分子式化简的程序，总是说exprected primary express	● 关于big data
● 请教一下这个template function在gcc下要怎么修改	● 关于mapreduce一问
● 菜鸟请教个hadoop streaming job 的问题 (转载)	● 一个101的面试题
● Mrjob很赞	● 诡异的异常处理
● 是否值得把业务逻辑做到Hbase coprocessor里面?	● 如何用hadoop 析取各种数据？
● aws EMR能设置一个mapper吗？	● 能不能在hadoop中用open mpi?

相关话题的讨论汇总
话题: word话题: count话题: hadoop话题: reduce

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)