W***o 发帖数: 6519 | 1 【 以下文字转载自 JobHunting 讨论区 】
发信人: Wardo (Wardo), 信区: JobHunting
标 题: MapReduce 请教:key 能用pair value吗?比如
发信站: BBS 未名空间站 (Fri Oct 18 01:17:05 2013, 美东)
我在分析一个犯罪数据,从2001年到2013年的,有大概6GB, CSV格式。里面大概有20
个columns,但是我只对其中几栏需要分析。比如我想分析每种犯罪在每年的数量,所以
我想能否用这样一个key: , 也就是犯罪类型和年份这个pair作为key,
然后这个key所对应的value就是sum of the occurrences of theft in 2005.
请教一下大侠这种是否可行?有没有更好的方法?谢谢,10个包子感谢 | s**********o 发帖数: 14359 | 2 可以,但你的犯罪类型可以有SUB类型吧,比如,偷盗,可以分为小偷小摸,入室抢劫
,SHOPLIFTING,抢银行等等,如果将来一变,你的KEY也要变的,而且你这个明显是
GROUP BY出来的SUMMARY TABLE, 为什么不一个RECORD加一个KEY呢,这样更好存储 |
|