由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 问个问题 (large-scale question)
相关主题
find top K most occurring words in streaming data 这题怎么做比较好2-sum 用hash table实现的问题
新手问个问题:用C面试怎么用hash呀马上要去G onsite了,求助个问题
Interview Question I Got平果口头奥佛加面筋,请牛人指点
storm和spark, maprduce比有什么优势?亚马逊电面一
一个google面试题大家总是说工作中不会用到算法
在线紧急求助一道system design面试题,面经内附回馈本版,发个cisco面经
如何秒杀99%的海量数据处理面试题[合集] 一道CS面试题
HashTable相关的面试题大量数据里面找top 100
相关话题的讨论汇总
话题: 问个问题话题: scale话题: large话题: question话题: 文件
进入JobHunting版参与讨论
1 (共1页)
B*****p
发帖数: 339
1
如果有很多很多streaming的data,想统计有多少unique的entry
hashtable存不了太多,因为内存限制,如果允许一定的error,怎么统计
想了好多方案,貌似都不是怎么nice. 欢迎大侠们讨论
w***g
发帖数: 5958
2
bloom filter

【在 B*****p 的大作中提到】
: 如果有很多很多streaming的data,想统计有多少unique的entry
: hashtable存不了太多,因为内存限制,如果允许一定的error,怎么统计
: 想了好多方案,貌似都不是怎么nice. 欢迎大侠们讨论

t******e
发帖数: 1293
3
一看到说允许一定错误的,马上就要说bloom filter了

【在 w***g 的大作中提到】
: bloom filter
y*********e
发帖数: 518
4
可以用类似外部文件排序的方法解。
对于目标文件,读取每一行,然后计算hash。根据hash值,把这一行存入到不同的文件
中。
这一步完成之后,就相当于把文件拆成数个小文件了。每一个就可以用hashtable解。
对整个文件读2遍,写2遍。
优化的方案可以有:用2颗硬盘,一个专门读,一个专门写。若是有多个机器,可以用
MapReduce。

【在 B*****p 的大作中提到】
: 如果有很多很多streaming的data,想统计有多少unique的entry
: hashtable存不了太多,因为内存限制,如果允许一定的error,怎么统计
: 想了好多方案,貌似都不是怎么nice. 欢迎大侠们讨论

B*****p
发帖数: 339
5
这个也是我的第一反应, 然后立马错了...
虽然我不知道哥好得办法,但是人家说不知道为啥要用bloom filter,不能解决问题

【在 t******e 的大作中提到】
: 一看到说允许一定错误的,马上就要说bloom filter了
1 (共1页)
进入JobHunting版参与讨论
相关主题
大量数据里面找top 100一个google面试题
an interview question in careercup在线紧急求助一道system design面试题,面经内附
昨天面试MS如何秒杀99%的海量数据处理面试题
Hash table in JavaHashTable相关的面试题
find top K most occurring words in streaming data 这题怎么做比较好2-sum 用hash table实现的问题
新手问个问题:用C面试怎么用hash呀马上要去G onsite了,求助个问题
Interview Question I Got平果口头奥佛加面筋,请牛人指点
storm和spark, maprduce比有什么优势?亚马逊电面一
相关话题的讨论汇总
话题: 问个问题话题: scale话题: large话题: question话题: 文件