由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 请教一个海量数据处理的题
相关主题
请教F家和T家最近的一道常见题明天面apple, 求bless
刚面了amazon一个design题
How to find median of a stream of integers ?贡献两个面经吧
前几天有个朋友发过一个总结大量数据处理问题的帖子,怎么找不到了?请教一道产生随机数的问题
有人知道这本书吗?1年写2w行代码 算正常吗?
看到有人要海量数据处理的书一个概率+编程题。
海量数据处理的题目Google电面
关于设计问题的范围明天onsite,求下bless了
相关话题的讨论汇总
话题: 4g话题: 海量话题: 4m话题: 数据处理话题: 文件
进入JobHunting版参与讨论
1 (共1页)
f*********m
发帖数: 726
1
从“秒杀。。。”看来的,不解其意。
题目:非常大的文件,装不进内存。每行一个int类型数据,现在要你随机取100个数。
文章说“可以按照操作系统中的方法,先生成4G的地址表,在把这个表划分为小的4M的
小文件做个索引,二级索引。30位前十位表示第几个4M文件,后20位表示在这个4M文件
的第几个,等等,基于key value来设计存储,用key来建索引。”
是不是说这个4G的地址表每一个地址存放一个int?但int数目大于4G怎么办?另外,随
机数generator的范围是多少,是0~4G吗?还是要用generator好几次,每次对应不同的
位?
谢谢。
o***d
发帖数: 313
2
why not use "reservoir sampling"?
p.s. what's the title of that "秒杀" book?
f*********m
发帖数: 726
3
why not use "reservoir sampling"?
数据海量,loop一边很费时间,还是在表中查找方便。
http://blog.csdn.net/v_july_v/article/details/7382693

【在 o***d 的大作中提到】
: why not use "reservoir sampling"?
: p.s. what's the title of that "秒杀" book?

f*********m
发帖数: 726
4
顶,请赐教。

【在 f*********m 的大作中提到】
: 从“秒杀。。。”看来的,不解其意。
: 题目:非常大的文件,装不进内存。每行一个int类型数据,现在要你随机取100个数。
: 文章说“可以按照操作系统中的方法,先生成4G的地址表,在把这个表划分为小的4M的
: 小文件做个索引,二级索引。30位前十位表示第几个4M文件,后20位表示在这个4M文件
: 的第几个,等等,基于key value来设计存储,用key来建索引。”
: 是不是说这个4G的地址表每一个地址存放一个int?但int数目大于4G怎么办?另外,随
: 机数generator的范围是多少,是0~4G吗?还是要用generator好几次,每次对应不同的
: 位?
: 谢谢。

r**********g
发帖数: 22734
5
啥叫随机取100个数?random generate 100 个 index?
Build index也要时间啊,还能比reservior快?这题出的糊涂
f*********m
发帖数: 726
6
我想是说从文件里随机采样100个数。
若是能把文件中的每个数的所在的内存地址估计出来,那么也许能用到答案所说的方法?

【在 r**********g 的大作中提到】
: 啥叫随机取100个数?random generate 100 个 index?
: Build index也要时间啊,还能比reservior快?这题出的糊涂

1 (共1页)
进入JobHunting版参与讨论
相关主题
明天onsite,求下bless了有人知道这本书吗?
Yelp 面经看到有人要海量数据处理的书
给后人贡献一下 pg那个游戏公司的面试题目海量数据处理的题目
ZocDoc Skype 面经 (update:已经悲剧)关于设计问题的范围
请教F家和T家最近的一道常见题明天面apple, 求bless
刚面了amazon一个design题
How to find median of a stream of integers ?贡献两个面经吧
前几天有个朋友发过一个总结大量数据处理问题的帖子,怎么找不到了?请教一道产生随机数的问题
相关话题的讨论汇总
话题: 4g话题: 海量话题: 4m话题: 数据处理话题: 文件