由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 问道算法题
相关主题
问两道amazon的面试题一些算法题。
amazon三连击这题要怎么设计hash function呢?有人用js面试算法么,效果如何
考古--用户最多的3连击问题A Google question
请教一个面试题英语理解力太烂: 题目看不懂
Amazon(5)求解。。。
问个近期亚麻高频题目[合集] 那个Google random generate 1-7的题怎么做啊?
一个算法问题讨论个idea题
面试题amazon版上面试问题请教
相关话题的讨论汇总
话题: userid话题: file话题: do话题: each
进入JobHunting版参与讨论
1 (共1页)
m********a
发帖数: 128
1
如果给你big file, size much greater than memory,
in the file, each line contains
userId, pageIdVistedByUser
How do you generate the list of pageIds for each user?
must do it on one machine. not map reduce.
l*****a
发帖数: 14598
2
这个也能叫算法题?

【在 m********a 的大作中提到】
: 如果给你big file, size much greater than memory,
: in the file, each line contains
: userId, pageIdVistedByUser
: How do you generate the list of pageIds for each user?
: must do it on one machine. not map reduce.

m********a
发帖数: 128
3
是啊,面试官是这么说的。。。

【在 l*****a 的大作中提到】
: 这个也能叫算法题?
m********a
发帖数: 128
4
如果给你big file, size much greater than memory,
in the file, each line contains
userId, pageIdVistedByUser
it's not sorted, userId can occur multiple times in the file. How do you
generate the list of visitedPageIds for each user?
must do it on one machine. not map reduce.
l*****a
发帖数: 14598
5
这个也能叫算法题?

【在 m********a 的大作中提到】
: 如果给你big file, size much greater than memory,
: in the file, each line contains
: userId, pageIdVistedByUser
: it's not sorted, userId can occur multiple times in the file. How do you
: generate the list of visitedPageIds for each user?
: must do it on one machine. not map reduce.

m********a
发帖数: 128
6
是啊,面试官是这么说的。。。

【在 l*****a 的大作中提到】
: 这个也能叫算法题?
m*****7
发帖数: 4
7
用(userID%n)来把所有的record分别存到n个文件里,这样同样的userID肯定在同一个
文件里,再分别处理每个文件就好了
s*w
发帖数: 729
8
这个没涉及算法啊
直接读文件,每个 userId 直接开个同名文件append pageID 进去
while read line
do
userID=$(echo "$line" | cut -d, -f1)
pageIDVistedByUser=$(echo "$line" | cut -d, -f2)
echo $pageIDVistedByUser >> userID
done < BigFile

【在 m********a 的大作中提到】
: 如果给你big file, size much greater than memory,
: in the file, each line contains
: userId, pageIdVistedByUser
: it's not sorted, userId can occur multiple times in the file. How do you
: generate the list of visitedPageIds for each user?
: must do it on one machine. not map reduce.

y****i
发帖数: 4109
9
请问这种题目是面试哪种职位啊,楼上倒数第二行的userID应该前面加个$
1 (共1页)
进入JobHunting版参与讨论
相关主题
amazon版上面试问题请教Amazon(5)
报offer from Amazon &MS, 同时谢谢大家 在板上学到好多东西问个近期亚麻高频题目
问一道题一个算法问题
分享amazon onsite ( rejected)面试题
问两道amazon的面试题一些算法题。
amazon三连击这题要怎么设计hash function呢?有人用js面试算法么,效果如何
考古--用户最多的3连击问题A Google question
请教一个面试题英语理解力太烂: 题目看不懂
相关话题的讨论汇总
话题: userid话题: file话题: do话题: each