由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - Amazon试题算法
相关主题
大家用什么电话服务,手机计划的时间不够用G家面试设计题
bloomberg onsite被据,暑假3个月怎么过新手求建议选offer, 求建议!
Hama是怎么一回事?Got an offer
Facebook 加面 Design 题最新!Google内部员工传出的事件真实内幕。 (转载)
大家有关distributed system的题目都是怎么复习的?有谁知道如何在email里加入HTML的页面吗
说说system design的interviewfresh Ph.D.的简历都几页?
问有没有mapreduce,hadoop,hbase经验怎么处理?amazon电面
面试题求助paging和 segmentation有什么区别?
相关话题的讨论汇总
话题: page话题: incoming话题: pages话题: most话题: links
进入JobHunting版参与讨论
1 (共1页)
b********e
发帖数: 693
1
How will you find the page with most incoming links from billions of web-
pages
l*****a
发帖数: 559
2
i guess
hashmap, do it in a distributed environment.
b********e
发帖数: 693
3
Billion web pages, how distributed?

【在 l*****a 的大作中提到】
: i guess
: hashmap, do it in a distributed environment.

a****9
发帖数: 418
4
Random walk?
in probability, the pages with most incoming links will be visited most.

【在 b********e 的大作中提到】
: How will you find the page with most incoming links from billions of web-
: pages

s********y
发帖数: 3811
5
nope. random walk will get you the page with highest pagerank value, not the
page with most inlinks.

【在 a****9 的大作中提到】
: Random walk?
: in probability, the pages with most incoming links will be visited most.

y*********e
发帖数: 518
6
这个不就是PageRank那篇论文的idea嘛,Google就是以这篇Paper起家的。
首先要阐述的是incoming link count是怎么来的。
这就是写个Crawler咯,从一个Page走到另外一个Page,同时更新link count。
然后所有的page根据incoming link count排序,就可以了。
无论是Crawler还是排序,需要处理billion级别的数据。用MapReduce吧。
1 (共1页)
进入JobHunting版参与讨论
相关主题
paging和 segmentation有什么区别?大家有关distributed system的题目都是怎么复习的?
有做过UBS的test的吗说说system design的interview
regex interview question问有没有mapreduce,hadoop,hbase经验怎么处理?
电话面试一个design问题,看看怎么做面试题求助
大家用什么电话服务,手机计划的时间不够用G家面试设计题
bloomberg onsite被据,暑假3个月怎么过新手求建议选offer, 求建议!
Hama是怎么一回事?Got an offer
Facebook 加面 Design 题最新!Google内部员工传出的事件真实内幕。 (转载)
相关话题的讨论汇总
话题: page话题: incoming话题: pages话题: most话题: links