由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 最popular url的算法问题
相关主题
三连击报offer from Amazon &MS, 同时谢谢大家 在板上学到好多东西
一个较难的pythpn输出函数运行信息的project.考古--用户最多的3连击问题
再问道题讨论个idea题
两道经典design问题求助[电话面试] 非死不可 2
贡献邮件面试题(Web Development)从流中找the first unique or the only dup
一个算法问题LinkedIn面试题请教
一个F的大数据题tinyurl 设计的时候回答需要注意什么,除了hash还有什么。
一个 sql 题目咨询一个system design 小细节问题
相关话题的讨论汇总
话题: url话题: popular话题: unique话题: 算法话题: 链接
进入JobHunting版参与讨论
1 (共1页)
e****9
发帖数: 316
1
一个很大的日志文件
每行有两个field,第一个field是url, 第二个field是userid
最popular url的定义是最多unique user去点的链接。
比如两个链接,第一个只有一个用户点,点了一千次。
第二个链接十个用户点,每人点了一次。
这样第二个链接更popular.
想了想怎么都是一个n * m的复杂度。
有什么更高效的处理算法吗?
e****9
发帖数: 316
2
感觉这个好像和google PageRank的算法比较类似
http://en.wikipedia.org/wiki/PageRank
c*******y
发帖数: 98
3
我猜n是unique URL num,m是unique USER num?要是有m*n条log那跑不了是O(m*n)了
,但一般不会吧。map啥的不就做了。内存不够就distributed map
e****9
发帖数: 316
4
n是unique URL num,m是unique USER num。
map怎么搞?不work.
感觉就是需要一个m * n的遍历。
c*******y
发帖数: 98
5
你这问题到底是动态还是静态提取最热点?静态感觉没意义啊。动态就得想怎么存log
的信息,怎么拿热点最快。估计就是个heap吧。map用来找url在heap里的位置。什么不
够了就分散到多个机器上。

【在 e****9 的大作中提到】
: n是unique URL num,m是unique USER num。
: map怎么搞?不work.
: 感觉就是需要一个m * n的遍历。

e****9
发帖数: 316
6
静态的。
静态的也有意义啊 。大概可以分析出那些url比较受欢迎。
就是这个静态分析当数据量大的时候计算都很困难。

log

【在 c*******y 的大作中提到】
: 你这问题到底是动态还是静态提取最热点?静态感觉没意义啊。动态就得想怎么存log
: 的信息,怎么拿热点最快。估计就是个heap吧。map用来找url在heap里的位置。什么不
: 够了就分散到多个机器上。

1 (共1页)
进入JobHunting版参与讨论
相关主题
咨询一个system design 小细节问题贡献邮件面试题(Web Development)
我的Yahoo Interview一个算法问题
急问:关于转换单位以及相应的身份问题一个F的大数据题
第一个master剩的opt第二个master能接着用吗?(包子)一个 sql 题目
三连击报offer from Amazon &MS, 同时谢谢大家 在板上学到好多东西
一个较难的pythpn输出函数运行信息的project.考古--用户最多的3连击问题
再问道题讨论个idea题
两道经典design问题求助[电话面试] 非死不可 2
相关话题的讨论汇总
话题: url话题: popular话题: unique话题: 算法话题: 链接