由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 求教关于URL的hash function
相关主题
universal hashing的问题微软onsite
问个hash table的问题how to query in the universal hash table?
关于hash table在a billion urls中找有75%url都有的prefix中的最长者?
LCA of binary tree的一行CODE不懂。。leetcode上的,请牛牛指教,问一个链表方面的算法问题 (转载)
在线紧急求助一道system design面试题,面经内附G新鲜面经
面试: Take home projectFG面经和感想
用hash value来distribute to diff machine的困惑zoosk software test engineer面经
问一道老题过去n小时的top search
相关话题的讨论汇总
话题: url话题: hash话题: function话题: 节点话题: sum
进入JobHunting版参与讨论
1 (共1页)
s*********e
发帖数: 36
1
求教各位牛人:
如果一个search engine系统从网上crawling很多的URL,为了保存不重复的URL,我们
用hash
table解决。这是个distributed hash table,分别保存在一个network里的各个节点上
。请问,
有什么比较好的hash function把一个URL map到一个节点上?
多谢!
g*****a
发帖数: 1457
2
是不是可以用两个hash function, 第一个map到node上,第二个map到entry.
第一个input是domain, 第二个input 是sub url
f*********5
发帖数: 576
3
假定有N节点,URL长度为L
URL为a[0]..a[L-1]
sum=0;
for(i=0;i {
sum+=sum*H+a[i];
}
return sum%N;
这个咋样?

【在 s*********e 的大作中提到】
: 求教各位牛人:
: 如果一个search engine系统从网上crawling很多的URL,为了保存不重复的URL,我们
: 用hash
: table解决。这是个distributed hash table,分别保存在一个network里的各个节点上
: 。请问,
: 有什么比较好的hash function把一个URL map到一个节点上?
: 多谢!

s*********e
发帖数: 36
4
啊,这里有个限制,就是不知道URL的总数是多少,来一个处理一个。所以应该是对
URL的整个keyspace进行划分。比如URL都可以compress到8个bytes内,那么整个
keyspace 就是 0 - 2^64-1。节点划分应该在0 - 2^64-1的空间内。
1 (共1页)
进入JobHunting版参与讨论
相关主题
过去n小时的top search在线紧急求助一道system design面试题,面经内附
亚麻面筋--已挂面试: Take home project
Uber电面用hash value来distribute to diff machine的困惑
请教一个面试题问一道老题
universal hashing的问题微软onsite
问个hash table的问题how to query in the universal hash table?
关于hash table在a billion urls中找有75%url都有的prefix中的最长者?
LCA of binary tree的一行CODE不懂。。leetcode上的,请牛牛指教,问一个链表方面的算法问题 (转载)
相关话题的讨论汇总
话题: url话题: hash话题: function话题: 节点话题: sum