由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 请教 locality sensitive hashing
相关主题
onsite被几个老印据了微软onsite
nearest neighbours search算法一个google面试题
怎么得到一个string的hash value?在线紧急求助一道system design面试题,面经内附
贡献个设计题universial hashing 一问
Facebook的那个“判读两个大的page是否相同或相识”,大家都怎么解决的how to query in the universal hash table?
问一道老题电面不好,求bless。这题怎么答?
曾经fail掉的一个电话面试以及题目amazon intern一共几面, 加面经
MS intern 电面被拒,附上面试过程如何秒杀99%的海量数据处理面试题
相关话题的讨论汇总
话题: minhash话题: locality话题: hashing话题: sensitive话题: lsh
进入JobHunting版参与讨论
1 (共1页)
a**********0
发帖数: 422
1
需要一个family of hash functions 具体大家都选用什么hash function呢?
另外wiki上写minhash是LSH的特例 我自己也觉得minhash也需要k个hash functions
但是大多数的document processing都把minhash和LSH算作独立的两个stage。。。
a**********0
发帖数: 422
2
这个问题我自己解决了
LSH的某个scheme就是minhash的形式:
对集合S进行排列 每个元素将会有一个index 取一个S的子集 设为A 则A中每个元素皆
有一个permutated index 定义哈希函数为依照此permutation的最小的index 完全符合
minhash的定义 如何产生若干hash function? 多取几个permutation就是了

【在 a**********0 的大作中提到】
: 需要一个family of hash functions 具体大家都选用什么hash function呢?
: 另外wiki上写minhash是LSH的特例 我自己也觉得minhash也需要k个hash functions
: 但是大多数的document processing都把minhash和LSH算作独立的两个stage。。。

1 (共1页)
进入JobHunting版参与讨论
相关主题
如何秒杀99%的海量数据处理面试题Facebook的那个“判读两个大的page是否相同或相识”,大家都怎么解决的
HashTable相关的面试题问一道老题
不改变排序的hash算法?曾经fail掉的一个电话面试以及题目
用hash value来distribute to diff machine的困惑MS intern 电面被拒,附上面试过程
onsite被几个老印据了微软onsite
nearest neighbours search算法一个google面试题
怎么得到一个string的hash value?在线紧急求助一道system design面试题,面经内附
贡献个设计题universial hashing 一问
相关话题的讨论汇总
话题: minhash话题: locality话题: hashing话题: sensitive话题: lsh