关于minhash的讨论汇总 - 话题女王

全部话题 - 话题: minhash

a**********0
发帖数: 422

来自主题: JobHunting版 - 请教 locality sensitive hashing

需要一个family of hash functions 具体大家都选用什么hash function呢？
另外wiki上写minhash是LSH的特例我自己也觉得minhash也需要k个hash functions
但是大多数的document processing都把minhash和LSH算作独立的两个stage。。。

m***r
发帖数: 359

来自主题: DataSciences版 - 机器学习日报

机器学习日报 2015-01-30
@好东西传送门出品, 过刊见
http://ml.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-01-30/short.html
1) 【全新ArnetMiner上线】 by @ArnetMiner
关键词：学术搜索
全新ArnetMiner上线，最新代号AMiner，从学术网络中挖掘深度知识、面向科技大数据
的挖掘。收集近4000万作者信息、8000万论文信息、1亿多引用关系、链接近8百万知识
点；支持专家搜索、机构排名、科研成果评价、会议排名。期待您的关注和建议【系统
持续改进中】。 @唐杰THU @好东西传送门
2) 【MinHash】 by @赵印_Eason
关键词：算法, 聚类
《MinHash》 MinHash是一种概率意义的聚类算法，快速实现，有随机因素。在推荐场
景： It assigns a pair of users to the same cluster... 阅读全帖

a**********0
发帖数: 422

来自主题: JobHunting版 - 请教 locality sensitive hashing

这个问题我自己解决了
LSH的某个scheme就是minhash的形式:
对集合S进行排列每个元素将会有一个index 取一个S的子集设为A 则A中每个元素皆
有一个permutated index 定义哈希函数为依照此permutation的最小的index 完全符合
minhash的定义如何产生若干hash function？多取几个permutation就是了

b**********5
发帖数: 7881

来自主题: JobHunting版 - beanbun 大牛给讲讲设计题你怎么回答的吧？

parse document？就是把你download完的html document里不同tag里的东西那出来？
你直接答了minhash，要不要解释minhash怎么弄？还是就一句话完了？面试官没问
你还有没有其他方法?

p*****p
发帖数: 379

来自主题: JobHunting版 - 弱问一道G家电面题

对，不管怎么弄只要两两比就m^2了
或者计算minhash后排序，两两之间靠近的是最相似的，但这个应该只是近似解

A*********c
发帖数: 430

来自主题: JobHunting版 - 为什么你么都说现在招聘走做题路线

本来我是带着娱乐的态度来回帖的，但是既然碰到了大牛，请educate我。
请告诉我任意一个数据结构，比inverted list 更重要，并且广泛地应用到了实际的
text retrieval system中.
请告诉我任意一个document retrieval model，比vector space model 或者 Okapi
BM25, Statistically significantly better for general purpose document
retrieval. Either implemented in Lucene or Lemur.
请告诉我任意一个clustering algorithm，other than Kmeans，will be your safe
first choice of clustering when you see some arbitrary data.
对于Classification，Old Stuff Like KNN works well in many cases. Kernel
algorithms are go... 阅读全帖

A*********c
发帖数: 430

来自主题: JobHunting版 - 为什么你么都说现在招聘走做题路线

b*******d
发帖数: 750

来自主题: JobHunting版 - 面经

最近面了几个公司，大的如LG，中等的PDB，小的有20～30个人的三个，tiny的7，8个
人的两三个，人不错，但太risky。
最想去的没有中，水平问题。从一个，凑活300K过日子。
拿到卡后的骑驴找马。太累，收山，生娃。
1. numPath from top left to bottom right.
写没想到这个居然栽了，被对方态度搞的不能focus，写出来但总出错。水平问题。
2. find median in 2 sorted arrays
3. find median in very large file of LONGs in many machines.
global value space binary search; bucket stats; reduce number of passes of
files.
4. implement web crawler in java
不是project，就是 task queue， executor。
5. implement Timer, Timer Task in java
prirotity queue; num... 阅读全帖

b*****n
发帖数: 618

来自主题: JobHunting版 - beanbun 大牛给讲讲设计题你怎么回答的吧？

Dropbox那个我写的比较简单，就是分成parse document，download document两步，每
步用单独的threadpool，download完了就submit一个request另一个pool里面，你如果
想自己control request queue也可以。
两个documents相似这个我直接答的minhashing但是他们应该是用不同的方法。

b*****n
发帖数: 618

来自主题: JobHunting版 - beanbun 大牛给讲讲设计题你怎么回答的吧？

是的，把download完的document的link都拿出来，因为是简单的版本我都没写检验link
是不是已经crawl过了，直接就扔过去就完了。
minhash稍微解释一下就可以了，另外面试官直接说了他们怎么搞的，就没再往下问这
个问题，不要再问我他们怎么搞的了。。其实我并没有完全听懂

l****g
发帖数: 761

来自主题: DataSciences版 - Data scientist / Machine Learning Engineer 相关面试题 (转载)

我也负责我们组ML面试, 我对你的出题很难苟同
你出的这些题背得怎么熟，如果我要solve一个 PB level data problem, 怎么用?
所以我就不拍了，以前有个贴总结的挺好我就直接贴过来吧:
发信人: Algorithmic (Zeal), 信区: JobHunting
标题: Re: 为什么你么都说现在招聘走做题路线
发信站: BBS 未名空间站 (Mon Dec 23 17:31:14 2013, 美东)
本来我是带着娱乐的态度来回帖的，但是既然碰到了大牛，请educate我。
请告诉我任意一个数据结构，比inverted list 更重要，并且广泛地应用到了实际的
text retrieval system中.
请告诉我任意一个document retrieval model，比vector space model 或者 Okapi
BM25, Statistically significantly better for general purpose document
retrieval. Either implemented in Lucene or Le... 阅读全帖

l****g
发帖数: 761

来自主题: DataSciences版 - Data scientist / Machine Learning Engineer 相关面试题 (转载)

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天