面试题讨论：如何在一批文件中找到相同的文件 - JobHunting版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - 面试题讨论：如何在一批文件中找到相同的文件

相关主题
● 问一个面试题	● 面经
● 不改变排序的hash算法?	● 攒RP发A家第一轮电面
● 一个google面试题	● Amazon一面
● 在线紧急求助一道system design面试题，面经内附	● 一道看似不难但难的题
● HashTable相关的面试题	● 大公司算法题
● 请教一道面试题，跟数组排序有关	● 常见的string hash function
● 2轮Amazon电面	● 面试: Take home project
● amazon电面 + facebook 电面	● G家店面题

相关话题的讨论汇总
话题: hash话题: 文件话题: 排序话题: 思路话题: vmware

进入JobHunting版参与讨论

(共1页)

x*******i
发帖数: 26

原题是 http://www.mitbbs.com/article_t/JobHunting/32549243.html。
里面提到的思路是先排序文件大小，然后比较文件内容hash.
大家有没有别的思路呀？

w********s
发帖数: 214

hash思路应该是比较efficient了吧？

b*******e
发帖数: 123

指点下为什么要排序？直接往dictionary里加是O(n)，排序是O(nlog(n))。直接加不
是要快点？

a******e
发帖数: 710

我觉得按文件大小排序和读硬盘的时间相比基本可以忽略不计。
不过Hash在这里确实比排序更快点儿。

【在 b*******e 的大作中提到】

: 指点下为什么要排序？直接往dictionary里加是O(n)，排序是O(nlog(n))。直接加不
: 是要快点？

b**********5
发帖数: 7881

按size排序，和dictionary hash，这两个N，不一样。如果size不一样，你根本
就不需要hash，就知道这两个文件不一样了

【在 b*******e 的大作中提到】

: 指点下为什么要排序？直接往dictionary里加是O(n)，排序是O(nlog(n))。直接加不
: 是要快点？

b*******e
发帖数: 123

倆dictionary,hash size 分类先，hash内容再分类。还是比O(nlog(n))要快。而且如
果相同size文件不多的话，这个会很快。

u*****o
发帖数: 1224

觉得题有点眼熟呢，原来是我的帖子。。
我被VMWARE拒掉了，不知是思路不对还是题没答完的原因，可能两者都有吧。
不过发现这种hot startup实在是难啊，1个小时满满一页的题！都是做ACM出身的吧才
能答出来吧。。不适合挫人练手呀。

d***n
发帖数: 832

VMWARE怎么能叫hot startup呢

h**o
发帖数: 548

文件怎么hash？谁是key谁是value?

【在 b*******e 的大作中提到】

: 倆dictionary,hash size 分类先，hash内容再分类。还是比O(nlog(n))要快。而且如
: 果相同size文件不多的话，这个会很快。

A***o
发帖数: 358

看MD5 digest，相当于做个hash join

【在 x*******i 的大作中提到】

: 原题是 http://www.mitbbs.com/article_t/JobHunting/32549243.html。
: 里面提到的思路是先排序文件大小，然后比较文件内容hash.
: 大家有没有别的思路呀？

相关主题
● 请教一道面试题，跟数组排序有关	● 面经
● 2轮Amazon电面	● 攒RP发A家第一轮电面
● amazon电面 + facebook 电面	● Amazon一面
进入JobHunting版参与讨论

b*******e
发帖数: 123

能用openssl hash么？

c***d
发帖数: 26

hash 能判断两文件是否完全相同。
如果改一下题目，在一批文件中找相似（但不完全相同）文件呢？有什么好想法？

【在 x*******i 的大作中提到】

: 原题是 http://www.mitbbs.com/article_t/JobHunting/32549243.html。
: 里面提到的思路是先排序文件大小，然后比较文件内容hash.
: 大家有没有别的思路呀？

s********u
发帖数: 1109

还是类似的吧。
其实这个就是下面这个题的变种：
两个数组，找最接近的一对数字。解法就是分别排序，然后用两个指针，i =0； j = 0
;开始往后遍历。如果j对应的数字偏大，那么就i++；反之j++。
对文件的话，应该就是将hash值以某种方法排序，比如数值序或者词典序。

【在 c***d 的大作中提到】

: hash 能判断两文件是否完全相同。
: 如果改一下题目，在一批文件中找相似（但不完全相同）文件呢？有什么好想法？

c***d
发帖数: 26

这就不是正常的hash了。
传统意义上的hash要求即使源做很小的改动，目标hash值也有巨大变化，尽量要求hash
值与源不相关。
对hash值进行排序没意义呀。

0

【在 s********u 的大作中提到】

: 还是类似的吧。
: 其实这个就是下面这个题的变种：
: 两个数组，找最接近的一对数字。解法就是分别排序，然后用两个指针，i =0； j = 0
: ;开始往后遍历。如果j对应的数字偏大，那么就i++；反之j++。
: 对文件的话，应该就是将hash值以某种方法排序，比如数值序或者词典序。

s********u
发帖数: 1109

那就只好找能够反映源的变化程度的hash办法了。

hash

【在 c***d 的大作中提到】

: 这就不是正常的hash了。
: 传统意义上的hash要求即使源做很小的改动，目标hash值也有巨大变化，尽量要求hash
: 值与源不相关。
: 对hash值进行排序没意义呀。
:
: 0

p*****3
发帖数: 488

两种算法对每个文件做hashing, 不同内容的如果两个hash值还能一样赶快去买彩票了

【在 x*******i 的大作中提到】

: 原题是 http://www.mitbbs.com/article_t/JobHunting/32549243.html。
: 里面提到的思路是先排序文件大小，然后比较文件内容hash.
: 大家有没有别的思路呀？

e*******8
发帖数: 94

local sensitive hashing...

【在 c***d 的大作中提到】

: hash 能判断两文件是否完全相同。
: 如果改一下题目，在一批文件中找相似（但不完全相同）文件呢？有什么好想法？

(共1页)

进入JobHunting版参与讨论

相关主题
● G家店面题	● HashTable相关的面试题
● 简短URL一问	● 请教一道面试题，跟数组排序有关
● 攒RP发A家电面2轮	● 2轮Amazon电面
● 大量字串的排序问题。可能不一定有解	● amazon电面 + facebook 电面
● 问一个面试题	● 面经
● 不改变排序的hash算法?	● 攒RP发A家第一轮电面
● 一个google面试题	● Amazon一面
● 在线紧急求助一道system design面试题，面经内附	● 一道看似不难但难的题

相关话题的讨论汇总
话题: hash话题: 文件话题: 排序话题: 思路话题: vmware

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天