由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 面试题讨论:如何在一批文件中找到相同的文件
相关主题
问一个面试题面经
不改变排序的hash算法?攒RP发A家第一轮电面
一个google面试题Amazon一面
在线紧急求助一道system design面试题,面经内附一道看似不难但难的题
HashTable相关的面试题大公司算法题
请教一道面试题,跟数组排序有关常见的string hash function
2轮Amazon电面面试: Take home project
amazon电面 + facebook 电面G家店面题
相关话题的讨论汇总
话题: hash话题: 文件话题: 排序话题: 思路话题: vmware
进入JobHunting版参与讨论
1 (共1页)
x*******i
发帖数: 26
1
原题是 http://www.mitbbs.com/article_t/JobHunting/32549243.html
里面提到的思路是 先排序文件大小,然后比较文件内容hash.
大家有没有别的思路呀?
w********s
发帖数: 214
2
hash思路应该是比较efficient了吧?
b*******e
发帖数: 123
3
指点下为什么要排序? 直接往dictionary里加是O(n),排序是O(nlog(n))。直接加不
是要快点?
a******e
发帖数: 710
4
我觉得按文件大小排序和读硬盘的时间相比基本可以忽略不计。
不过Hash在这里确实比排序更快点儿。

【在 b*******e 的大作中提到】
: 指点下为什么要排序? 直接往dictionary里加是O(n),排序是O(nlog(n))。直接加不
: 是要快点?

b**********5
发帖数: 7881
5
按size排序, 和dictionary hash,这两个N, 不一样。 如果size不一样, 你根本
就不需要hash, 就知道这两个文件不一样了

【在 b*******e 的大作中提到】
: 指点下为什么要排序? 直接往dictionary里加是O(n),排序是O(nlog(n))。直接加不
: 是要快点?

b*******e
发帖数: 123
6
倆dictionary,hash size 分类先,hash内容再分类。还是比O(nlog(n))要快。而且如
果相同size文件不多的话,这个会很快。
u*****o
发帖数: 1224
7
觉得题有点眼熟呢,原来是我的帖子。。
我被VMWARE拒掉了,不知是思路不对还是题没答完的原因,可能两者都有吧。
不过发现这种hot startup实在是难啊,1个小时满满一页的题!都是做ACM出身的吧才
能答出来吧。。不适合挫人练手呀。
d***n
发帖数: 832
8
VMWARE怎么能叫hot startup呢
h**o
发帖数: 548
9
文件怎么hash?谁是key谁是value?

【在 b*******e 的大作中提到】
: 倆dictionary,hash size 分类先,hash内容再分类。还是比O(nlog(n))要快。而且如
: 果相同size文件不多的话,这个会很快。

A***o
发帖数: 358
10
看MD5 digest,相当于做个hash join

【在 x*******i 的大作中提到】
: 原题是 http://www.mitbbs.com/article_t/JobHunting/32549243.html
: 里面提到的思路是 先排序文件大小,然后比较文件内容hash.
: 大家有没有别的思路呀?

相关主题
请教一道面试题,跟数组排序有关面经
2轮Amazon电面攒RP发A家第一轮电面
amazon电面 + facebook 电面Amazon一面
进入JobHunting版参与讨论
b*******e
发帖数: 123
11
能用openssl hash么?
c***d
发帖数: 26
12
hash 能判断两文件是否完全相同。
如果改一下题目,在一批文件中找相似(但不完全相同)文件呢?有什么好想法?

【在 x*******i 的大作中提到】
: 原题是 http://www.mitbbs.com/article_t/JobHunting/32549243.html
: 里面提到的思路是 先排序文件大小,然后比较文件内容hash.
: 大家有没有别的思路呀?

s********u
发帖数: 1109
13
还是类似的吧。
其实这个就是下面这个题的变种:
两个数组,找最接近的一对数字。解法就是分别排序,然后用两个指针,i =0; j = 0
;开始往后遍历。如果j对应的数字偏大,那么就i++;反之j++。
对文件的话,应该就是将hash值以某种方法排序,比如数值序或者词典序。

【在 c***d 的大作中提到】
: hash 能判断两文件是否完全相同。
: 如果改一下题目,在一批文件中找相似(但不完全相同)文件呢?有什么好想法?

c***d
发帖数: 26
14
这就不是正常的hash了。
传统意义上的hash要求即使源做很小的改动,目标hash值也有巨大变化,尽量要求hash
值与源不相关。
对hash值进行排序没意义呀。

0

【在 s********u 的大作中提到】
: 还是类似的吧。
: 其实这个就是下面这个题的变种:
: 两个数组,找最接近的一对数字。解法就是分别排序,然后用两个指针,i =0; j = 0
: ;开始往后遍历。如果j对应的数字偏大,那么就i++;反之j++。
: 对文件的话,应该就是将hash值以某种方法排序,比如数值序或者词典序。

s********u
发帖数: 1109
15
那就只好找能够反映源的变化程度的hash办法了。

hash

【在 c***d 的大作中提到】
: 这就不是正常的hash了。
: 传统意义上的hash要求即使源做很小的改动,目标hash值也有巨大变化,尽量要求hash
: 值与源不相关。
: 对hash值进行排序没意义呀。
:
: 0

p*****3
发帖数: 488
16

两种算法对每个文件做hashing, 不同内容的如果两个hash值还能一样赶快去买彩票了

【在 x*******i 的大作中提到】
: 原题是 http://www.mitbbs.com/article_t/JobHunting/32549243.html
: 里面提到的思路是 先排序文件大小,然后比较文件内容hash.
: 大家有没有别的思路呀?

e*******8
发帖数: 94
17
local sensitive hashing...

【在 c***d 的大作中提到】
: hash 能判断两文件是否完全相同。
: 如果改一下题目,在一批文件中找相似(但不完全相同)文件呢?有什么好想法?

1 (共1页)
进入JobHunting版参与讨论
相关主题
G家店面题HashTable相关的面试题
简短URL一问请教一道面试题,跟数组排序有关
攒RP发A家电面2轮2轮Amazon电面
大量字串的排序问题。可能不一定有解amazon电面 + facebook 电面
问一个面试题面经
不改变排序的hash算法?攒RP发A家第一轮电面
一个google面试题Amazon一面
在线紧急求助一道system design面试题,面经内附一道看似不难但难的题
相关话题的讨论汇总
话题: hash话题: 文件话题: 排序话题: 思路话题: vmware