l*********r 发帖数: 26 | 1 google 的phone screen
1. fib sequence, coding.
2. how to find duplicate documents from a large corpus of files
3. how to tell if a query word/phrase have multiple semantic meaning from
the query log.
当时答的时候感觉还可以,最后还是失败了。
第一次发言,回馈大家了。 |
g*******y 发帖数: 1930 | 2 comfort lz!
get more practice and you will get an offer soon! |
j****4 发帖数: 604 | |
H*M 发帖数: 1268 | 4 how long does it take to get feedback?
【在 l*********r 的大作中提到】 : google 的phone screen : 1. fib sequence, coding. : 2. how to find duplicate documents from a large corpus of files : 3. how to tell if a query word/phrase have multiple semantic meaning from : the query log. : 当时答的时候感觉还可以,最后还是失败了。 : 第一次发言,回馈大家了。
|
l*********r 发帖数: 26 | 5 mine took about 3 days. No news is better than bad news. |
r****o 发帖数: 1950 | 6 cft,
第2题找重复的文档光查文件名是否重名行吗?
第3题semantic meaning是啥意思啊?
【在 l*********r 的大作中提到】 : google 的phone screen : 1. fib sequence, coding. : 2. how to find duplicate documents from a large corpus of files : 3. how to tell if a query word/phrase have multiple semantic meaning from : the query log. : 当时答的时候感觉还可以,最后还是失败了。 : 第一次发言,回馈大家了。
|
r********g 发帖数: 1351 | 7
可能名字不重复,内容重复吧,比如aaa.txt <===> aaa_copy.txt <===> aaa_1.txt...
我觉得:
1. 比较大小
2. 相同的,random index select, mod (large prime number) , programming
pearls上貌似有介绍选择多少个字符后判断出错的概率。这样大部分的不同文件都被排
除了。
3. 如果还是一样,那两个文档可能只是有非常微小的差别,只能顺序较了吧
同不明白....可能是我search一个词,比如“hot spring", 可能对应了“温泉”和“
春天(和天气相关)”两种不同的page index,这种情况可能就得判断到底提供哪个
query的result。这个不太懂,不知道怎么做。。。
【在 r****o 的大作中提到】 : cft, : 第2题找重复的文档光查文件名是否重名行吗? : 第3题semantic meaning是啥意思啊?
|
a******t 发帖数: 34 | 8 请问搂主怎么回答的?
【在 l*********r 的大作中提到】 : google 的phone screen : 1. fib sequence, coding. : 2. how to find duplicate documents from a large corpus of files : 3. how to tell if a query word/phrase have multiple semantic meaning from : the query log. : 当时答的时候感觉还可以,最后还是失败了。 : 第一次发言,回馈大家了。
|
C*******n 发帖数: 40 | 9 2. 前面有人回答有道理,先比较大小,再检查内容。但是问题是一个很大的文件库要
做到两两比较会很费时间。也许可以用 hash表,
3. query log有用户的click信息, 如果同一个query发现不同用户click的网页有很大
区别,就会提供很好的线索说明query有多种semantic meaning.
【在 l*********r 的大作中提到】 : google 的phone screen : 1. fib sequence, coding. : 2. how to find duplicate documents from a large corpus of files : 3. how to tell if a query word/phrase have multiple semantic meaning from : the query log. : 当时答的时候感觉还可以,最后还是失败了。 : 第一次发言,回馈大家了。
|
k*******s 发帖数: 134 | 10 第二题就是给每一个文件checksum一下就好了。最基本的checksum的算法就是把文件的
每个word XOR.但是这样不是很精确,比如word order不一样就检查不出来。 复杂一点
的比如CRC算法,时间长一些,但是更精确。最后把XOR的值相等的文件分组就好了。 |
k*n 发帖数: 150 | 11
...
size+md5, and consider MR if corpus is too large
This is interesting... I don't think search result will be acommpanied...
my solution:
1. find synset, usually nearby queries tend to be synonyms, so
for each query bigram, count their occurrence, set a threshold
for indicating a pair of synonyms
2. judge multiple meanings via synonyms, that is : a ~ b, and a ~ c
then a is likely to be candidate...
英语太差,所以更得献丑来练练了,bow
【在 r********g 的大作中提到】 : : 可能名字不重复,内容重复吧,比如aaa.txt <===> aaa_copy.txt <===> aaa_1.txt... : 我觉得: : 1. 比较大小 : 2. 相同的,random index select, mod (large prime number) , programming : pearls上貌似有介绍选择多少个字符后判断出错的概率。这样大部分的不同文件都被排 : 除了。 : 3. 如果还是一样,那两个文档可能只是有非常微小的差别,只能顺序较了吧 : 同不明白....可能是我search一个词,比如“hot spring", 可能对应了“温泉”和“ : 春天(和天气相关)”两种不同的page index,这种情况可能就得判断到底提供哪个
|