由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - gmail/google 搜索问题,你一定也遇到过
相关主题
design search engine typeahead的问题compress prefix tree
问个题:how to compress a prefix tree面试设计题, 设计电话簿, 除了用trie?
好几天没看见新题了搜索建议的题目有没有答案
面试归来,华人面试跟以前没变化啊,题目都巨难。load一个巨大的k-v table到一个view里,有搜索功能 怎么设计? (转载)
请教个用trie实现search autocomplete的问题问一道面试设计题
急, 请教个面试问题G onsite 面经
这里牛人多,给大家来个算法的问题地图上分割成不同区域这个设计题的核心是什么来着?
有人了解 google 的 regular expression search 是怎么实现的吗interviewstreet 明天有个quora专场 感兴趣的童鞋们可以参加试
相关话题的讨论汇总
话题: 搜索话题: gmail话题: index话题: 问题话题: 邮件
进入JobHunting版参与讨论
1 (共1页)
C***1
发帖数: 24
1
G家的员工能不能解释一下,谢谢
不知道为什么gmail搜索要匹配整个字符串。
例如搜索“bbs”,虽然“mitbbs”含有“bbs”,却不会出现在搜索结果。
又如:记得某个电话号码后四位是“1234”,在gmail里却搜索不到,因为邮件里的号
码是“800-8101234”
这是何等脑残的设计?这个问题有解么
d****o
发帖数: 1055
2
因为搜索要index
index一般都是根据单词来存储的
用单词来映射和对应
为了满足你这个小众需求 需要重新设计index方法 空间需求大好几倍 不太现实
s**y
发帖数: 223
3
试了一下搜索结果好像却是没有,但是typeahead下拉栏里确有正确的,不过只有最近的
可能G的邮件倒排索引的key就是整个的字符串,typeahead的Trie应该比较复杂
j**********r
发帖数: 3798
4
The index tree will be too big for that.

【在 C***1 的大作中提到】
: G家的员工能不能解释一下,谢谢
: 不知道为什么gmail搜索要匹配整个字符串。
: 例如搜索“bbs”,虽然“mitbbs”含有“bbs”,却不会出现在搜索结果。
: 又如:记得某个电话号码后四位是“1234”,在gmail里却搜索不到,因为邮件里的号
: 码是“800-8101234”
: 这是何等脑残的设计?这个问题有解么

C***1
发帖数: 24
5
我不觉得算小众需求吧,我周围不少人都抱怨过这个问题。

【在 d****o 的大作中提到】
: 因为搜索要index
: index一般都是根据单词来存储的
: 用单词来映射和对应
: 为了满足你这个小众需求 需要重新设计index方法 空间需求大好几倍 不太现实

C***1
发帖数: 24
6
另外网页搜索可能需要很大资源,但大部分人的gmail里的文本信息并没有很多。
我不是IT专业的,请问在word或者notepad里面搜索使用index么,我能不能在gmail里
面实现类似notepad的搜索功能?

【在 d****o 的大作中提到】
: 因为搜索要index
: index一般都是根据单词来存储的
: 用单词来映射和对应
: 为了满足你这个小众需求 需要重新设计index方法 空间需求大好几倍 不太现实

z*********8
发帖数: 2070
7
我觉得你有一个amazing的idea, 就缺一个程序员了

【在 C***1 的大作中提到】
: 另外网页搜索可能需要很大资源,但大部分人的gmail里的文本信息并没有很多。
: 我不是IT专业的,请问在word或者notepad里面搜索使用index么,我能不能在gmail里
: 面实现类似notepad的搜索功能?

r******t
发帖数: 250
8
(非相关组的浅谈)
web 其实是比 gmail 的 index 量还要小的
你在自己的里面搜索可能量不大,但是 server 却是给所有人的
notepad 有上百兆搜起来就慢死,而 gmail 大的多却只有几秒
mitbbs 可能当成了一个不可分割的 unigram

【在 C***1 的大作中提到】
: 另外网页搜索可能需要很大资源,但大部分人的gmail里的文本信息并没有很多。
: 我不是IT专业的,请问在word或者notepad里面搜索使用index么,我能不能在gmail里
: 面实现类似notepad的搜索功能?

l****u
发帖数: 1764
9
这一点是很不爽,有时候不记得完整的拼写了,那么gmail就搜不出来
还是成本的问题吧,为每个人的邮箱archive做类似web search engine那样的索引,而
相互又不能共享,那磁盘消耗量会指数上升,性价比太低了
j**********r
发帖数: 3798
10
It's not just cost. You may also have too much noise in the search result.

【在 l****u 的大作中提到】
: 这一点是很不爽,有时候不记得完整的拼写了,那么gmail就搜不出来
: 还是成本的问题吧,为每个人的邮箱archive做类似web search engine那样的索引,而
: 相互又不能共享,那磁盘消耗量会指数上升,性价比太低了

相关主题
急, 请教个面试问题compress prefix tree
这里牛人多,给大家来个算法的问题面试设计题, 设计电话簿, 除了用trie?
有人了解 google 的 regular expression search 是怎么实现的吗搜索建议的题目有没有答案
进入JobHunting版参与讨论
C***1
发帖数: 24
11
noise不是问题,可以有个搜索选项,如果觉得noise太多可以关掉选项

【在 j**********r 的大作中提到】
: It's not just cost. You may also have too much noise in the search result.
C***1
发帖数: 24
12
你说我在我的gmail搜索,google会去搜索整个server?
每个人的邮件是怎么存储的,不能只搜索存储我邮件的区域么?

【在 r******t 的大作中提到】
: (非相关组的浅谈)
: web 其实是比 gmail 的 index 量还要小的
: 你在自己的里面搜索可能量不大,但是 server 却是给所有人的
: notepad 有上百兆搜起来就慢死,而 gmail 大的多却只有几秒
: mitbbs 可能当成了一个不可分割的 unigram

C***1
发帖数: 24
13
对,很多时候就是记不全,然后死活都找不到。。。

【在 l****u 的大作中提到】
: 这一点是很不爽,有时候不记得完整的拼写了,那么gmail就搜不出来
: 还是成本的问题吧,为每个人的邮箱archive做类似web search engine那样的索引,而
: 相互又不能共享,那磁盘消耗量会指数上升,性价比太低了

l****u
发帖数: 1764
14
icloud里面的Notes貌似更强大些,某些信息(文本)可以存在那儿

【在 C***1 的大作中提到】
: 对,很多时候就是记不全,然后死活都找不到。。。
r******t
发帖数: 250
15
是只搜你的 但你要想其他10亿人的很多其他词也需要 partial match,并建立索引
而你说的那个可以关掉的选项一般都是要关掉的 比如一个 work-,car- 就能匹配非常
多邮件
你想的功能可能会有 但是做产品加一个功能不是说你觉得周围几个人感觉好像需要就
应该加 这是“文科生”思考数据的方式 就算调研一群人想用 实际试用起来是不是真
的是他们长期想要的还不一定 对不了解的话题不要张口就说别人设计脑残

【在 C***1 的大作中提到】
: 你说我在我的gmail搜索,google会去搜索整个server?
: 每个人的邮件是怎么存储的,不能只搜索存储我邮件的区域么?

j**********r
发帖数: 3798
16
一般的做法是reverse index, 然后可以在输入的时候搜keyword做 autocomplete

【在 r******t 的大作中提到】
: 是只搜你的 但你要想其他10亿人的很多其他词也需要 partial match,并建立索引
: 而你说的那个可以关掉的选项一般都是要关掉的 比如一个 work-,car- 就能匹配非常
: 多邮件
: 你想的功能可能会有 但是做产品加一个功能不是说你觉得周围几个人感觉好像需要就
: 应该加 这是“文科生”思考数据的方式 就算调研一群人想用 实际试用起来是不是真
: 的是他们长期想要的还不一定 对不了解的话题不要张口就说别人设计脑残

g*****s
发帖数: 1288
17
得多脑残的人才能一边骂人脑残一边问问题?

【在 C***1 的大作中提到】
: G家的员工能不能解释一下,谢谢
: 不知道为什么gmail搜索要匹配整个字符串。
: 例如搜索“bbs”,虽然“mitbbs”含有“bbs”,却不会出现在搜索结果。
: 又如:记得某个电话号码后四位是“1234”,在gmail里却搜索不到,因为邮件里的号
: 码是“800-8101234”
: 这是何等脑残的设计?这个问题有解么

e******n
发帖数: 3435
18
这个问题是很讨厌,以前记得是可以的,不知道什么时候就没了。搜索很不方便。以前
Yahoo,outlook什么的就是搜索不方便我才换gmail的,现在又退步了。

【在 C***1 的大作中提到】
: G家的员工能不能解释一下,谢谢
: 不知道为什么gmail搜索要匹配整个字符串。
: 例如搜索“bbs”,虽然“mitbbs”含有“bbs”,却不会出现在搜索结果。
: 又如:记得某个电话号码后四位是“1234”,在gmail里却搜索不到,因为邮件里的号
: 码是“800-8101234”
: 这是何等脑残的设计?这个问题有解么

v***a
发帖数: 903
19
Keep search bbs for a while, maybe it will learn that "bbs" is a word.
L********y
发帖数: 283
20
I met this same problem but have no answer. I will do it if gmail hires me
相关主题
load一个巨大的k-v table到一个view里,有搜索功能 怎么设计? (转载)地图上分割成不同区域这个设计题的核心是什么来着?
问一道面试设计题interviewstreet 明天有个quora专场 感兴趣的童鞋们可以参加试
G onsite 面经F家哪个组比较好?
进入JobHunting版参与讨论
r********a
发帖数: 691
21
我也有同样的问题

【在 L********y 的大作中提到】
: I met this same problem but have no answer. I will do it if gmail hires me
b**********s
发帖数: 435
22
也需要这个功能
希望早日实现
i*****h
发帖数: 25
23
qq邮箱都可以,竟然有人说gg很难做到?
z****n
发帖数: 1933
24
文科生的傻问题还骂别人脑残。你估计你打进一个字符串组合,别人要把世界上所有网
页看一遍来找出你给的组合。实际情况是预先索引。如果建索引,一个长单词,会有多
少字符串的组合,又要耗用多少索引时间和存储。你想过没有?啥都不知道就上来喷,
真是无知者无畏。

【在 C***1 的大作中提到】
: G家的员工能不能解释一下,谢谢
: 不知道为什么gmail搜索要匹配整个字符串。
: 例如搜索“bbs”,虽然“mitbbs”含有“bbs”,却不会出现在搜索结果。
: 又如:记得某个电话号码后四位是“1234”,在gmail里却搜索不到,因为邮件里的号
: 码是“800-8101234”
: 这是何等脑残的设计?这个问题有解么

n***d
发帖数: 8857
25
大哥,人家问的是子字符串,你愣给换成打乱顺序; 人家问的是自己的信箱,你愣给换
成全世界的网页。

【在 z****n 的大作中提到】
: 文科生的傻问题还骂别人脑残。你估计你打进一个字符串组合,别人要把世界上所有网
: 页看一遍来找出你给的组合。实际情况是预先索引。如果建索引,一个长单词,会有多
: 少字符串的组合,又要耗用多少索引时间和存储。你想过没有?啥都不知道就上来喷,
: 真是无知者无畏。

g*****x
发帖数: 3283
26
分词法啊

【在 C***1 的大作中提到】
: G家的员工能不能解释一下,谢谢
: 不知道为什么gmail搜索要匹配整个字符串。
: 例如搜索“bbs”,虽然“mitbbs”含有“bbs”,却不会出现在搜索结果。
: 又如:记得某个电话号码后四位是“1234”,在gmail里却搜索不到,因为邮件里的号
: 码是“800-8101234”
: 这是何等脑残的设计?这个问题有解么

w********n
发帖数: 361
27
能不能用*1234* 搜?

【在 g*****x 的大作中提到】
: 分词法啊
F****n
发帖数: 3271
28
Partial match用Compressed Trie其实增加不了多少空间
而且这个功能对大多数搜索引擎都是标配根本不难,
gmail以前好像也有(记不太清楚)后来自以为是的拿掉了
大公司都这样以为自己牛就教育用户还振振有词的
其实是已经在变烂的标志。G的一些产品现在非常烂。

【在 r******t 的大作中提到】
: 是只搜你的 但你要想其他10亿人的很多其他词也需要 partial match,并建立索引
: 而你说的那个可以关掉的选项一般都是要关掉的 比如一个 work-,car- 就能匹配非常
: 多邮件
: 你想的功能可能会有 但是做产品加一个功能不是说你觉得周围几个人感觉好像需要就
: 应该加 这是“文科生”思考数据的方式 就算调研一群人想用 实际试用起来是不是真
: 的是他们长期想要的还不一定 对不了解的话题不要张口就说别人设计脑残

w********i
发帖数: 1721
29
同意,现在到底是用户提需求还是程序猿提需求?

【在 F****n 的大作中提到】
: Partial match用Compressed Trie其实增加不了多少空间
: 而且这个功能对大多数搜索引擎都是标配根本不难,
: gmail以前好像也有(记不太清楚)后来自以为是的拿掉了
: 大公司都这样以为自己牛就教育用户还振振有词的
: 其实是已经在变烂的标志。G的一些产品现在非常烂。

r******t
发帖数: 250
30
增加不了多少是多少?“自以为是拿掉”这种臆想的话也敢说
搜网页,email 搜索,autocomplete 等都是不同的搜索问题 什么叫标配功能
有人问问题有人说看法怎么叫振振有词的教育用户 你不喜欢的产品没必要用 不用来做
背景攻击
都知道 compressed trie 这种结构线性搜索还能省空间,但你有没有研究过它的分布
式 hash 版本的各种优缺点就振振有词的指教别人怎么做

【在 F****n 的大作中提到】
: Partial match用Compressed Trie其实增加不了多少空间
: 而且这个功能对大多数搜索引擎都是标配根本不难,
: gmail以前好像也有(记不太清楚)后来自以为是的拿掉了
: 大公司都这样以为自己牛就教育用户还振振有词的
: 其实是已经在变烂的标志。G的一些产品现在非常烂。

相关主题
求STRING COMPRESSION一题C++解法(CC150 1.5)问个题:how to compress a prefix tree
今天被b家问到了一个file compression 问题好几天没看见新题了
design search engine typeahead的问题面试归来,华人面试跟以前没变化啊,题目都巨难。
进入JobHunting版参与讨论
w*********l
发帖数: 1337
31
我不觉得也。连实时搜索都做得出来,我不信这点index能让datacenter爆掉。

【在 z****n 的大作中提到】
: 文科生的傻问题还骂别人脑残。你估计你打进一个字符串组合,别人要把世界上所有网
: 页看一遍来找出你给的组合。实际情况是预先索引。如果建索引,一个长单词,会有多
: 少字符串的组合,又要耗用多少索引时间和存储。你想过没有?啥都不知道就上来喷,
: 真是无知者无畏。

r******t
发帖数: 250
32
做是肯定能做到的只要有资本堆积 但是到底有多值得做就是问题了
实时搜索直接和利润相关 自然被抢着做
gmail 搜索 partial match 几个字母结果太多 可能用户还要花些时间找
所以猜测考虑到目前做这个东西的代价以及带来的效益 就先不做了
所以一个 workaround 就是回忆更多相关信息 比如谁发的 还有其他什么字 标题可能
有什么等等
用户对产品的感觉是功能越丰富越好 大不了当成一个选项允许自己配置 万一真能派上
用场 这样就容易造成产品可配置的东西多 如何管理这些选项 如何让用户方便找到自
己想打开的选项也是问题 所以有很多*功能强大*的工具让人一看工具栏就头疼
当然我也感觉这个功能有时候是好的

【在 w*********l 的大作中提到】
: 我不觉得也。连实时搜索都做得出来,我不信这点index能让datacenter爆掉。
j**w
发帖数: 382
33
it's the time for product queen, marrisa mayer, to return Google.
Users first, period.
l***i
发帖数: 1309
34
网页和gmail搜索有个区别,网页要是有个你期待的页面没出来大家觉得没什么,,
gmail有个email没搜出来后来又被你找到了就会被骂成渣。话说免费服务不能要求太高
r*******e
发帖数: 7583
35
晕,这点index。gmail月活跃用户刚刚过了1 billion,邮件总数量(不算垃圾邮件)
远超过Web search文档数量。哪个trie能轻松搞定trillion级别的索引?别忘了gmail
index是近实时更新的。
这个量级上能做到全词搜索已经不容易了,gmail搜索结果又不放广告赚钱

【在 w*********l 的大作中提到】
: 我不觉得也。连实时搜索都做得出来,我不信这点index能让datacenter爆掉。
F****n
发帖数: 3271
36
我就是做这个的,
根本不难

【在 r******t 的大作中提到】
: 增加不了多少是多少?“自以为是拿掉”这种臆想的话也敢说
: 搜网页,email 搜索,autocomplete 等都是不同的搜索问题 什么叫标配功能
: 有人问问题有人说看法怎么叫振振有词的教育用户 你不喜欢的产品没必要用 不用来做
: 背景攻击
: 都知道 compressed trie 这种结构线性搜索还能省空间,但你有没有研究过它的分布
: 式 hash 版本的各种优缺点就振振有词的指教别人怎么做

F****n
发帖数: 3271
37
Gmail是实时更新没错但别忘了他的content是增减而不是revision
也就是说只要实时index新增的邮件就行了不需要reindex
Gmail邮件总量虽然大,但每个用户的邮件量并不算大,所以其实都不要做inverted
index, 用Trie就行了, size < N

gmail

【在 r*******e 的大作中提到】
: 晕,这点index。gmail月活跃用户刚刚过了1 billion,邮件总数量(不算垃圾邮件)
: 远超过Web search文档数量。哪个trie能轻松搞定trillion级别的索引?别忘了gmail
: index是近实时更新的。
: 这个量级上能做到全词搜索已经不容易了,gmail搜索结果又不放广告赚钱

1 (共1页)
进入JobHunting版参与讨论
相关主题
interviewstreet 明天有个quora专场 感兴趣的童鞋们可以参加试请教个用trie实现search autocomplete的问题
F家哪个组比较好?急, 请教个面试问题
求STRING COMPRESSION一题C++解法(CC150 1.5)这里牛人多,给大家来个算法的问题
今天被b家问到了一个file compression 问题有人了解 google 的 regular expression search 是怎么实现的吗
design search engine typeahead的问题compress prefix tree
问个题:how to compress a prefix tree面试设计题, 设计电话簿, 除了用trie?
好几天没看见新题了搜索建议的题目有没有答案
面试归来,华人面试跟以前没变化啊,题目都巨难。load一个巨大的k-v table到一个view里,有搜索功能 怎么设计? (转载)
相关话题的讨论汇总
话题: 搜索话题: gmail话题: index话题: 问题话题: 邮件