由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 为什么你么都说现在招聘走做题路线
相关主题
现在连machine learning 都要刷题,有点变态!签了g家的offer,可以反悔吗?担心进入黑名单
google onsite杯具+设计题怎么答版上的都是在哪做题
想做题的进来挑战一下自己吧。。大家觉得何海涛 100题怎么样?
感觉CS科班出来的和非科班的还是有差别这师道,面世就是做题阿
详解知名网站的技术发展历程(zz)问一下码农:做题做得好,工作就能胜任吗?
不会C++,后果多严重?弱问大家做题的时候都用几种语言
Google 内推: Big Data Backend processing engineer (转载)只会做题,不会职位需要的那些花花绿绿的技能怎么办?
【拒信】被Coursera拒了uber店面
相关话题的讨论汇总
话题: experience话题: learning话题: 算法话题: phd话题: paper
进入JobHunting版参与讨论
1 (共1页)
a***m
发帖数: 5037
1
我看很多招聘要求都很专业啊比如 fb的一个SDE职位
靠做题能面这种吗
MSc. or PhD. in Computer Science, Information Retrieval, Machine Learning or
NLP or relevant industry experience
Experience in classifiers, rankers or other Machine Learning technologies
Extensive programming experience in C++, Java or C#
Experience with Hadoop/Hbase/Pig or Mapreduce/Sawzall/Bigtable a plus
Experience with scripting languages such as Perl, Python, PHP and shell
scripts
y*******g
发帖数: 6599
2
面这种也要做题的
c***0
发帖数: 449
3
我觉得是因为如果你不刷题,人家都懒得问你专业知识。

or

【在 a***m 的大作中提到】
: 我看很多招聘要求都很专业啊比如 fb的一个SDE职位
: 靠做题能面这种吗
: MSc. or PhD. in Computer Science, Information Retrieval, Machine Learning or
: NLP or relevant industry experience
: Experience in classifiers, rankers or other Machine Learning technologies
: Extensive programming experience in C++, Java or C#
: Experience with Hadoop/Hbase/Pig or Mapreduce/Sawzall/Bigtable a plus
: Experience with scripting languages such as Perl, Python, PHP and shell
: scripts

m******o
发帖数: 571
4
做题是基础吧,但是对于比较专业的position, 还是会问算法以外的东西

or

【在 a***m 的大作中提到】
: 我看很多招聘要求都很专业啊比如 fb的一个SDE职位
: 靠做题能面这种吗
: MSc. or PhD. in Computer Science, Information Retrieval, Machine Learning or
: NLP or relevant industry experience
: Experience in classifiers, rankers or other Machine Learning technologies
: Extensive programming experience in C++, Java or C#
: Experience with Hadoop/Hbase/Pig or Mapreduce/Sawzall/Bigtable a plus
: Experience with scripting languages such as Perl, Python, PHP and shell
: scripts

D**********d
发帖数: 849
5
这个要求好像是 LinkedIn 的职位吧?
s*****r
发帖数: 43070
6
晕死,前两条的题能难死人
a***m
发帖数: 5037
7
我看很多招聘要求都很专业啊比如 fb的一个SDE职位
靠做题能面这种吗
MSc. or PhD. in Computer Science, Information Retrieval, Machine Learning or
NLP or relevant industry experience
Experience in classifiers, rankers or other Machine Learning technologies
Extensive programming experience in C++, Java or C#
Experience with Hadoop/Hbase/Pig or Mapreduce/Sawzall/Bigtable a plus
Experience with scripting languages such as Perl, Python, PHP and shell
scripts
y*******g
发帖数: 6599
8
面这种也要做题的
c***0
发帖数: 449
9
我觉得是因为如果你不刷题,人家都懒得问你专业知识。

or

【在 a***m 的大作中提到】
: 我看很多招聘要求都很专业啊比如 fb的一个SDE职位
: 靠做题能面这种吗
: MSc. or PhD. in Computer Science, Information Retrieval, Machine Learning or
: NLP or relevant industry experience
: Experience in classifiers, rankers or other Machine Learning technologies
: Extensive programming experience in C++, Java or C#
: Experience with Hadoop/Hbase/Pig or Mapreduce/Sawzall/Bigtable a plus
: Experience with scripting languages such as Perl, Python, PHP and shell
: scripts

m******o
发帖数: 571
10
做题是基础吧,但是对于比较专业的position, 还是会问算法以外的东西

or

【在 a***m 的大作中提到】
: 我看很多招聘要求都很专业啊比如 fb的一个SDE职位
: 靠做题能面这种吗
: MSc. or PhD. in Computer Science, Information Retrieval, Machine Learning or
: NLP or relevant industry experience
: Experience in classifiers, rankers or other Machine Learning technologies
: Extensive programming experience in C++, Java or C#
: Experience with Hadoop/Hbase/Pig or Mapreduce/Sawzall/Bigtable a plus
: Experience with scripting languages such as Perl, Python, PHP and shell
: scripts

相关主题
不会C++,后果多严重?签了g家的offer,可以反悔吗?担心进入黑名单
Google 内推: Big Data Backend processing engineer (转载)版上的都是在哪做题
【拒信】被Coursera拒了大家觉得何海涛 100题怎么样?
进入JobHunting版参与讨论
D**********d
发帖数: 849
11
这个要求好像是 LinkedIn 的职位吧?
s*****r
发帖数: 43070
12
晕死,前两条的题能难死人
v**n
发帖数: 951
13
能给个job的链接吗?

or

【在 a***m 的大作中提到】
: 我看很多招聘要求都很专业啊比如 fb的一个SDE职位
: 靠做题能面这种吗
: MSc. or PhD. in Computer Science, Information Retrieval, Machine Learning or
: NLP or relevant industry experience
: Experience in classifiers, rankers or other Machine Learning technologies
: Extensive programming experience in C++, Java or C#
: Experience with Hadoop/Hbase/Pig or Mapreduce/Sawzall/Bigtable a plus
: Experience with scripting languages such as Perl, Python, PHP and shell
: scripts

A*********c
发帖数: 430
14
懂的不多,胡扯凑凑热闹:)
IR没啥高深的算法,基本数据结构就是inverted list, skip list。然后加上几个
matching model,用的最多的估计还是vector space或者OKAPI 25。
ML实践中真正好使的都是最基本的算法吧。比较鬼扯的那些个灌水算法,加上一堆乱七
八糟regularizer或者推convergence bound的,估计也没人care,因为实际上一碰上真
实数据全不work。要么就是仅仅在小规模数据上work,碰上大数据就要算一光年或者要
1TB内存...呵呵。
随便乱说的,大牛们再指教~

【在 s*****r 的大作中提到】
: 晕死,前两条的题能难死人
y***n
发帖数: 1594
15
因为大家都知道中国人吹牛不如人家,都是为了照顾我们。
v**n
发帖数: 951
16
挺同意的,公司产品里面用的算法,真正work好的,如果要发paper的话,基本都是被
拒的水平。可见研究和实践的差别有多大。

【在 A*********c 的大作中提到】
: 懂的不多,胡扯凑凑热闹:)
: IR没啥高深的算法,基本数据结构就是inverted list, skip list。然后加上几个
: matching model,用的最多的估计还是vector space或者OKAPI 25。
: ML实践中真正好使的都是最基本的算法吧。比较鬼扯的那些个灌水算法,加上一堆乱七
: 八糟regularizer或者推convergence bound的,估计也没人care,因为实际上一碰上真
: 实数据全不work。要么就是仅仅在小规模数据上work,碰上大数据就要算一光年或者要
: 1TB内存...呵呵。
: 随便乱说的,大牛们再指教~

j********x
发帖数: 2330
17
1TB内存算个啥?
desktop现在都是32G的标配,30台desktop就能打起来的东西也算难做?

【在 A*********c 的大作中提到】
: 懂的不多,胡扯凑凑热闹:)
: IR没啥高深的算法,基本数据结构就是inverted list, skip list。然后加上几个
: matching model,用的最多的估计还是vector space或者OKAPI 25。
: ML实践中真正好使的都是最基本的算法吧。比较鬼扯的那些个灌水算法,加上一堆乱七
: 八糟regularizer或者推convergence bound的,估计也没人care,因为实际上一碰上真
: 实数据全不work。要么就是仅仅在小规模数据上work,碰上大数据就要算一光年或者要
: 1TB内存...呵呵。
: 随便乱说的,大牛们再指教~

j********x
发帖数: 2330
18
你看过顶级计算机系统、分布式系统的会议么?
google很多都是内部系统等几年之后发布出来的。你不要以为每天看了很多垃圾论文,
就以为搞科研都是浑水摸鱼。。。

【在 v**n 的大作中提到】
: 挺同意的,公司产品里面用的算法,真正work好的,如果要发paper的话,基本都是被
: 拒的水平。可见研究和实践的差别有多大。

v**n
发帖数: 951
19
您的解读能力还真是。。。
我只是说工业界和科研(指学校)是很不一样的。
另,那些work好的ML/DM的是很难发出来的,一是根本过不了内部IP的审核,二是很多
都是在有大量数据的情况下做的一些比较adhoc的调整。
你说的情况是DS,不同领域。

【在 j********x 的大作中提到】
: 你看过顶级计算机系统、分布式系统的会议么?
: google很多都是内部系统等几年之后发布出来的。你不要以为每天看了很多垃圾论文,
: 就以为搞科研都是浑水摸鱼。。。

v**n
发帖数: 951
20
不要觉得distributed system就是上帝,可以解决一切问题。 MR有自己的problem
space, 也不是万能的....

【在 j********x 的大作中提到】
: 1TB内存算个啥?
: desktop现在都是32G的标配,30台desktop就能打起来的东西也算难做?

相关主题
这师道,面世就是做题阿只会做题,不会职位需要的那些花花绿绿的技能怎么办?
问一下码农:做题做得好,工作就能胜任吗?uber店面
弱问大家做题的时候都用几种语言问个google面试题
进入JobHunting版参与讨论
j******4
发帖数: 6090
21
一光年是距离单位?

【在 A*********c 的大作中提到】
: 懂的不多,胡扯凑凑热闹:)
: IR没啥高深的算法,基本数据结构就是inverted list, skip list。然后加上几个
: matching model,用的最多的估计还是vector space或者OKAPI 25。
: ML实践中真正好使的都是最基本的算法吧。比较鬼扯的那些个灌水算法,加上一堆乱七
: 八糟regularizer或者推convergence bound的,估计也没人care,因为实际上一碰上真
: 实数据全不work。要么就是仅仅在小规模数据上work,碰上大数据就要算一光年或者要
: 1TB内存...呵呵。
: 随便乱说的,大牛们再指教~

l**********e
发帖数: 336
22
please read more ML/DM papers, most of the pointer works are published from
university & research center

【在 v**n 的大作中提到】
: 您的解读能力还真是。。。
: 我只是说工业界和科研(指学校)是很不一样的。
: 另,那些work好的ML/DM的是很难发出来的,一是根本过不了内部IP的审核,二是很多
: 都是在有大量数据的情况下做的一些比较adhoc的调整。
: 你说的情况是DS,不同领域。

l**********e
发帖数: 336
23
what you said is incorrect, guess you are not from a good IR/DM research
group (no offense)

【在 A*********c 的大作中提到】
: 懂的不多,胡扯凑凑热闹:)
: IR没啥高深的算法,基本数据结构就是inverted list, skip list。然后加上几个
: matching model,用的最多的估计还是vector space或者OKAPI 25。
: ML实践中真正好使的都是最基本的算法吧。比较鬼扯的那些个灌水算法,加上一堆乱七
: 八糟regularizer或者推convergence bound的,估计也没人care,因为实际上一碰上真
: 实数据全不work。要么就是仅仅在小规模数据上work,碰上大数据就要算一光年或者要
: 1TB内存...呵呵。
: 随便乱说的,大牛们再指教~

l**********e
发帖数: 336
24
of course not, if this is a serious post, they want ppl with solid IR/ML/NLP
background (PhD from decent groups or MS with several years of related exps
in decent firms)

or

【在 a***m 的大作中提到】
: 我看很多招聘要求都很专业啊比如 fb的一个SDE职位
: 靠做题能面这种吗
: MSc. or PhD. in Computer Science, Information Retrieval, Machine Learning or
: NLP or relevant industry experience
: Experience in classifiers, rankers or other Machine Learning technologies
: Extensive programming experience in C++, Java or C#
: Experience with Hadoop/Hbase/Pig or Mapreduce/Sawzall/Bigtable a plus
: Experience with scripting languages such as Perl, Python, PHP and shell
: scripts

C**********r
发帖数: 8189
25
马克
P****2
发帖数: 197
26
我知道有个组发了很多WWW,SIGIR,NIPS,KDD,没有一篇文章TRANSFER到产品中的。。。

NLP
exps

【在 l**********e 的大作中提到】
: of course not, if this is a serious post, they want ppl with solid IR/ML/NLP
: background (PhD from decent groups or MS with several years of related exps
: in decent firms)
:
: or

g*********e
发帖数: 14401
27

有道理

【在 y***n 的大作中提到】
: 因为大家都知道中国人吹牛不如人家,都是为了照顾我们。
g*********e
发帖数: 14401
28

是一种修辞手法 lol

【在 j******4 的大作中提到】
: 一光年是距离单位?
A*********c
发帖数: 430
29
本来我是带着娱乐的态度来回帖的,但是既然碰到了大牛,请educate我。
请告诉我任意一个数据结构,比inverted list 更重要,并且广泛地应用到了实际的
text retrieval system中.
请告诉我任意一个document retrieval model,比vector space model 或者 Okapi
BM25, Statistically significantly better for general purpose document
retrieval. Either implemented in Lucene or Lemur.
请告诉我任意一个clustering algorithm,other than Kmeans,will be your safe
first choice of clustering when you see some arbitrary data.
对于Classification,Old Stuff Like KNN works well in many cases. Kernel
algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大
规模数据上得使用。
Other algorithms like MinHash, LSH, KD-trees etc are all old.
我的论点是,工业界真正使用的算法,没有那么多fancy的东西,因为确实大多数
recent publish的work都不怎么work。都是tune parameters和选择性得测试data set
搞出来灌水的。一旦你拿出那些算法在大规模真实数据上一跑,大部分都不怎么work。
或者tune了N久比传统算法好不了多少,还不稳定。
举例来说一个work的,page rank algorithm,这还是实现在真实系统里的。你要是实
现过你就知道,比起kleinberg的HITS algorithm没有什么优势,但是Google实现的好
,关键是加了很多有用的不被学术界所齿的heuristics,所以效果不错。
如果你确实认为近年的research极大得促进了科技得进步,改善了人类的生活,请告诉
我近三年有什么publish在NIPS/ICML/WWW/KDD/COLT上的work被大规模的应用到了实际
系统中,I am glad to know。我去学习。btw,deep learning去年NIPS很火,技术被
google买了,那东西是彻底的刁丝翻身,NN这种没有理论得东西被statistical ML领域
的人鄙视多少年了。Again,The true fact is我很菜。 我的的知识很落伍。很久没跟
进最新的paper了。你要是能educate我,是个好事儿,我正好去学习。偷偷implement
一下这些牛逼算法赚个大的。
After Ph.D., you may make significant contribution to the area, you may not.
Most likely not. But you will gain the ability to tell whether something is
really working or it is just "claimed working".
Working algorithms are usually very very simple. 忽悠algorithms are usually
intentionally made complex and not working. 我觉得如果连这个都没练出来,那几
百篇paper是白读了。
What's the shortest lie in computer science? "It works".
What's the shortest truth in computer science? "It sucks".
没有任何冒犯做research的人的意思,我也干这个,我就是想说,虽然不时会有一些比较
牛逼的算法出现,(比如像SVM,就是work)。但残酷的现实就是,绝大部分的
research work都
没有什么significant contribution,除了发paper没啥用。这个估计读了phd的都有感
受。
所以灌完水拿了个phd. ,要去工业界,不用认为自己就牛逼得不得了,好像比没读phd
的高几等。

from

【在 l**********e 的大作中提到】
: please read more ML/DM papers, most of the pointer works are published from
: university & research center

j********x
发帖数: 2330
30
那你直接说ml dm领域就好了
google的论文这些领域也很多,你还是在乱讲

【在 v**n 的大作中提到】
: 您的解读能力还真是。。。
: 我只是说工业界和科研(指学校)是很不一样的。
: 另,那些work好的ML/DM的是很难发出来的,一是根本过不了内部IP的审核,二是很多
: 都是在有大量数据的情况下做的一些比较adhoc的调整。
: 你说的情况是DS,不同领域。

相关主题
还有一周onsite,怎么看Hadoop.The.Definitive.Guide效率最高?google onsite杯具+设计题怎么答
请教各位data mining和hadoop哪个方向更好?想做题的进来挑战一下自己吧。。
现在连machine learning 都要刷题,有点变态!感觉CS科班出来的和非科班的还是有差别
进入JobHunting版参与讨论
S*********u
发帖数: 106
31
不做题没饭吃

or

【在 a***m 的大作中提到】
: 我看很多招聘要求都很专业啊比如 fb的一个SDE职位
: 靠做题能面这种吗
: MSc. or PhD. in Computer Science, Information Retrieval, Machine Learning or
: NLP or relevant industry experience
: Experience in classifiers, rankers or other Machine Learning technologies
: Extensive programming experience in C++, Java or C#
: Experience with Hadoop/Hbase/Pig or Mapreduce/Sawzall/Bigtable a plus
: Experience with scripting languages such as Perl, Python, PHP and shell
: scripts

m********o
发帖数: 796
32
“Working algorithms are usually very very simple. 忽悠algorithms are
usually intentionally made complex and not working. 我觉得如果连这个都没练出
来,那几百篇paper是白读了。”
正解~
前面拿“顶级paper”出来说事有点让人无奈,大家都是在学术圈混过的,也都是发过
所谓“顶级paper”的,不管数量多少(好吧,我承认我数量较少,1作只有一篇),就
别开这种不好笑的玩笑了行么。。。

【在 A*********c 的大作中提到】
: 本来我是带着娱乐的态度来回帖的,但是既然碰到了大牛,请educate我。
: 请告诉我任意一个数据结构,比inverted list 更重要,并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model,比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm,other than Kmeans,will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification,Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

h*****n
发帖数: 2872
33
确实工业界看学术圈大部分觉得都是toy cases

【在 A*********c 的大作中提到】
: 本来我是带着娱乐的态度来回帖的,但是既然碰到了大牛,请educate我。
: 请告诉我任意一个数据结构,比inverted list 更重要,并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model,比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm,other than Kmeans,will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification,Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

d*******r
发帖数: 3299
34
强顶这个~~
难道大家做这么多年的research,还不明白现在学校所谓的research大多数就是纯扯淡
!?

【在 A*********c 的大作中提到】
: 本来我是带着娱乐的态度来回帖的,但是既然碰到了大牛,请educate我。
: 请告诉我任意一个数据结构,比inverted list 更重要,并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model,比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm,other than Kmeans,will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification,Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

v**n
发帖数: 951
35
能给个job的链接吗?

or

【在 a***m 的大作中提到】
: 我看很多招聘要求都很专业啊比如 fb的一个SDE职位
: 靠做题能面这种吗
: MSc. or PhD. in Computer Science, Information Retrieval, Machine Learning or
: NLP or relevant industry experience
: Experience in classifiers, rankers or other Machine Learning technologies
: Extensive programming experience in C++, Java or C#
: Experience with Hadoop/Hbase/Pig or Mapreduce/Sawzall/Bigtable a plus
: Experience with scripting languages such as Perl, Python, PHP and shell
: scripts

A*********c
发帖数: 430
36
懂的不多,胡扯凑凑热闹:)
IR没啥高深的算法,基本数据结构就是inverted list, skip list。然后加上几个
matching model,用的最多的估计还是vector space或者OKAPI 25。
ML实践中真正好使的都是最基本的算法吧。比较鬼扯的那些个灌水算法,加上一堆乱七
八糟regularizer或者推convergence bound的,估计也没人care,因为实际上一碰上真
实数据全不work。要么就是仅仅在小规模数据上work,碰上大数据就要算一光年或者要
1TB内存...呵呵。
随便乱说的,大牛们再指教~

【在 s*****r 的大作中提到】
: 晕死,前两条的题能难死人
y***n
发帖数: 1594
37
因为大家都知道中国人吹牛不如人家,都是为了照顾我们。
v**n
发帖数: 951
38
挺同意的,公司产品里面用的算法,真正work好的,如果要发paper的话,基本都是被
拒的水平。可见研究和实践的差别有多大。

【在 A*********c 的大作中提到】
: 懂的不多,胡扯凑凑热闹:)
: IR没啥高深的算法,基本数据结构就是inverted list, skip list。然后加上几个
: matching model,用的最多的估计还是vector space或者OKAPI 25。
: ML实践中真正好使的都是最基本的算法吧。比较鬼扯的那些个灌水算法,加上一堆乱七
: 八糟regularizer或者推convergence bound的,估计也没人care,因为实际上一碰上真
: 实数据全不work。要么就是仅仅在小规模数据上work,碰上大数据就要算一光年或者要
: 1TB内存...呵呵。
: 随便乱说的,大牛们再指教~

j********x
发帖数: 2330
39
1TB内存算个啥?
desktop现在都是32G的标配,30台desktop就能打起来的东西也算难做?

【在 A*********c 的大作中提到】
: 懂的不多,胡扯凑凑热闹:)
: IR没啥高深的算法,基本数据结构就是inverted list, skip list。然后加上几个
: matching model,用的最多的估计还是vector space或者OKAPI 25。
: ML实践中真正好使的都是最基本的算法吧。比较鬼扯的那些个灌水算法,加上一堆乱七
: 八糟regularizer或者推convergence bound的,估计也没人care,因为实际上一碰上真
: 实数据全不work。要么就是仅仅在小规模数据上work,碰上大数据就要算一光年或者要
: 1TB内存...呵呵。
: 随便乱说的,大牛们再指教~

j********x
发帖数: 2330
40
你看过顶级计算机系统、分布式系统的会议么?
google很多都是内部系统等几年之后发布出来的。你不要以为每天看了很多垃圾论文,
就以为搞科研都是浑水摸鱼。。。

【在 v**n 的大作中提到】
: 挺同意的,公司产品里面用的算法,真正work好的,如果要发paper的话,基本都是被
: 拒的水平。可见研究和实践的差别有多大。

相关主题
感觉CS科班出来的和非科班的还是有差别Google 内推: Big Data Backend processing engineer (转载)
详解知名网站的技术发展历程(zz)【拒信】被Coursera拒了
不会C++,后果多严重?签了g家的offer,可以反悔吗?担心进入黑名单
进入JobHunting版参与讨论
v**n
发帖数: 951
41
您的解读能力还真是。。。
我只是说工业界和科研(指学校)是很不一样的。
另,那些work好的ML/DM的是很难发出来的,一是根本过不了内部IP的审核,二是很多
都是在有大量数据的情况下做的一些比较adhoc的调整。
你说的情况是DS,不同领域。

【在 j********x 的大作中提到】
: 你看过顶级计算机系统、分布式系统的会议么?
: google很多都是内部系统等几年之后发布出来的。你不要以为每天看了很多垃圾论文,
: 就以为搞科研都是浑水摸鱼。。。

v**n
发帖数: 951
42
不要觉得distributed system就是上帝,可以解决一切问题。 MR有自己的problem
space, 也不是万能的....

【在 j********x 的大作中提到】
: 1TB内存算个啥?
: desktop现在都是32G的标配,30台desktop就能打起来的东西也算难做?

j******4
发帖数: 6090
43
一光年是距离单位?

【在 A*********c 的大作中提到】
: 懂的不多,胡扯凑凑热闹:)
: IR没啥高深的算法,基本数据结构就是inverted list, skip list。然后加上几个
: matching model,用的最多的估计还是vector space或者OKAPI 25。
: ML实践中真正好使的都是最基本的算法吧。比较鬼扯的那些个灌水算法,加上一堆乱七
: 八糟regularizer或者推convergence bound的,估计也没人care,因为实际上一碰上真
: 实数据全不work。要么就是仅仅在小规模数据上work,碰上大数据就要算一光年或者要
: 1TB内存...呵呵。
: 随便乱说的,大牛们再指教~

l**********e
发帖数: 336
44
please read more ML/DM papers, most of the pointer works are published from
university & research center

【在 v**n 的大作中提到】
: 您的解读能力还真是。。。
: 我只是说工业界和科研(指学校)是很不一样的。
: 另,那些work好的ML/DM的是很难发出来的,一是根本过不了内部IP的审核,二是很多
: 都是在有大量数据的情况下做的一些比较adhoc的调整。
: 你说的情况是DS,不同领域。

l**********e
发帖数: 336
45
what you said is incorrect, guess you are not from a good IR/DM research
group (no offense)

【在 A*********c 的大作中提到】
: 懂的不多,胡扯凑凑热闹:)
: IR没啥高深的算法,基本数据结构就是inverted list, skip list。然后加上几个
: matching model,用的最多的估计还是vector space或者OKAPI 25。
: ML实践中真正好使的都是最基本的算法吧。比较鬼扯的那些个灌水算法,加上一堆乱七
: 八糟regularizer或者推convergence bound的,估计也没人care,因为实际上一碰上真
: 实数据全不work。要么就是仅仅在小规模数据上work,碰上大数据就要算一光年或者要
: 1TB内存...呵呵。
: 随便乱说的,大牛们再指教~

l**********e
发帖数: 336
46
of course not, if this is a serious post, they want ppl with solid IR/ML/NLP
background (PhD from decent groups or MS with several years of related exps
in decent firms)

or

【在 a***m 的大作中提到】
: 我看很多招聘要求都很专业啊比如 fb的一个SDE职位
: 靠做题能面这种吗
: MSc. or PhD. in Computer Science, Information Retrieval, Machine Learning or
: NLP or relevant industry experience
: Experience in classifiers, rankers or other Machine Learning technologies
: Extensive programming experience in C++, Java or C#
: Experience with Hadoop/Hbase/Pig or Mapreduce/Sawzall/Bigtable a plus
: Experience with scripting languages such as Perl, Python, PHP and shell
: scripts

C**********r
发帖数: 8189
47
马克
P****2
发帖数: 197
48
我知道有个组发了很多WWW,SIGIR,NIPS,KDD,没有一篇文章TRANSFER到产品中的。。。

NLP
exps

【在 l**********e 的大作中提到】
: of course not, if this is a serious post, they want ppl with solid IR/ML/NLP
: background (PhD from decent groups or MS with several years of related exps
: in decent firms)
:
: or

g*********e
发帖数: 14401
49

有道理

【在 y***n 的大作中提到】
: 因为大家都知道中国人吹牛不如人家,都是为了照顾我们。
g*********e
发帖数: 14401
50

是一种修辞手法 lol

【在 j******4 的大作中提到】
: 一光年是距离单位?
相关主题
版上的都是在哪做题问一下码农:做题做得好,工作就能胜任吗?
大家觉得何海涛 100题怎么样?弱问大家做题的时候都用几种语言
这师道,面世就是做题阿只会做题,不会职位需要的那些花花绿绿的技能怎么办?
进入JobHunting版参与讨论
A*********c
发帖数: 430
51
本来我是带着娱乐的态度来回帖的,但是既然碰到了大牛,请educate我。
请告诉我任意一个数据结构,比inverted list 更重要,并且广泛地应用到了实际的
text retrieval system中.
请告诉我任意一个document retrieval model,比vector space model 或者 Okapi
BM25, Statistically significantly better for general purpose document
retrieval. Either implemented in Lucene or Lemur.
请告诉我任意一个clustering algorithm,other than Kmeans,will be your safe
first choice of clustering when you see some arbitrary data.
对于Classification,Old Stuff Like KNN works well in many cases. Kernel
algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大
规模数据上得使用。
Other algorithms like MinHash, LSH, KD-trees etc are all old.
我的论点是,工业界真正使用的算法,没有那么多fancy的东西,因为确实大多数
recent publish的work都不怎么work。都是tune parameters和选择性得测试data set
搞出来灌水的。一旦你拿出那些算法在大规模真实数据上一跑,大部分都不怎么work。
或者tune了N久比传统算法好不了多少,还不稳定。
举例来说一个work的,page rank algorithm,这还是实现在真实系统里的。你要是实
现过你就知道,比起kleinberg的HITS algorithm没有什么优势,但是Google实现的好
,关键是加了很多有用的不被学术界所齿的heuristics,所以效果不错。
如果你确实认为近年的research极大得促进了科技得进步,改善了人类的生活,请告诉
我近三年有什么publish在NIPS/ICML/WWW/KDD/COLT上的work被大规模的应用到了实际
系统中,I am glad to know。我去学习。btw,deep learning去年NIPS很火,技术被
google买了,那东西是彻底的刁丝翻身,NN这种没有理论得东西被statistical ML领域
的人鄙视多少年了。Again,The true fact is我很菜。 我的的知识很落伍。很久没跟
进最新的paper了。你要是能educate我,是个好事儿,我正好去学习。偷偷implement
一下这些牛逼算法赚个大的。
After Ph.D., you may make significant contribution to the area, you may not.
Most likely not. But you will gain the ability to tell whether something is
really working or it is just "claimed working".
Working algorithms are usually very very simple. 忽悠algorithms are usually
intentionally made complex and not working. 我觉得如果连这个都没练出来,那几
百篇paper是白读了。
What's the shortest lie in computer science? "It works".
What's the shortest truth in computer science? "It sucks".
没有任何冒犯做research的人的意思,我也干这个,我就是想说,虽然不时会有一些比较
牛逼的算法出现,(比如像SVM,就是work)。但残酷的现实就是,绝大部分的
research work都
没有什么significant contribution,除了发paper没啥用。这个估计读了phd的都有感
受。
所以灌完水拿了个phd. ,要去工业界,不用认为自己就牛逼得不得了,好像比没读phd
的高几等。

from

【在 l**********e 的大作中提到】
: please read more ML/DM papers, most of the pointer works are published from
: university & research center

j********x
发帖数: 2330
52
那你直接说ml dm领域就好了
google的论文这些领域也很多,你还是在乱讲

【在 v**n 的大作中提到】
: 您的解读能力还真是。。。
: 我只是说工业界和科研(指学校)是很不一样的。
: 另,那些work好的ML/DM的是很难发出来的,一是根本过不了内部IP的审核,二是很多
: 都是在有大量数据的情况下做的一些比较adhoc的调整。
: 你说的情况是DS,不同领域。

S*********u
发帖数: 106
53
不做题没饭吃

or

【在 a***m 的大作中提到】
: 我看很多招聘要求都很专业啊比如 fb的一个SDE职位
: 靠做题能面这种吗
: MSc. or PhD. in Computer Science, Information Retrieval, Machine Learning or
: NLP or relevant industry experience
: Experience in classifiers, rankers or other Machine Learning technologies
: Extensive programming experience in C++, Java or C#
: Experience with Hadoop/Hbase/Pig or Mapreduce/Sawzall/Bigtable a plus
: Experience with scripting languages such as Perl, Python, PHP and shell
: scripts

m********o
发帖数: 796
54
“Working algorithms are usually very very simple. 忽悠algorithms are
usually intentionally made complex and not working. 我觉得如果连这个都没练出
来,那几百篇paper是白读了。”
正解~
前面拿“顶级paper”出来说事有点让人无奈,大家都是在学术圈混过的,也都是发过
所谓“顶级paper”的,不管数量多少(好吧,我承认我数量较少,1作只有一篇),就
别开这种不好笑的玩笑了行么。。。

【在 A*********c 的大作中提到】
: 本来我是带着娱乐的态度来回帖的,但是既然碰到了大牛,请educate我。
: 请告诉我任意一个数据结构,比inverted list 更重要,并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model,比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm,other than Kmeans,will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification,Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

h*****n
发帖数: 2872
55
确实工业界看学术圈大部分觉得都是toy cases

【在 A*********c 的大作中提到】
: 本来我是带着娱乐的态度来回帖的,但是既然碰到了大牛,请educate我。
: 请告诉我任意一个数据结构,比inverted list 更重要,并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model,比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm,other than Kmeans,will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification,Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

d*******r
发帖数: 3299
56
强顶这个~~
难道大家做这么多年的research,还不明白现在学校所谓的research大多数就是纯扯淡
!?

【在 A*********c 的大作中提到】
: 本来我是带着娱乐的态度来回帖的,但是既然碰到了大牛,请educate我。
: 请告诉我任意一个数据结构,比inverted list 更重要,并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model,比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm,other than Kmeans,will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification,Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

v**n
发帖数: 951
57
说的太好了。我们组以前有个junior,以为是斯坦福的phd就牛逼了,上来就跟我说你
读过多少paper, 很多paper里是这样的云云。我也没生气,就跟丫说这个业界都是有成
熟的方法的,你说的那些发个paper还行,产品里不是这样搞的。后来,找了个机会把
丫fire了。这种书和paper读的太多了,文化不fit的在非研究的团队里就是个祸害。。。
lovelyminnie也要我多看paper,那我也多看看。。嘿嘿。

【在 A*********c 的大作中提到】
: 本来我是带着娱乐的态度来回帖的,但是既然碰到了大牛,请educate我。
: 请告诉我任意一个数据结构,比inverted list 更重要,并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model,比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm,other than Kmeans,will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification,Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

v**n
发帖数: 951
58
G这些领域的论文确实多,而且不可否认google内部的理论和工程水平都是牛叉中的牛
叉。但是论文和实际用的很不一样。
敢问你仔细看了吗?敢问你能以他们的论文为基础recreate同样的results吗?
如果你没有亲自做过,就不要说别人乱讲。

【在 j********x 的大作中提到】
: 那你直接说ml dm领域就好了
: google的论文这些领域也很多,你还是在乱讲

z****e
发帖数: 54598
59
介于扯蛋和不扯蛋的一种中间状态
至于什么时候能够进化到不扯蛋,那比较看运气
大多数还是end up with扯蛋

【在 d*******r 的大作中提到】
: 强顶这个~~
: 难道大家做这么多年的research,还不明白现在学校所谓的research大多数就是纯扯淡
: !?

z****e
发帖数: 54598
60
re一个
说得很欢乐
受用

【在 A*********c 的大作中提到】
: 本来我是带着娱乐的态度来回帖的,但是既然碰到了大牛,请educate我。
: 请告诉我任意一个数据结构,比inverted list 更重要,并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model,比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm,other than Kmeans,will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification,Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

相关主题
uber店面请教各位data mining和hadoop哪个方向更好?
问个google面试题现在连machine learning 都要刷题,有点变态!
还有一周onsite,怎么看Hadoop.The.Definitive.Guide效率最高?google onsite杯具+设计题怎么答
进入JobHunting版参与讨论
z****e
发帖数: 54598
61
我也想知道除了VSM以外还有其他啥特别牛逼的算法或者是统计之类的
我现在也处于一种扯蛋的状态,而且处于一种扯不出蛋的状态
谁能说点有意义的,我好写出去交差,包子小意思了

【在 A*********c 的大作中提到】
: 本来我是带着娱乐的态度来回帖的,但是既然碰到了大牛,请educate我。
: 请告诉我任意一个数据结构,比inverted list 更重要,并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model,比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm,other than Kmeans,will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification,Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

z****e
发帖数: 54598
62
我最近学习的扯蛋发现效果都不如最简单的vsm这些
很希望有人educate me一下下,我好有点灵感,能迸发一点出来也好

【在 v**n 的大作中提到】
: G这些领域的论文确实多,而且不可否认google内部的理论和工程水平都是牛叉中的牛
: 叉。但是论文和实际用的很不一样。
: 敢问你仔细看了吗?敢问你能以他们的论文为基础recreate同样的results吗?
: 如果你没有亲自做过,就不要说别人乱讲。

z****e
发帖数: 54598
63
我前一段试了半死,发现最简单的vsm就是work
不需要什么特别复杂的algorithm或者statistical methods去tune
就能很有效,而且比其他人做的都更有效果
然后论证了一下其他方法不如最简单的这个
结论是最好的方式就是不要自找麻烦
结果写上去,被评为低分,评价是太过于简单
我!@#¥%—*
求大牛educate me,我好有点灵感去交差

【在 P****2 的大作中提到】
: 我知道有个组发了很多WWW,SIGIR,NIPS,KDD,没有一篇文章TRANSFER到产品中的。。。
:
: NLP
: exps

v**n
发帖数: 951
64
和你情况相似。而且谷歌图像搜索的大牛跟我说,他们的方法就是上不了台面,内部审
核不说,就算出去了double blind review的话还可能被认为是哪个野鸡大学做的及其
没有理论依据的小玩闹。。。
工程现实就是这样,大家洗洗睡吧。

【在 z****e 的大作中提到】
: 我前一段试了半死,发现最简单的vsm就是work
: 不需要什么特别复杂的algorithm或者statistical methods去tune
: 就能很有效,而且比其他人做的都更有效果
: 然后论证了一下其他方法不如最简单的这个
: 结论是最好的方式就是不要自找麻烦
: 结果写上去,被评为低分,评价是太过于简单
: 我!@#¥%—*
: 求大牛educate me,我好有点灵感去交差

t********e
发帖数: 1169
65
这边扯谈的好好看看人家百度的余凯,msr的邓禹怎么用deep network/ml做出产品的。
更别说google now/google translate等从学术圈搬过去的东西
q********c
发帖数: 1774
66
这个都是办绿卡用的,真正面试都要先做题,做题是第一步。

or

【在 a***m 的大作中提到】
: 我看很多招聘要求都很专业啊比如 fb的一个SDE职位
: 靠做题能面这种吗
: MSc. or PhD. in Computer Science, Information Retrieval, Machine Learning or
: NLP or relevant industry experience
: Experience in classifiers, rankers or other Machine Learning technologies
: Extensive programming experience in C++, Java or C#
: Experience with Hadoop/Hbase/Pig or Mapreduce/Sawzall/Bigtable a plus
: Experience with scripting languages such as Perl, Python, PHP and shell
: scripts

f*********2
发帖数: 48
67
Deep learning 是皇帝的新装。
与ANN有关的好的工作是 Neal 的 Bayesian NN 和 MacKay 等人的 Gaussian process。
不过,高维小样本,对什么方法都是个 坎儿。
另外,SVM离了核方法也不是那么牛叉。
严重同意楼主的观点,工业界更看中简单有效的方法,学术界的一些装逼理论一到实践
里就歇菜了。
u***n
发帖数: 10554
68
怎么看出来是办绿卡用的?如何区别绿卡广告和正常招工广告?

【在 q********c 的大作中提到】
: 这个都是办绿卡用的,真正面试都要先做题,做题是第一步。
:
: or

X****i
发帖数: 1877
69

办绿卡用的广告效果是让读者却步。最好没人会申请。
它的目的是要证明给政府,公司聘不到合格的米国公民。

【在 u***n 的大作中提到】
: 怎么看出来是办绿卡用的?如何区别绿卡广告和正常招工广告?
u***n
发帖数: 10554
70
或者说是为那个人定身度作的?

【在 X****i 的大作中提到】
:
: 办绿卡用的广告效果是让读者却步。最好没人会申请。
: 它的目的是要证明给政府,公司聘不到合格的米国公民。

相关主题
google onsite杯具+设计题怎么答详解知名网站的技术发展历程(zz)
想做题的进来挑战一下自己吧。。不会C++,后果多严重?
感觉CS科班出来的和非科班的还是有差别Google 内推: Big Data Backend processing engineer (转载)
进入JobHunting版参与讨论
H**********5
发帖数: 2012
71
Can not agree more,
某日on site某不知名公司(就是抱着玩玩去面的态度的)
一去了某老中面试官屌的不行
(也不只是什么野鸡大学博士)
从头到尾就是宣扬:
基础知识的重要性
你要去读个美国名校
Research技术很重要很重要
计算机不是写代码
计算机算法,理论知识是无比重要的
等等。
我心里就hehe 了,
你MB屌个GB,
大家谁都不要装B,
本来就是个control C+control V的活,还TMB真得很难?很有技术含量?
非计算机的GB毛专业的刷题都能进FLG的又不是1个2个了
没有什么歧视的态度,
反正我看见某些自以为读了PHD的CS开始装的话,我心里就会不爽了。

【在 A*********c 的大作中提到】
: 本来我是带着娱乐的态度来回帖的,但是既然碰到了大牛,请educate我。
: 请告诉我任意一个数据结构,比inverted list 更重要,并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model,比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm,other than Kmeans,will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification,Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

D****3
发帖数: 611
72
主要是看公司。。。
面试不面算法题的牛逼公司多了去了。
a***y
发帖数: 852
73
顶这个,学术圈的state-of-the-art research和工业界的de-facto还是不一样的
但是目的本身也一样,学术界本质目的还是求新知。work的好的但是已经被充分理解的
,或者heuristic没有太大通用意义的发不出来也是正常
classification算法方面我觉得random forest, deep learning, boosting相关的都比
SVM更实用。SVM主要是背后的learning theory牛逼,算法本身已经有点过时了,因为
复杂度高并且本质上是shallow learning,而且不容易fine tune,但是理论不会过时
,因为理论就算暂时解释不了实践,也还是可以持续发展的。
clustering目前无解,因为问题本身定义是模糊的,对任意数据最多能够假设一个
gaussian mixture,也就是用k-means。很多文章也在质疑这个是science 还是 art。
但是可以期待一个好算法帮助选择k-means里面的k,同时又像kmeans本身一样高效。
Bayesian topic modeling可以做这个但感觉没有太大前途。未来的发展还是看好deep
learning的路线(unsupervised deep learning, 和用于classification的不一样)
做feature learning。这就整个把clustering的问题都颠覆了。
我是菜鸟并且也不是做NLP的,凭感觉讨论一下learning的问题,请大牛多指教。

【在 A*********c 的大作中提到】
: 本来我是带着娱乐的态度来回帖的,但是既然碰到了大牛,请educate我。
: 请告诉我任意一个数据结构,比inverted list 更重要,并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model,比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm,other than Kmeans,will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification,Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

a***y
发帖数: 852
74
另外,从实用技术考虑来讲
如果kmeans不知道如何指定K,可以用Hierarchical clustering。复杂度高但是一次能
得到整个hierarchy。可以从中选择合适的cluster粒度。X-means指定K的方法没有用过
,不过好像比较流行。我需要去看一看。。。
KNN最大的瓶颈是O(n) complexity。但是KNN的solution space其实是对空间的voronoi
划分。random forest本质上也是对空间的划分。应该是取代KNN最理想的直接选择。

【在 a***y 的大作中提到】
: 顶这个,学术圈的state-of-the-art research和工业界的de-facto还是不一样的
: 但是目的本身也一样,学术界本质目的还是求新知。work的好的但是已经被充分理解的
: ,或者heuristic没有太大通用意义的发不出来也是正常
: classification算法方面我觉得random forest, deep learning, boosting相关的都比
: SVM更实用。SVM主要是背后的learning theory牛逼,算法本身已经有点过时了,因为
: 复杂度高并且本质上是shallow learning,而且不容易fine tune,但是理论不会过时
: ,因为理论就算暂时解释不了实践,也还是可以持续发展的。
: clustering目前无解,因为问题本身定义是模糊的,对任意数据最多能够假设一个
: gaussian mixture,也就是用k-means。很多文章也在质疑这个是science 还是 art。
: 但是可以期待一个好算法帮助选择k-means里面的k,同时又像kmeans本身一样高效。

w***g
发帖数: 5958
75
强贴,专门过来顶一下。

【在 A*********c 的大作中提到】
: 本来我是带着娱乐的态度来回帖的,但是既然碰到了大牛,请educate我。
: 请告诉我任意一个数据结构,比inverted list 更重要,并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model,比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm,other than Kmeans,will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification,Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

l*******m
发帖数: 468
76
这心态有问题
A***x
发帖数: 83
77
因为都是码农职位呗,有啥好讨论的,其他行业谁刷题。。。
v**n
发帖数: 951
78
说的太好了。我们组以前有个junior,以为是斯坦福的phd就牛逼了,上来就跟我说你
读过多少paper, 很多paper里是这样的云云。我也没生气,就跟丫说这个业界都是有成
熟的方法的,你说的那些发个paper还行,产品里不是这样搞的。后来,找了个机会把
丫fire了。这种书和paper读的太多了,文化不fit的在非研究的团队里就是个祸害。。。
lovelyminnie也要我多看paper,那我也多看看。。嘿嘿。

【在 A*********c 的大作中提到】
: 本来我是带着娱乐的态度来回帖的,但是既然碰到了大牛,请educate我。
: 请告诉我任意一个数据结构,比inverted list 更重要,并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model,比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm,other than Kmeans,will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification,Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

v**n
发帖数: 951
79
G这些领域的论文确实多,而且不可否认google内部的理论和工程水平都是牛叉中的牛
叉。但是论文和实际用的很不一样。
敢问你仔细看了吗?敢问你能以他们的论文为基础recreate同样的results吗?
如果你没有亲自做过,就不要说别人乱讲。

【在 j********x 的大作中提到】
: 那你直接说ml dm领域就好了
: google的论文这些领域也很多,你还是在乱讲

z****e
发帖数: 54598
80
介于扯蛋和不扯蛋的一种中间状态
至于什么时候能够进化到不扯蛋,那比较看运气
大多数还是end up with扯蛋

【在 d*******r 的大作中提到】
: 强顶这个~~
: 难道大家做这么多年的research,还不明白现在学校所谓的research大多数就是纯扯淡
: !?

相关主题
【拒信】被Coursera拒了大家觉得何海涛 100题怎么样?
签了g家的offer,可以反悔吗?担心进入黑名单这师道,面世就是做题阿
版上的都是在哪做题问一下码农:做题做得好,工作就能胜任吗?
进入JobHunting版参与讨论
z****e
发帖数: 54598
81
re一个
说得很欢乐
受用

【在 A*********c 的大作中提到】
: 本来我是带着娱乐的态度来回帖的,但是既然碰到了大牛,请educate我。
: 请告诉我任意一个数据结构,比inverted list 更重要,并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model,比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm,other than Kmeans,will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification,Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

z****e
发帖数: 54598
82
我也想知道除了VSM以外还有其他啥特别牛逼的算法或者是统计之类的
我现在也处于一种扯蛋的状态,而且处于一种扯不出蛋的状态
谁能说点有意义的,我好写出去交差,包子小意思了

【在 A*********c 的大作中提到】
: 本来我是带着娱乐的态度来回帖的,但是既然碰到了大牛,请educate我。
: 请告诉我任意一个数据结构,比inverted list 更重要,并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model,比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm,other than Kmeans,will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification,Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

z****e
发帖数: 54598
83
我最近学习的扯蛋发现效果都不如最简单的vsm这些
很希望有人educate me一下下,我好有点灵感,能迸发一点出来也好

【在 v**n 的大作中提到】
: G这些领域的论文确实多,而且不可否认google内部的理论和工程水平都是牛叉中的牛
: 叉。但是论文和实际用的很不一样。
: 敢问你仔细看了吗?敢问你能以他们的论文为基础recreate同样的results吗?
: 如果你没有亲自做过,就不要说别人乱讲。

z****e
发帖数: 54598
84
我前一段试了半死,发现最简单的vsm就是work
不需要什么特别复杂的algorithm或者statistical methods去tune
就能很有效,而且比其他人做的都更有效果
然后论证了一下其他方法不如最简单的这个
结论是最好的方式就是不要自找麻烦
结果写上去,被评为低分,评价是太过于简单
我!@#¥%—*
求大牛educate me,我好有点灵感去交差

【在 P****2 的大作中提到】
: 我知道有个组发了很多WWW,SIGIR,NIPS,KDD,没有一篇文章TRANSFER到产品中的。。。
:
: NLP
: exps

v**n
发帖数: 951
85
和你情况相似。而且谷歌图像搜索的大牛跟我说,他们的方法就是上不了台面,内部审
核不说,就算出去了double blind review的话还可能被认为是哪个野鸡大学做的及其
没有理论依据的小玩闹。。。
工程现实就是这样,大家洗洗睡吧。

【在 z****e 的大作中提到】
: 我前一段试了半死,发现最简单的vsm就是work
: 不需要什么特别复杂的algorithm或者statistical methods去tune
: 就能很有效,而且比其他人做的都更有效果
: 然后论证了一下其他方法不如最简单的这个
: 结论是最好的方式就是不要自找麻烦
: 结果写上去,被评为低分,评价是太过于简单
: 我!@#¥%—*
: 求大牛educate me,我好有点灵感去交差

t********e
发帖数: 1169
86
这边扯谈的好好看看人家百度的余凯,msr的邓禹怎么用deep network/ml做出产品的。
更别说google now/google translate等从学术圈搬过去的东西
q********c
发帖数: 1774
87
这个都是办绿卡用的,真正面试都要先做题,做题是第一步。

or

【在 a***m 的大作中提到】
: 我看很多招聘要求都很专业啊比如 fb的一个SDE职位
: 靠做题能面这种吗
: MSc. or PhD. in Computer Science, Information Retrieval, Machine Learning or
: NLP or relevant industry experience
: Experience in classifiers, rankers or other Machine Learning technologies
: Extensive programming experience in C++, Java or C#
: Experience with Hadoop/Hbase/Pig or Mapreduce/Sawzall/Bigtable a plus
: Experience with scripting languages such as Perl, Python, PHP and shell
: scripts

f*********2
发帖数: 48
88
Deep learning 是皇帝的新装。
与ANN有关的好的工作是 Neal 的 Bayesian NN 和 MacKay 等人的 Gaussian process。
不过,高维小样本,对什么方法都是个 坎儿。
另外,SVM离了核方法也不是那么牛叉。
严重同意楼主的观点,工业界更看中简单有效的方法,学术界的一些装逼理论一到实践
里就歇菜了。
u***n
发帖数: 10554
89
怎么看出来是办绿卡用的?如何区别绿卡广告和正常招工广告?

【在 q********c 的大作中提到】
: 这个都是办绿卡用的,真正面试都要先做题,做题是第一步。
:
: or

X****i
发帖数: 1877
90

办绿卡用的广告效果是让读者却步。最好没人会申请。
它的目的是要证明给政府,公司聘不到合格的米国公民。

【在 u***n 的大作中提到】
: 怎么看出来是办绿卡用的?如何区别绿卡广告和正常招工广告?
相关主题
弱问大家做题的时候都用几种语言问个google面试题
只会做题,不会职位需要的那些花花绿绿的技能怎么办?还有一周onsite,怎么看Hadoop.The.Definitive.Guide效率最高?
uber店面请教各位data mining和hadoop哪个方向更好?
进入JobHunting版参与讨论
u***n
发帖数: 10554
91
或者说是为那个人定身度作的?

【在 X****i 的大作中提到】
:
: 办绿卡用的广告效果是让读者却步。最好没人会申请。
: 它的目的是要证明给政府,公司聘不到合格的米国公民。

H**********5
发帖数: 2012
92
Can not agree more,
某日on site某不知名公司(就是抱着玩玩去面的态度的)
一去了某老中面试官屌的不行
(也不只是什么野鸡大学博士)
从头到尾就是宣扬:
基础知识的重要性
你要去读个美国名校
Research技术很重要很重要
计算机不是写代码
计算机算法,理论知识是无比重要的
等等。
我心里就hehe 了,
你MB屌个GB,
大家谁都不要装B,
本来就是个control C+control V的活,还TMB真得很难?很有技术含量?
非计算机的GB毛专业的刷题都能进FLG的又不是1个2个了
没有什么歧视的态度,
反正我看见某些自以为读了PHD的CS开始装的话,我心里就会不爽了。

【在 A*********c 的大作中提到】
: 本来我是带着娱乐的态度来回帖的,但是既然碰到了大牛,请educate我。
: 请告诉我任意一个数据结构,比inverted list 更重要,并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model,比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm,other than Kmeans,will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification,Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

D****3
发帖数: 611
93
主要是看公司。。。
面试不面算法题的牛逼公司多了去了。
a***y
发帖数: 852
94
顶这个,学术圈的state-of-the-art research和工业界的de-facto还是不一样的
但是目的本身也一样,学术界本质目的还是求新知。work的好的但是已经被充分理解的
,或者heuristic没有太大通用意义的发不出来也是正常
classification算法方面我觉得random forest, deep learning, boosting相关的都比
SVM更实用。SVM主要是背后的learning theory牛逼,算法本身已经有点过时了,因为
复杂度高并且本质上是shallow learning,而且不容易fine tune,但是理论不会过时
,因为理论就算暂时解释不了实践,也还是可以持续发展的。
clustering目前无解,因为问题本身定义是模糊的,对任意数据最多能够假设一个
gaussian mixture,也就是用k-means。很多文章也在质疑这个是science 还是 art。
但是可以期待一个好算法帮助选择k-means里面的k,同时又像kmeans本身一样高效。
Bayesian topic modeling可以做这个但感觉没有太大前途。未来的发展还是看好deep
learning的路线(unsupervised deep learning, 和用于classification的不一样)
做feature learning。这就整个把clustering的问题都颠覆了。
我是菜鸟并且也不是做NLP的,凭感觉讨论一下learning的问题,请大牛多指教。

【在 A*********c 的大作中提到】
: 本来我是带着娱乐的态度来回帖的,但是既然碰到了大牛,请educate我。
: 请告诉我任意一个数据结构,比inverted list 更重要,并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model,比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm,other than Kmeans,will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification,Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

a***y
发帖数: 852
95
另外,从实用技术考虑来讲
如果kmeans不知道如何指定K,可以用Hierarchical clustering。复杂度高但是一次能
得到整个hierarchy。可以从中选择合适的cluster粒度。X-means指定K的方法没有用过
,不过好像比较流行。我需要去看一看。。。
KNN最大的瓶颈是O(n) complexity。但是KNN的solution space其实是对空间的voronoi
划分。random forest本质上也是对空间的划分。应该是取代KNN最理想的直接选择。

【在 a***y 的大作中提到】
: 顶这个,学术圈的state-of-the-art research和工业界的de-facto还是不一样的
: 但是目的本身也一样,学术界本质目的还是求新知。work的好的但是已经被充分理解的
: ,或者heuristic没有太大通用意义的发不出来也是正常
: classification算法方面我觉得random forest, deep learning, boosting相关的都比
: SVM更实用。SVM主要是背后的learning theory牛逼,算法本身已经有点过时了,因为
: 复杂度高并且本质上是shallow learning,而且不容易fine tune,但是理论不会过时
: ,因为理论就算暂时解释不了实践,也还是可以持续发展的。
: clustering目前无解,因为问题本身定义是模糊的,对任意数据最多能够假设一个
: gaussian mixture,也就是用k-means。很多文章也在质疑这个是science 还是 art。
: 但是可以期待一个好算法帮助选择k-means里面的k,同时又像kmeans本身一样高效。

w***g
发帖数: 5958
96
强贴,专门过来顶一下。

【在 A*********c 的大作中提到】
: 本来我是带着娱乐的态度来回帖的,但是既然碰到了大牛,请educate我。
: 请告诉我任意一个数据结构,比inverted list 更重要,并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model,比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm,other than Kmeans,will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification,Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

l*******m
发帖数: 468
97
这心态有问题
A***x
发帖数: 83
98
因为都是码农职位呗,有啥好讨论的,其他行业谁刷题。。。
x*****6
发帖数: 22
99
支持啊,真正牛逼的PhD也有,但是只占phd毕业人种的少数,他们去当PI就行了。
大部分人还是毕业工作挣钱养家。。
1 (共1页)
进入JobHunting版参与讨论
相关主题
uber店面详解知名网站的技术发展历程(zz)
问个google面试题不会C++,后果多严重?
还有一周onsite,怎么看Hadoop.The.Definitive.Guide效率最高?Google 内推: Big Data Backend processing engineer (转载)
请教各位data mining和hadoop哪个方向更好?【拒信】被Coursera拒了
现在连machine learning 都要刷题,有点变态!签了g家的offer,可以反悔吗?担心进入黑名单
google onsite杯具+设计题怎么答版上的都是在哪做题
想做题的进来挑战一下自己吧。。大家觉得何海涛 100题怎么样?
感觉CS科班出来的和非科班的还是有差别这师道,面世就是做题阿
相关话题的讨论汇总
话题: experience话题: learning话题: 算法话题: phd话题: paper