由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - Machine learning / data science 面经以及一些总结
相关主题
电子工程转Big Data需要哪些准备?data science 面试求教
【JOBS】我们公司的job opening (Data mining in San Diego)Facebook Intern面经
大家来讨论一下 software engineer-machine learning || data mining 的要求把。请问G家onsite完以后招人的组说pursue other candidates就是没过bar吗?
Amazon On-site 面经+求bless,快两周了还没消息。问一个机器学习的问题
BME phd 找工作 想转偏 data scientist , 求建议报个offer,统计
面了个巴基斯坦的发一个MSFT bing的onsite面经
如何阻止烙印来我们组yelp skype面
报面筋求实习合租请教大家一道ML设计题
相关话题的讨论汇总
话题: regression话题: learning话题: machine话题: what话题: andrew
进入JobHunting版参与讨论
1 (共1页)
a*****h
发帖数: 36
1
本着国人互助以及传递正能量的真理,发一下我个人找工作过程中整理的machine
learning相关面经以及一些心得总结。楼主的背景是fresh CS PhD in computer
vision and machine learning, 非牛校。
已经有前辈总结过很多machine learning的面试题(传送门: http://www.mitbbs.com/article/JobHunting/32808273_0.html),此帖是对其的补充,有一小部分是重复的。面经分两大块:machine learning questions 和 coding questions.
Machine learning related questions:
- Discuss how to predict the price of a hotel given data from previous
years
- SVM formulation
- Logistic regression
- Regularization
- Cost function of neural network
- What is the difference between a generative and discriminative algorithm
- Relationship between kernel trick and dimension augmentation
- What is PCA projection and why it can be solved by SVD
- Bag of Words (BoW) feature
- Nonlinear dimension reduction (Isomap, LLE)
- Supervised methods for dimension reduction
- What is naive Bayes
- Stochastic gradient / gradient descent
- How to predict the age of a person given everyone’s phone call history
- Variance and Bias (a very popular question, watch Andrew’s class)
- Practices: When to collect more data / use more features / etc. (watch
Andrew’s class)
- How to extract features of shoes
- During linear regression, when using each attribute (dimension)
independently to predict the target value, you get a positive weight for
each attribute. However, when you combine all attributes to predict, you get
some large negative weights, why? How to solve it?
- Cross Validation
- Reservoir sampling
- Explain the difference among decision tree, bagging and random forest
- What is collaborative filtering
- How to compute the average of a data stream (very easy, different from
moving average)
- Given a coin, how to pick 1 person from 3 persons with equal probability.
Coding related questions:
- Leetcode: Number of Islands
- Given the start time and end time of each meeting, compute the smallest
number of rooms to host these meetings. In other words, try to stuff as many
meetings in the same room as possible
- Given an array of integers, compute the first two maximum products(乘积)
of any 3 elements (O(nlogn))
- LeetCode: Reverse words in a sentence (follow up: do it in-place)
- LeetCode: Word Pattern
- Evaluate a formula represented as a string, e.g., “3 + (2 * (4 - 1) )”
- Flip a binary tree
- What is the underlying data structure for JAVA hashmap? Answer: BST, so
that the keys are sorted.
- Find the lowest common parent in a binary tree
- Given a huge file, each line of which is a person’s name. Sort the names
using a single computer with small memory but large disk space
- Design a data structure to quickly compute the row sum and column sum of
a sparse matrix
- Design a wrapper class for a pointer to make sure this pointer will
always be deleted even if an exception occurs in the middle
- My Google onsite questions: http://www.mitbbs.com/article_t/JobHunting/33106617.html
面试的一点点心得:
最重要的一点,我觉得是心态。当你找了几个月还没有offer,并且看到别人一直在版
上报offer的时候,肯定很焦虑甚至绝望。我自己也是,那些报offer的帖子,对我来说
都是负能量,绝对不去点开看。这时候,告诉自己四个字:继续坚持。我相信机会总会
眷顾那些努力坚持的人,付出总有回报。
machine learning的职位还是很多的,数学好的国人们优势明显,大可一试, 看到一些
帖子说这些职位主要招PhD,这个结论可能有一定正确性。但是凭借我所遇到的大部分
面试题来看,个人认为MS或者PhD都可以。MS的话最好有一些学校里做project的经验。
仔细学习Andrew Ng在Coursera上的 machine learning课,里面涵盖很多面试中的概念
和题目。虽然讲得比较浅显,但对面试帮助很大。可以把video的速度调成1.5倍,节省
时间。
如果对一些概念或算法不清楚或者想加深理解,找其他的各种课件和视频学习,例如
coursera,wiki,牛校的machine learning课件。
找工作之前做好对自己的定位。要弄清楚自己想做什么,擅长做什么,如何让自己有竞
争力,然后取长补短(而不是扬长避短)。
感觉data scientist对coding的要求没有software engineer那么变态。不过即便如此
,对coding的复习也不应该松懈。
我个人觉得面试machine learning相关职位前需要熟悉的四大块:
Classification:
Logistic regression
Neural Net (classification/regression)
SVM
Decision tree
Random forest
Bayesian network
Nearest neighbor classification
Regression:
Neural Net regression
Linear regression
Ridge regression (add a regularizer)
Lasso regression
Support Vector Regression
Random forest regression
Partial Least Squares
Clustering:
K-means
EM
Mean-shift
Spectral clustering
Hierarchical clustering
Dimension Reduction:
PCA
ICA
CCA
LDA
Isomap
LLE
Neural Network hidden layer
最后祝各位好运。那些还在继续找工作的亲们,坚持住,加油!
d**********2
发帖数: 553
2
赞 !
L********d
发帖数: 3820
3
mark

【在 a*****h 的大作中提到】
: 本着国人互助以及传递正能量的真理,发一下我个人找工作过程中整理的machine
: learning相关面经以及一些心得总结。楼主的背景是fresh CS PhD in computer
: vision and machine learning, 非牛校。
: 已经有前辈总结过很多machine learning的面试题(传送门: http://www.mitbbs.com/article/JobHunting/32808273_0.html),此帖是对其的补充,有一小部分是重复的。面经分两大块:machine learning questions 和 coding questions.
: Machine learning related questions:
: - Discuss how to predict the price of a hotel given data from previous
: years
: - SVM formulation
: - Logistic regression
: - Regularization

j**********3
发帖数: 3211
4
必须mark啊
j********g
发帖数: 427
5
mark
p*****9
发帖数: 273
6
mark
y******e
发帖数: 5906
7
coding不在行
这些问题都不算难,但考的好细
也不好回答。
除非提前翻书
H*****V
发帖数: 51
8
mark
ty
z****e
发帖数: 54598
9
hashmap底层是array
bst查询做不到amortized o(1)复杂度
但是可以保证顺序,hashmap并不能保证key or value的顺序
如果要保证顺序,用priorityqueue
gw
发帖数: 2175
10
同样coding 不行。
近来开始自觉ML,希望能转行到data scientist,正在努力学习中。
Andrew的课已经学完了,其他的还没有找到特别好的。
看这个面经,觉得有必要再复习一遍Andrew的课。

【在 y******e 的大作中提到】
: coding不在行
: 这些问题都不算难,但考的好细
: 也不好回答。
: 除非提前翻书

相关主题
面了个巴基斯坦的data science 面试求教
如何阻止烙印来我们组Facebook Intern面经
报面筋求实习合租请问G家onsite完以后招人的组说pursue other candidates就是没过bar吗?
进入JobHunting版参与讨论
y******e
发帖数: 5906
11
Pattern classification
这本书可以好好看看,呵呵

【在 gw 的大作中提到】
: 同样coding 不行。
: 近来开始自觉ML,希望能转行到data scientist,正在努力学习中。
: Andrew的课已经学完了,其他的还没有找到特别好的。
: 看这个面经,觉得有必要再复习一遍Andrew的课。

a***u
发帖数: 383
12
mark,mark
w*****t
发帖数: 190
13
马!
i*******e
发帖数: 240
14
Mark
q***x
发帖数: 75
15
大赞总结!收藏了!

【在 a*****h 的大作中提到】
: 本着国人互助以及传递正能量的真理,发一下我个人找工作过程中整理的machine
: learning相关面经以及一些心得总结。楼主的背景是fresh CS PhD in computer
: vision and machine learning, 非牛校。
: 已经有前辈总结过很多machine learning的面试题(传送门: http://www.mitbbs.com/article/JobHunting/32808273_0.html),此帖是对其的补充,有一小部分是重复的。面经分两大块:machine learning questions 和 coding questions.
: Machine learning related questions:
: - Discuss how to predict the price of a hotel given data from previous
: years
: - SVM formulation
: - Logistic regression
: - Regularization

f****D
发帖数: 4745
16
mark
r******g
发帖数: 286
17
谢谢分享!
a*****h
发帖数: 36
18
本着国人互助以及传递正能量的真理,发一下我个人找工作过程中整理的machine
learning相关面经以及一些心得总结。楼主的背景是fresh CS PhD in computer
vision and machine learning, 非牛校。
已经有前辈总结过很多machine learning的面试题(传送门: http://www.mitbbs.com/article/JobHunting/32808273_0.html),此帖是对其的补充,有一小部分是重复的。面经分两大块:machine learning questions 和 coding questions.
Machine learning related questions:
- Discuss how to predict the price of a hotel given data from previous
years
- SVM formulation
- Logistic regression
- Regularization
- Cost function of neural network
- What is the difference between a generative and discriminative algorithm
- Relationship between kernel trick and dimension augmentation
- What is PCA projection and why it can be solved by SVD
- Bag of Words (BoW) feature
- Nonlinear dimension reduction (Isomap, LLE)
- Supervised methods for dimension reduction
- What is naive Bayes
- Stochastic gradient / gradient descent
- How to predict the age of a person given everyone’s phone call history
- Variance and Bias (a very popular question, watch Andrew’s class)
- Practices: When to collect more data / use more features / etc. (watch
Andrew’s class)
- How to extract features of shoes
- During linear regression, when using each attribute (dimension)
independently to predict the target value, you get a positive weight for
each attribute. However, when you combine all attributes to predict, you get
some large negative weights, why? How to solve it?
- Cross Validation
- Reservoir sampling
- Explain the difference among decision tree, bagging and random forest
- What is collaborative filtering
- How to compute the average of a data stream (very easy, different from
moving average)
- Given a coin, how to pick 1 person from 3 persons with equal probability.
Coding related questions:
- Leetcode: Number of Islands
- Given the start time and end time of each meeting, compute the smallest
number of rooms to host these meetings. In other words, try to stuff as many
meetings in the same room as possible
- Given an array of integers, compute the first two maximum products(乘积)
of any 3 elements (O(nlogn))
- LeetCode: Reverse words in a sentence (follow up: do it in-place)
- LeetCode: Word Pattern
- Evaluate a formula represented as a string, e.g., “3 + (2 * (4 - 1) )”
- Flip a binary tree
- What is the underlying data structure for JAVA hashmap? Answer: BST, so
that the keys are sorted.
- Find the lowest common parent in a binary tree
- Given a huge file, each line of which is a person’s name. Sort the names
using a single computer with small memory but large disk space
- Design a data structure to quickly compute the row sum and column sum of
a sparse matrix
- Design a wrapper class for a pointer to make sure this pointer will
always be deleted even if an exception occurs in the middle
- My Google onsite questions: http://www.mitbbs.com/article_t/JobHunting/33106617.html
面试的一点点心得:
最重要的一点,我觉得是心态。当你找了几个月还没有offer,并且看到别人一直在版
上报offer的时候,肯定很焦虑甚至绝望。我自己也是,那些报offer的帖子,对我来说
都是负能量,绝对不去点开看。这时候,告诉自己四个字:继续坚持。我相信机会总会
眷顾那些努力坚持的人,付出总有回报。
machine learning的职位还是很多的,数学好的国人们优势明显,大可一试, 看到一些
帖子说这些职位主要招PhD,这个结论可能有一定正确性。但是凭借我所遇到的大部分
面试题来看,个人认为MS或者PhD都可以。MS的话最好有一些学校里做project的经验。
仔细学习Andrew Ng在Coursera上的 machine learning课,里面涵盖很多面试中的概念
和题目。虽然讲得比较浅显,但对面试帮助很大。可以把video的速度调成1.5倍,节省
时间。
如果对一些概念或算法不清楚或者想加深理解,找其他的各种课件和视频学习,例如
coursera,wiki,牛校的machine learning课件。
找工作之前做好对自己的定位。要弄清楚自己想做什么,擅长做什么,如何让自己有竞
争力,然后取长补短(而不是扬长避短)。
感觉data scientist对coding的要求没有software engineer那么变态。不过即便如此
,对coding的复习也不应该松懈。
我个人觉得面试machine learning相关职位前需要熟悉的四大块:
Classification:
Logistic regression
Neural Net (classification/regression)
SVM
Decision tree
Random forest
Bayesian network
Nearest neighbor classification
Regression:
Neural Net regression
Linear regression
Ridge regression (add a regularizer)
Lasso regression
Support Vector Regression
Random forest regression
Partial Least Squares
Clustering:
K-means
EM
Mean-shift
Spectral clustering
Hierarchical clustering
Dimension Reduction:
PCA
ICA
CCA
LDA
Isomap
LLE
Neural Network hidden layer
最后祝各位好运。那些还在继续找工作的亲们,坚持住,加油!
d**********2
发帖数: 553
19
赞 !
L********d
发帖数: 3820
20
mark

【在 a*****h 的大作中提到】
: 本着国人互助以及传递正能量的真理,发一下我个人找工作过程中整理的machine
: learning相关面经以及一些心得总结。楼主的背景是fresh CS PhD in computer
: vision and machine learning, 非牛校。
: 已经有前辈总结过很多machine learning的面试题(传送门: http://www.mitbbs.com/article/JobHunting/32808273_0.html),此帖是对其的补充,有一小部分是重复的。面经分两大块:machine learning questions 和 coding questions.
: Machine learning related questions:
: - Discuss how to predict the price of a hotel given data from previous
: years
: - SVM formulation
: - Logistic regression
: - Regularization

相关主题
问一个机器学习的问题yelp skype面
报个offer,统计请教大家一道ML设计题
发一个MSFT bing的onsite面经g家店面
进入JobHunting版参与讨论
j**********3
发帖数: 3211
21
必须mark啊
j********g
发帖数: 427
22
mark
p*****9
发帖数: 273
23
mark
y******e
发帖数: 5906
24
coding不在行
这些问题都不算难,但考的好细
也不好回答。
除非提前翻书
H*****V
发帖数: 51
25
mark
ty
z****e
发帖数: 54598
26
hashmap底层是array
bst查询做不到amortized o(1)复杂度
但是可以保证顺序,hashmap并不能保证key or value的顺序
如果要保证顺序,用priorityqueue
gw
发帖数: 2175
27
同样coding 不行。
近来开始自觉ML,希望能转行到data scientist,正在努力学习中。
Andrew的课已经学完了,其他的还没有找到特别好的。
看这个面经,觉得有必要再复习一遍Andrew的课。

【在 y******e 的大作中提到】
: coding不在行
: 这些问题都不算难,但考的好细
: 也不好回答。
: 除非提前翻书

y******e
发帖数: 5906
28
Pattern classification
这本书可以好好看看,呵呵

【在 gw 的大作中提到】
: 同样coding 不行。
: 近来开始自觉ML,希望能转行到data scientist,正在努力学习中。
: Andrew的课已经学完了,其他的还没有找到特别好的。
: 看这个面经,觉得有必要再复习一遍Andrew的课。

a***u
发帖数: 383
29
mark,mark
w*****t
发帖数: 190
30
马!
相关主题
东岸 data science /CS内推机会【JOBS】我们公司的job opening (Data mining in San Diego)
离成功转码还有多远? (转载)大家来讨论一下 software engineer-machine learning || data mining 的要求把。
电子工程转Big Data需要哪些准备?Amazon On-site 面经+求bless,快两周了还没消息。
进入JobHunting版参与讨论
i*******e
发帖数: 240
31
Mark
q***x
发帖数: 75
32
大赞总结!收藏了!

【在 a*****h 的大作中提到】
: 本着国人互助以及传递正能量的真理,发一下我个人找工作过程中整理的machine
: learning相关面经以及一些心得总结。楼主的背景是fresh CS PhD in computer
: vision and machine learning, 非牛校。
: 已经有前辈总结过很多machine learning的面试题(传送门: http://www.mitbbs.com/article/JobHunting/32808273_0.html),此帖是对其的补充,有一小部分是重复的。面经分两大块:machine learning questions 和 coding questions.
: Machine learning related questions:
: - Discuss how to predict the price of a hotel given data from previous
: years
: - SVM formulation
: - Logistic regression
: - Regularization

f****D
发帖数: 4745
33
mark
r******g
发帖数: 286
34
谢谢分享!
D*********e
发帖数: 6
35
markmark
p*****9
发帖数: 273
36
mark
g*******u
发帖数: 3948
37
Andrew的课讲得很实际, 不向其他人的课程, 先把公式砸。 Andrew的就是面向实际
应用的 。所以说的技巧比较多

【在 gw 的大作中提到】
: 同样coding 不行。
: 近来开始自觉ML,希望能转行到data scientist,正在努力学习中。
: Andrew的课已经学完了,其他的还没有找到特别好的。
: 看这个面经,觉得有必要再复习一遍Andrew的课。

d******v
发帖数: 801
38
好文,这个一定要赞。
p********e
发帖数: 170
39
thanks for sharing
1 (共1页)
进入JobHunting版参与讨论
相关主题
请教大家一道ML设计题BME phd 找工作 想转偏 data scientist , 求建议
g家店面面了个巴基斯坦的
东岸 data science /CS内推机会如何阻止烙印来我们组
离成功转码还有多远? (转载)报面筋求实习合租
电子工程转Big Data需要哪些准备?data science 面试求教
【JOBS】我们公司的job opening (Data mining in San Diego)Facebook Intern面经
大家来讨论一下 software engineer-machine learning || data mining 的要求把。请问G家onsite完以后招人的组说pursue other candidates就是没过bar吗?
Amazon On-site 面经+求bless,快两周了还没消息。问一个机器学习的问题
相关话题的讨论汇总
话题: regression话题: learning话题: machine话题: what话题: andrew