大家电话面试都怎么准备的啊 - DataSciences版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - 大家电话面试都怎么准备的啊

相关主题
● 怎么online update model	● 问一个 feature 相关性问题
● 转发一个RECRUITER给的工作机会	● 请教一道面试题~~
● PCA 可以用在mixture of continuous 和categorical variables (转载)	● 请教一个facebook的面试题
● Another opening needs immediate fill-in (转载)	● maximal information coefficient 问题
● 要不要转去Big Data部门	● 说说最近的一次面试,兼告诫国人
● 内推 - Data scientist Or Consultant (医药咨询领域)	● 工作中遇到的一个现象，问问大家怎么解释 (转载)
● correlation coefficient (转载)	● 有人面过square吗？
● 问一下python 或者是 R 里面 gradient boosting model 的问题	● 求Uber、Airbnb、Square的Data Scientist面经

相关话题的讨论汇总
话题: error话题: year2话题: rate2话题: squared话题: fit2

进入DataSciences版参与讨论

(共1页)

q********n
发帖数: 308

说是半小时，不知道能讲点什么？
一个小的网上购物公司

t******g
发帖数: 2253

看下job description, 有针对性做下准备
自己的简历过几遍，想想怎么介绍自己做的projects等

c********h
发帖数: 330

半小时应该问不了啥实质内容，估计就简历问问，再几个behavior。你再准备几个问题
问他们

q********n
发帖数: 308

忘了，第一题还问了t-test, significant什么的，不明白，没学过统计。

【在 q********n 的大作中提到】

: 说是半小时，不知道能讲点什么？
: 一个小的网上购物公司

c********1
发帖数: 60

谢谢分享！很有意思的题目

【在 q********n 的大作中提到】

: 说是半小时，不知道能讲点什么？
: 一个小的网上购物公司

c********1
发帖数: 60

不知道版上各位大牛对第三题有什么想法没？我有一个比较粗浅的想法，也不太肯定是
否make sense:建立一个数据库，退货率是其中一个variable，还有其他的varaible像
是商品的相关信息和客户的相关信息。以退货率之外的其他所有变量对退货率做一个
regularized regression，选取其中显著的变量，然后进一步研究被选取变量和退货率
的关系。到了这一步多半得用business sense了。

s*********h
发帖数: 6288

我的粗浅的想法：
如果客户基本不做重复购买，比如像亚马逊那种，退货和不退货就是binary的，有很多
方法可以搞。
如果是企业级客户，就用GLM的binomial试试？

【在 c********1 的大作中提到】

: 不知道版上各位大牛对第三题有什么想法没？我有一个比较粗浅的想法，也不太肯定是
: 否make sense:建立一个数据库，退货率是其中一个variable，还有其他的varaible像
: 是商品的相关信息和客户的相关信息。以退货率之外的其他所有变量对退货率做一个
: regularized regression，选取其中显著的变量，然后进一步研究被选取变量和退货率
: 的关系。到了这一步多半得用business sense了。

q********n
发帖数: 308

展开说说，这个太浮于水面了。

【在 s*********h 的大作中提到】

: 我的粗浅的想法：
: 如果客户基本不做重复购买，比如像亚马逊那种，退货和不退货就是binary的，有很多
: 方法可以搞。
: 如果是企业级客户，就用GLM的binomial试试？

L******t
发帖数: 585

电面就问技术问题啊

【在 q********n 的大作中提到】

: 说是半小时，不知道能讲点什么？
: 一个小的网上购物公司

O*********h
发帖数: 140

请教一下，Q2的假变量指的是什么？dummy variable?

【在 q********n 的大作中提到】

: 说是半小时，不知道能讲点什么？
: 一个小的网上购物公司

相关主题
● 内推 - Data scientist Or Consultant (医药咨询领域)	● 问一个 feature 相关性问题
● correlation coefficient (转载)	● 请教一道面试题~~
● 问一下python 或者是 R 里面 gradient boosting model 的问题	● 请教一个facebook的面试题
进入DataSciences版参与讨论

q********n
发帖数: 308

不是，就是建模型的时候本来需要比如说2000个变量，结果用了4000个，所以一半变量
其实用不着，问如何挑出这些来。

【在 O*********h 的大作中提到】

:
: 请教一下，Q2的假变量指的是什么？dummy variable?

O*********h
发帖数: 140

请问现在业内通常是如何选择的呢？
通常social science习惯用step-wise看每个variable对explained sum of squares的
贡献。按照这个case，MSS阀值以下的变量就被抛弃了。
抱歉歪了下楼：）我是social science出身，正在学习ML的term和校正对ML一些实现的
理解。

【在 q********n 的大作中提到】

: 不是，就是建模型的时候本来需要比如说2000个变量，结果用了4000个，所以一半变量
: 其实用不着，问如何挑出这些来。

O*********h
发帖数: 140

说下我对退货率问题的看法。既然是退货率，必然涉及退货，所以公司对退货cases的
了解有多深入？比如，哪些客户，买了哪些产品，期间是否受到recommendation
system的影响等等，组成的segment(s)比较容易退货？
基于上面的逻辑，先根据business sense做segmentation。对于和结果关联紧密的
segmentation可以直接汇报，或者进一步modeling drivers；不紧密的要么抛弃，要么
再细分。
顺便问一下，如果在这个case用neural network，可不可以理解为对数据先做数量未知
的segmentation，然后再研究/预测每个segment对return的影响？

【在 q********n 的大作中提到】

: 说是半小时，不知道能讲点什么？
: 一个小的网上购物公司

n*******y
发帖数: 437

我也在学统计，第一题我刚刚看书看到，跟大家交流一下，希望指正～
把数据copy几次得到更多数据，但是redundent数据，不能提供更多的信息。所以得到
的模型式子不变（y = a1x1 + a2x2 + ...），但是我们会误以为这个模型的
confidence level很高，也就是误以为参数ai的standard error很小，confident
interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant，现
在你会误以为它significant。
比如想知道全美男子的平均身高，但是只量了一个人科比，然后把data复制10000次。
看data的人发现哇靠量了10000人全是6'6"...

q********n
发帖数: 308

正解，能说说看得哪本书么？我看过一些统计的书和资料，但总觉得没看到过这种的，
可能是看的书的类型不对？

【在 n*******y 的大作中提到】

: 我也在学统计，第一题我刚刚看书看到，跟大家交流一下，希望指正～
: 把数据copy几次得到更多数据，但是redundent数据，不能提供更多的信息。所以得到
: 的模型式子不变（y = a1x1 + a2x2 + ...），但是我们会误以为这个模型的
: confidence level很高，也就是误以为参数ai的standard error很小，confident
: interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant，现
: 在你会误以为它significant。
: 比如想知道全美男子的平均身高，但是只量了一个人科比，然后把data复制10000次。
: 看data的人发现哇靠量了10000人全是6'6"...

A****t
发帖数: 141

没错，如果只是把数据copy几遍来增加sample size，没有提供更多的信息。其实在
inference上也会得到一样的结果。如果是linear model的话，copy以后的data point
不再是独立，model assumption就不一样了。

【在 n*******y 的大作中提到】

c*******2
发帖数: 8

第一题确实是point estimation不会变，想一想estimate parameter 用的 normal
equation就知道了。
但是confidence interval, hypothesis testing 会变，因为standard error里面分母
的n变成2n了，所以standard error变小了，更容易得到significant的结果，可能会增
加Type I error的概率。

A****t
发帖数: 141

copy产生的数据要考虑correlation，比如简单的t test，算standard error得到的结
果是一样的。point estimate不变，hypothesis testing的结果也应该不变

b********h
发帖数: 2451

你面的啥职位？

【在 q********n 的大作中提到】

: 说是半小时，不知道能讲点什么？
: 一个小的网上购物公司

n*******y
发帖数: 437

我看的是an introduction to statistical learning with applications in R
http://pan.baidu.com/wap/link?uk=1765079087&shareid=2552203541&
这个书语言比较通俗，内容比较浅吧。我想看完了再看专业点的。。。
（科比不是这个书上讲的）
最好有网络课程就好了，我觉得浅显的书也不如听啊。大家知道有这方面的网络课程吗
？我看了一下coursera上JHU的statistical inference，全是数学，讲的不太好懂

【在 q********n 的大作中提到】

: 正解，能说说看得哪本书么？我看过一些统计的书和资料，但总觉得没看到过这种的，
: 可能是看的书的类型不对？

相关主题
● maximal information coefficient 问题	● 有人面过square吗？
● 说说最近的一次面试,兼告诫国人	● 求Uber、Airbnb、Square的Data Scientist面经
● 工作中遇到的一个现象，问问大家怎么解释 (转载)	● 为什么要知道DETAILS OF A MACHINE LEARNING ALGORITHM
进入DataSciences版参与讨论

q********n
发帖数: 308

data scientist 啊

【在 b********h 的大作中提到】

: 你面的啥职位？

w**2
发帖数: 147

请问，
二是模型有2000个变量，有一半是假的，问如何甄别？
能解释“假的”吗？是noisy吗？

q********n
发帖数: 308

什么是 noisy？哪行的术语？

【在 w**2 的大作中提到】

: 请问，
: 二是模型有2000个变量，有一半是假的，问如何甄别？
: 能解释“假的”吗？是noisy吗？

k******g
发帖数: 24

Q2用step-wise的F-test是最传统的统计方法吧？新手，请指正。

j*******l
发帖数: 31

网络课
http://www.r-bloggers.com/in-depth-introduction-to-machine-lear

F*****n
发帖数: 1552

这个要怒赞一把，太好了！我就看了三节课，立马明白上次面试为什么挂掉了。很久没
有这种听君一席话，胜读十年书的感觉了。

【在 j*******l 的大作中提到】

: 网络课
: http://www.r-bloggers.com/in-depth-introduction-to-machine-lear

T*****u
发帖数: 7103

我对q3的粗浅理解，两个方面，一个是针对客户/销售/marketing的，一个是针对产品/
process提高质量口味的。送儿子上学，回来说。

r*********o
发帖数: 490

zan!

【在 j*******l 的大作中提到】

: 网络课
: http://www.r-bloggers.com/in-depth-introduction-to-machine-lear

y*******n
发帖数: 99

没懂，为什么confidence level会变，样本的distribution不是没有没变吗？
如果这样能够改变confidence level？ Bootstrap怎么讲？
不太懂统计，求指教

【在 n*******y 的大作中提到】

s******t
发帖数: 71

Q1:
year <- c(2000 , 2001 , 2002 , 2003 , 2004)
rate <- c(9.34 , 8.50 , 7.62 , 6.93 , 6.60)
cor(year,rate)
fit1 = lm(rate~year)
summary(fit1)
year2 = rep(year, 100)
rate2 = rep(rate, 100)
cor(year2,rate2)
fit2 = lm(rate2~year2)
summary(fit2)
> summary(fit1)
Call:
lm(formula = rate ~ year)
Residuals:
1 2 3 4 5
0.132 -0.003 -0.178 -0.163 0.212
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1419.20800 126.94957 11.18 0.00153 **
year -0.70500 0.06341 -11.12 0.00156 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.2005 on 3 degrees of freedom
Multiple R-squared: 0.9763, Adjusted R-squared: 0.9684
F-statistic: 123.6 on 1 and 3 DF, p-value: 0.001559
> summary(fit2)
Call:
lm(formula = rate2 ~ year2)
Residuals:
Min 1Q Median 3Q Max
-0.178 -0.163 -0.003 0.132 0.212
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.419e+03 9.853e+00 144.0 <2e-16 ***
year2 -7.050e-01 4.922e-03 -143.2 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.1556 on 498 degrees of freedom
Multiple R-squared: 0.9763, Adjusted R-squared: 0.9763
F-statistic: 2.052e+04 on 1 and 498 DF, p-value: < 2.2e-16
So after copying the data for 100 times, the estimates remain the same, but
the std.error drops dramatically. And t value is much large, t-test is much
more significant.

相关主题
● 如何evaluate an unsupervised learning method?	● 转发一个RECRUITER给的工作机会
● SAS PROC VARCLUS 问题求救 (转载)	● PCA 可以用在mixture of continuous 和categorical variables (转载)
● 怎么online update model	● Another opening needs immediate fill-in (转载)
进入DataSciences版参与讨论

q********n
发帖数: 308

说是半小时，不知道能讲点什么？
一个小的网上购物公司
---------------------------------
一是问了regression的时候，老板让你把数据copy几次造成更多的数据，这样能不能提
高模型精确度，需要解释为何？
二是模型有2000个变量，有一半是假的，问如何甄别？
三他们公司一直是有退货率高的问题，问有没有什么idea如何用machine learning的办
法降低退货率。

t******g
发帖数: 2253

看下job description, 有针对性做下准备
自己的简历过几遍，想想怎么介绍自己做的projects等

c********h
发帖数: 330

半小时应该问不了啥实质内容，估计就简历问问，再几个behavior。你再准备几个问题
问他们

q********n
发帖数: 308

忘了，第一题还问了t-test, significant什么的，不明白，没学过统计。

【在 q********n 的大作中提到】

: 说是半小时，不知道能讲点什么？
: 一个小的网上购物公司
: ---------------------------------
: 一是问了regression的时候，老板让你把数据copy几次造成更多的数据，这样能不能提
: 高模型精确度，需要解释为何？
: 二是模型有2000个变量，有一半是假的，问如何甄别？
: 三他们公司一直是有退货率高的问题，问有没有什么idea如何用machine learning的办
: 法降低退货率。

c********1
发帖数: 60

谢谢分享！很有意思的题目

【在 q********n 的大作中提到】

c********1
发帖数: 60

s*********h
发帖数: 6288

q********n
发帖数: 308

展开说说，这个太浮于水面了。

【在 s*********h 的大作中提到】

L******t
发帖数: 585

电面就问技术问题啊

【在 q********n 的大作中提到】

O*********h
发帖数: 140

请教一下，Q2的假变量指的是什么？dummy variable?

【在 q********n 的大作中提到】

相关主题
● Another opening needs immediate fill-in (转载)	● correlation coefficient (转载)
● 要不要转去Big Data部门	● 问一下python 或者是 R 里面 gradient boosting model 的问题
● 内推 - Data scientist Or Consultant (医药咨询领域)	● 问一个 feature 相关性问题
进入DataSciences版参与讨论

q********n
发帖数: 308

不是，就是建模型的时候本来需要比如说2000个变量，结果用了4000个，所以一半变量
其实用不着，问如何挑出这些来。

【在 O*********h 的大作中提到】

:
: 请教一下，Q2的假变量指的是什么？dummy variable?

O*********h
发帖数: 140

: 不是，就是建模型的时候本来需要比如说2000个变量，结果用了4000个，所以一半变量
: 其实用不着，问如何挑出这些来。

O*********h
发帖数: 140

n*******y
发帖数: 437

q********n
发帖数: 308

正解，能说说看得哪本书么？我看过一些统计的书和资料，但总觉得没看到过这种的，
可能是看的书的类型不对？

【在 n*******y 的大作中提到】

A****t
发帖数: 141

c*******2
发帖数: 8

A****t
发帖数: 141

copy产生的数据要考虑correlation，比如简单的t test，算standard error得到的结
果是一样的。point estimate不变，hypothesis testing的结果也应该不变

b********h
发帖数: 2451

你面的啥职位？

【在 q********n 的大作中提到】

n*******y
发帖数: 437

: 正解，能说说看得哪本书么？我看过一些统计的书和资料，但总觉得没看到过这种的，
: 可能是看的书的类型不对？

相关主题
● 请教一道面试题~~	● 说说最近的一次面试,兼告诫国人
● 请教一个facebook的面试题	● 工作中遇到的一个现象，问问大家怎么解释 (转载)
● maximal information coefficient 问题	● 有人面过square吗？
进入DataSciences版参与讨论

q********n
发帖数: 308

data scientist 啊

【在 b********h 的大作中提到】

: 你面的啥职位？

w**2
发帖数: 147

请问，
二是模型有2000个变量，有一半是假的，问如何甄别？
能解释“假的”吗？是noisy吗？

q********n
发帖数: 308

什么是 noisy？哪行的术语？

【在 w**2 的大作中提到】

: 请问，
: 二是模型有2000个变量，有一半是假的，问如何甄别？
: 能解释“假的”吗？是noisy吗？

k******g
发帖数: 24

Q2用step-wise的F-test是最传统的统计方法吧？新手，请指正。

j*******l
发帖数: 31

网络课
http://www.r-bloggers.com/in-depth-introduction-to-machine-lear

F*****n
发帖数: 1552

: 网络课
: http://www.r-bloggers.com/in-depth-introduction-to-machine-lear

T*****u
发帖数: 7103

我对q3的粗浅理解，两个方面，一个是针对客户/销售/marketing的，一个是针对产品/
process提高质量口味的。送儿子上学，回来说。

r*********o
发帖数: 490

zan!

【在 j*******l 的大作中提到】

: 网络课
: http://www.r-bloggers.com/in-depth-introduction-to-machine-lear

y*******n
发帖数: 99

s******t
发帖数: 71

相关主题
● 求Uber、Airbnb、Square的Data Scientist面经	● SAS PROC VARCLUS 问题求救 (转载)
● 为什么要知道DETAILS OF A MACHINE LEARNING ALGORITHM	● 怎么online update model
● 如何evaluate an unsupervised learning method?	● 转发一个RECRUITER给的工作机会
进入DataSciences版参与讨论

h******e
发帖数: 666

这个和bootstrap有啥不同？
谢谢

point

【在 A****t 的大作中提到】

: 没错，如果只是把数据copy几遍来增加sample size，没有提供更多的信息。其实在
: inference上也会得到一样的结果。如果是linear model的话，copy以后的data point
: 不再是独立，model assumption就不一样了。

(共1页)

进入DataSciences版参与讨论

相关主题
● 求Uber、Airbnb、Square的Data Scientist面经	● 要不要转去Big Data部门
● 为什么要知道DETAILS OF A MACHINE LEARNING ALGORITHM	● 内推 - Data scientist Or Consultant (医药咨询领域)
● 如何evaluate an unsupervised learning method?	● correlation coefficient (转载)
● SAS PROC VARCLUS 问题求救 (转载)	● 问一下python 或者是 R 里面 gradient boosting model 的问题
● 怎么online update model	● 问一个 feature 相关性问题
● 转发一个RECRUITER给的工作机会	● 请教一道面试题~~
● PCA 可以用在mixture of continuous 和categorical variables (转载)	● 请教一个facebook的面试题
● Another opening needs immediate fill-in (转载)	● maximal information coefficient 问题

相关话题的讨论汇总
话题: error话题: year2话题: rate2话题: squared话题: fit2

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天