c***z 发帖数: 6348 | 1 首先说说教训。如果你是技术骨干,那么在介绍项目的时候,得悠着点,注意不能说涉
及保密的东西。这个对于有些人来说是常识,但是对于比较呆的人(比如我),却是需
要栽几个跟头才能学到的。
然后是面经。大概有这么几类的题目:
1,理论类。Netflix爱问,追着我问Random Forest怎么split,怎么cross validate,
还有Neural Network怎么back propagate, 怎么feature selection,用的什么包裹,
什么原理,一直问到survival analysis的公式,很久没用于是歇菜了(和treatment
model混淆了)。对不起内推的大哥了。
2,实践类。小公司爱问,类似于码工面试的设计题。这种情况怎么搞,那种情况怎么
搞,没见到data只能胡说,就说以前我有一个项目,情况有点类似,我大体是这么做的
,但是细节不能说 :P
3,基础操作类。大公司爱问,基本上SQL解决。我最近有点轻敌,没有重视SQL,觉得
这东西老古董。结果被人问了一个SQL很容易而R,Pig和Scala都很难解决的数据操作的
问题。还有Linkedin的三姐让我15分钟内写出reshape函数,歇菜了。同对不起内推的
兄弟了。
4,产品类。都爱问,对于我们的产品有什么看法,怎么改进。我从来不用social
network,只能临时抱佛脚。于是Facebook和Linkedin歇菜了,理由是不够confident。
对不起内推的兄弟了。
5,分析类。都爱问,像加州有多少出租车之类的。思路差不多就是那样,从需求开始
,简单的算术。
6,编程类。F和L爱问LC那样的,小公司问的比较简单。都怪我上次BSO说从来没有考过
code,这次全部考code。像什么BFS,max substring都来了。我要是能刷题我就不报DS
了,报SDE去了啊。
最后是拒掉的唯一一个offer: 小公司,16万base,1万签字费,1万股权/4年,20%奖金
,6个月办绿卡。主要是又要我做技术骨干,太累了,而且不安稳。
好想好想找个大公司混绿卡啊。只有接着找吧。虽然现在的公司必倒,但是大概还能有
几个月的时间。求bless!
另外一点经验,可以在offer里面要一个parachute term,如果公司让走人,必须提供
额外一个月的H1B,薪水和benefits。这样多少能安心一点。
还有一点经验,就是小心猎头,一定什么都不能promise。我被他们忽悠,promise了一个
决定是否接受offer的deadline,结果搞得非常被动。就说现在还不能决定。 |
l******n 发帖数: 9344 | 2 1万股权/4年太少了
【在 c***z 的大作中提到】 : 首先说说教训。如果你是技术骨干,那么在介绍项目的时候,得悠着点,注意不能说涉 : 及保密的东西。这个对于有些人来说是常识,但是对于比较呆的人(比如我),却是需 : 要栽几个跟头才能学到的。 : 然后是面经。大概有这么几类的题目: : 1,理论类。Netflix爱问,追着我问Random Forest怎么split,怎么cross validate, : 还有Neural Network怎么back propagate, 怎么feature selection,用的什么包裹, : 什么原理,一直问到survival analysis的公式,很久没用于是歇菜了(和treatment : model混淆了)。对不起内推的大哥了。 : 2,实践类。小公司爱问,类似于码工面试的设计题。这种情况怎么搞,那种情况怎么 : 搞,没见到data只能胡说,就说以前我有一个项目,情况有点类似,我大体是这么做的
|
c***z 发帖数: 6348 | 3 根本就是操卖白粉的心,赚卖白菜的钱
【在 l******n 的大作中提到】 : 1万股权/4年太少了
|
l******n 发帖数: 9344 | 4 我最近也找了几家,不过都是附近的小公司,基本都要求很强的coding能力,和SDE基
本没啥区别
现在个人更倾向于service类型的公司,做product的ds基本就是当成SDE在用
【在 c***z 的大作中提到】 : 根本就是操卖白粉的心,赚卖白菜的钱
|
c***z 发帖数: 6348 | 5 可是大公司的DS不是做product就是做product support,基本上都是CS背景的人
有什么好公司比较安稳又有钱么(想得美) |
l******n 发帖数: 9344 | 6 consulting呀,一般是大公司,工资高,工作轻松,就是没有股票/期权,没有暴富的
机会
【在 c***z 的大作中提到】 : 可是大公司的DS不是做product就是做product support,基本上都是CS背景的人 : 有什么好公司比较安稳又有钱么(想得美)
|
c***z 发帖数: 6348 | 7 consulting累死了,KPMG据说50%travel |
l******n 发帖数: 9344 | 8 所以能不能remote很重要
【在 c***z 的大作中提到】 : consulting累死了,KPMG据说50%travel
|
c***z 发帖数: 6348 | 9 无聊查了一下http://h1bdata.info
还是portfolio manager 工资高
乖乖80万base
要不大家一起搞一个data driven portfolio management firm吧 |
l******n 发帖数: 9344 | 10 那是fund吧,没钱玩不起
【在 c***z 的大作中提到】 : 无聊查了一下http://h1bdata.info : 还是portfolio manager 工资高 : 乖乖80万base : 要不大家一起搞一个data driven portfolio management firm吧
|
|
|
c***z 发帖数: 6348 | |
Y***e 发帖数: 1030 | 12 好多这样的公司了啊,dataminr 之类的
【在 c***z 的大作中提到】 : 无聊查了一下http://h1bdata.info : 还是portfolio manager 工资高 : 乖乖80万base : 要不大家一起搞一个data driven portfolio management firm吧
|
c****t 发帖数: 19049 | 13 要混绿卡那要去商业银行和大保险公司,钱少点但活不累尽开会。去starup干嘛
【在 c***z 的大作中提到】 : 首先说说教训。如果你是技术骨干,那么在介绍项目的时候,得悠着点,注意不能说涉 : 及保密的东西。这个对于有些人来说是常识,但是对于比较呆的人(比如我),却是需 : 要栽几个跟头才能学到的。 : 然后是面经。大概有这么几类的题目: : 1,理论类。Netflix爱问,追着我问Random Forest怎么split,怎么cross validate, : 还有Neural Network怎么back propagate, 怎么feature selection,用的什么包裹, : 什么原理,一直问到survival analysis的公式,很久没用于是歇菜了(和treatment : model混淆了)。对不起内推的大哥了。 : 2,实践类。小公司爱问,类似于码工面试的设计题。这种情况怎么搞,那种情况怎么 : 搞,没见到data只能胡说,就说以前我有一个项目,情况有点类似,我大体是这么做的
|
c***z 发帖数: 6348 | 14 thanks alot for sharing!
【在 Y***e 的大作中提到】 : 好多这样的公司了啊,dataminr 之类的
|
c***z 发帖数: 6348 | 15 因为贪财
穷怕了...
【在 c****t 的大作中提到】 : 要混绿卡那要去商业银行和大保险公司,钱少点但活不累尽开会。去starup干嘛
|
r*****d 发帖数: 346 | 16 Bless!
赞面经!
优点特点兼备,你肯定没问题!
我将来还打算跟你混呢 :)
【在 c***z 的大作中提到】 : 首先说说教训。如果你是技术骨干,那么在介绍项目的时候,得悠着点,注意不能说涉 : 及保密的东西。这个对于有些人来说是常识,但是对于比较呆的人(比如我),却是需 : 要栽几个跟头才能学到的。 : 然后是面经。大概有这么几类的题目: : 1,理论类。Netflix爱问,追着我问Random Forest怎么split,怎么cross validate, : 还有Neural Network怎么back propagate, 怎么feature selection,用的什么包裹, : 什么原理,一直问到survival analysis的公式,很久没用于是歇菜了(和treatment : model混淆了)。对不起内推的大哥了。 : 2,实践类。小公司爱问,类似于码工面试的设计题。这种情况怎么搞,那种情况怎么 : 搞,没见到data只能胡说,就说以前我有一个项目,情况有点类似,我大体是这么做的
|
c***z 发帖数: 6348 | 17 谢谢大牛
我这人呆得很,还是我跟大牛混吧 :) |
l********s 发帖数: 358 | 18 所以大部分data scientist还是码工的干活?
【在 c***z 的大作中提到】 : 首先说说教训。如果你是技术骨干,那么在介绍项目的时候,得悠着点,注意不能说涉 : 及保密的东西。这个对于有些人来说是常识,但是对于比较呆的人(比如我),却是需 : 要栽几个跟头才能学到的。 : 然后是面经。大概有这么几类的题目: : 1,理论类。Netflix爱问,追着我问Random Forest怎么split,怎么cross validate, : 还有Neural Network怎么back propagate, 怎么feature selection,用的什么包裹, : 什么原理,一直问到survival analysis的公式,很久没用于是歇菜了(和treatment : model混淆了)。对不起内推的大哥了。 : 2,实践类。小公司爱问,类似于码工面试的设计题。这种情况怎么搞,那种情况怎么 : 搞,没见到data只能胡说,就说以前我有一个项目,情况有点类似,我大体是这么做的
|
c***z 发帖数: 6348 | |
s********r 发帖数: 2067 | 20 码工,码农啥区别?
【在 c***z 的大作中提到】 : 更接近码农
|
|
|
b*********n 发帖数: 2975 | 21 工人和农民的区别,呵呵
码工,码农啥区别?
【在 s********r 的大作中提到】 : 码工,码农啥区别?
|
c***z 发帖数: 6348 | |
d****n 发帖数: 12461 | 23 大牛果然牛啊。
【在 c***z 的大作中提到】 : 首先说说教训。如果你是技术骨干,那么在介绍项目的时候,得悠着点,注意不能说涉 : 及保密的东西。这个对于有些人来说是常识,但是对于比较呆的人(比如我),却是需 : 要栽几个跟头才能学到的。 : 然后是面经。大概有这么几类的题目: : 1,理论类。Netflix爱问,追着我问Random Forest怎么split,怎么cross validate, : 还有Neural Network怎么back propagate, 怎么feature selection,用的什么包裹, : 什么原理,一直问到survival analysis的公式,很久没用于是歇菜了(和treatment : model混淆了)。对不起内推的大哥了。 : 2,实践类。小公司爱问,类似于码工面试的设计题。这种情况怎么搞,那种情况怎么 : 搞,没见到data只能胡说,就说以前我有一个项目,情况有点类似,我大体是这么做的
|
c***z 发帖数: 6348 | 24 not at all
you are the real 大牛
please refer me :)
【在 d****n 的大作中提到】 : 大牛果然牛啊。
|
d****n 发帖数: 12461 | 25 我们以后一起开startup吧。
【在 c***z 的大作中提到】 : not at all : you are the real 大牛 : please refer me :)
|
c***z 发帖数: 6348 | 26 好啊好啊,做点什么?big data driving business and investment consulting?
【在 d****n 的大作中提到】 : 我们以后一起开startup吧。
|
c***z 发帖数: 6348 | 27 大牛有卡么,不如现在就开?
【在 d****n 的大作中提到】 : 我们以后一起开startup吧。
|
D*********e 发帖数: 646 | 28 哈哈哈
【在 b*********n 的大作中提到】 : 工人和农民的区别,呵呵 : : 码工,码农啥区别?
|
M*********9 发帖数: 15637 | 29 太牛了。 搞这么多面试。。。
★ 发自iPhone App: ChineseWeb 7.8
【在 c***z 的大作中提到】 : 首先说说教训。如果你是技术骨干,那么在介绍项目的时候,得悠着点,注意不能说涉 : 及保密的东西。这个对于有些人来说是常识,但是对于比较呆的人(比如我),却是需 : 要栽几个跟头才能学到的。 : 然后是面经。大概有这么几类的题目: : 1,理论类。Netflix爱问,追着我问Random Forest怎么split,怎么cross validate, : 还有Neural Network怎么back propagate, 怎么feature selection,用的什么包裹, : 什么原理,一直问到survival analysis的公式,很久没用于是歇菜了(和treatment : model混淆了)。对不起内推的大哥了。 : 2,实践类。小公司爱问,类似于码工面试的设计题。这种情况怎么搞,那种情况怎么 : 搞,没见到data只能胡说,就说以前我有一个项目,情况有点类似,我大体是这么做的
|
c***z 发帖数: 6348 | 30 如果只是电面就被据的话,还是很容易搞很多的 :(
【在 M*********9 的大作中提到】 : 太牛了。 搞这么多面试。。。 : : ★ 发自iPhone App: ChineseWeb 7.8
|
|
|
D*********e 发帖数: 646 | 31 大一点的quant fund像Jane St, Renaissance里面都有人做这个吧
【在 Y***e 的大作中提到】 : 好多这样的公司了啊,dataminr 之类的
|
M*********9 发帖数: 15637 | 32 如果没琢磨回国, 先把破卡搞到吧。 要不太不自由。
你们开了startup, 俺要报名打杂。。。
★ 发自iPhone App: ChineseWeb 7.8
【在 c***z 的大作中提到】 : 大牛有卡么,不如现在就开?
|
c***z 发帖数: 6348 | 33 Ren tech 和 Jane st 都没有DS职位
还是说那东西在那边叫别的名字
谢啦 |
h*****7 发帖数: 6781 | 34 Random Forest怎么split,怎么cross validate,
还有Neural Network怎么back propagate, 怎么feature selection,
这个估计是你简历里边写了才问的吧,要没写问这些细枝末节谁答得上来,我可以问他
一百个类似的问题保证他一个都答不上来。
【在 c***z 的大作中提到】 : 首先说说教训。如果你是技术骨干,那么在介绍项目的时候,得悠着点,注意不能说涉 : 及保密的东西。这个对于有些人来说是常识,但是对于比较呆的人(比如我),却是需 : 要栽几个跟头才能学到的。 : 然后是面经。大概有这么几类的题目: : 1,理论类。Netflix爱问,追着我问Random Forest怎么split,怎么cross validate, : 还有Neural Network怎么back propagate, 怎么feature selection,用的什么包裹, : 什么原理,一直问到survival analysis的公式,很久没用于是歇菜了(和treatment : model混淆了)。对不起内推的大哥了。 : 2,实践类。小公司爱问,类似于码工面试的设计题。这种情况怎么搞,那种情况怎么 : 搞,没见到data只能胡说,就说以前我有一个项目,情况有点类似,我大体是这么做的
|
z****e 发帖数: 54598 | 35 求一并带上路
【在 d****n 的大作中提到】 : 我们以后一起开startup吧。
|
c***z 发帖数: 6348 | 36 不如我们桃园结义吧
感觉要战胜烙印就必须走帮派路线 :)
【在 z****e 的大作中提到】 : 求一并带上路
|
c***z 发帖数: 6348 | 37 写了 supervised learning
也写了survival analysis,但是在上一个公司的经验里面
【在 h*****7 的大作中提到】 : Random Forest怎么split,怎么cross validate, : 还有Neural Network怎么back propagate, 怎么feature selection, : 这个估计是你简历里边写了才问的吧,要没写问这些细枝末节谁答得上来,我可以问他 : 一百个类似的问题保证他一个都答不上来。
|
h**********y 发帖数: 1293 | |
h*****7 发帖数: 6781 | 39 我博士毕业的时候也面了两个IT公司的DS,都是聊聊简历上的东西,加一点点无脑
design题。on site就是去show off自己的论文。他们也不含糊,使劲吹自己的公司多
牛方向多好。我跟着感叹捧场,顺带问了问SF的中餐馆。最后一起鄙视了一些山头,仰
视了另一些山头。高高兴兴回家,几天后就给offer了。没见有这么多问题的。
【在 c***z 的大作中提到】 : 写了 supervised learning : 也写了survival analysis,但是在上一个公司的经验里面
|
c***z 发帖数: 6348 | 40 F,L根本不和我聊简历上的东西,上来就白板
可能是竞争加大了 |
|
|
l********s 发帖数: 358 | |
s*****w 发帖数: 1017 | 42 Thanks for sharing!
I am a postdoc in signal processing and wish to seek for a position in data
science industry. How can I prepare for the interviews?
【在 c***z 的大作中提到】 : 首先说说教训。如果你是技术骨干,那么在介绍项目的时候,得悠着点,注意不能说涉 : 及保密的东西。这个对于有些人来说是常识,但是对于比较呆的人(比如我),却是需 : 要栽几个跟头才能学到的。 : 然后是面经。大概有这么几类的题目: : 1,理论类。Netflix爱问,追着我问Random Forest怎么split,怎么cross validate, : 还有Neural Network怎么back propagate, 怎么feature selection,用的什么包裹, : 什么原理,一直问到survival analysis的公式,很久没用于是歇菜了(和treatment : model混淆了)。对不起内推的大哥了。 : 2,实践类。小公司爱问,类似于码工面试的设计题。这种情况怎么搞,那种情况怎么 : 搞,没见到data只能胡说,就说以前我有一个项目,情况有点类似,我大体是这么做的
|
s*****w 发帖数: 1017 | 43 ca, big ox! Does your background fit for the jd pretty much?
【在 h*****7 的大作中提到】 : 我博士毕业的时候也面了两个IT公司的DS,都是聊聊简历上的东西,加一点点无脑 : design题。on site就是去show off自己的论文。他们也不含糊,使劲吹自己的公司多 : 牛方向多好。我跟着感叹捧场,顺带问了问SF的中餐馆。最后一起鄙视了一些山头,仰 : 视了另一些山头。高高兴兴回家,几天后就给offer了。没见有这么多问题的。
|
h*****7 发帖数: 6781 | 44 not ox. background fit is very important.
【在 s*****w 的大作中提到】 : ca, big ox! Does your background fit for the jd pretty much?
|
c***z 发帖数: 6348 | 45 这才是大牛,谈笑间强虏灰飞烟灭
我跟大牛相比,就是游击队和正规军的区别啊
【在 s*****w 的大作中提到】 : ca, big ox! Does your background fit for the jd pretty much?
|
c***z 发帖数: 6348 | 46 主要补充一下统计方面的,还有机器学习
Statistical Inference https://www.coursera.org/course/statinference
R Programming https://www.coursera.org/course/rprog
Machine learning https://www.coursera.org/course/ml
You still need to pick up big data, try play with the Cloudera VM
data
【在 s*****w 的大作中提到】 : Thanks for sharing! : I am a postdoc in signal processing and wish to seek for a position in data : science industry. How can I prepare for the interviews?
|
Y***e 发帖数: 1030 | 47 这两家你是面写production那种,还是偏business analytics 那种?
【在 c***z 的大作中提到】 : F,L根本不和我聊简历上的东西,上来就白板 : 可能是竞争加大了
|
m*********r 发帖数: 119 | 48 bless~~
加油!!
【在 c***z 的大作中提到】 : 首先说说教训。如果你是技术骨干,那么在介绍项目的时候,得悠着点,注意不能说涉 : 及保密的东西。这个对于有些人来说是常识,但是对于比较呆的人(比如我),却是需 : 要栽几个跟头才能学到的。 : 然后是面经。大概有这么几类的题目: : 1,理论类。Netflix爱问,追着我问Random Forest怎么split,怎么cross validate, : 还有Neural Network怎么back propagate, 怎么feature selection,用的什么包裹, : 什么原理,一直问到survival analysis的公式,很久没用于是歇菜了(和treatment : model混淆了)。对不起内推的大哥了。 : 2,实践类。小公司爱问,类似于码工面试的设计题。这种情况怎么搞,那种情况怎么 : 搞,没见到data只能胡说,就说以前我有一个项目,情况有点类似,我大体是这么做的
|
a****k 发帖数: 117 | 49 多谢!有要现场处理数据或是在product design时用R/Python写出 ML算法去处理假定
数据的吗?不好意思,刚才点错了,把我的问题发到你信箱里了
【在 c***z 的大作中提到】 : 首先说说教训。如果你是技术骨干,那么在介绍项目的时候,得悠着点,注意不能说涉 : 及保密的东西。这个对于有些人来说是常识,但是对于比较呆的人(比如我),却是需 : 要栽几个跟头才能学到的。 : 然后是面经。大概有这么几类的题目: : 1,理论类。Netflix爱问,追着我问Random Forest怎么split,怎么cross validate, : 还有Neural Network怎么back propagate, 怎么feature selection,用的什么包裹, : 什么原理,一直问到survival analysis的公式,很久没用于是歇菜了(和treatment : model混淆了)。对不起内推的大哥了。 : 2,实践类。小公司爱问,类似于码工面试的设计题。这种情况怎么搞,那种情况怎么 : 搞,没见到data只能胡说,就说以前我有一个项目,情况有点类似,我大体是这么做的
|
c***z 发帖数: 6348 | 50 product analysis, i.e. would this product be successful?
the right answer to "success metric" question is: what is the business
objective (i.e. what do you mean by successful)?
A/B testing is heavily used there
【在 Y***e 的大作中提到】 : 这两家你是面写production那种,还是偏business analytics 那种?
|
|
|
d****n 发帖数: 12461 | |
c***z 发帖数: 6348 | 52 2 years and 8 months
not niu at all
it feels like walking on thin ice all the time, since I have no idea if my
ideas would work or not... |
m*********r 发帖数: 119 | 53 bless~~
【在 c***z 的大作中提到】 : 首先说说教训。如果你是技术骨干,那么在介绍项目的时候,得悠着点,注意不能说涉 : 及保密的东西。这个对于有些人来说是常识,但是对于比较呆的人(比如我),却是需 : 要栽几个跟头才能学到的。 : 然后是面经。大概有这么几类的题目: : 1,理论类。Netflix爱问,追着我问Random Forest怎么split,怎么cross validate, : 还有Neural Network怎么back propagate, 怎么feature selection,用的什么包裹, : 什么原理,一直问到survival analysis的公式,很久没用于是歇菜了(和treatment : model混淆了)。对不起内推的大哥了。 : 2,实践类。小公司爱问,类似于码工面试的设计题。这种情况怎么搞,那种情况怎么 : 搞,没见到data只能胡说,就说以前我有一个项目,情况有点类似,我大体是这么做的
|
X*****e 发帖数: 64 | 54 为啥不作马工?以侬的背景难道不比ds有前途?
data
【在 s*****w 的大作中提到】 : Thanks for sharing! : I am a postdoc in signal processing and wish to seek for a position in data : science industry. How can I prepare for the interviews?
|
z****e 发帖数: 54598 | 55 这两个在互相融合啊
【在 X*****e 的大作中提到】 : 为啥不作马工?以侬的背景难道不比ds有前途? : : data
|
c***z 发帖数: 6348 | 56 Actually I am CS background, my degrees are in CS, Discrete Math, MFE, not
Stats
But I can't write bug free code on a white board...
【在 X*****e 的大作中提到】 : 为啥不作马工?以侬的背景难道不比ds有前途? : : data
|
P*****6 发帖数: 273 | 57 照这意思,做data scientist还得刷编程试题?结果变成了什么都得会?
【在 c***z 的大作中提到】 : 首先说说教训。如果你是技术骨干,那么在介绍项目的时候,得悠着点,注意不能说涉 : 及保密的东西。这个对于有些人来说是常识,但是对于比较呆的人(比如我),却是需 : 要栽几个跟头才能学到的。 : 然后是面经。大概有这么几类的题目: : 1,理论类。Netflix爱问,追着我问Random Forest怎么split,怎么cross validate, : 还有Neural Network怎么back propagate, 怎么feature selection,用的什么包裹, : 什么原理,一直问到survival analysis的公式,很久没用于是歇菜了(和treatment : model混淆了)。对不起内推的大哥了。 : 2,实践类。小公司爱问,类似于码工面试的设计题。这种情况怎么搞,那种情况怎么 : 搞,没见到data只能胡说,就说以前我有一个项目,情况有点类似,我大体是这么做的
|
S******y 发帖数: 1123 | 58 >"可能是竞争加大了"
Yes. I totally agree with you.
---
Pls check your pm. Thanks!
【在 c***z 的大作中提到】 : F,L根本不和我聊简历上的东西,上来就白板 : 可能是竞争加大了
|
P*****6 发帖数: 273 | 59 请教一下,您搞得好像跟marketing更相关,也要survival analysis?
大致用在什么方面?
我以为survival analysis 就生物统计用的多?
【在 c***z 的大作中提到】 : 写了 supervised learning : 也写了survival analysis,但是在上一个公司的经验里面
|
s*******g 发帖数: 1607 | 60 Churn analysis
【在 P*****6 的大作中提到】 : 请教一下,您搞得好像跟marketing更相关,也要survival analysis? : 大致用在什么方面? : 我以为survival analysis 就生物统计用的多?
|
|
|
d******4 发帖数: 132 | 61 Random forest 的split不就是和bagging差不多嘛?每次random的选择 a set of
covariates.
对不对?
【在 c***z 的大作中提到】 : 首先说说教训。如果你是技术骨干,那么在介绍项目的时候,得悠着点,注意不能说涉 : 及保密的东西。这个对于有些人来说是常识,但是对于比较呆的人(比如我),却是需 : 要栽几个跟头才能学到的。 : 然后是面经。大概有这么几类的题目: : 1,理论类。Netflix爱问,追着我问Random Forest怎么split,怎么cross validate, : 还有Neural Network怎么back propagate, 怎么feature selection,用的什么包裹, : 什么原理,一直问到survival analysis的公式,很久没用于是歇菜了(和treatment : model混淆了)。对不起内推的大哥了。 : 2,实践类。小公司爱问,类似于码工面试的设计题。这种情况怎么搞,那种情况怎么 : 搞,没见到data只能胡说,就说以前我有一个项目,情况有点类似,我大体是这么做的
|
c***z 发帖数: 6348 | 62 yes :)
【在 d******4 的大作中提到】 : Random forest 的split不就是和bagging差不多嘛?每次random的选择 a set of : covariates. : 对不对?
|
t*********u 发帖数: 26311 | 63 这个算是统计还是machine learning?
【在 c***z 的大作中提到】 : yes :)
|
c***z 发帖数: 6348 | |
g*********n 发帖数: 119 | 65 我猜问的是如何split data to build nodes of a tree in the random forest,而不
是split variables.
【在 d******4 的大作中提到】 : Random forest 的split不就是和bagging差不多嘛?每次random的选择 a set of : covariates. : 对不对?
|
a***g 发帖数: 2761 | |
s*****n 发帖数: 134 | 67 我猜 Data2014 说的是怎么样采样训练数据,bootstrap / sample with replacement
etc.
而面试问的问题是具体到每一个decision tree里面,从上一层的节点到下一层的左右
子节点的分类原则。最长用到的两个指标是Gini Impurity 和 information gain。 http://en.wikipedia.org/wiki/Decision_tree_learning
【在 g*********n 的大作中提到】 : 我猜问的是如何split data to build nodes of a tree in the random forest,而不 : 是split variables.
|
w*****a 发帖数: 218 | 68 不是 每次random的选择 a set of covariates.
是 每次random的选择 a set of variables from ALL available variables
【在 d******4 的大作中提到】 : Random forest 的split不就是和bagging差不多嘛?每次random的选择 a set of : covariates. : 对不对?
|
m********t 发帖数: 94 | 69 covariates和variables不就是一个东西俩名字么?
RF最基本的几个点还是挺容易的
1. random sample with replacement 1-e^-1的概率被抽到
2. 问题的考点可能是这个 在split的时候 并不是所有的feature都被用到
只有有限个feature 一般来说是n^1/2
3. how to split, information gain总是要知道的 gini impurity也该知道
其实我也没自己写过RF 有个问题从来没问过 却一直有点疑问
random sample with replacement之后到底是把duplicate扔掉还是不扔
就是开始有n个sample 最后是0.63n 还是n个进入每一个tree
【在 w*****a 的大作中提到】 : 不是 每次random的选择 a set of covariates. : 是 每次random的选择 a set of variables from ALL available variables
|
m******a 发帖数: 77 | 70 covariate 可以是 把多个 variable combine 在一起的东西吧
【在 m********t 的大作中提到】 : covariates和variables不就是一个东西俩名字么? : RF最基本的几个点还是挺容易的 : 1. random sample with replacement 1-e^-1的概率被抽到 : 2. 问题的考点可能是这个 在split的时候 并不是所有的feature都被用到 : 只有有限个feature 一般来说是n^1/2 : 3. how to split, information gain总是要知道的 gini impurity也该知道 : 其实我也没自己写过RF 有个问题从来没问过 却一直有点疑问 : random sample with replacement之后到底是把duplicate扔掉还是不扔 : 就是开始有n个sample 最后是0.63n 还是n个进入每一个tree
|
|
|
m********t 发帖数: 94 | 71 有没有人给谈谈survival analysis在churn analysis里究竟怎么应用?
【在 s*******g 的大作中提到】 : Churn analysis
|
h*********9 发帖数: 233 | |
j**********3 发帖数: 3211 | |