由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 讲个找数据科学工作的捷径 aka 刷Kaggle题迅速入门data scientist
相关主题
求建议,Google Quantitative analyst 面试用R 还是Python发个面经吧[Data Scientist] (转载)
物理phd转行data science求职困境中,请帮推荐entry level data analyst opening
Data Engineer Summer Intern at NEC Labs America, Princeton请教关于topcoder.com
我觉得老中比老印更适合数据科学这个行业Design Pattern Tutorials
也不能乱黑python如何学习新技术
free back test tool in python - for quant algos (转载)感觉做ML还是很难啊
为什么DS的面试这么难Boston地区startup待遇
巨硬昂塞(转载)data scientist position
相关话题的讨论汇总
话题: kaggle话题: mark话题: l1话题: 问题话题: 比赛
进入JobHunting版参与讨论
1 (共1页)
p*****r
发帖数: 1883
1
贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
你跪舔,再也不敢上来卖弄概念自寻羞辱。
看我辛苦写这么多教学的份上,请允许我宣传一下我们的白宫投票 http://wh.gov/iZAhc 现在老印每个人提交个三四份H1b霸占了签证市场,搞的老中的工作机会都没了。我们老中辛苦读书,刷题,准备面试,好不容易过五关斩六将得到个offer还要被老印这样抢H1b,这真的很让人伤心。不管今年抽不抽H1b,抽没抽中,都请到这个投票链接注册投票(并在email里确认投票),为了同胞能有平等的工作机会不被老印欺负,请投票。如果想知道老印ICC的恶行以及对我们的危害,请到 http://stoph1bvisafraud.org/
下面是从我的blog转载的 http://phunters.lofter.com/post/86d56_66dd375 正文这里开始:
怎样快糙猛的开始搞Kaggle比赛
本文写给想开始搞Kaggle比赛又害怕无从下手的小朋友们。
最近比较多人问我怎么快速成为数据科学家可以挣钱多干活少整天猎头追跳槽涨一倍。
我一般的答案是,没有这好事,但是搞搞Kaggle的比赛有助于快速成为数据科学家,之
后挣钱多少看个人。关于Kaggle比赛是什么,限于篇幅关系,请自行谷歌。
我不是专业机器学习的人,但是我见的太多了。对于有一定数理基础的人来说,快速起
步搞起来个Kaggle比赛并且获得不错的名次,难度并非难于成为王思聪的官方老婆。这
里有三个部分的知识需要强化:
1. 数理基础。基本上高考数学不错的理工科学生,学过了大一大二的数学基础课程(
包括微积分、数理统计、数理方程、集合论等),不存在任何问题。如果想测试一下自
己,那就看看这个题目:
如果一个妹子喜欢我可能因为我帅或者我有钱,因为我既帅又有钱的概率是0.1,只是
因为我有钱的概率是0.5,问,如果妹子喜欢我只是因为我就是帅的概率是多少?
如果能不费力气(心算更好)的解答这个问题,基本上这部分知识是足够了。
2. 机器学习。Kaggle比赛多依靠机器来自动处理,机器学习几乎是必须要的技能。开
始搞Kaggle需要的机器学习技能并不深入,只是需要对于机器学习的常见几个方法有基
本了解即可,比如说对于一个问题,你可以认识到它是个classification的问题啊还是
regression的问题啊,为什么机器可以根据你输入的一个矩阵来算出来分类结果啊。推
荐Coursera上Andrew Ng的机器学习课程 https://www.coursera.org/course/ml 一个
捷径就是,如果你时间紧的话,只要知道什么叫做Supervised learning并且会自己实
现一个Logistic Regression,差不多就够了。
3. Coding。限于篇幅只介绍Python。我可没有说什么钦定Python,你问我支持不支持
,我用python我当然支持。基本的python编程得熟练,如果不熟练可以先学习 Learn
Python the Hard Way。会了python之后,把scikit-learn的基本教程的
classification的部分练练,你会发现在Andrew Ng课上学的知识,在python里面实际
跑跑简单数据,能对课上的知识深刻的理解。同时,如果有富余时间的话,可以顺道看
看numpy和pandas的一些基础操作,这些是用来数据处理好工具。
上面三点对一个数理基础不错的人来说,差不多几周的空余时间就可以了,如果是在校
学生可能更快。
开始搞Kaggle的时候,建议选个入门容易的比赛。如何选择,简单来说就选个参赛人多
的就好了,基本上认真搞搞结果还不会差呢。如果一个比赛还有自带Tutorial 就更好
了。比如我们可以选泰坦尼克号的比赛,根据乘客的信息来判断他是不是可能在沉船中
遇难。地址是 https://www.kaggle.com/c/titanic-gettingStarted
这个比赛有个很好的tutorial,第一次参加比赛的,可以在比赛过程里遇到但是不限于
如下的问题:
1. 数据怎么读取
2. 有missing value怎么办
3. 一等舱二等舱之类的feature为什么得当作categorial feature
4. 。。。。
等等等等之类的问题。这些问题都是在数据科学领域的实际工作每天都能遇到的。最好
的学习方法就是针对这个问题,你看Discuss Forum和Tutorial里面教你怎么解决,自
己google一下看别人写好的代码怎么解决这些问题。这阶段我建议靠自己的力量搜索答
案而不是去论坛上问一些伸手党类的SB问题,即使问了也没关系有人会替你解答的但是
这不是慢嘛。
然后你会开始训练你的模型,又会遇到但是不限于以下的问题
1. 啥叫random forest,咋用,为什么我调了这几个参数不灵呢
2. 怎么我本地结果很好,但是提交名次掉成狗
3. 原来我要Cross Validation啊(Andrew Ng的课里说到的那些看起来很无聊的曲线现
在知道是为什么了吧)
4. 。。。。。。
等等之类的。这些问题也是实际工作每天都能遇到的。你就看人家怎么调你就跟着模仿
,然后体会思考一下不同调法对结果有什么区别。这比在@七月问答 上面问“如果某某
情况我的随机森林的参数该怎么调才能避免这个情况”之类,对问题领悟的更深刻。折
磨过几波模型调参,你就差不多知道这些模型的套路是什么了。
然后你开始刷名次,又会遇到但是不限于以下的问题:
1. 怎么CV的结果挺好但是上去还是比不过呢
2. 那谁说用Vowel Wabbit对每个分类做优化怎么搞啊
3. 组合模型这概念我知道,但是实际怎么组合呢
4. 。。。。。。
经过这些,你差不多就知道解决一个实际的机器学习问题需要做什么事情了。对的,这
就是数据科学家几乎每天的工作,各部分比重不一样,但是理解问题、数据清理、模型
调参、评估结果这些循环反复的动作,基本上就是数据科学家需要做的。
在这个摸索挨打的过程中,你可以快速学会数据科学的常用工具(numpy scipy pandas
scikit等等),也会在别人的带动下发现新工具(比如@陈天奇怪 的xgboost,vowpal
wabbit之类的),也会学会新技能(比如深度学习以及如何用深度学习去解决实际的
问题)。这个学习速度远超过于看书看blog,在挨打的过程里,回想一下从可可老师那
里看到的每天十条数据科学经验,会不会觉得理解的更深入了呢?
在有实际工业界工作经验之前,搞搞Kaggle比赛几乎是最有效的跨过”数据科学家“门
槛的方法。有了实际工作经验,搞搞Kaggle比赛也能扩大视野,也能把前沿研究的第一
手结果用到实际问题里。大家加油,跳槽就翻倍的高薪工作指日可待(我没有保证能高
薪啊,不要到时候把我拉出来批判一番)
最后插入广告,欢迎组队 https://www.kaggle.com/users/110702/phunter 你看我搞
的很凑合但是排名还行啊对吧。
f******8
发帖数: 93
2
不明觉厉
收藏
u***8
发帖数: 1581
3
真的假的?
p*****r
发帖数: 1883
4

信就试试啊

【在 u***8 的大作中提到】
: 真的假的?
e*******7
发帖数: 347
5
不明觉厉,收藏一下
z*******o
发帖数: 4773
6
ding
o*******4
发帖数: 313
7
如果一个妹子喜欢我可能因为我帅或者我有钱,因为我既帅又有钱的概率是0.1,只是
因为我有钱的概率是0.5,问,如果妹子喜欢我只是因为我就是帅的概率是多少?---
My math is really bad @_@ how come i feel like there are a lot of
information missing?
how to solve this?
s**********y
发帖数: 211
8
这个好,被问过怎么会numpy不会scikit的,没做过的东西上了课也记不住那几个曲线
怎么回事儿。。。可惜,因为h1b没中要滚蛋了吔
c*******e
发帖数: 35
9
假设妹子喜欢你只是这两条件,没有别的。那就是1-0.5-0.1就是0.4。问题是,妹子喜
欢你可能因为别的啊。那就是个range了。只因为你帅,妹子可能根本就不喜欢你!就
是你帅包含了你有钱。那是0到0.4。这个是不是更贴近生活。。。

【在 o*******4 的大作中提到】
: 如果一个妹子喜欢我可能因为我帅或者我有钱,因为我既帅又有钱的概率是0.1,只是
: 因为我有钱的概率是0.5,问,如果妹子喜欢我只是因为我就是帅的概率是多少?---
: My math is really bad @_@ how come i feel like there are a lot of
: information missing?
: how to solve this?

s***h
发帖数: 26
10
大部分我同意,但是很多人就尼玛上来问coding啊,动不动就是向码工水平看齐

L1

【在 p*****r 的大作中提到】
: 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
: 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
: 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
: 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
: 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
: 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
: 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
: 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
: 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
: 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给

相关主题
free back test tool in python - for quant algos (转载)发个面经吧[Data Scientist] (转载)
为什么DS的面试这么难求职困境中,请帮推荐entry level data analyst opening
巨硬昂塞(转载)请教关于topcoder.com
进入JobHunting版参与讨论
m****9
发帖数: 492
11
这里 “只是因为我有钱” or “是因为我只有钱” 应该还是要区分一下吧。

【在 c*******e 的大作中提到】
: 假设妹子喜欢你只是这两条件,没有别的。那就是1-0.5-0.1就是0.4。问题是,妹子喜
: 欢你可能因为别的啊。那就是个range了。只因为你帅,妹子可能根本就不喜欢你!就
: 是你帅包含了你有钱。那是0到0.4。这个是不是更贴近生活。。。

p*****r
发帖数: 1883
12
这个还是要熟练点的,码农都得猛刷题了,data的coding只是需要熟练就行
如果是老印公司的可能会拿coding来拦你啊,所以我们才不能让老印霸占了这个领域,
快投票 http://wh.gov/iZAhc

【在 s***h 的大作中提到】
: 大部分我同意,但是很多人就尼玛上来问coding啊,动不动就是向码工水平看齐
:
: L1

p*****r
发帖数: 1883
13

这些工具类的东西上手熟练一下就基本都会了,下次可以反问他,你会vw么,你会
theano么

【在 s**********y 的大作中提到】
: 这个好,被问过怎么会numpy不会scikit的,没做过的东西上了课也记不住那几个曲线
: 怎么回事儿。。。可惜,因为h1b没中要滚蛋了吔

p*****r
发帖数: 1883
14
这里的假设前提是帅和钱是独立feature

【在 c*******e 的大作中提到】
: 假设妹子喜欢你只是这两条件,没有别的。那就是1-0.5-0.1就是0.4。问题是,妹子喜
: 欢你可能因为别的啊。那就是个range了。只因为你帅,妹子可能根本就不喜欢你!就
: 是你帅包含了你有钱。那是0到0.4。这个是不是更贴近生活。。。

t**********h
发帖数: 2273
15
哥记得你是00级的啊

L1

【在 p*****r 的大作中提到】
: 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
: 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
: 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
: 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
: 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
: 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
: 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
: 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
: 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
: 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给

r*g
发帖数: 186
16

没人这么霸气
只敢说我会啥啥啥
你那个啥啥啥我知道一点会学得很快

【在 p*****r 的大作中提到】
: 这里的假设前提是帅和钱是独立feature
p*****r
发帖数: 1883
17
是啊,已经在工业界“见的太多了”

【在 t**********h 的大作中提到】
: 哥记得你是00级的啊
:
: L1

P****i
发帖数: 1362
18
写的不错,风趣有内容,顶一个

L1

【在 p*****r 的大作中提到】
: 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
: 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
: 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
: 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
: 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
: 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
: 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
: 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
: 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
: 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给

l**********r
发帖数: 47
19
楼主的声音振聋发聩啊,好好学习,刷kaggle去了
m******c
发帖数: 45
20
好贴!
相关主题
Design Pattern TutorialsBoston地区startup待遇
如何学习新技术data scientist position
感觉做ML还是很难啊一道google 面试题
进入JobHunting版参与讨论
f***a
发帖数: 7286
21


L1

【在 p*****r 的大作中提到】
: 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
: 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
: 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
: 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
: 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
: 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
: 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
: 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
: 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
: 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给

f*******k
发帖数: 89
22
mark
k********0
发帖数: 929
23
Mark
G****e
发帖数: 1480
24
皮老师好久不见!
L*r
发帖数: 109
25
mark。谢谢!
m****l
发帖数: 61
26
人言人有愿
君王既行幸
所冀延明福
人可为信常
王氏船犹在
沧江终白身
田横海岛边
y*c
发帖数: 904
27
赞,谢
f*****a
发帖数: 693
28
Mark!

L1

【在 p*****r 的大作中提到】
: 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
: 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
: 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
: 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
: 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
: 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
: 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
: 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
: 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
: 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给

t**********h
发帖数: 2273
29
ds钻的多么?比码农来说,如何?

【在 p*****r 的大作中提到】
: 是啊,已经在工业界“见的太多了”
p*****r
发帖数: 1883
30
啥叫“钻的多”?

【在 t**********h 的大作中提到】
: ds钻的多么?比码农来说,如何?
相关主题
题目请教物理phd转行data science
Epic 笔试面经Data Engineer Summer Intern at NEC Labs America, Princeton
求建议,Google Quantitative analyst 面试用R 还是Python我觉得老中比老印更适合数据科学这个行业
进入JobHunting版参与讨论
p*****r
发帖数: 1883
31
这不是为了推动投票么,我之前都没在这里发过贴
再贴一次投票链接
http://wh.gov/iZAhc

【在 G****e 的大作中提到】
: 皮老师好久不见!
t**********h
发帖数: 2273
32


【在 p*****r 的大作中提到】
: 啥叫“钻的多”?
m**b
发帖数: 617
33
mark. Voted.
p*****r
发帖数: 1883
34

看具体职位了,温饱可以,只是远没有传说中码农fresh grad就230k base那么多

【在 t**********h 的大作中提到】
: 赚
t**********h
发帖数: 2273
35
base 230k是吹牛。
pkg 230k的码农是可以有得,但是对于刚毕业的fresh来说,我没见过230k pkg的。

【在 p*****r 的大作中提到】
:
: 看具体职位了,温饱可以,只是远没有传说中码农fresh grad就230k base那么多

t**********h
发帖数: 2273
36
哥上次看你的文章还是在校内的bbs,一晃眼,尼玛,十多年了,艹

【在 p*****r 的大作中提到】
:
: 看具体职位了,温饱可以,只是远没有传说中码农fresh grad就230k base那么多

p*****r
发帖数: 1883
37

湾区行情是差不多 fresh grad 100k 左右,其他按照均价上下,没有码农那样疯狂

【在 t**********h 的大作中提到】
: base 230k是吹牛。
: pkg 230k的码农是可以有得,但是对于刚毕业的fresh来说,我没见过230k pkg的。

w****r
发帖数: 69
38
大神出现了!!!!!!!
大神威武
大神万岁
跪拜大神
w****x
发帖数: 14
39
大牛帅不帅啊?加我吧, 我刚想去kaggle上玩玩呢。

L1

【在 p*****r 的大作中提到】
: 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
: 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
: 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
: 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
: 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
: 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
: 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
: 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
: 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
: 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给

b********a
发帖数: 70
40
mark
相关主题
我觉得老中比老印更适合数据科学这个行业为什么DS的面试这么难
也不能乱黑python巨硬昂塞(转载)
free back test tool in python - for quant algos (转载)发个面经吧[Data Scientist] (转载)
进入JobHunting版参与讨论
C*******t
发帖数: 95
41
关于petition, 刚看到签了。
还是要更多人看到。 有家有孩子的人可能没那么多时间上网。
p*****r
发帖数: 1883
42
多谢签了,我就是贴一些教学贴里面加上投票链接,力图多宣传,太不容易了

【在 C*******t 的大作中提到】
: 关于petition, 刚看到签了。
: 还是要更多人看到。 有家有孩子的人可能没那么多时间上网。

p*****r
发帖数: 1883
43
不好意思不是大牛也只是普通帅,kaggle上面你随便挑个人多的比赛,看看好心人(一
般这个好心人是 Abhishek)贴的beat the benchmark的代码,从那个开始做,看他代
码里写的,你加自己的内容进去。这个自学阶段能很快提高。

【在 w****x 的大作中提到】
: 大牛帅不帅啊?加我吧, 我刚想去kaggle上玩玩呢。
:
: L1

c*******m
发帖数: 522
44
Vowpal Wabbit 吧
p*****r
发帖数: 1883
45
原贴里面有地方被自动拼写检查改成个错的,我尽量改回来了但是可能有疏漏

【在 c*******m 的大作中提到】
: Vowpal Wabbit 吧
c*******m
发帖数: 522
46
大神higgs 排名好高啊
G****e
发帖数: 1480
47
顶p老师。
话说我以前公司analytic组还经常一起组队参加Kaggle,老板看到排名高的ID是无限喜
欢啊。
l*****a
发帖数: 111
48
收藏

贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮.......
.

【在 p*****r 的大作中提到】
: 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
: 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
: 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
: 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
: 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
: 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
: 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
: 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
: 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
: 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给

c*******7
发帖数: 2506
49
mark

L1

【在 p*****r 的大作中提到】
: 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
: 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
: 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
: 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
: 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
: 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
: 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
: 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
: 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
: 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给

C*******t
发帖数: 95
50
应该多谢谢你taking the leadership, 帮更多的中国同胞留下来。

【在 p*****r 的大作中提到】
: 多谢签了,我就是贴一些教学贴里面加上投票链接,力图多宣传,太不容易了
相关主题
求职困境中,请帮推荐entry level data analyst opening如何学习新技术
请教关于topcoder.com感觉做ML还是很难啊
Design Pattern TutorialsBoston地区startup待遇
进入JobHunting版参与讨论
j******g
发帖数: 1428
51
z**********f
发帖数: 74
52
Mark下
G******n
发帖数: 572
53
赞!mark
p*****r
发帖数: 1883
54
客气客气,非牛,我之前是做Higgs diphoton的,所以这里面一些feature我花了不少
功夫,也趁机认识了xgboost的作者学习了模型的知识,最后结果让我认识到组合模型
的重要性:我和第一名的结果在单模型上我还比他高,但是他会组合我不会所以就跪了
,前50名里面我可能是唯一一个没有用组合模型的人

【在 c*******m 的大作中提到】
: 大神higgs 排名好高啊
p*****r
发帖数: 1883
55
要推广这个比赛,老中都来参加,这个对老中这样高学历占主体的群体很有好处,码农
暴力刷题就能去面试,这个更符合老中数理基础好这个特点,我们可以在数据科学领域
击败老印

【在 G****e 的大作中提到】
: 顶p老师。
: 话说我以前公司analytic组还经常一起组队参加Kaggle,老板看到排名高的ID是无限喜
: 欢啊。

A****n
发帖数: 241
56
厉害,受教了
c*******m
发帖数: 522
57

好像还有一个吧。搜xgboost还有一个只做了feature engineering但是也是single
model(https://no2147483647.wordpress.com/
higgns看到Lester Mackey开始写paper我就有点无语了。。。

【在 p*****r 的大作中提到】
: 客气客气,非牛,我之前是做Higgs diphoton的,所以这里面一些feature我花了不少
: 功夫,也趁机认识了xgboost的作者学习了模型的知识,最后结果让我认识到组合模型
: 的重要性:我和第一名的结果在单模型上我还比他高,但是他会组合我不会所以就跪了
: ,前50名里面我可能是唯一一个没有用组合模型的人

p*****r
发帖数: 1883
58

多谢鼓励。其实这个blog就是我的。。。。在顶楼原帖的lofter链接里,点进去,看最
左边一列友情链接

【在 c*******m 的大作中提到】
:
: 好像还有一个吧。搜xgboost还有一个只做了feature engineering但是也是single
: model(https://no2147483647.wordpress.com/
: higgns看到Lester Mackey开始写paper我就有点无语了。。。

c*******m
发帖数: 522
59

果然是大神啊。膜拜!大神现在在做data science么?

【在 p*****r 的大作中提到】
:
: 多谢鼓励。其实这个blog就是我的。。。。在顶楼原帖的lofter链接里,点进去,看最
: 左边一列友情链接

p*****r
发帖数: 1883
60

非神,不要太客气,现在我就在湾区做data science,这个工作适合老中啊,不用刷题
不用看老印脸色不用被智力低下的产品经理羞辱如果不满意分分钟跳槽就能找到工资更
高的(虽然没有码农230k那么高

【在 c*******m 的大作中提到】
:
: 果然是大神啊。膜拜!大神现在在做data science么?

相关主题
data scientist positionEpic 笔试面经
一道google 面试题求建议,Google Quantitative analyst 面试用R 还是Python
题目请教物理phd转行data science
进入JobHunting版参与讨论
c*******m
发帖数: 522
61

kaggle求带啊

【在 p*****r 的大作中提到】
:
: 非神,不要太客气,现在我就在湾区做data science,这个工作适合老中啊,不用刷题
: 不用看老印脸色不用被智力低下的产品经理羞辱如果不满意分分钟跳槽就能找到工资更
: 高的(虽然没有码农230k那么高

m**8
发帖数: 543
62
顶!
牛!
j**********3
发帖数: 3211
63
mark!
p********6
发帖数: 1339
64
关注一下。不过没有相关学位的话也没有很容易找到工作吧。
c***z
发帖数: 6348
65
转到数据科学版了,希望LZ不会介意

L1

【在 p*****r 的大作中提到】
: 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
: 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
: 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
: 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
: 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
: 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
: 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
: 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
: 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
: 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给

o******n
发帖数: 511
66
好帖mark
p*****r
发帖数: 1883
67
欢迎转帖,记得保留投票链接(我为了推动投票容易么

【在 c***z 的大作中提到】
: 转到数据科学版了,希望LZ不会介意
:
: L1

w******2
发帖数: 64
68
没你说的那么简单,要是人人都无师自通,那还上什么学.
老老实实读个学位, 慢慢积累经验几年, 才能搞懂machine learning 的精髓。
M****5
发帖数: 253
69
感谢楼主,收藏了,已签。
p*****r
发帖数: 1883
70
我只能带个入门捷径,入门之后修行还是要看个人,修行好到”通“还是要很多努力的。
顺便其实,数据科学之有10%时间在搞机器学习。

【在 w******2 的大作中提到】
: 没你说的那么简单,要是人人都无师自通,那还上什么学.
: 老老实实读个学位, 慢慢积累经验几年, 才能搞懂machine learning 的精髓。

相关主题
物理phd转行data science也不能乱黑python
Data Engineer Summer Intern at NEC Labs America, Princetonfree back test tool in python - for quant algos (转载)
我觉得老中比老印更适合数据科学这个行业为什么DS的面试这么难
进入JobHunting版参与讨论
p*****r
发帖数: 1883
71
感谢签。我帖这篇文章也是为了图个推广投票的私心,想着如果被小钻风推荐了,投票
链接也就更多人看到

【在 M****5 的大作中提到】
: 感谢楼主,收藏了,已签。
p**********7
发帖数: 122
72
好贴,两周前已签过,现在正想找些实战的东西来练手,求lz推荐ds的工作啊~~~
p*****r
发帖数: 1883
73

indeed上湾区部分搜索data scientist一大把,把linkedin上好好写写,很多
recruiter找。加油啊,顺便谢签

【在 p**********7 的大作中提到】
: 好贴,两周前已签过,现在正想找些实战的东西来练手,求lz推荐ds的工作啊~~~
x*****0
发帖数: 452
74
mark
E*******F
发帖数: 2165
75
先赞一个
不过应聘data scientist还是要考coding的,只是要求不高
而且有时会问一些很实际的问题,没在公司做过不容易回答出来
收入虽然比高级码农低,但是不比入门级的码农低,所以性价比还不错

【在 p*****r 的大作中提到】
:
: indeed上湾区部分搜索data scientist一大把,把linkedin上好好写写,很多
: recruiter找。加油啊,顺便谢签

W***o
发帖数: 6519
76
收藏了!

L1

【在 p*****r 的大作中提到】
: 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
: 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
: 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
: 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
: 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
: 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
: 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
: 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
: 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
: 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给

k**y
发帖数: 28
77
这么牛的帖子才看到
收藏了!
r********g
发帖数: 144
78
好帖!
a***y
发帖数: 852
79
lz的博客,非常非常有意思,拜一个
j********g
发帖数: 427
80
Mark------
相关主题
巨硬昂塞(转载)请教关于topcoder.com
发个面经吧[Data Scientist] (转载)Design Pattern Tutorials
求职困境中,请帮推荐entry level data analyst opening如何学习新技术
进入JobHunting版参与讨论
y******n
发帖数: 62
81
很感兴趣,刚注册了。有想要一起学的吗?
p*****r
发帖数: 1883
82
贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
你跪舔,再也不敢上来卖弄概念自寻羞辱。
看我辛苦写这么多教学的份上,请允许我宣传一下我们的白宫投票
http://wh.gov/iZAhc
现在老印每个人提交个三四份H1b霸占了签证市场,搞的老中的工作机会都没了。我们
老中辛苦读书,刷题,准备面试,好不容易过五关斩六将得到个offer还要被老印这样
抢H1b,这真的很让人伤心。不管今年抽不抽H1b,抽没抽中,都请到这个投票链接注册
投票(并在email里确认投票),为了同胞能有平等的工作机会不被老印欺负,请投票
。如果想知道老印ICC的恶行以及对我们的危害,请到
http://stoph1bvisafraud.org/
下面是从我的blog转载的 http://phunters.lofter.com/post/86d56_66dd375 正文这里开始:
怎样快糙猛的开始搞Kaggle比赛
本文写给想开始搞Kaggle比赛又害怕无从下手的小朋友们。
最近比较多人问我怎么快速成为数据科学家可以挣钱多干活少整天猎头追跳槽涨一倍。
我一般的答案是,没有这好事,但是搞搞Kaggle的比赛有助于快速成为数据科学家,之
后挣钱多少看个人。关于Kaggle比赛是什么,限于篇幅关系,请自行谷歌。
我不是专业机器学习的人,但是我见的太多了。对于有一定数理基础的人来说,快速起
步搞起来个Kaggle比赛并且获得不错的名次,难度并非难于成为王思聪的官方老婆。这
里有三个部分的知识需要强化:
1. 数理基础。基本上高考数学不错的理工科学生,学过了大一大二的数学基础课程(
包括微积分、数理统计、数理方程、集合论等),不存在任何问题。如果想测试一下自
己,那就看看这个题目:
如果一个妹子喜欢我可能因为我帅或者我有钱,因为我既帅又有钱的概率是0.1,只是
因为我有钱的概率是0.5,问,如果妹子喜欢我只是因为我就是帅的概率是多少?
如果能不费力气(心算更好)的解答这个问题,基本上这部分知识是足够了。
2. 机器学习。Kaggle比赛多依靠机器来自动处理,机器学习几乎是必须要的技能。开
始搞Kaggle需要的机器学习技能并不深入,只是需要对于机器学习的常见几个方法有基
本了解即可,比如说对于一个问题,你可以认识到它是个classification的问题啊还是
regression的问题啊,为什么机器可以根据你输入的一个矩阵来算出来分类结果啊。推
荐Coursera上Andrew Ng的机器学习课程 https://www.coursera.org/course/ml 一个
捷径就是,如果你时间紧的话,只要知道什么叫做Supervised learning并且会自己实
现一个Logistic Regression,差不多就够了。
顺便,scikit learn有个极快速的入门,请自行前往观看(请不要私信问我作业面试题之
类的,作业和面试题都要自己写啊,我只能婉拒)
http://scikit-learn.org/stable/tutorial/statistical_inference/s
3. Coding。限于篇幅只介绍Python。我可没有说什么钦定Python,你问我支持不支持
,我用python我当然支持。基本的python编程得熟练,如果不熟练可以先学习 Learn
Python the Hard Way。会了python之后,把scikit-learn的基本教程的
classification的部分练练,你会发现在Andrew Ng课上学的知识,在python里面实际
跑跑简单数据,能对课上的知识深刻的理解。同时,如果有富余时间的话,可以顺道看
看numpy和pandas的一些基础操作,这些是用来数据处理好工具。
上面三点对一个数理基础不错的人来说,差不多几周的空余时间就可以了,如果是在校
学生可能更快。
开始搞Kaggle的时候,建议选个入门容易的比赛。如何选择,简单来说就选个参赛人多
的就好了,基本上认真搞搞结果还不会差呢。如果一个比赛还有自带Tutorial 就更好
了。比如我们可以选泰坦尼克号的比赛,根据乘客的信息来判断他是不是可能在沉船中
遇难。地址是 https://www.kaggle.com/c/titanic-gettingStarted
这个比赛有个很好的tutorial,第一次参加比赛的,可以在比赛过程里遇到但是不限于
如下的问题:
1. 数据怎么读取
2. 有missing value怎么办
3. 一等舱二等舱之类的feature为什么得当作categorial feature
4. 。。。。
等等等等之类的问题。这些问题都是在数据科学领域的实际工作每天都能遇到的。最好
的学习方法就是针对这个问题,你看Discuss Forum和Tutorial里面教你怎么解决,自
己google一下看别人写好的代码怎么解决这些问题。这阶段我建议靠自己的力量搜索答
案而不是去论坛上问一些伸手党类的SB问题,即使问了也没关系有人会替你解答的但是
这不是慢嘛。
然后你会开始训练你的模型,又会遇到但是不限于以下的问题
1. 啥叫random forest,咋用,为什么我调了这几个参数不灵呢
2. 怎么我本地结果很好,但是提交名次掉成狗
3. 原来我要Cross Validation啊(Andrew Ng的课里说到的那些看起来很无聊的曲线现
在知道是为什么了吧)
4. 。。。。。。
等等之类的。这些问题也是实际工作每天都能遇到的。你就看人家怎么调你就跟着模仿
,然后体会思考一下不同调法对结果有什么区别。这比在@七月问答 上面问“如果某某
情况我的随机森林的参数该怎么调才能避免这个情况”之类,对问题领悟的更深刻。折
磨过几波模型调参,你就差不多知道这些模型的套路是什么了。
然后你开始刷名次,又会遇到但是不限于以下的问题:
1. 怎么CV的结果挺好但是上去还是比不过呢
2. 那谁说用Vowel Wabbit对每个分类做优化怎么搞啊
3. 组合模型这概念我知道,但是实际怎么组合呢
4. 。。。。。。
经过这些,你差不多就知道解决一个实际的机器学习问题需要做什么事情了。对的,这
就是数据科学家几乎每天的工作,各部分比重不一样,但是理解问题、数据清理、模型
调参、评估结果这些循环反复的动作,基本上就是数据科学家需要做的。
在这个摸索挨打的过程中,你可以快速学会数据科学的常用工具(numpy scipy pandas
scikit等等),也会在别人的带动下发现新工具(比如@陈天奇怪 的xgboost,vowpal
wabbit之类的),也会学会新技能(比如深度学习以及如何用深度学习去解决实际的
问题)。这个学习速度远超过于看书看blog,在挨打的过程里,回想一下从可可老师那
里看到的每天十条数据科学经验,会不会觉得理解的更深入了呢?
在有实际工业界工作经验之前,搞搞Kaggle比赛几乎是最有效的跨过”数据科学家“门
槛的方法。有了实际工作经验,搞搞Kaggle比赛也能扩大视野,也能把前沿研究的第一
手结果用到实际问题里。大家加油,跳槽就翻倍的高薪工作指日可待(我没有保证能高
薪啊,不要到时候把我拉出来批判一番)
最后插入广告,欢迎组队 https://www.kaggle.com/users/110702/phunter 你看我搞
的很凑合但是排名还行啊对吧。
f******8
发帖数: 93
83
不明觉厉
收藏
u***8
发帖数: 1581
84
真的假的?
p*****r
发帖数: 1883
85

信就试试啊

【在 u***8 的大作中提到】
: 真的假的?
e*******7
发帖数: 347
86
不明觉厉,收藏一下
z*******o
发帖数: 4773
87
ding
o*******4
发帖数: 313
88
如果一个妹子喜欢我可能因为我帅或者我有钱,因为我既帅又有钱的概率是0.1,只是
因为我有钱的概率是0.5,问,如果妹子喜欢我只是因为我就是帅的概率是多少?---
My math is really bad @_@ how come i feel like there are a lot of
information missing?
how to solve this?
c*******e
发帖数: 35
89
假设妹子喜欢你只是这两条件,没有别的。那就是1-0.5-0.1就是0.4。问题是,妹子喜
欢你可能因为别的啊。那就是个range了。只因为你帅,妹子可能根本就不喜欢你!就
是你帅包含了你有钱。那是0到0.4。这个是不是更贴近生活。。。

【在 o*******4 的大作中提到】
: 如果一个妹子喜欢我可能因为我帅或者我有钱,因为我既帅又有钱的概率是0.1,只是
: 因为我有钱的概率是0.5,问,如果妹子喜欢我只是因为我就是帅的概率是多少?---
: My math is really bad @_@ how come i feel like there are a lot of
: information missing?
: how to solve this?

s***h
发帖数: 26
90
大部分我同意,但是很多人就尼玛上来问coding啊,动不动就是向码工水平看齐

L1

【在 p*****r 的大作中提到】
: 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
: 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
: 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
: 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
: 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
: 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
: 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
: 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
: 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
: 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给

相关主题
感觉做ML还是很难啊一道google 面试题
Boston地区startup待遇题目请教
data scientist positionEpic 笔试面经
进入JobHunting版参与讨论
m****9
发帖数: 492
91
这里 “只是因为我有钱” or “是因为我只有钱” 应该还是要区分一下吧。

【在 c*******e 的大作中提到】
: 假设妹子喜欢你只是这两条件,没有别的。那就是1-0.5-0.1就是0.4。问题是,妹子喜
: 欢你可能因为别的啊。那就是个range了。只因为你帅,妹子可能根本就不喜欢你!就
: 是你帅包含了你有钱。那是0到0.4。这个是不是更贴近生活。。。

p*****r
发帖数: 1883
92
这个还是要熟练点的,码农都得猛刷题了,data的coding只是需要熟练就行
如果是老印公司的可能会拿coding来拦你啊,所以我们才不能让老印霸占了这个领域,
快投票 http://wh.gov/iZAhc

【在 s***h 的大作中提到】
: 大部分我同意,但是很多人就尼玛上来问coding啊,动不动就是向码工水平看齐
:
: L1

p*****r
发帖数: 1883
93

这些工具类的东西上手熟练一下就基本都会了,下次可以反问他,你会vw么,你会
theano么

【在 s**********y 的大作中提到】
: 这个好,被问过怎么会numpy不会scikit的,没做过的东西上了课也记不住那几个曲线
: 怎么回事儿。。。可惜,因为h1b没中要滚蛋了吔

p*****r
发帖数: 1883
94
这里的假设前提是帅和钱是独立feature

【在 c*******e 的大作中提到】
: 假设妹子喜欢你只是这两条件,没有别的。那就是1-0.5-0.1就是0.4。问题是,妹子喜
: 欢你可能因为别的啊。那就是个range了。只因为你帅,妹子可能根本就不喜欢你!就
: 是你帅包含了你有钱。那是0到0.4。这个是不是更贴近生活。。。

t**********h
发帖数: 2273
95
哥记得你是00级的啊

L1

【在 p*****r 的大作中提到】
: 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
: 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
: 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
: 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
: 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
: 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
: 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
: 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
: 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
: 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给

r*g
发帖数: 186
96

没人这么霸气
只敢说我会啥啥啥
你那个啥啥啥我知道一点会学得很快

【在 p*****r 的大作中提到】
: 这里的假设前提是帅和钱是独立feature
p*****r
发帖数: 1883
97
是啊,已经在工业界“见的太多了”

【在 t**********h 的大作中提到】
: 哥记得你是00级的啊
:
: L1

P****i
发帖数: 1362
98
写的不错,风趣有内容,顶一个

L1

【在 p*****r 的大作中提到】
: 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
: 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
: 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
: 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
: 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
: 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
: 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
: 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
: 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
: 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给

l**********r
发帖数: 47
99
楼主的声音振聋发聩啊,好好学习,刷kaggle去了
m******c
发帖数: 45
100
好贴!
相关主题
求建议,Google Quantitative analyst 面试用R 还是Python我觉得老中比老印更适合数据科学这个行业
物理phd转行data science也不能乱黑python
Data Engineer Summer Intern at NEC Labs America, Princetonfree back test tool in python - for quant algos (转载)
进入JobHunting版参与讨论
f***a
发帖数: 7286
101


L1

【在 p*****r 的大作中提到】
: 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
: 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
: 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
: 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
: 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
: 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
: 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
: 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
: 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
: 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给

f*******k
发帖数: 89
102
mark
k********0
发帖数: 929
103
Mark
G****e
发帖数: 1480
104
皮老师好久不见!
L*r
发帖数: 109
105
mark。谢谢!
y*c
发帖数: 904
106
赞,谢
f*****a
发帖数: 693
107
Mark!

L1

【在 p*****r 的大作中提到】
: 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
: 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
: 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
: 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
: 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
: 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
: 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
: 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
: 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
: 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给

t**********h
发帖数: 2273
108
ds钻的多么?比码农来说,如何?

【在 p*****r 的大作中提到】
: 是啊,已经在工业界“见的太多了”
p*****r
发帖数: 1883
109
啥叫“钻的多”?

【在 t**********h 的大作中提到】
: ds钻的多么?比码农来说,如何?
p*****r
发帖数: 1883
110
这不是为了推动投票么,我之前都没在这里发过贴
再贴一次投票链接
http://wh.gov/iZAhc

【在 G****e 的大作中提到】
: 皮老师好久不见!
相关主题
free back test tool in python - for quant algos (转载)发个面经吧[Data Scientist] (转载)
为什么DS的面试这么难求职困境中,请帮推荐entry level data analyst opening
巨硬昂塞(转载)请教关于topcoder.com
进入JobHunting版参与讨论
t**********h
发帖数: 2273
111


【在 p*****r 的大作中提到】
: 啥叫“钻的多”?
m**b
发帖数: 617
112
mark. Voted.
p*****r
发帖数: 1883
113

看具体职位了,温饱可以,只是远没有传说中码农fresh grad就230k base那么多

【在 t**********h 的大作中提到】
: 赚
t**********h
发帖数: 2273
114
base 230k是吹牛。
pkg 230k的码农是可以有得,但是对于刚毕业的fresh来说,我没见过230k pkg的。

【在 p*****r 的大作中提到】
:
: 看具体职位了,温饱可以,只是远没有传说中码农fresh grad就230k base那么多

t**********h
发帖数: 2273
115
哥上次看你的文章还是在校内的bbs,一晃眼,尼玛,十多年了,艹

【在 p*****r 的大作中提到】
:
: 看具体职位了,温饱可以,只是远没有传说中码农fresh grad就230k base那么多

p*****r
发帖数: 1883
116

湾区行情是差不多 fresh grad 100k 左右,其他按照均价上下,没有码农那样疯狂

【在 t**********h 的大作中提到】
: base 230k是吹牛。
: pkg 230k的码农是可以有得,但是对于刚毕业的fresh来说,我没见过230k pkg的。

w****r
发帖数: 69
117
大神出现了!!!!!!!
大神威武
大神万岁
跪拜大神
w****x
发帖数: 14
118
大牛帅不帅啊?加我吧, 我刚想去kaggle上玩玩呢。

L1

【在 p*****r 的大作中提到】
: 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
: 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
: 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
: 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
: 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
: 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
: 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
: 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
: 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
: 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给

b********a
发帖数: 70
119
mark
C*******t
发帖数: 95
120
关于petition, 刚看到签了。
还是要更多人看到。 有家有孩子的人可能没那么多时间上网。
相关主题
Design Pattern TutorialsBoston地区startup待遇
如何学习新技术data scientist position
感觉做ML还是很难啊一道google 面试题
进入JobHunting版参与讨论
p*****r
发帖数: 1883
121
多谢签了,我就是贴一些教学贴里面加上投票链接,力图多宣传,太不容易了

【在 C*******t 的大作中提到】
: 关于petition, 刚看到签了。
: 还是要更多人看到。 有家有孩子的人可能没那么多时间上网。

p*****r
发帖数: 1883
122
不好意思不是大牛也只是普通帅,kaggle上面你随便挑个人多的比赛,看看好心人(一
般这个好心人是 Abhishek)贴的beat the benchmark的代码,从那个开始做,看他代
码里写的,你加自己的内容进去。这个自学阶段能很快提高。

【在 w****x 的大作中提到】
: 大牛帅不帅啊?加我吧, 我刚想去kaggle上玩玩呢。
:
: L1

c*******m
发帖数: 522
123
Vowpal Wabbit 吧
p*****r
发帖数: 1883
124
原贴里面有地方被自动拼写检查改成个错的,我尽量改回来了但是可能有疏漏

【在 c*******m 的大作中提到】
: Vowpal Wabbit 吧
c*******m
发帖数: 522
125
大神higgs 排名好高啊
G****e
发帖数: 1480
126
顶p老师。
话说我以前公司analytic组还经常一起组队参加Kaggle,老板看到排名高的ID是无限喜
欢啊。
l*****a
发帖数: 111
127
收藏

贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮.......
.

【在 p*****r 的大作中提到】
: 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
: 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
: 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
: 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
: 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
: 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
: 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
: 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
: 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
: 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给

c*******7
发帖数: 2506
128
mark

L1

【在 p*****r 的大作中提到】
: 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
: 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
: 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
: 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
: 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
: 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
: 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
: 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
: 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
: 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给

C*******t
发帖数: 95
129
应该多谢谢你taking the leadership, 帮更多的中国同胞留下来。

【在 p*****r 的大作中提到】
: 多谢签了,我就是贴一些教学贴里面加上投票链接,力图多宣传,太不容易了
j******g
发帖数: 1428
130
相关主题
题目请教物理phd转行data science
Epic 笔试面经Data Engineer Summer Intern at NEC Labs America, Princeton
求建议,Google Quantitative analyst 面试用R 还是Python我觉得老中比老印更适合数据科学这个行业
进入JobHunting版参与讨论
z**********f
发帖数: 74
131
Mark下
G******n
发帖数: 572
132
赞!mark
p*****r
发帖数: 1883
133
客气客气,非牛,我之前是做Higgs diphoton的,所以这里面一些feature我花了不少
功夫,也趁机认识了xgboost的作者学习了模型的知识,最后结果让我认识到组合模型
的重要性:我和第一名的结果在单模型上我还比他高,但是他会组合我不会所以就跪了
,前50名里面我可能是唯一一个没有用组合模型的人

【在 c*******m 的大作中提到】
: 大神higgs 排名好高啊
p*****r
发帖数: 1883
134
要推广这个比赛,老中都来参加,这个对老中这样高学历占主体的群体很有好处,码农
暴力刷题就能去面试,这个更符合老中数理基础好这个特点,我们可以在数据科学领域
击败老印

【在 G****e 的大作中提到】
: 顶p老师。
: 话说我以前公司analytic组还经常一起组队参加Kaggle,老板看到排名高的ID是无限喜
: 欢啊。

A****n
发帖数: 241
135
厉害,受教了
c*******m
发帖数: 522
136

好像还有一个吧。搜xgboost还有一个只做了feature engineering但是也是single
model(https://no2147483647.wordpress.com/
higgns看到Lester Mackey开始写paper我就有点无语了。。。

【在 p*****r 的大作中提到】
: 客气客气,非牛,我之前是做Higgs diphoton的,所以这里面一些feature我花了不少
: 功夫,也趁机认识了xgboost的作者学习了模型的知识,最后结果让我认识到组合模型
: 的重要性:我和第一名的结果在单模型上我还比他高,但是他会组合我不会所以就跪了
: ,前50名里面我可能是唯一一个没有用组合模型的人

p*****r
发帖数: 1883
137

多谢鼓励。其实这个blog就是我的。。。。在顶楼原帖的lofter链接里,点进去,看最
左边一列友情链接

【在 c*******m 的大作中提到】
:
: 好像还有一个吧。搜xgboost还有一个只做了feature engineering但是也是single
: model(https://no2147483647.wordpress.com/
: higgns看到Lester Mackey开始写paper我就有点无语了。。。

c*******m
发帖数: 522
138

果然是大神啊。膜拜!大神现在在做data science么?

【在 p*****r 的大作中提到】
:
: 多谢鼓励。其实这个blog就是我的。。。。在顶楼原帖的lofter链接里,点进去,看最
: 左边一列友情链接

p*****r
发帖数: 1883
139

非神,不要太客气,现在我就在湾区做data science,这个工作适合老中啊,不用刷题
不用看老印脸色不用被智力低下的产品经理羞辱如果不满意分分钟跳槽就能找到工资更
高的(虽然没有码农230k那么高

【在 c*******m 的大作中提到】
:
: 果然是大神啊。膜拜!大神现在在做data science么?

c*******m
发帖数: 522
140

kaggle求带啊

【在 p*****r 的大作中提到】
:
: 非神,不要太客气,现在我就在湾区做data science,这个工作适合老中啊,不用刷题
: 不用看老印脸色不用被智力低下的产品经理羞辱如果不满意分分钟跳槽就能找到工资更
: 高的(虽然没有码农230k那么高

相关主题
我觉得老中比老印更适合数据科学这个行业为什么DS的面试这么难
也不能乱黑python巨硬昂塞(转载)
free back test tool in python - for quant algos (转载)发个面经吧[Data Scientist] (转载)
进入JobHunting版参与讨论
m**8
发帖数: 543
141
顶!
牛!
j**********3
发帖数: 3211
142
mark!
p********6
发帖数: 1339
143
关注一下。不过没有相关学位的话也没有很容易找到工作吧。
c***z
发帖数: 6348
144
转到数据科学版了,希望LZ不会介意

L1

【在 p*****r 的大作中提到】
: 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
: 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
: 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
: 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
: 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
: 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
: 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
: 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
: 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
: 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给

o******n
发帖数: 511
145
好帖mark
p*****r
发帖数: 1883
146
欢迎转帖,记得保留投票链接(我为了推动投票容易么

【在 c***z 的大作中提到】
: 转到数据科学版了,希望LZ不会介意
:
: L1

w******2
发帖数: 64
147
没你说的那么简单,要是人人都无师自通,那还上什么学.
老老实实读个学位, 慢慢积累经验几年, 才能搞懂machine learning 的精髓。
M****5
发帖数: 253
148
感谢楼主,收藏了,已签。
p*****r
发帖数: 1883
149
我只能带个入门捷径,入门之后修行还是要看个人,修行好到”通“还是要很多努力的。
顺便其实,数据科学之有10%时间在搞机器学习。

【在 w******2 的大作中提到】
: 没你说的那么简单,要是人人都无师自通,那还上什么学.
: 老老实实读个学位, 慢慢积累经验几年, 才能搞懂machine learning 的精髓。

p*****r
发帖数: 1883
150
感谢签。我帖这篇文章也是为了图个推广投票的私心,想着如果被小钻风推荐了,投票
链接也就更多人看到

【在 M****5 的大作中提到】
: 感谢楼主,收藏了,已签。
相关主题
求职困境中,请帮推荐entry level data analyst opening如何学习新技术
请教关于topcoder.com感觉做ML还是很难啊
Design Pattern TutorialsBoston地区startup待遇
进入JobHunting版参与讨论
p**********7
发帖数: 122
151
好贴,两周前已签过,现在正想找些实战的东西来练手,求lz推荐ds的工作啊~~~
p*****r
发帖数: 1883
152

indeed上湾区部分搜索data scientist一大把,把linkedin上好好写写,很多
recruiter找。加油啊,顺便谢签

【在 p**********7 的大作中提到】
: 好贴,两周前已签过,现在正想找些实战的东西来练手,求lz推荐ds的工作啊~~~
x*****0
发帖数: 452
153
mark
E*******F
发帖数: 2165
154
先赞一个
不过应聘data scientist还是要考coding的,只是要求不高
而且有时会问一些很实际的问题,没在公司做过不容易回答出来
收入虽然比高级码农低,但是不比入门级的码农低,所以性价比还不错

【在 p*****r 的大作中提到】
:
: indeed上湾区部分搜索data scientist一大把,把linkedin上好好写写,很多
: recruiter找。加油啊,顺便谢签

W***o
发帖数: 6519
155
收藏了!

L1

【在 p*****r 的大作中提到】
: 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
: 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
: 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
: 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
: 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
: 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
: 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
: 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
: 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
: 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给

k**y
发帖数: 28
156
这么牛的帖子才看到
收藏了!
r********g
发帖数: 144
157
好帖!
a***y
发帖数: 852
158
lz的博客,非常非常有意思,拜一个
j********g
发帖数: 427
159
Mark------
y******n
发帖数: 62
160
很感兴趣,刚注册了。有想要一起学的吗?
相关主题
data scientist positionEpic 笔试面经
一道google 面试题求建议,Google Quantitative analyst 面试用R 还是Python
题目请教物理phd转行data science
进入JobHunting版参与讨论
v*******7
发帖数: 3
161
那高级的data scientist比起高级码农又如何呢?

【在 E*******F 的大作中提到】
: 先赞一个
: 不过应聘data scientist还是要考coding的,只是要求不高
: 而且有时会问一些很实际的问题,没在公司做过不容易回答出来
: 收入虽然比高级码农低,但是不比入门级的码农低,所以性价比还不错

j**********3
发帖数: 3211
162
mark
s*****m
发帖数: 168
163
好文。mark下。回头给我老婆看。
s******3
发帖数: 344
164
re

L1

【在 p*****r 的大作中提到】
: 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
: 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
: 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
: 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
: 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
: 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
: 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
: 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
: 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
: 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给

d***e
发帖数: 193
165
赞!
l*********i
发帖数: 28
166
mark
t*****d
发帖数: 525
167
牛人!厉害!

L1

【在 p*****r 的大作中提到】
: 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
: 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
: 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
: 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
: 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
: 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
: 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
: 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
: 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
: 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给

l****d
发帖数: 2
168
刘老师从微薄转战买买提了!资瓷!

L1

【在 p*****r 的大作中提到】
: 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
: 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
: 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
: 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
: 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
: 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
: 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
: 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
: 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
: 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给

t*******e
发帖数: 191
169
那剩下的90%的时间在搞什么?

的。

【在 p*****r 的大作中提到】
: 我只能带个入门捷径,入门之后修行还是要看个人,修行好到”通“还是要很多努力的。
: 顺便其实,数据科学之有10%时间在搞机器学习。

s*********h
发帖数: 6288
170
不是在整理数据就是在跟码公扯皮deploy模型 哈哈哈 纯TX

【在 t*******e 的大作中提到】
: 那剩下的90%的时间在搞什么?
:
: 的。

相关主题
物理phd转行data science也不能乱黑python
Data Engineer Summer Intern at NEC Labs America, Princetonfree back test tool in python - for quant algos (转载)
我觉得老中比老印更适合数据科学这个行业为什么DS的面试这么难
进入JobHunting版参与讨论
f*****n
发帖数: 2126
171
flag的ds能多少k呢?
M*****e
发帖数: 1
172
根本不是这么简单。
现在找DS,没有PHD,人家都懒得理你。老中PHD 的太多的想当DS。而且老中学统计的
太多了。
现在又要一堆人去学AI.AI的DEMAND 很少,学出来估计没岗位。
还有没有经验,人家也不要你。一上来就问你工作中的PROJECT,一步一步深入问,一
问就能看出有没有经验。而不是你刷的那些PROJECT。
就说那个NG吧,也是理论一大堆,真正实际工作中遇到的他也未必能解决。
而且还要看市场的,DEMANDING多,SUPPLY少的时候可以这样。现在这市场难。
马工刷LEETCODE还是好的,反正就是那些题。

L1

【在 p*****r 的大作中提到】
: 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
: 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
: 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
: 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
: 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
: 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
: 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
: 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
: 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
: 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给

w*******0
发帖数: 10
173
FLAG的DS new grad/junior level会比sde低一点
senior level几乎一样,amz/g还会比sde更多

【在 f*****n 的大作中提到】
: flag的ds能多少k呢?
f*****n
发帖数: 2126
174
有一年500k的ds?

【在 w*******0 的大作中提到】
: FLAG的DS new grad/junior level会比sde低一点
: senior level几乎一样,amz/g还会比sde更多

w*******0
发帖数: 10
175
多的去了吧。。。就我而言,目前DS工作三年,还只是个senior,每年不算bonus拿到
手的钱都比320k略多
高等级的ds 500k问题不是很大哎

【在 f*****n 的大作中提到】
: 有一年500k的ds?
1 (共1页)
进入JobHunting版参与讨论
相关主题
data scientist position也不能乱黑python
一道google 面试题free back test tool in python - for quant algos (转载)
题目请教为什么DS的面试这么难
Epic 笔试面经巨硬昂塞(转载)
求建议,Google Quantitative analyst 面试用R 还是Python发个面经吧[Data Scientist] (转载)
物理phd转行data science求职困境中,请帮推荐entry level data analyst opening
Data Engineer Summer Intern at NEC Labs America, Princeton请教关于topcoder.com
我觉得老中比老印更适合数据科学这个行业Design Pattern Tutorials
相关话题的讨论汇总
话题: kaggle话题: mark话题: l1话题: 问题话题: 比赛