p*****r 发帖数: 1883 | 1 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
你跪舔,再也不敢上来卖弄概念自寻羞辱。
看我辛苦写这么多教学的份上,请允许我宣传一下我们的白宫投票 http://wh.gov/iZAhc 现在老印每个人提交个三四份H1b霸占了签证市场,搞的老中的工作机会都没了。我们老中辛苦读书,刷题,准备面试,好不容易过五关斩六将得到个offer还要被老印这样抢H1b,这真的很让人伤心。不管今年抽不抽H1b,抽没抽中,都请到这个投票链接注册投票(并在email里确认投票),为了同胞能有平等的工作机会不被老印欺负,请投票。如果想知道老印ICC的恶行以及对我们的危害,请到 http://stoph1bvisafraud.org/
下面是从我的blog转载的 http://phunters.lofter.com/post/86d56_66dd375 正文这里开始:
怎样快糙猛的开始搞Kaggle比赛
本文写给想开始搞Kaggle比赛又害怕无从下手的小朋友们。
最近比较多人问我怎么快速成为数据科学家可以挣钱多干活少整天猎头追跳槽涨一倍。
我一般的答案是,没有这好事,但是搞搞Kaggle的比赛有助于快速成为数据科学家,之
后挣钱多少看个人。关于Kaggle比赛是什么,限于篇幅关系,请自行谷歌。
我不是专业机器学习的人,但是我见的太多了。对于有一定数理基础的人来说,快速起
步搞起来个Kaggle比赛并且获得不错的名次,难度并非难于成为王思聪的官方老婆。这
里有三个部分的知识需要强化:
1. 数理基础。基本上高考数学不错的理工科学生,学过了大一大二的数学基础课程(
包括微积分、数理统计、数理方程、集合论等),不存在任何问题。如果想测试一下自
己,那就看看这个题目:
如果一个妹子喜欢我可能因为我帅或者我有钱,因为我既帅又有钱的概率是0.1,只是
因为我有钱的概率是0.5,问,如果妹子喜欢我只是因为我就是帅的概率是多少?
如果能不费力气(心算更好)的解答这个问题,基本上这部分知识是足够了。
2. 机器学习。Kaggle比赛多依靠机器来自动处理,机器学习几乎是必须要的技能。开
始搞Kaggle需要的机器学习技能并不深入,只是需要对于机器学习的常见几个方法有基
本了解即可,比如说对于一个问题,你可以认识到它是个classification的问题啊还是
regression的问题啊,为什么机器可以根据你输入的一个矩阵来算出来分类结果啊。推
荐Coursera上Andrew Ng的机器学习课程 https://www.coursera.org/course/ml 一个
捷径就是,如果你时间紧的话,只要知道什么叫做Supervised learning并且会自己实
现一个Logistic Regression,差不多就够了。
3. Coding。限于篇幅只介绍Python。我可没有说什么钦定Python,你问我支持不支持
,我用python我当然支持。基本的python编程得熟练,如果不熟练可以先学习 Learn
Python the Hard Way。会了python之后,把scikit-learn的基本教程的
classification的部分练练,你会发现在Andrew Ng课上学的知识,在python里面实际
跑跑简单数据,能对课上的知识深刻的理解。同时,如果有富余时间的话,可以顺道看
看numpy和pandas的一些基础操作,这些是用来数据处理好工具。
上面三点对一个数理基础不错的人来说,差不多几周的空余时间就可以了,如果是在校
学生可能更快。
开始搞Kaggle的时候,建议选个入门容易的比赛。如何选择,简单来说就选个参赛人多
的就好了,基本上认真搞搞结果还不会差呢。如果一个比赛还有自带Tutorial 就更好
了。比如我们可以选泰坦尼克号的比赛,根据乘客的信息来判断他是不是可能在沉船中
遇难。地址是 https://www.kaggle.com/c/titanic-gettingStarted
这个比赛有个很好的tutorial,第一次参加比赛的,可以在比赛过程里遇到但是不限于
如下的问题:
1. 数据怎么读取
2. 有missing value怎么办
3. 一等舱二等舱之类的feature为什么得当作categorial feature
4. 。。。。
等等等等之类的问题。这些问题都是在数据科学领域的实际工作每天都能遇到的。最好
的学习方法就是针对这个问题,你看Discuss Forum和Tutorial里面教你怎么解决,自
己google一下看别人写好的代码怎么解决这些问题。这阶段我建议靠自己的力量搜索答
案而不是去论坛上问一些伸手党类的SB问题,即使问了也没关系有人会替你解答的但是
这不是慢嘛。
然后你会开始训练你的模型,又会遇到但是不限于以下的问题
1. 啥叫random forest,咋用,为什么我调了这几个参数不灵呢
2. 怎么我本地结果很好,但是提交名次掉成狗
3. 原来我要Cross Validation啊(Andrew Ng的课里说到的那些看起来很无聊的曲线现
在知道是为什么了吧)
4. 。。。。。。
等等之类的。这些问题也是实际工作每天都能遇到的。你就看人家怎么调你就跟着模仿
,然后体会思考一下不同调法对结果有什么区别。这比在@七月问答 上面问“如果某某
情况我的随机森林的参数该怎么调才能避免这个情况”之类,对问题领悟的更深刻。折
磨过几波模型调参,你就差不多知道这些模型的套路是什么了。
然后你开始刷名次,又会遇到但是不限于以下的问题:
1. 怎么CV的结果挺好但是上去还是比不过呢
2. 那谁说用Vowel Wabbit对每个分类做优化怎么搞啊
3. 组合模型这概念我知道,但是实际怎么组合呢
4. 。。。。。。
经过这些,你差不多就知道解决一个实际的机器学习问题需要做什么事情了。对的,这
就是数据科学家几乎每天的工作,各部分比重不一样,但是理解问题、数据清理、模型
调参、评估结果这些循环反复的动作,基本上就是数据科学家需要做的。
在这个摸索挨打的过程中,你可以快速学会数据科学的常用工具(numpy scipy pandas
scikit等等),也会在别人的带动下发现新工具(比如@陈天奇怪 的xgboost,vowpal
wabbit之类的),也会学会新技能(比如深度学习以及如何用深度学习去解决实际的
问题)。这个学习速度远超过于看书看blog,在挨打的过程里,回想一下从可可老师那
里看到的每天十条数据科学经验,会不会觉得理解的更深入了呢?
在有实际工业界工作经验之前,搞搞Kaggle比赛几乎是最有效的跨过”数据科学家“门
槛的方法。有了实际工作经验,搞搞Kaggle比赛也能扩大视野,也能把前沿研究的第一
手结果用到实际问题里。大家加油,跳槽就翻倍的高薪工作指日可待(我没有保证能高
薪啊,不要到时候把我拉出来批判一番)
最后插入广告,欢迎组队 https://www.kaggle.com/users/110702/phunter 你看我搞
的很凑合但是排名还行啊对吧。 |
f******8 发帖数: 93 | |
u***8 发帖数: 1581 | |
p*****r 发帖数: 1883 | 4
信就试试啊
【在 u***8 的大作中提到】 : 真的假的?
|
e*******7 发帖数: 347 | |
z*******o 发帖数: 4773 | |
o*******4 发帖数: 313 | 7 如果一个妹子喜欢我可能因为我帅或者我有钱,因为我既帅又有钱的概率是0.1,只是
因为我有钱的概率是0.5,问,如果妹子喜欢我只是因为我就是帅的概率是多少?---
My math is really bad @_@ how come i feel like there are a lot of
information missing?
how to solve this? |
s**********y 发帖数: 211 | 8 这个好,被问过怎么会numpy不会scikit的,没做过的东西上了课也记不住那几个曲线
怎么回事儿。。。可惜,因为h1b没中要滚蛋了吔 |
c*******e 发帖数: 35 | 9 假设妹子喜欢你只是这两条件,没有别的。那就是1-0.5-0.1就是0.4。问题是,妹子喜
欢你可能因为别的啊。那就是个range了。只因为你帅,妹子可能根本就不喜欢你!就
是你帅包含了你有钱。那是0到0.4。这个是不是更贴近生活。。。
【在 o*******4 的大作中提到】 : 如果一个妹子喜欢我可能因为我帅或者我有钱,因为我既帅又有钱的概率是0.1,只是 : 因为我有钱的概率是0.5,问,如果妹子喜欢我只是因为我就是帅的概率是多少?--- : My math is really bad @_@ how come i feel like there are a lot of : information missing? : how to solve this?
|
s***h 发帖数: 26 | 10 大部分我同意,但是很多人就尼玛上来问coding啊,动不动就是向码工水平看齐
L1
【在 p*****r 的大作中提到】 : 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什 : 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助), : 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都 : 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模 : 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了 : 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是 : 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官 : 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1 : 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺 : 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
|
|
|
m****9 发帖数: 492 | 11 这里 “只是因为我有钱” or “是因为我只有钱” 应该还是要区分一下吧。
【在 c*******e 的大作中提到】 : 假设妹子喜欢你只是这两条件,没有别的。那就是1-0.5-0.1就是0.4。问题是,妹子喜 : 欢你可能因为别的啊。那就是个range了。只因为你帅,妹子可能根本就不喜欢你!就 : 是你帅包含了你有钱。那是0到0.4。这个是不是更贴近生活。。。
|
p*****r 发帖数: 1883 | 12 这个还是要熟练点的,码农都得猛刷题了,data的coding只是需要熟练就行
如果是老印公司的可能会拿coding来拦你啊,所以我们才不能让老印霸占了这个领域,
快投票 http://wh.gov/iZAhc
【在 s***h 的大作中提到】 : 大部分我同意,但是很多人就尼玛上来问coding啊,动不动就是向码工水平看齐 : : L1
|
p*****r 发帖数: 1883 | 13
这些工具类的东西上手熟练一下就基本都会了,下次可以反问他,你会vw么,你会
theano么
【在 s**********y 的大作中提到】 : 这个好,被问过怎么会numpy不会scikit的,没做过的东西上了课也记不住那几个曲线 : 怎么回事儿。。。可惜,因为h1b没中要滚蛋了吔
|
p*****r 发帖数: 1883 | 14 这里的假设前提是帅和钱是独立feature
【在 c*******e 的大作中提到】 : 假设妹子喜欢你只是这两条件,没有别的。那就是1-0.5-0.1就是0.4。问题是,妹子喜 : 欢你可能因为别的啊。那就是个range了。只因为你帅,妹子可能根本就不喜欢你!就 : 是你帅包含了你有钱。那是0到0.4。这个是不是更贴近生活。。。
|
t**********h 发帖数: 2273 | 15 哥记得你是00级的啊
L1
【在 p*****r 的大作中提到】 : 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什 : 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助), : 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都 : 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模 : 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了 : 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是 : 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官 : 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1 : 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺 : 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
|
r*g 发帖数: 186 | 16
没人这么霸气
只敢说我会啥啥啥
你那个啥啥啥我知道一点会学得很快
【在 p*****r 的大作中提到】 : 这里的假设前提是帅和钱是独立feature
|
p*****r 发帖数: 1883 | 17 是啊,已经在工业界“见的太多了”
【在 t**********h 的大作中提到】 : 哥记得你是00级的啊 : : L1
|
P****i 发帖数: 1362 | 18 写的不错,风趣有内容,顶一个
L1
【在 p*****r 的大作中提到】 : 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什 : 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助), : 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都 : 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模 : 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了 : 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是 : 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官 : 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1 : 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺 : 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
|
l**********r 发帖数: 47 | 19 楼主的声音振聋发聩啊,好好学习,刷kaggle去了 |
m******c 发帖数: 45 | |
|
|
f***a 发帖数: 7286 | 21 牛
L1
【在 p*****r 的大作中提到】 : 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什 : 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助), : 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都 : 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模 : 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了 : 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是 : 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官 : 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1 : 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺 : 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
|
f*******k 发帖数: 89 | |
k********0 发帖数: 929 | |
G****e 发帖数: 1480 | |
L*r 发帖数: 109 | |
m****l 发帖数: 61 | 26 人言人有愿
君王既行幸
所冀延明福
人可为信常
王氏船犹在
沧江终白身
田横海岛边 |
y*c 发帖数: 904 | |
f*****a 发帖数: 693 | 28 Mark!
L1
【在 p*****r 的大作中提到】 : 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什 : 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助), : 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都 : 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模 : 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了 : 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是 : 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官 : 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1 : 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺 : 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
|
t**********h 发帖数: 2273 | 29 ds钻的多么?比码农来说,如何?
【在 p*****r 的大作中提到】 : 是啊,已经在工业界“见的太多了”
|
p*****r 发帖数: 1883 | 30 啥叫“钻的多”?
【在 t**********h 的大作中提到】 : ds钻的多么?比码农来说,如何?
|
|
|
p*****r 发帖数: 1883 | 31 这不是为了推动投票么,我之前都没在这里发过贴
再贴一次投票链接
http://wh.gov/iZAhc
【在 G****e 的大作中提到】 : 皮老师好久不见!
|
t**********h 发帖数: 2273 | 32 赚
【在 p*****r 的大作中提到】 : 啥叫“钻的多”?
|
m**b 发帖数: 617 | |
p*****r 发帖数: 1883 | 34
看具体职位了,温饱可以,只是远没有传说中码农fresh grad就230k base那么多
【在 t**********h 的大作中提到】 : 赚
|
t**********h 发帖数: 2273 | 35 base 230k是吹牛。
pkg 230k的码农是可以有得,但是对于刚毕业的fresh来说,我没见过230k pkg的。
【在 p*****r 的大作中提到】 : : 看具体职位了,温饱可以,只是远没有传说中码农fresh grad就230k base那么多
|
t**********h 发帖数: 2273 | 36 哥上次看你的文章还是在校内的bbs,一晃眼,尼玛,十多年了,艹
【在 p*****r 的大作中提到】 : : 看具体职位了,温饱可以,只是远没有传说中码农fresh grad就230k base那么多
|
p*****r 发帖数: 1883 | 37
湾区行情是差不多 fresh grad 100k 左右,其他按照均价上下,没有码农那样疯狂
【在 t**********h 的大作中提到】 : base 230k是吹牛。 : pkg 230k的码农是可以有得,但是对于刚毕业的fresh来说,我没见过230k pkg的。
|
w****r 发帖数: 69 | 38 大神出现了!!!!!!!
大神威武
大神万岁
跪拜大神 |
w****x 发帖数: 14 | 39 大牛帅不帅啊?加我吧, 我刚想去kaggle上玩玩呢。
L1
【在 p*****r 的大作中提到】 : 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什 : 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助), : 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都 : 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模 : 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了 : 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是 : 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官 : 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1 : 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺 : 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
|
b********a 发帖数: 70 | |
|
|
C*******t 发帖数: 95 | 41 关于petition, 刚看到签了。
还是要更多人看到。 有家有孩子的人可能没那么多时间上网。 |
p*****r 发帖数: 1883 | 42 多谢签了,我就是贴一些教学贴里面加上投票链接,力图多宣传,太不容易了
【在 C*******t 的大作中提到】 : 关于petition, 刚看到签了。 : 还是要更多人看到。 有家有孩子的人可能没那么多时间上网。
|
p*****r 发帖数: 1883 | 43 不好意思不是大牛也只是普通帅,kaggle上面你随便挑个人多的比赛,看看好心人(一
般这个好心人是 Abhishek)贴的beat the benchmark的代码,从那个开始做,看他代
码里写的,你加自己的内容进去。这个自学阶段能很快提高。
【在 w****x 的大作中提到】 : 大牛帅不帅啊?加我吧, 我刚想去kaggle上玩玩呢。 : : L1
|
c*******m 发帖数: 522 | |
p*****r 发帖数: 1883 | 45 原贴里面有地方被自动拼写检查改成个错的,我尽量改回来了但是可能有疏漏
【在 c*******m 的大作中提到】 : Vowpal Wabbit 吧
|
c*******m 发帖数: 522 | |
G****e 发帖数: 1480 | 47 顶p老师。
话说我以前公司analytic组还经常一起组队参加Kaggle,老板看到排名高的ID是无限喜
欢啊。 |
l*****a 发帖数: 111 | 48 收藏
贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮.......
.
【在 p*****r 的大作中提到】 : 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什 : 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助), : 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都 : 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模 : 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了 : 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是 : 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官 : 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1 : 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺 : 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
|
c*******7 发帖数: 2506 | 49 mark
L1
【在 p*****r 的大作中提到】 : 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什 : 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助), : 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都 : 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模 : 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了 : 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是 : 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官 : 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1 : 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺 : 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
|
C*******t 发帖数: 95 | 50 应该多谢谢你taking the leadership, 帮更多的中国同胞留下来。
【在 p*****r 的大作中提到】 : 多谢签了,我就是贴一些教学贴里面加上投票链接,力图多宣传,太不容易了
|
|
|
j******g 发帖数: 1428 | |
z**********f 发帖数: 74 | |
G******n 发帖数: 572 | |
p*****r 发帖数: 1883 | 54 客气客气,非牛,我之前是做Higgs diphoton的,所以这里面一些feature我花了不少
功夫,也趁机认识了xgboost的作者学习了模型的知识,最后结果让我认识到组合模型
的重要性:我和第一名的结果在单模型上我还比他高,但是他会组合我不会所以就跪了
,前50名里面我可能是唯一一个没有用组合模型的人
【在 c*******m 的大作中提到】 : 大神higgs 排名好高啊
|
p*****r 发帖数: 1883 | 55 要推广这个比赛,老中都来参加,这个对老中这样高学历占主体的群体很有好处,码农
暴力刷题就能去面试,这个更符合老中数理基础好这个特点,我们可以在数据科学领域
击败老印
【在 G****e 的大作中提到】 : 顶p老师。 : 话说我以前公司analytic组还经常一起组队参加Kaggle,老板看到排名高的ID是无限喜 : 欢啊。
|
A****n 发帖数: 241 | |
c*******m 发帖数: 522 | 57
好像还有一个吧。搜xgboost还有一个只做了feature engineering但是也是single
model(https://no2147483647.wordpress.com/)
higgns看到Lester Mackey开始写paper我就有点无语了。。。
【在 p*****r 的大作中提到】 : 客气客气,非牛,我之前是做Higgs diphoton的,所以这里面一些feature我花了不少 : 功夫,也趁机认识了xgboost的作者学习了模型的知识,最后结果让我认识到组合模型 : 的重要性:我和第一名的结果在单模型上我还比他高,但是他会组合我不会所以就跪了 : ,前50名里面我可能是唯一一个没有用组合模型的人
|
p*****r 发帖数: 1883 | 58
多谢鼓励。其实这个blog就是我的。。。。在顶楼原帖的lofter链接里,点进去,看最
左边一列友情链接
【在 c*******m 的大作中提到】 : : 好像还有一个吧。搜xgboost还有一个只做了feature engineering但是也是single : model(https://no2147483647.wordpress.com/) : higgns看到Lester Mackey开始写paper我就有点无语了。。。
|
c*******m 发帖数: 522 | 59
果然是大神啊。膜拜!大神现在在做data science么?
【在 p*****r 的大作中提到】 : : 多谢鼓励。其实这个blog就是我的。。。。在顶楼原帖的lofter链接里,点进去,看最 : 左边一列友情链接
|
p*****r 发帖数: 1883 | 60
非神,不要太客气,现在我就在湾区做data science,这个工作适合老中啊,不用刷题
不用看老印脸色不用被智力低下的产品经理羞辱如果不满意分分钟跳槽就能找到工资更
高的(虽然没有码农230k那么高
【在 c*******m 的大作中提到】 : : 果然是大神啊。膜拜!大神现在在做data science么?
|
|
|
c*******m 发帖数: 522 | 61
kaggle求带啊
【在 p*****r 的大作中提到】 : : 非神,不要太客气,现在我就在湾区做data science,这个工作适合老中啊,不用刷题 : 不用看老印脸色不用被智力低下的产品经理羞辱如果不满意分分钟跳槽就能找到工资更 : 高的(虽然没有码农230k那么高
|
m**8 发帖数: 543 | |
j**********3 发帖数: 3211 | |
p********6 发帖数: 1339 | 64 关注一下。不过没有相关学位的话也没有很容易找到工作吧。 |
c***z 发帖数: 6348 | 65 转到数据科学版了,希望LZ不会介意
L1
【在 p*****r 的大作中提到】 : 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什 : 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助), : 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都 : 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模 : 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了 : 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是 : 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官 : 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1 : 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺 : 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
|
o******n 发帖数: 511 | |
p*****r 发帖数: 1883 | 67 欢迎转帖,记得保留投票链接(我为了推动投票容易么
【在 c***z 的大作中提到】 : 转到数据科学版了,希望LZ不会介意 : : L1
|
w******2 发帖数: 64 | 68 没你说的那么简单,要是人人都无师自通,那还上什么学.
老老实实读个学位, 慢慢积累经验几年, 才能搞懂machine learning 的精髓。 |
M****5 发帖数: 253 | |
p*****r 发帖数: 1883 | 70 我只能带个入门捷径,入门之后修行还是要看个人,修行好到”通“还是要很多努力的。
顺便其实,数据科学之有10%时间在搞机器学习。
【在 w******2 的大作中提到】 : 没你说的那么简单,要是人人都无师自通,那还上什么学. : 老老实实读个学位, 慢慢积累经验几年, 才能搞懂machine learning 的精髓。
|
|
|
p*****r 发帖数: 1883 | 71 感谢签。我帖这篇文章也是为了图个推广投票的私心,想着如果被小钻风推荐了,投票
链接也就更多人看到
【在 M****5 的大作中提到】 : 感谢楼主,收藏了,已签。
|
p**********7 发帖数: 122 | 72 好贴,两周前已签过,现在正想找些实战的东西来练手,求lz推荐ds的工作啊~~~ |
p*****r 发帖数: 1883 | 73
indeed上湾区部分搜索data scientist一大把,把linkedin上好好写写,很多
recruiter找。加油啊,顺便谢签
【在 p**********7 的大作中提到】 : 好贴,两周前已签过,现在正想找些实战的东西来练手,求lz推荐ds的工作啊~~~
|
x*****0 发帖数: 452 | |
E*******F 发帖数: 2165 | 75 先赞一个
不过应聘data scientist还是要考coding的,只是要求不高
而且有时会问一些很实际的问题,没在公司做过不容易回答出来
收入虽然比高级码农低,但是不比入门级的码农低,所以性价比还不错
【在 p*****r 的大作中提到】 : : indeed上湾区部分搜索data scientist一大把,把linkedin上好好写写,很多 : recruiter找。加油啊,顺便谢签
|
W***o 发帖数: 6519 | 76 收藏了!
L1
【在 p*****r 的大作中提到】 : 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什 : 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助), : 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都 : 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模 : 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了 : 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是 : 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官 : 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1 : 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺 : 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
|
k**y 发帖数: 28 | |
r********g 发帖数: 144 | |
a***y 发帖数: 852 | |
j********g 发帖数: 427 | |
|
|
y******n 发帖数: 62 | |
p*****r 发帖数: 1883 | 82 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
你跪舔,再也不敢上来卖弄概念自寻羞辱。
看我辛苦写这么多教学的份上,请允许我宣传一下我们的白宫投票
http://wh.gov/iZAhc
现在老印每个人提交个三四份H1b霸占了签证市场,搞的老中的工作机会都没了。我们
老中辛苦读书,刷题,准备面试,好不容易过五关斩六将得到个offer还要被老印这样
抢H1b,这真的很让人伤心。不管今年抽不抽H1b,抽没抽中,都请到这个投票链接注册
投票(并在email里确认投票),为了同胞能有平等的工作机会不被老印欺负,请投票
。如果想知道老印ICC的恶行以及对我们的危害,请到
http://stoph1bvisafraud.org/
下面是从我的blog转载的 http://phunters.lofter.com/post/86d56_66dd375 正文这里开始:
怎样快糙猛的开始搞Kaggle比赛
本文写给想开始搞Kaggle比赛又害怕无从下手的小朋友们。
最近比较多人问我怎么快速成为数据科学家可以挣钱多干活少整天猎头追跳槽涨一倍。
我一般的答案是,没有这好事,但是搞搞Kaggle的比赛有助于快速成为数据科学家,之
后挣钱多少看个人。关于Kaggle比赛是什么,限于篇幅关系,请自行谷歌。
我不是专业机器学习的人,但是我见的太多了。对于有一定数理基础的人来说,快速起
步搞起来个Kaggle比赛并且获得不错的名次,难度并非难于成为王思聪的官方老婆。这
里有三个部分的知识需要强化:
1. 数理基础。基本上高考数学不错的理工科学生,学过了大一大二的数学基础课程(
包括微积分、数理统计、数理方程、集合论等),不存在任何问题。如果想测试一下自
己,那就看看这个题目:
如果一个妹子喜欢我可能因为我帅或者我有钱,因为我既帅又有钱的概率是0.1,只是
因为我有钱的概率是0.5,问,如果妹子喜欢我只是因为我就是帅的概率是多少?
如果能不费力气(心算更好)的解答这个问题,基本上这部分知识是足够了。
2. 机器学习。Kaggle比赛多依靠机器来自动处理,机器学习几乎是必须要的技能。开
始搞Kaggle需要的机器学习技能并不深入,只是需要对于机器学习的常见几个方法有基
本了解即可,比如说对于一个问题,你可以认识到它是个classification的问题啊还是
regression的问题啊,为什么机器可以根据你输入的一个矩阵来算出来分类结果啊。推
荐Coursera上Andrew Ng的机器学习课程 https://www.coursera.org/course/ml 一个
捷径就是,如果你时间紧的话,只要知道什么叫做Supervised learning并且会自己实
现一个Logistic Regression,差不多就够了。
顺便,scikit learn有个极快速的入门,请自行前往观看(请不要私信问我作业面试题之
类的,作业和面试题都要自己写啊,我只能婉拒)
http://scikit-learn.org/stable/tutorial/statistical_inference/s
3. Coding。限于篇幅只介绍Python。我可没有说什么钦定Python,你问我支持不支持
,我用python我当然支持。基本的python编程得熟练,如果不熟练可以先学习 Learn
Python the Hard Way。会了python之后,把scikit-learn的基本教程的
classification的部分练练,你会发现在Andrew Ng课上学的知识,在python里面实际
跑跑简单数据,能对课上的知识深刻的理解。同时,如果有富余时间的话,可以顺道看
看numpy和pandas的一些基础操作,这些是用来数据处理好工具。
上面三点对一个数理基础不错的人来说,差不多几周的空余时间就可以了,如果是在校
学生可能更快。
开始搞Kaggle的时候,建议选个入门容易的比赛。如何选择,简单来说就选个参赛人多
的就好了,基本上认真搞搞结果还不会差呢。如果一个比赛还有自带Tutorial 就更好
了。比如我们可以选泰坦尼克号的比赛,根据乘客的信息来判断他是不是可能在沉船中
遇难。地址是 https://www.kaggle.com/c/titanic-gettingStarted
这个比赛有个很好的tutorial,第一次参加比赛的,可以在比赛过程里遇到但是不限于
如下的问题:
1. 数据怎么读取
2. 有missing value怎么办
3. 一等舱二等舱之类的feature为什么得当作categorial feature
4. 。。。。
等等等等之类的问题。这些问题都是在数据科学领域的实际工作每天都能遇到的。最好
的学习方法就是针对这个问题,你看Discuss Forum和Tutorial里面教你怎么解决,自
己google一下看别人写好的代码怎么解决这些问题。这阶段我建议靠自己的力量搜索答
案而不是去论坛上问一些伸手党类的SB问题,即使问了也没关系有人会替你解答的但是
这不是慢嘛。
然后你会开始训练你的模型,又会遇到但是不限于以下的问题
1. 啥叫random forest,咋用,为什么我调了这几个参数不灵呢
2. 怎么我本地结果很好,但是提交名次掉成狗
3. 原来我要Cross Validation啊(Andrew Ng的课里说到的那些看起来很无聊的曲线现
在知道是为什么了吧)
4. 。。。。。。
等等之类的。这些问题也是实际工作每天都能遇到的。你就看人家怎么调你就跟着模仿
,然后体会思考一下不同调法对结果有什么区别。这比在@七月问答 上面问“如果某某
情况我的随机森林的参数该怎么调才能避免这个情况”之类,对问题领悟的更深刻。折
磨过几波模型调参,你就差不多知道这些模型的套路是什么了。
然后你开始刷名次,又会遇到但是不限于以下的问题:
1. 怎么CV的结果挺好但是上去还是比不过呢
2. 那谁说用Vowel Wabbit对每个分类做优化怎么搞啊
3. 组合模型这概念我知道,但是实际怎么组合呢
4. 。。。。。。
经过这些,你差不多就知道解决一个实际的机器学习问题需要做什么事情了。对的,这
就是数据科学家几乎每天的工作,各部分比重不一样,但是理解问题、数据清理、模型
调参、评估结果这些循环反复的动作,基本上就是数据科学家需要做的。
在这个摸索挨打的过程中,你可以快速学会数据科学的常用工具(numpy scipy pandas
scikit等等),也会在别人的带动下发现新工具(比如@陈天奇怪 的xgboost,vowpal
wabbit之类的),也会学会新技能(比如深度学习以及如何用深度学习去解决实际的
问题)。这个学习速度远超过于看书看blog,在挨打的过程里,回想一下从可可老师那
里看到的每天十条数据科学经验,会不会觉得理解的更深入了呢?
在有实际工业界工作经验之前,搞搞Kaggle比赛几乎是最有效的跨过”数据科学家“门
槛的方法。有了实际工作经验,搞搞Kaggle比赛也能扩大视野,也能把前沿研究的第一
手结果用到实际问题里。大家加油,跳槽就翻倍的高薪工作指日可待(我没有保证能高
薪啊,不要到时候把我拉出来批判一番)
最后插入广告,欢迎组队 https://www.kaggle.com/users/110702/phunter 你看我搞
的很凑合但是排名还行啊对吧。 |
f******8 发帖数: 93 | |
u***8 发帖数: 1581 | |
p*****r 发帖数: 1883 | 85
信就试试啊
【在 u***8 的大作中提到】 : 真的假的?
|
e*******7 发帖数: 347 | |
z*******o 发帖数: 4773 | |
o*******4 发帖数: 313 | 88 如果一个妹子喜欢我可能因为我帅或者我有钱,因为我既帅又有钱的概率是0.1,只是
因为我有钱的概率是0.5,问,如果妹子喜欢我只是因为我就是帅的概率是多少?---
My math is really bad @_@ how come i feel like there are a lot of
information missing?
how to solve this? |
c*******e 发帖数: 35 | 89 假设妹子喜欢你只是这两条件,没有别的。那就是1-0.5-0.1就是0.4。问题是,妹子喜
欢你可能因为别的啊。那就是个range了。只因为你帅,妹子可能根本就不喜欢你!就
是你帅包含了你有钱。那是0到0.4。这个是不是更贴近生活。。。
【在 o*******4 的大作中提到】 : 如果一个妹子喜欢我可能因为我帅或者我有钱,因为我既帅又有钱的概率是0.1,只是 : 因为我有钱的概率是0.5,问,如果妹子喜欢我只是因为我就是帅的概率是多少?--- : My math is really bad @_@ how come i feel like there are a lot of : information missing? : how to solve this?
|
s***h 发帖数: 26 | 90 大部分我同意,但是很多人就尼玛上来问coding啊,动不动就是向码工水平看齐
L1
【在 p*****r 的大作中提到】 : 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什 : 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助), : 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都 : 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模 : 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了 : 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是 : 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官 : 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1 : 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺 : 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
|
|
|
m****9 发帖数: 492 | 91 这里 “只是因为我有钱” or “是因为我只有钱” 应该还是要区分一下吧。
【在 c*******e 的大作中提到】 : 假设妹子喜欢你只是这两条件,没有别的。那就是1-0.5-0.1就是0.4。问题是,妹子喜 : 欢你可能因为别的啊。那就是个range了。只因为你帅,妹子可能根本就不喜欢你!就 : 是你帅包含了你有钱。那是0到0.4。这个是不是更贴近生活。。。
|
p*****r 发帖数: 1883 | 92 这个还是要熟练点的,码农都得猛刷题了,data的coding只是需要熟练就行
如果是老印公司的可能会拿coding来拦你啊,所以我们才不能让老印霸占了这个领域,
快投票 http://wh.gov/iZAhc
【在 s***h 的大作中提到】 : 大部分我同意,但是很多人就尼玛上来问coding啊,动不动就是向码工水平看齐 : : L1
|
p*****r 发帖数: 1883 | 93
这些工具类的东西上手熟练一下就基本都会了,下次可以反问他,你会vw么,你会
theano么
【在 s**********y 的大作中提到】 : 这个好,被问过怎么会numpy不会scikit的,没做过的东西上了课也记不住那几个曲线 : 怎么回事儿。。。可惜,因为h1b没中要滚蛋了吔
|
p*****r 发帖数: 1883 | 94 这里的假设前提是帅和钱是独立feature
【在 c*******e 的大作中提到】 : 假设妹子喜欢你只是这两条件,没有别的。那就是1-0.5-0.1就是0.4。问题是,妹子喜 : 欢你可能因为别的啊。那就是个range了。只因为你帅,妹子可能根本就不喜欢你!就 : 是你帅包含了你有钱。那是0到0.4。这个是不是更贴近生活。。。
|
t**********h 发帖数: 2273 | 95 哥记得你是00级的啊
L1
【在 p*****r 的大作中提到】 : 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什 : 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助), : 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都 : 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模 : 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了 : 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是 : 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官 : 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1 : 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺 : 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
|
r*g 发帖数: 186 | 96
没人这么霸气
只敢说我会啥啥啥
你那个啥啥啥我知道一点会学得很快
【在 p*****r 的大作中提到】 : 这里的假设前提是帅和钱是独立feature
|
p*****r 发帖数: 1883 | 97 是啊,已经在工业界“见的太多了”
【在 t**********h 的大作中提到】 : 哥记得你是00级的啊 : : L1
|
P****i 发帖数: 1362 | 98 写的不错,风趣有内容,顶一个
L1
【在 p*****r 的大作中提到】 : 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什 : 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助), : 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都 : 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模 : 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了 : 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是 : 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官 : 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1 : 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺 : 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
|
l**********r 发帖数: 47 | 99 楼主的声音振聋发聩啊,好好学习,刷kaggle去了 |
m******c 发帖数: 45 | |
|
|
f***a 发帖数: 7286 | 101 牛
L1
【在 p*****r 的大作中提到】 : 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什 : 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助), : 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都 : 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模 : 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了 : 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是 : 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官 : 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1 : 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺 : 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
|
f*******k 发帖数: 89 | |
k********0 发帖数: 929 | |
G****e 发帖数: 1480 | |
L*r 发帖数: 109 | |
y*c 发帖数: 904 | |
f*****a 发帖数: 693 | 107 Mark!
L1
【在 p*****r 的大作中提到】 : 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什 : 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助), : 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都 : 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模 : 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了 : 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是 : 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官 : 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1 : 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺 : 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
|
t**********h 发帖数: 2273 | 108 ds钻的多么?比码农来说,如何?
【在 p*****r 的大作中提到】 : 是啊,已经在工业界“见的太多了”
|
p*****r 发帖数: 1883 | 109 啥叫“钻的多”?
【在 t**********h 的大作中提到】 : ds钻的多么?比码农来说,如何?
|
p*****r 发帖数: 1883 | 110 这不是为了推动投票么,我之前都没在这里发过贴
再贴一次投票链接
http://wh.gov/iZAhc
【在 G****e 的大作中提到】 : 皮老师好久不见!
|
|
|
t**********h 发帖数: 2273 | 111 赚
【在 p*****r 的大作中提到】 : 啥叫“钻的多”?
|
m**b 发帖数: 617 | |
p*****r 发帖数: 1883 | 113
看具体职位了,温饱可以,只是远没有传说中码农fresh grad就230k base那么多
【在 t**********h 的大作中提到】 : 赚
|
t**********h 发帖数: 2273 | 114 base 230k是吹牛。
pkg 230k的码农是可以有得,但是对于刚毕业的fresh来说,我没见过230k pkg的。
【在 p*****r 的大作中提到】 : : 看具体职位了,温饱可以,只是远没有传说中码农fresh grad就230k base那么多
|
t**********h 发帖数: 2273 | 115 哥上次看你的文章还是在校内的bbs,一晃眼,尼玛,十多年了,艹
【在 p*****r 的大作中提到】 : : 看具体职位了,温饱可以,只是远没有传说中码农fresh grad就230k base那么多
|
p*****r 发帖数: 1883 | 116
湾区行情是差不多 fresh grad 100k 左右,其他按照均价上下,没有码农那样疯狂
【在 t**********h 的大作中提到】 : base 230k是吹牛。 : pkg 230k的码农是可以有得,但是对于刚毕业的fresh来说,我没见过230k pkg的。
|
w****r 发帖数: 69 | 117 大神出现了!!!!!!!
大神威武
大神万岁
跪拜大神 |
w****x 发帖数: 14 | 118 大牛帅不帅啊?加我吧, 我刚想去kaggle上玩玩呢。
L1
【在 p*****r 的大作中提到】 : 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什 : 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助), : 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都 : 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模 : 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了 : 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是 : 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官 : 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1 : 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺 : 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
|
b********a 发帖数: 70 | |
C*******t 发帖数: 95 | 120 关于petition, 刚看到签了。
还是要更多人看到。 有家有孩子的人可能没那么多时间上网。 |
|
|
p*****r 发帖数: 1883 | 121 多谢签了,我就是贴一些教学贴里面加上投票链接,力图多宣传,太不容易了
【在 C*******t 的大作中提到】 : 关于petition, 刚看到签了。 : 还是要更多人看到。 有家有孩子的人可能没那么多时间上网。
|
p*****r 发帖数: 1883 | 122 不好意思不是大牛也只是普通帅,kaggle上面你随便挑个人多的比赛,看看好心人(一
般这个好心人是 Abhishek)贴的beat the benchmark的代码,从那个开始做,看他代
码里写的,你加自己的内容进去。这个自学阶段能很快提高。
【在 w****x 的大作中提到】 : 大牛帅不帅啊?加我吧, 我刚想去kaggle上玩玩呢。 : : L1
|
c*******m 发帖数: 522 | |
p*****r 发帖数: 1883 | 124 原贴里面有地方被自动拼写检查改成个错的,我尽量改回来了但是可能有疏漏
【在 c*******m 的大作中提到】 : Vowpal Wabbit 吧
|
c*******m 发帖数: 522 | |
G****e 发帖数: 1480 | 126 顶p老师。
话说我以前公司analytic组还经常一起组队参加Kaggle,老板看到排名高的ID是无限喜
欢啊。 |
l*****a 发帖数: 111 | 127 收藏
贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮.......
.
【在 p*****r 的大作中提到】 : 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什 : 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助), : 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都 : 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模 : 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了 : 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是 : 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官 : 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1 : 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺 : 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
|
c*******7 发帖数: 2506 | 128 mark
L1
【在 p*****r 的大作中提到】 : 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什 : 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助), : 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都 : 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模 : 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了 : 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是 : 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官 : 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1 : 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺 : 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
|
C*******t 发帖数: 95 | 129 应该多谢谢你taking the leadership, 帮更多的中国同胞留下来。
【在 p*****r 的大作中提到】 : 多谢签了,我就是贴一些教学贴里面加上投票链接,力图多宣传,太不容易了
|
j******g 发帖数: 1428 | |
|
|
z**********f 发帖数: 74 | |
G******n 发帖数: 572 | |
p*****r 发帖数: 1883 | 133 客气客气,非牛,我之前是做Higgs diphoton的,所以这里面一些feature我花了不少
功夫,也趁机认识了xgboost的作者学习了模型的知识,最后结果让我认识到组合模型
的重要性:我和第一名的结果在单模型上我还比他高,但是他会组合我不会所以就跪了
,前50名里面我可能是唯一一个没有用组合模型的人
【在 c*******m 的大作中提到】 : 大神higgs 排名好高啊
|
p*****r 发帖数: 1883 | 134 要推广这个比赛,老中都来参加,这个对老中这样高学历占主体的群体很有好处,码农
暴力刷题就能去面试,这个更符合老中数理基础好这个特点,我们可以在数据科学领域
击败老印
【在 G****e 的大作中提到】 : 顶p老师。 : 话说我以前公司analytic组还经常一起组队参加Kaggle,老板看到排名高的ID是无限喜 : 欢啊。
|
A****n 发帖数: 241 | |
c*******m 发帖数: 522 | 136
好像还有一个吧。搜xgboost还有一个只做了feature engineering但是也是single
model(https://no2147483647.wordpress.com/)
higgns看到Lester Mackey开始写paper我就有点无语了。。。
【在 p*****r 的大作中提到】 : 客气客气,非牛,我之前是做Higgs diphoton的,所以这里面一些feature我花了不少 : 功夫,也趁机认识了xgboost的作者学习了模型的知识,最后结果让我认识到组合模型 : 的重要性:我和第一名的结果在单模型上我还比他高,但是他会组合我不会所以就跪了 : ,前50名里面我可能是唯一一个没有用组合模型的人
|
p*****r 发帖数: 1883 | 137
多谢鼓励。其实这个blog就是我的。。。。在顶楼原帖的lofter链接里,点进去,看最
左边一列友情链接
【在 c*******m 的大作中提到】 : : 好像还有一个吧。搜xgboost还有一个只做了feature engineering但是也是single : model(https://no2147483647.wordpress.com/) : higgns看到Lester Mackey开始写paper我就有点无语了。。。
|
c*******m 发帖数: 522 | 138
果然是大神啊。膜拜!大神现在在做data science么?
【在 p*****r 的大作中提到】 : : 多谢鼓励。其实这个blog就是我的。。。。在顶楼原帖的lofter链接里,点进去,看最 : 左边一列友情链接
|
p*****r 发帖数: 1883 | 139
非神,不要太客气,现在我就在湾区做data science,这个工作适合老中啊,不用刷题
不用看老印脸色不用被智力低下的产品经理羞辱如果不满意分分钟跳槽就能找到工资更
高的(虽然没有码农230k那么高
【在 c*******m 的大作中提到】 : : 果然是大神啊。膜拜!大神现在在做data science么?
|
c*******m 发帖数: 522 | 140
kaggle求带啊
【在 p*****r 的大作中提到】 : : 非神,不要太客气,现在我就在湾区做data science,这个工作适合老中啊,不用刷题 : 不用看老印脸色不用被智力低下的产品经理羞辱如果不满意分分钟跳槽就能找到工资更 : 高的(虽然没有码农230k那么高
|
|
|
m**8 发帖数: 543 | |
j**********3 发帖数: 3211 | |
p********6 发帖数: 1339 | 143 关注一下。不过没有相关学位的话也没有很容易找到工作吧。 |
c***z 发帖数: 6348 | 144 转到数据科学版了,希望LZ不会介意
L1
【在 p*****r 的大作中提到】 : 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什 : 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助), : 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都 : 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模 : 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了 : 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是 : 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官 : 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1 : 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺 : 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
|
o******n 发帖数: 511 | |
p*****r 发帖数: 1883 | 146 欢迎转帖,记得保留投票链接(我为了推动投票容易么
【在 c***z 的大作中提到】 : 转到数据科学版了,希望LZ不会介意 : : L1
|
w******2 发帖数: 64 | 147 没你说的那么简单,要是人人都无师自通,那还上什么学.
老老实实读个学位, 慢慢积累经验几年, 才能搞懂machine learning 的精髓。 |
M****5 发帖数: 253 | |
p*****r 发帖数: 1883 | 149 我只能带个入门捷径,入门之后修行还是要看个人,修行好到”通“还是要很多努力的。
顺便其实,数据科学之有10%时间在搞机器学习。
【在 w******2 的大作中提到】 : 没你说的那么简单,要是人人都无师自通,那还上什么学. : 老老实实读个学位, 慢慢积累经验几年, 才能搞懂machine learning 的精髓。
|
p*****r 发帖数: 1883 | 150 感谢签。我帖这篇文章也是为了图个推广投票的私心,想着如果被小钻风推荐了,投票
链接也就更多人看到
【在 M****5 的大作中提到】 : 感谢楼主,收藏了,已签。
|
|
|
p**********7 发帖数: 122 | 151 好贴,两周前已签过,现在正想找些实战的东西来练手,求lz推荐ds的工作啊~~~ |
p*****r 发帖数: 1883 | 152
indeed上湾区部分搜索data scientist一大把,把linkedin上好好写写,很多
recruiter找。加油啊,顺便谢签
【在 p**********7 的大作中提到】 : 好贴,两周前已签过,现在正想找些实战的东西来练手,求lz推荐ds的工作啊~~~
|
x*****0 发帖数: 452 | |
E*******F 发帖数: 2165 | 154 先赞一个
不过应聘data scientist还是要考coding的,只是要求不高
而且有时会问一些很实际的问题,没在公司做过不容易回答出来
收入虽然比高级码农低,但是不比入门级的码农低,所以性价比还不错
【在 p*****r 的大作中提到】 : : indeed上湾区部分搜索data scientist一大把,把linkedin上好好写写,很多 : recruiter找。加油啊,顺便谢签
|
W***o 发帖数: 6519 | 155 收藏了!
L1
【在 p*****r 的大作中提到】 : 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什 : 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助), : 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都 : 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模 : 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了 : 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是 : 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官 : 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1 : 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺 : 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
|
k**y 发帖数: 28 | |
r********g 发帖数: 144 | |
a***y 发帖数: 852 | |
j********g 发帖数: 427 | |
y******n 发帖数: 62 | |
|
|
v*******7 发帖数: 3 | 161 那高级的data scientist比起高级码农又如何呢?
【在 E*******F 的大作中提到】 : 先赞一个 : 不过应聘data scientist还是要考coding的,只是要求不高 : 而且有时会问一些很实际的问题,没在公司做过不容易回答出来 : 收入虽然比高级码农低,但是不比入门级的码农低,所以性价比还不错
|
j**********3 发帖数: 3211 | |
s*****m 发帖数: 168 | |
s******3 发帖数: 344 | 164 re
L1
【在 p*****r 的大作中提到】 : 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什 : 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助), : 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都 : 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模 : 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了 : 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是 : 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官 : 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1 : 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺 : 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
|
d***e 发帖数: 193 | |
l*********i 发帖数: 28 | |
t*****d 发帖数: 525 | 167 牛人!厉害!
L1
【在 p*****r 的大作中提到】 : 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什 : 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助), : 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都 : 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模 : 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了 : 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是 : 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官 : 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1 : 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺 : 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
|
l****d 发帖数: 2 | 168 刘老师从微薄转战买买提了!资瓷!
L1
【在 p*****r 的大作中提到】 : 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什 : 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助), : 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都 : 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模 : 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了 : 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是 : 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官 : 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1 : 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺 : 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
|
t*******e 发帖数: 191 | 169 那剩下的90%的时间在搞什么?
的。
【在 p*****r 的大作中提到】 : 我只能带个入门捷径,入门之后修行还是要看个人,修行好到”通“还是要很多努力的。 : 顺便其实,数据科学之有10%时间在搞机器学习。
|
s*********h 发帖数: 6288 | 170 不是在整理数据就是在跟码公扯皮deploy模型 哈哈哈 纯TX
【在 t*******e 的大作中提到】 : 那剩下的90%的时间在搞什么? : : 的。
|
|
|
f*****n 发帖数: 2126 | |
M*****e 发帖数: 1 | 172 根本不是这么简单。
现在找DS,没有PHD,人家都懒得理你。老中PHD 的太多的想当DS。而且老中学统计的
太多了。
现在又要一堆人去学AI.AI的DEMAND 很少,学出来估计没岗位。
还有没有经验,人家也不要你。一上来就问你工作中的PROJECT,一步一步深入问,一
问就能看出有没有经验。而不是你刷的那些PROJECT。
就说那个NG吧,也是理论一大堆,真正实际工作中遇到的他也未必能解决。
而且还要看市场的,DEMANDING多,SUPPLY少的时候可以这样。现在这市场难。
马工刷LEETCODE还是好的,反正就是那些题。
L1
【在 p*****r 的大作中提到】 : 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什 : 么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助), : 刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都 : 能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模 : 型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了 : 怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是 : 不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官 : 自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1 : 和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺 : 道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
|
w*******0 发帖数: 10 | 173 FLAG的DS new grad/junior level会比sde低一点
senior level几乎一样,amz/g还会比sde更多
【在 f*****n 的大作中提到】 : flag的ds能多少k呢?
|
f*****n 发帖数: 2126 | 174 有一年500k的ds?
【在 w*******0 的大作中提到】 : FLAG的DS new grad/junior level会比sde低一点 : senior level几乎一样,amz/g还会比sde更多
|
w*******0 发帖数: 10 | 175 多的去了吧。。。就我而言,目前DS工作三年,还只是个senior,每年不算bonus拿到
手的钱都比320k略多
高等级的ds 500k问题不是很大哎
【在 f*****n 的大作中提到】 : 有一年500k的ds?
|