总结一下kaggle比赛 - Programming版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 总结一下kaggle比赛

相关主题
● 关于搞ML刷数据的职业前途	● 请推荐java 机器学习库。。。
● Python 缩进的syntax	● 一个naive的问题——是否有这种工具？
● 我觉得学C的话还是K&R最好	● 问一下python初学者的问题
● 聊两句wdong的内功总纲	● 有人用Haskell吗
● kaggle上那批人太逆天了	● 缩进用空格好，还是tab好？
● 有没有大牛愿意牵头搞一个 deep learning project	● lisper
● 想写一个machine learning的平台	● 总觉得python 用缩进定义逻辑block 这种思想很诡异
● 已经全上内存了，还要40多秒啊	● python自动缩进出错快疯了

相关话题的讨论汇总
话题: python话题: ml话题: kaggle话题: validation话题: 缩进

进入Programming版参与讨论

(共1页)

w***g
发帖数: 5958

第一，积阴德真的很重要。我们的方法虽然不济，cross validation和在线validation
都在第五左右的精度，但是啊但是，我前两天发帖骂了python是烂语言，终于被打脸了。
最后private leader board分数下降好多。这里面应该有我最后手贱修复了一个good
bug，提交了次优版本的因素，但主要原因我觉得是人品散了。当然，即使人品不散
进前三也非常渺茫。就是下面的原因了。
第二，一定要跟进先进生产力的发展方向。大方向对了，能省无数力。具体到这个比赛
就是神经网络是大方向，暴力拟合是大方向。这个其实我也早有预料。我其实连CRPS
的求导公式都推出来了。无奈我的三脚猫deep learning水平太差，最后还是留在了
传统技术的comfort zone。从今起，不但要全面转python，而且要全面转NN了。
第三，不能存侥幸心理。一个东西我能想到对提高精度有帮助，但是比较麻烦偷懒不做，
一定有别的人会做。最后拼的，可能都是积累起来的一点点差别。至少第二名的方法，
实现起来工作量就比我的要多。里面一个立体几何公式，我嫌麻烦没推，人家推了，
不得不服。
第四，平时积累很重要。全都从scratch开始做，一个月时间不吃不睡就是做死了
估计也不行。我好久没做一个project做得这么过（费）瘾（劲），最后还是有不少
东西没来得及做。人其实都很犯贱，轻松赚钱的东西干得不爽，非要出力去做
不赚钱的东西。
具体技术我就不说了，牛代码已经公开了，最好的办法不是找什么tutorial，而是
对着牛代码一行一行查过去。

S*****e
发帖数: 6676

赞一个

a*f
发帖数: 1790

python的缩进坑到现在还是没法跳。我做过编译器，根本没法接受空格或者tab也成为
语法单位。
python做数据处理工具可能还可以，但要编写成应用系统，还是喜欢用Java做NN，可以
长期使用修改，已经快做成Spring的Web应用

n*****3
发帖数: 1584

现在很多公司在做 Python 编译to jvm 的project，
开发用Python， expo to pojo ，
这样 deployment也很简单
谢谢大牛分享，再接再厉

【在 a*f 的大作中提到】

: python的缩进坑到现在还是没法跳。我做过编译器，根本没法接受空格或者tab也成为
: 语法单位。
: python做数据处理工具可能还可以，但要编写成应用系统，还是喜欢用Java做NN，可以
: 长期使用修改，已经快做成Spring的Web应用

l*********s
发帖数: 5409

楼主大牛，佩服之极！

f******2
发帖数: 2455

先顶再问。
1，kaggle的测评机制怎么做的？暴力算法结果如何重复？
2. 如果用tensorflow这类东东做轮子参加kaggle竞赛，多少精力是搭轮子，多少是
fine tune模型和参数? 能有个百分比预估吗？

validation
了。
做，

【在 w***g 的大作中提到】

: 第一，积阴德真的很重要。我们的方法虽然不济，cross validation和在线validation
: 都在第五左右的精度，但是啊但是，我前两天发帖骂了python是烂语言，终于被打脸了。
: 最后private leader board分数下降好多。这里面应该有我最后手贱修复了一个good
: bug，提交了次优版本的因素，但主要原因我觉得是人品散了。当然，即使人品不散
: 进前三也非常渺茫。就是下面的原因了。
: 第二，一定要跟进先进生产力的发展方向。大方向对了，能省无数力。具体到这个比赛
: 就是神经网络是大方向，暴力拟合是大方向。这个其实我也早有预料。我其实连CRPS
: 的求导公式都推出来了。无奈我的三脚猫deep learning水平太差，最后还是留在了
: 传统技术的comfort zone。从今起，不但要全面转python，而且要全面转NN了。
: 第三，不能存侥幸心理。一个东西我能想到对提高精度有帮助，但是比较麻烦偷懒不做，

w***g
发帖数: 5958

1. 一般kaggle只评测提交的预测精度。
这次号称要验证提交的程序，但是至于程序跑多慢，只要不是太慢，似乎他们不care。
我发现并行训练有可能导致结果不可重复到binary一样。我也不知道他们最后怎么定义
可重复性。
2. 对我来说，大于80%的时间在调优。不知道别人怎么弄的。

【在 f******2 的大作中提到】

: 先顶再问。
: 1，kaggle的测评机制怎么做的？暴力算法结果如何重复？
: 2. 如果用tensorflow这类东东做轮子参加kaggle竞赛，多少精力是搭轮子，多少是
: fine tune模型和参数? 能有个百分比预估吗？
:
: validation
: 了。
: 做，

T********i
发帖数: 2416

赞一个！一直在忙我的事情，帖子都没时间看。
作为老年人，我可能是赶不上这一波了，就看你的了！我继续做一些老年人应该做的事
情 :)

P**H
发帖数: 1897

这梗用了多少年了。反正最后也要format给人看。最后的缩进是唯一的。用来做语法也
合理。

【在 a*f 的大作中提到】

n*****3
发帖数: 1584

这一波 is hot now. -)
I guess you are talking about NN and machine learning..

【在 T********i 的大作中提到】

: 赞一个！一直在忙我的事情，帖子都没时间看。
: 作为老年人，我可能是赶不上这一波了，就看你的了！我继续做一些老年人应该做的事
: 情 :)

相关主题
● 有没有大牛愿意牵头搞一个 deep learning project	● 请推荐java 机器学习库。。。
● 想写一个machine learning的平台	● 一个naive的问题——是否有这种工具？
● 已经全上内存了，还要40多秒啊	● 问一下python初学者的问题
进入Programming版参与讨论

l*******m
发帖数: 1096

python做D L有优势不是语言好，主要计算在gpu, 骨子里都是C在跑，由于瓶颈在gpu,
python的data feeder 只要用个队列prefetch，不会耽误时间的

【在 a*f 的大作中提到】

d******e
发帖数: 2265

早说过。现在是草蜢快的世界。
什么事情先上大python，出货快啊。等有了眉木在找老赵这些马仔调性能。

validation
了。
做，

【在 w***g 的大作中提到】

p**2
发帖数: 613

我先来膜拜一下，然后把那些赚钱的俗事解决了，
再来仔细消化消化。

validation
了。
做，

【在 w***g 的大作中提到】

j*a
发帖数: 14423

python的缩进坑确实烂

【在 a*f 的大作中提到】

m*****o
发帖数: 6

膜拜！
请问哪里可以看到“牛代码”？

k***e
发帖数: 7933

赞一个

validation
了。
做，

【在 w***g 的大作中提到】

l******n
发帖数: 9344

我个人觉得还不错，相当于强制的format，可读性增强很多。

【在 j*a 的大作中提到】

: python的缩进坑确实烂

l******n
发帖数: 9344

夫妻店很厉害！

validation
了。
做，

【在 w***g 的大作中提到】

d******e
发帖数: 2265

现在的ide下根本不是事情。比java/c/js 数括号甚至在close }注释强多了。
而且省下n行。可读性非常好。

【在 j*a 的大作中提到】

: python的缩进坑确实烂

a*f
发帖数: 1790

第一次听人夸这个缩进坑，如果下面这个没有括号，某行错了一个空格，你就死翘了

【在 d******e 的大作中提到】

: 现在的ide下根本不是事情。比java/c/js 数括号甚至在close }注释强多了。
: 而且省下n行。可读性非常好。

相关主题
● 有人用Haskell吗	● 总觉得python 用缩进定义逻辑block 这种思想很诡异
● 缩进用空格好，还是tab好？	● python自动缩进出错快疯了
● lisper	● ML 需不需要搞懂那些数学
进入Programming版参与讨论

d******e
发帖数: 2265

你到底写过没有。
换行都是自动给你缩进的。
delete, tab自动左右4格。
空格不对齐都是一眼可以看出的。
你们小小年纪就这个不行哪个不行，跟个老头子的。

【在 a*f 的大作中提到】

: 第一次听人夸这个缩进坑，如果下面这个没有括号，某行错了一个空格，你就死翘了

l*********s
发帖数: 5409

你这叫想当然。缩进比一堆括号看得干净多了。

【在 a*f 的大作中提到】

: 第一次听人夸这个缩进坑，如果下面这个没有括号，某行错了一个空格，你就死翘了

x***4
发帖数: 1815

Code写成这样，什么语言都死吧。

【在 a*f 的大作中提到】

: 第一次听人夸这个缩进坑，如果下面这个没有括号，某行错了一个空格，你就死翘了

n*****t
发帖数: 22014

LOL，这才是重点，这样的代码无论有没有缩进或者括号，都该揉吧揉吧扔废纸篓里。
Linux kernel coding style 里说了，一行就是 80 个字符，一个缩进就是 8 个光标
、最多不超过 3 个缩进。不够？想辙去。一个函数最多 2 个屏幕，80x24 的，不够？
想辙去。

【在 x***4 的大作中提到】

: Code写成这样，什么语言都死吧。

n*****3
发帖数: 1584

我用 py char m， IDE 自动 take care 这些了
iPython notebook 差点意思

【在 a*f 的大作中提到】

: 第一次听人夸这个缩进坑，如果下面这个没有括号，某行错了一个空格，你就死翘了

ET
发帖数: 10701

exactly.. 现在那个语言没有format tool

【在 d******e 的大作中提到】

: 你到底写过没有。
: 换行都是自动给你缩进的。
: delete, tab自动左右4格。
: 空格不对齐都是一眼可以看出的。
: 你们小小年纪就这个不行哪个不行，跟个老头子的。

a*f
发帖数: 1790

楼偏了
几乎所有其它编程语言C++/C#/Java/Perl/JavaScript都是white space independent。
工作中不小心多敲一个空格键是很容易发生的。强制indent编码风格是一回事，C++/C#
/Java/Perl/JavaScript存盘或者提交的时候自动format就可以做到。强制indent-
scoping是完全不同的另一回事，不小心多敲一个空格程序逻辑就改变了，而且编译器
还发现不了这个错误。另一个比较搞笑的直接后果就是据说python人员发现在网页上贴
代码和拷贝代码比较困难，难道Rossum在设计python的时候就没有考虑到这么简单必要
的需求吗？
说白了空格就是空格，语法上做分隔符，没有宽度。

【在 d******e 的大作中提到】

l*********s
发帖数: 5409

敲错空格不会导致“silent wrong answer", 别危言耸听。C++, java 这些也没人拿白
板写个一坨，靠脑补检查有没有敲错括号.

C#

【在 a*f 的大作中提到】

: 楼偏了
: 几乎所有其它编程语言C++/C#/Java/Perl/JavaScript都是white space independent。
: 工作中不小心多敲一个空格键是很容易发生的。强制indent编码风格是一回事，C++/C#
: /Java/Perl/JavaScript存盘或者提交的时候自动format就可以做到。强制indent-
: scoping是完全不同的另一回事，不小心多敲一个空格程序逻辑就改变了，而且编译器
: 还发现不了这个错误。另一个比较搞笑的直接后果就是据说python人员发现在网页上贴
: 代码和拷贝代码比较困难，难道Rossum在设计python的时候就没有考虑到这么简单必要
: 的需求吗？
: 说白了空格就是空格，语法上做分隔符，没有宽度。

w*******x
发帖数: 489

从来没上过这个版，今天去Peru 大使馆去签证碰到一哥们也去取，然后他说我是不是
这个做kaggle的，我吃了一惊，他说因为mitbbs有人说这个事,他也关注，看着像....
，我就跑来看看 :)
首先我们不是夫妻店啊....（我老婆知道了以后肯定不让我和女性合作project了...)
早期我用传统的segmentation方法做到0.016, 那时候排第5的样子我发帖找用CNN方法
的人合作（这样可以省掉我从头写CNN的麻烦）这个Tencia就说可以和我合作~
我本来觉得做segmentation还可以有好多好多可以做的，后来做了半个月，完全没有改
进，我就彻底扔掉了这个方法，一心做CNN （我们用python, theano, lasagne, cuda,
其实也很快的，train 2个小时就收敛了，forcast 10几20秒一个case )了，很快我们
的分数就到了0.0105左右，后来又细节上做了很多小的改进，才到in-sample 0.0936
（最后我们的test 0.0948). 这个比赛我觉得大方向对了（用CNN predict contour,
不是volume）稍微clean up一下 data很容易做到0.011, 之后就是细节了, 细节很浪费
时间，我们尝试了很多改进的办法，基本上就是看看那些forecast很差的case, 然后想
想如何解决这类case. 到后期我们领先挺多的，最后2周我们就清理代码，等着最后结
果了。这是我做kaggle最有把握的一次。很多比赛到后期大家的间隔都是noise运气成
分太大。赢了特别开心，估计以后难得花那么多时间去认真做一个比赛。

w***g
发帖数: 5958

终于把大牛逼出来了，过来膜拜一下。下弟甘拜下风。

)
cuda,

【在 w*******x 的大作中提到】

: 从来没上过这个版，今天去Peru 大使馆去签证碰到一哥们也去取，然后他说我是不是
: 这个做kaggle的，我吃了一惊，他说因为mitbbs有人说这个事,他也关注，看着像....
: ，我就跑来看看 :)
: 首先我们不是夫妻店啊....（我老婆知道了以后肯定不让我和女性合作project了...)
: 早期我用传统的segmentation方法做到0.016, 那时候排第5的样子我发帖找用CNN方法
: 的人合作（这样可以省掉我从头写CNN的麻烦）这个Tencia就说可以和我合作~
: 我本来觉得做segmentation还可以有好多好多可以做的，后来做了半个月，完全没有改
: 进，我就彻底扔掉了这个方法，一心做CNN （我们用python, theano, lasagne, cuda,
: 其实也很快的，train 2个小时就收敛了，forcast 10几20秒一个case )了，很快我们
: 的分数就到了0.0105左右，后来又细节上做了很多小的改进，才到in-sample 0.0936

相关主题
● 数据科学碗2017	● Python 缩进的syntax
● Kaggle 被买了	● 我觉得学C的话还是K&R最好
● 关于搞ML刷数据的职业前途	● 聊两句wdong的内功总纲
进入Programming版参与讨论

N*****m
发帖数: 42603

牛

)
cuda,

【在 w*******x 的大作中提到】

N*****m
发帖数: 42603

wdong看看，用py没错吧

【在 w***g 的大作中提到】

: 终于把大牛逼出来了，过来膜拜一下。下弟甘拜下风。
:
: )
: cuda,

w***g
发帖数: 5958

是是。这个我早承认了。

【在 N*****m 的大作中提到】

: wdong看看，用py没错吧

N*****m
发帖数: 42603

啥时候又骂过python？我看看

validation
了。
做，

【在 w***g 的大作中提到】

w*******x
发帖数: 489

对我们code感兴趣的，share 在Github了，可能还会稍微清理一下...太乱..
https://github.com/woshialex/diagnose-heart，
直接看CNN_A/model.py里面有我们的CNN的结构。
有时运气好撞对了大方向，再想些小技巧，基本就是体力活了，尝试不同的东西，不停
的改进细节。我上次有个比赛以为稳赢的，第一名领先很多，后期就不怎么做了，后来
有个team藏了个特别好的结果最后5分钟提交上来（因为那个比赛没有outsample)，所
以这次我也比较小心，把能做的就都做了。

w***g
发帖数: 5958

和第二名比你们的代码已经很干净了。绝对是人品技术双赢。

【在 w*******x 的大作中提到】

: 对我们code感兴趣的，share 在Github了，可能还会稍微清理一下...太乱..
: https://github.com/woshialex/diagnose-heart，
: 直接看CNN_A/model.py里面有我们的CNN的结构。
: 有时运气好撞对了大方向，再想些小技巧，基本就是体力活了，尝试不同的东西，不停
: 的改进细节。我上次有个比赛以为稳赢的，第一名领先很多，后期就不怎么做了，后来
: 有个team藏了个特别好的结果最后5分钟提交上来（因为那个比赛没有outsample)，所
: 以这次我也比较小心，把能做的就都做了。

p****9
发帖数: 9

大牛们能不能写个总结，给新人指指路，多谢啦～

【在 w*******x 的大作中提到】

N*****m
发帖数: 42603

收藏了

【在 w*******x 的大作中提到】

w********m
发帖数: 1137

woshialex用了3k行python
wdong写了9k行C＋＋
看来python还是省事

N*****m
发帖数: 42603

都是IDE了，你们还在讨论这个，真是服了

【在 j*a 的大作中提到】

: python的缩进坑确实烂

相关主题
● 聊两句wdong的内功总纲	● 想写一个machine learning的平台
● kaggle上那批人太逆天了	● 已经全上内存了，还要40多秒啊
● 有没有大牛愿意牵头搞一个 deep learning project	● 请推荐java 机器学习库。。。
进入Programming版参与讨论

w***g
发帖数: 5958

我这是没有功劳也有苦劳。我的C++已经很精简了。
我老婆那里应该还有几千行做实验的perl代码，用过都不要了没有加进来。

【在 w********m 的大作中提到】

: woshialex用了3k行python
: wdong写了9k行C＋＋
: 看来python还是省事

N*****m
发帖数: 42603

主要是搞ML，python的轮子多，而且底层都是c，cuda
所以其他语言真干不过

【在 w********m 的大作中提到】

: woshialex用了3k行python
: wdong写了9k行C＋＋
: 看来python还是省事

a*f
发帖数: 1790

巴西人今天第一了，很激烈啊

【在 w***g 的大作中提到】

: 和第二名比你们的代码已经很干净了。绝对是人品技术双赢。

w***g
发帖数: 5958

刚刚已经被老婆批评了。我的C++现在在家里也没地位了。
我这是３８６时代留下的毛病，认为没有编译过的东西不能算程序。

【在 N*****m 的大作中提到】

: 主要是搞ML，python的轮子多，而且底层都是c，cuda
: 所以其他语言真干不过

w********m
发帖数: 1137

你这是第一次。下次第一名就是你了
最爽的是woshialex，赚了200K，现在度假去了。流口水。。。

【在 w***g 的大作中提到】

: 刚刚已经被老婆批评了。我的C++现在在家里也没地位了。
: 我这是３８６时代留下的毛病，认为没有编译过的东西不能算程序。

w***g
发帖数: 5958

没有200K。跟tencia平分的话一人62.5K。投入产出比其实并不划算。
我自然是血本无归了。不过这次高强度写了几个星期代码后生产力
大增，堆积下来的活三下五除二马上都干掉了，还把以前的一个
scala推荐系统用python重新写了一遍。下星期可以白天去看电影了。

【在 w********m 的大作中提到】

: 你这是第一次。下次第一名就是你了
: 最爽的是woshialex，赚了200K，现在度假去了。流口水。。。

a*f
发帖数: 1790

轮子我感觉不是问题，基本上其它都能做出来。
速度上不知道CUDA能快多少，Santander七万多个traing数据在Java里面用三层ANN的BP
算法大概80分钟能完成500次traing，如果没用GPU是不是速度也差不多？
另外的一个问题是对Data Scientist来说提交py就是完成了工作，但对App Developer
来说这才是系统开发的开始。

【在 N*****m 的大作中提到】

: 主要是搞ML，python的轮子多，而且底层都是c，cuda
: 所以其他语言真干不过

N*****m
发帖数: 42603

数值计算GPU还是快多了
对wdong这样的个体户，糙快猛是重点

BP
Developer

【在 a*f 的大作中提到】

: 轮子我感觉不是问题，基本上其它都能做出来。
: 速度上不知道CUDA能快多少，Santander七万多个traing数据在Java里面用三层ANN的BP
: 算法大概80分钟能完成500次traing，如果没用GPU是不是速度也差不多？
: 另外的一个问题是对Data Scientist来说提交py就是完成了工作，但对App Developer
: 来说这才是系统开发的开始。

a*f
发帖数: 1790

韩国MM在kaggle的参赛经历太励志了

【在 w***g 的大作中提到】

: 没有200K。跟tencia平分的话一人62.5K。投入产出比其实并不划算。
: 我自然是血本无归了。不过这次高强度写了几个星期代码后生产力
: 大增，堆积下来的活三下五除二马上都干掉了，还把以前的一个
: scala推荐系统用python重新写了一遍。下星期可以白天去看电影了。

r**********y
发帖数: 2774

谢谢分享经验和code
要是能介绍一下学习和积累的经验就更好了。

)
cuda,

【在 w*******x 的大作中提到】

相关主题
● 一个naive的问题——是否有这种工具？	● 缩进用空格好，还是tab好？
● 问一下python初学者的问题	● lisper
● 有人用Haskell吗	● 总觉得python 用缩进定义逻辑block 这种思想很诡异
进入Programming版参与讨论

a*f
发帖数: 1790

大方向是指Decision Tree, Ensemble Method，NN，Bayesian, Regression Analysis,
Reinforcement learning等等这些模型去处理吗？如何知道大方向正确呢？还是把已
有的方法都过一遍？
调参数只能人工反复运行测试吗？还是可以用机器自动输入各种测试数据，最后再筛选
结果？

【在 w*******x 的大作中提到】

n******7
发帖数: 12463

擦 alex居然来了膜拜一下
看tencia之前排名不高
真以为是你带gf玩

)
cuda,

【在 w*******x 的大作中提到】

e*******o
发帖数: 4654

re
这个缩进的问题是你要改代码的时候太麻烦。
要是perl，我直接加{} 然后foramt 一下就完了。

C#

【在 a*f 的大作中提到】

e*******o
发帖数: 4654

多谢大牛
这个板真是卧虎藏龙。
很高兴看到不少华人做的很好。

【在 w*******x 的大作中提到】

j*a
发帖数: 14423

cong!

)
cuda,

【在 w*******x 的大作中提到】

N*****m
发帖数: 42603

本版越来越好了

【在 e*******o 的大作中提到】

: 多谢大牛
: 这个板真是卧虎藏龙。
: 很高兴看到不少华人做的很好。

d*******r
发帖数: 3299

本版各种隐牛潜水啊，需要相关topic，才能炸出来

【在 N*****m 的大作中提到】

: 本版越来越好了

l*******m
发帖数: 1096

第一名团队比较互补。@wdong, 小声问你领导贡献多么？

【在 w***g 的大作中提到】

: 和第二名比你们的代码已经很干净了。绝对是人品技术双赢。

N*****m
发帖数: 42603

这还要问？

【在 l*******m 的大作中提到】

: 第一名团队比较互补。@wdong, 小声问你领导贡献多么？

w***g
发帖数: 5958

没我领导前２０都进不了。我领导脑子比较好使。只不过她的perl代码
都被我用C++重新实现了。

【在 l*******m 的大作中提到】

: 第一名团队比较互补。@wdong, 小声问你领导贡献多么？

相关主题
● python自动缩进出错快疯了	● Kaggle 被买了
● ML 需不需要搞懂那些数学	● 关于搞ML刷数据的职业前途
● 数据科学碗2017	● Python 缩进的syntax
进入Programming版参与讨论

O*********y
发帖数: 923

问一下大牛，做kaggle是不是先要很理解data里面的content，先要做一些feature
engineering的事，然后再建模调试什么的。ps 我个人很喜欢python

w*******x
发帖数: 489

我也没啥经验，做这种比赛，如果想获奖（top 3)，就是拼体力，我在这个比赛上一共
估计花了300小时吧。
有很多比赛运气成分比较大，就是那种给你一个很好的data matrix 让你去fit target
, columns 还是匿名的那种，很难得前几名，noise to signal ratio 太低，前10名
的差异都属于noise。不过也很容易弄个前10%。如果只想弄个kaggle的排名，最适合做
这种。基本上你就拿别人share 的 code里面最好的, 调调参数就可以了，几个小时搞
定（大部分人只会去overfit）。
从我最近做比赛来看，有个好的team mate非常重要，可以互相学习到很多东西。每个
人的想法都不一样，做一下ensemble马上可以显著的提高成绩，并且可以马上互相改进
对方的方法。最近的比赛大部分都是一个team赢的, 很少单个人的。当然如果找的
teammate很差，不会做，还得花半天时间解释那就算了，帮倒忙。我之前也碰到过。
大方向要看运气了，基本的东西大家都会，有些问题你有自己的一些小想法，马上可以
脱颖而出。至于算法，凭感觉吧，把能work的都试一遍，做过几次比赛就有很多现成的
code，试这些东西都是非常快的。
Anyway, 我也比较菜鸟。调参数都是手工调，凭感觉。尝试很多idea, 有一些work就可
以。

Analysis,

【在 a*f 的大作中提到】

: 大方向是指Decision Tree, Ensemble Method，NN，Bayesian, Regression Analysis,
: Reinforcement learning等等这些模型去处理吗？如何知道大方向正确呢？还是把已
: 有的方法都过一遍？
: 调参数只能人工反复运行测试吗？还是可以用机器自动输入各种测试数据，最后再筛选
: 结果？

l*******m
发帖数: 1096

大牛脾气真好

【在 w***g 的大作中提到】

: 没我领导前２０都进不了。我领导脑子比较好使。只不过她的perl代码
: 都被我用C++重新实现了。

T*******x
发帖数: 8565

你俩要是组成一个团队的话，那不是所向无敌了？
赶紧的，千万别错过。

【在 w***g 的大作中提到】

: 终于把大牛逼出来了，过来膜拜一下。下弟甘拜下风。
:
: )
: cuda,

T*******x
发帖数: 8565

大牛，我进一言：跟wdong组成一个团队，所向无敌。
请你俩研究一下。

【在 w*******x 的大作中提到】

f******2
发帖数: 2455

最近在看tensorflow的并行话版本，感觉不支持model paeallel啊。我是外行里面的外
行，纯兴趣赶时髦看看框架，对算法不懂。
另外在HN上看，一个（疑似）ML大牛很肯定地说，根本就不需要model parallel，因为
根本实际上不需要一台机器内存承载不了的大模型。这个说法对吗？

target

【在 w*******x 的大作中提到】

: 我也没啥经验，做这种比赛，如果想获奖（top 3)，就是拼体力，我在这个比赛上一共
: 估计花了300小时吧。
: 有很多比赛运气成分比较大，就是那种给你一个很好的data matrix 让你去fit target
: , columns 还是匿名的那种，很难得前几名，noise to signal ratio 太低，前10名
: 的差异都属于noise。不过也很容易弄个前10%。如果只想弄个kaggle的排名，最适合做
: 这种。基本上你就拿别人share 的 code里面最好的, 调调参数就可以了，几个小时搞
: 定（大部分人只会去overfit）。
: 从我最近做比赛来看，有个好的team mate非常重要，可以互相学习到很多东西。每个
: 人的想法都不一样，做一下ensemble马上可以显著的提高成绩，并且可以马上互相改进
: 对方的方法。最近的比赛大部分都是一个team赢的, 很少单个人的。当然如果找的

l*******m
发帖数: 1096

不明白你的model parallel定义。大公司标配是single box with 8 gpus

【在 f******2 的大作中提到】

: 最近在看tensorflow的并行话版本，感觉不支持model paeallel啊。我是外行里面的外
: 行，纯兴趣赶时髦看看框架，对算法不懂。
: 另外在HN上看，一个（疑似）ML大牛很肯定地说，根本就不需要model parallel，因为
: 根本实际上不需要一台机器内存承载不了的大模型。这个说法对吗？
:
: target

d****i
发帖数: 4809

搞ML，用Python加上关键部分用C，C++属于黄金经典传统和政治正确，你用其他语言的
话一看根本就是圈外的外行业余。就像楼上那位大牛去秘鲁的话要讲西班牙语而不是英
语。

【在 N*****m 的大作中提到】

: 主要是搞ML，python的轮子多，而且底层都是c，cuda
: 所以其他语言真干不过

d****i
发帖数: 4809

wdong大牛你这个水平绝对不应该只是玩玩kaggle这种的，应该直接去搞革命性的实体
性的机器人和skynet。

【在 w***g 的大作中提到】

: 没我领导前２０都进不了。我领导脑子比较好使。只不过她的perl代码
: 都被我用C++重新实现了。

p******e
发帖数: 528

请问要是数据很大，会不会上hadoop。我看教材里边说hadoop对java的支持比较好。虽然
它也支持Python，但是还是要有些转换的。

【在 d****i 的大作中提到】

: 搞ML，用Python加上关键部分用C，C++属于黄金经典传统和政治正确，你用其他语言的
: 话一看根本就是圈外的外行业余。就像楼上那位大牛去秘鲁的话要讲西班牙语而不是英
: 语。

相关主题
● Python 缩进的syntax	● kaggle上那批人太逆天了
● 我觉得学C的话还是K&R最好	● 有没有大牛愿意牵头搞一个 deep learning project
● 聊两句wdong的内功总纲	● 想写一个machine learning的平台
进入Programming版参与讨论

a*f
发帖数: 1790

这种观点太窄了。ML几个阶段各有各的需求。数据收集，存储，预处理，learning，
predict，和visualization。
Learning除了C和Python外，R，Matlab，ScalaNLP，Juia，Clojure，Apache Mahout（
Java/Scala), RJava, Weka Toolkit工业界和学术界都在用。学校里面不少人都是从
Weka开始接触ML的。我读的几本相关书都是选择用Java平台讲授ML的。
数据输入和预处理的时候更多是Java的生态圈比如SpringXD（Twitter Stream），
Apache Spark，Hadoop，cloud-based data，JSON，XML。
Visualization如果是web interface要求的JavaScript，HTMLCSS一堆生态圈，mobile
又是一堆不同的，如果集成到BI又是一堆不同的技术。

【在 d****i 的大作中提到】

a*f
发帖数: 1790

信息很有用啊，谢谢。要是能放一大堆参数进去让机器运行几十个小时自动选择调整冲
10%就省事多了。

target

【在 w*******x 的大作中提到】

d****i
发帖数: 4809

你说的东西这些其实都无所谓的，用什么都可以，但是ML核心的核心都是C，C++和
Python。

mobile

【在 a*f 的大作中提到】

: 这种观点太窄了。ML几个阶段各有各的需求。数据收集，存储，预处理，learning，
: predict，和visualization。
: Learning除了C和Python外，R，Matlab，ScalaNLP，Juia，Clojure，Apache Mahout（
: Java/Scala), RJava, Weka Toolkit工业界和学术界都在用。学校里面不少人都是从
: Weka开始接触ML的。我读的几本相关书都是选择用Java平台讲授ML的。
: 数据输入和预处理的时候更多是Java的生态圈比如SpringXD（Twitter Stream），
: Apache Spark，Hadoop，cloud-based data，JSON，XML。
: Visualization如果是web interface要求的JavaScript，HTMLCSS一堆生态圈，mobile
: 又是一堆不同的，如果集成到BI又是一堆不同的技术。

h*i
发帖数: 3446

你说的只是线下的ML训练阶段。这个阶段目前看用python有一定的优势。
但这个阶段在整个产品生产环境中，无论从哪个方面看都是很小的一部分，也就是所谓
的data scientist的工作。老实说，在大部分公司，这一行都是不太受待见的。你自己
觉得核心，别的人都不这么看。说来说去还是"nice to have",不是什么离了你公司就
不能运转的行当。
就举一个专门搞ML为业的一个初创公司为例吧，这样一个公司，最先要找的，必然是几
个个full stack工程师，把前前后后的架子搭起来，随便搞点ML算法，弄个prototype
，好去忽悠钱，这些都没什么data scientist的事；
然后忽悠到钱了，要grow了，必然要招更多的full stack, 还要找些backend工程师，
把后台搞得solid点，前台也要搞得漂亮点，是不是？当然还要有business
development的人，这些都没什么data scientist的事；
好了，公司发展不错，A，B轮拿了，想想，我们不是一个ML公司么，得搞点ML才像样啊
，这才开始想，是不是搞个有点名气的ML人来好看点？这才开始去挖个把ML人来，给
个VP， Chief Scientist等等空衔。然后这个人就雄心勃勃来了，然后，然后就悲剧了
，一两年就走人了， “与公司文化不和拍”，“我个人需要休息一下”，诸如此类，
我见得不少。
这还是ML大牛，小喽啰就不提了。

【在 d****i 的大作中提到】

: 你说的东西这些其实都无所谓的，用什么都可以，但是ML核心的核心都是C，C++和
: Python。
:
: mobile

f******2
发帖数: 2455

Data parallel 就是一个model（一个大parameter集合）整个扔到各个机器上去，各个
机器利用自己local的数据shard来locally update这个大model ，然后到中央节点去互
相交流一下各自的成果。训练数据和运算单元的合作模式和hadoop没啥两样。
model parallel就是说，这个模型的内存要求太大了，必须切开后扔到到各个工作节点
去，每个节点只看见自己那部分parameter，然后对同样的数据进行训练。
基本就是disblief的说法（我是外行瞎琢磨的，请指正）

【在 l*******m 的大作中提到】

: 不明白你的model parallel定义。大公司标配是single box with 8 gpus

l*********s
发帖数: 5409

(My guess) Model parallel is to distribute similar/related models over the
cloud to get an ensemble estimating the truth.

【在 f******2 的大作中提到】

: Data parallel 就是一个model（一个大parameter集合）整个扔到各个机器上去，各个
: 机器利用自己local的数据shard来locally update这个大model ，然后到中央节点去互
: 相交流一下各自的成果。训练数据和运算单元的合作模式和hadoop没啥两样。
: model parallel就是说，这个模型的内存要求太大了，必须切开后扔到到各个工作节点
: 去，每个节点只看见自己那部分parameter，然后对同样的数据进行训练。
: 基本就是disblief的说法（我是外行瞎琢磨的，请指正）

l*******m
发帖数: 1096

一般模型没那么大，每个节点能看到所有param, 可能部分数据。难点是同步update太
慢，异步要保证收敛

【在 f******2 的大作中提到】

q***z
发帖数: 4

Code link
https://github.com/woshialex/diagnose-heart

f******2
发帖数: 2455

Berkeley的两个人做了一个sparknet的项目 https://github.com/amplab/SparkNet
如果读读他们的paper的话，http://arxiv.org/abs/1511.06051，就会发现其实想法非常简单：因为同步的开销（例如10秒）通常大于一个minibatch计算的开销（例如1秒），那sparknet的做法是，在local连续做几次minibatch后再同步，从而降低同步的副作用。
但是我对这两个哥们儿最后的实验结论有些疑问：
1. 连续local算几次会不会造成本来收敛的东西不收敛了？（这个需要ML的内行帮忙
解答一下）
2. 图7里面发现iteration和训练收敛速度没有关系，难道要瞎选参数？
谢谢
关于ensemble的说法，你的意思是说同时对几种不同的网络训练，取平均值？这部分没
有看懂。

一般模型没那么大，每个节点能看到所有param, 可能部分数据。难点是同步update太

【在 l*******m 的大作中提到】

: 一般模型没那么大，每个节点能看到所有param, 可能部分数据。难点是同步update太
: 慢，异步要保证收敛

l*******m
发帖数: 1096

因为nn不是convex, 收敛性是没法证明。大家都是把logistic regression的sgd的各种
变种拿到nn来. 我估计在lr情况下，这个片文章的方法应该是ok.
ensemble可以用几个不同模型，也可以用一个模型，不同的data augmentations. 比如
鉴别植物，可以用原始图片infer, 再把图片转个角度再infer一次，做个平均

【在 f******2 的大作中提到】

: Berkeley的两个人做了一个sparknet的项目 https://github.com/amplab/SparkNet
: 如果读读他们的paper的话，http://arxiv.org/abs/1511.06051，就会发现其实想法非常简单：因为同步的开销（例如10秒）通常大于一个minibatch计算的开销（例如1秒），那sparknet的做法是，在local连续做几次minibatch后再同步，从而降低同步的副作用。
: 但是我对这两个哥们儿最后的实验结论有些疑问：
: 1. 连续local算几次会不会造成本来收敛的东西不收敛了？（这个需要ML的内行帮忙
: 解答一下）
: 2. 图7里面发现iteration和训练收敛速度没有关系，难道要瞎选参数？
: 谢谢
: 关于ensemble的说法，你的意思是说同时对几种不同的网络训练，取平均值？这部分没
: 有看懂。
:

相关主题
● 已经全上内存了，还要40多秒啊	● 问一下python初学者的问题
● 请推荐java 机器学习库。。。	● 有人用Haskell吗
● 一个naive的问题——是否有这种工具？	● 缩进用空格好，还是tab好？
进入Programming版参与讨论

L****8
发帖数: 3938

B. Train CNNs to predict the contours of the LV
CNN是2d slice 分别做分类分割还是直接搞3D?
另外 CNN做图像分割是否可能出来好多个不连通区域？有何后处理？
还是不用管边界光滑什么的？直接算体积？

【在 w*******x 的大作中提到】

w*******x
发帖数: 489

2D segmentation. 选取一块最可能是LV的（也可以选最大的那块，去除noise, 对结
果影响很小），然后取convex hull，CNN可以非常准确的找到这个contour. 其实就是
模拟人的做法，画 (predict) contour, 累积算体积，选取最大最小的就是答案。

【在 L****8 的大作中提到】

: B. Train CNNs to predict the contours of the LV
: CNN是2d slice 分别做分类分割还是直接搞3D?
: 另外 CNN做图像分割是否可能出来好多个不连通区域？有何后处理？
: 还是不用管边界光滑什么的？直接算体积？

h******g
发帖数: 69

两位参赛的大拿，能说说你们用于模型训练的硬件吗？

l*******s
发帖数: 1258

如果这里不用minibatch，而是选batch，那么同步成本就会大于batch，
而如果用stochastic代替minibatch，那么速度会更快，同步成本相对就更高，所以跑
几个iteration后再同步是不是更好。
连续local算几次，是不是本来就为了避免局部最优？SGD里面就有这种方法。

【在 f******2 的大作中提到】

f******2
发帖数: 2455

我对这些不懂是很懂啊。
有兴趣的话可以一起交流交流啊。

【在 l*******s 的大作中提到】

: 如果这里不用minibatch，而是选batch，那么同步成本就会大于batch，
: 而如果用stochastic代替minibatch，那么速度会更快，同步成本相对就更高，所以跑
: 几个iteration后再同步是不是更好。
: 连续local算几次，是不是本来就为了避免局部最优？SGD里面就有这种方法。

c*******n
发帖数: 679

这东西习惯了还好。当年对这个也是恨得牙痒痒...

【在 l******n 的大作中提到】

: 我个人觉得还不错，相当于强制的format，可读性增强很多。

c*******n
发帖数: 679

两个大牛，太厉害了！恭喜！

【在 w***g 的大作中提到】

: 终于把大牛逼出来了，过来膜拜一下。下弟甘拜下风。
:
: )
: cuda,

x***u
发帖数: 297

看过这种吐槽好多遍了，忍不住上来讲讲自己的感受。
大学时第一次用FORTRAN77（你说让我们和数学计算不搭界的学这干嘛），死活编译不
过。最后才发现是某一行行首需要空两格（不能多不能少），因此一开始听说Python
的formating是比较抵触。用了很短一段时间Perl，对各种符号漫天飞恶心的不行。开
始试用Python，整个转换过程不到两天。
现在，分号和花括号反而成了我学JS的第一个障碍。
还从来没有发现哪个Editor会有indent错误。一般缺省是4个spaces indentation。要
是真的需要很深的indent话（很少情况），手动 2 spaces indent，多数Editor自动在
下一行用同样的indentation。你要非要用TAB，哪我就没办法了。
好处是逼着你把code写整齐。坏处是因为code一般是clean的，经常忘了写注释。
你要实在想用花括号的话，这有一个project：“Python with Braces”（https://
github.com/eshirazi/python-with-braces）
Quote: "As its name implies, Python with Braces doesn’t care about
indentation: you’re free to make you code extremely ugly"。
还可以试一下：
from __future__ import braces
Joke aside，用Python的人（都）认为forced indent是避免格式错误的一大助力；从
来不用python的认为forced indent是避免格式错误的一大阻力。
littlebirds
2016-03-15 16:28 22楼
你这叫想当然。缩进比一堆括号看得干净多了。

: 你这叫想当然。缩进比一堆括号看得干净多了。

【在 a*f 的大作中提到】

: 第一次听人夸这个缩进坑，如果下面这个没有括号，某行错了一个空格，你就死翘了

x**u
发帖数: 77

大牛指点一下一般怎么做多个model的ensemble？
谢谢！

target

【在 w*******x 的大作中提到】

p*****y
发帖数: 529

大牛已经上financial times了，进来膜拜一下。
https://next.ft.com/content/c08a3ccc-f637-11e5-96db-fc683b5e52d

target

【在 w*******x 的大作中提到】

相关主题
● lisper	● ML 需不需要搞懂那些数学
● 总觉得python 用缩进定义逻辑block 这种思想很诡异	● 数据科学碗2017
● python自动缩进出错快疯了	● Kaggle 被买了
进入Programming版参与讨论

D*********e
发帖数: 6

膜拜大牛

n******7
发帖数: 12463

人牛逼，又努力对方向了，别的顺便就来了
别人在苦逼的证明自己的contribution，这媒体报道就有了

【在 p*****y 的大作中提到】

: 大牛已经上financial times了，进来膜拜一下。
: https://next.ft.com/content/c08a3ccc-f637-11e5-96db-fc683b5e52d
:
: target

x****u
发帖数: 44466

python的底层也是gpu，速度足够了何苦把非瓶颈也搞成native。

【在 d******e 的大作中提到】

: 早说过。现在是草蜢快的世界。
: 什么事情先上大python，出货快啊。等有了眉木在找老赵这些马仔调性能。
:
: validation
: 了。
: 做，

(共1页)

进入Programming版参与讨论

相关主题
● python自动缩进出错快疯了	● kaggle上那批人太逆天了
● ML 需不需要搞懂那些数学	● 有没有大牛愿意牵头搞一个 deep learning project
● 数据科学碗2017	● 想写一个machine learning的平台
● Kaggle 被买了	● 已经全上内存了，还要40多秒啊
● 关于搞ML刷数据的职业前途	● 请推荐java 机器学习库。。。
● Python 缩进的syntax	● 一个naive的问题——是否有这种工具？
● 我觉得学C的话还是K&R最好	● 问一下python初学者的问题
● 聊两句wdong的内功总纲	● 有人用Haskell吗

相关话题的讨论汇总
话题: python话题: ml话题: kaggle话题: validation话题: 缩进

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天