训练一个模型收$3000 - Programming版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 训练一个模型收$3000

相关主题
● Re: Zillow Prize kaggle的比赛求问	● 数据科学碗2017
● 求教 xgboost train error 非常小，咋回事	● Kaggle 被买了
● 单变量xgboost模型好的吓人，求解	● 数据碗的结果出来了 weidong站上英雄榜了
● kaggle上那批人太逆天了	● Ai这个社团很多人是很坏的
● 总结一下kaggle比赛	● Kaggle比赛禁止中国人参加
● 关于搞ML刷数据的职业前途	● Zillow Prize讨论专用贴
● 有没有大牛愿意牵头搞一个 deep learning project	● 廖方舟李哲金奖！ (转载)
● ML 需不需要搞懂那些数学	● 准备向wdong大牛学习单干了

相关话题的讨论汇总
话题: br话题: 模型话题: xgboost话题: 训练话题: tf

进入Programming版参与讨论

(共1页)

w***g
发帖数: 5958

比如平均三五千张图片的训练集，训练一个分类或者分割模型，收费$2000。
假设不缺生意。假设能招到5个h1b小弟训练干活。一星期出一个模型。
其中假设有1/10搞不定需要我出手。我一星期两天用来解决难题，两天
用来拉生意，还有一天折腾各种事情。
这么算下来，一年revenue是 52 * 5 * 2000 = 52万。
分钱方法是我一年拿20万，小弟没人拿6.4万。
但其实是不可行的。
1. 每年从哪里去找260个模型训练的活。
2. 每个人工作其实都不轻松。
3. 没算各种场地器材utility的overhead。没算任何benefit。
4. 会熟练训练模型的小弟这点钱根本招不到。
要大家活得舒服，每个模型得能收$5000。
这样可以养一个专业的sales。
就是最近有一票生意要训练一大堆模型，我说$3000一个模型。
加起来出了一个对方根本无法承受的价。我还觉得风险太大做不出来，
我自己也没时间去做。
可见模型训练这种事情必须得能自动化才行。

l******n
发帖数: 9344

这种工作是三年不开张，开张吃三年的

【在 w***g 的大作中提到】

: 比如平均三五千张图片的训练集，训练一个分类或者分割模型，收费$2000。
: 假设不缺生意。假设能招到5个h1b小弟训练干活。一星期出一个模型。
: 其中假设有1/10搞不定需要我出手。我一星期两天用来解决难题，两天
: 用来拉生意，还有一天折腾各种事情。
: 这么算下来，一年revenue是 52 * 5 * 2000 = 52万。
: 分钱方法是我一年拿20万，小弟没人拿6.4万。
: 但其实是不可行的。
: 1. 每年从哪里去找260个模型训练的活。
: 2. 每个人工作其实都不轻松。
: 3. 没算各种场地器材utility的overhead。没算任何benefit。

m******r
发帖数: 1033

承包给国内行不行? 其实你以培训班的名义，招募转行的，不收对方钱，让对方干活
。只要愿意学的，也可以。
你想我学个R，学了大概两年，烧了不少脑细胞，才摸个皮毛，还跑到函数编程，绕
了一大圈。想想都傻.
要是当初有大师指点，多好。
再说，训练数据不都是机器白天晚上跑，人在旁边看热闹么?

l*******m
发帖数: 1096

昨天晚上受到巨额水费。今天找人locate和挖地修水管花了$1800

：比如平均三五千张图片的训练集，训练一个分类或者分割模型，收费$2000。
：假设不缺生意。假设能招到5个h1b小弟训练干活。一星期出一个模型。

f******2
发帖数: 2455

收费模型不对。要有售后服务（这些人工资低），然后提高价钱。
这样你就能看到高margin了。现在这个模型团队维持不住

x****u
发帖数: 44466

我有一个疑问，有多少知道怎么收集数据但唯独不会训练模型的人啊？
有些人你告诉他收集数据，人家会说收集了10G的数据，里面一共5个case，标签总数
100，你慢慢学吧

【在 w***g 的大作中提到】

w***g
发帖数: 5958

有一些专门做图片生意的人，有很多很多图片，但是想挖掘图片的价值。
如果从收集数据开始做，那样自然钱就收得比较多了。

【在 x****u 的大作中提到】

: 我有一个疑问，有多少知道怎么收集数据但唯独不会训练模型的人啊？
: 有些人你告诉他收集数据，人家会说收集了10G的数据，里面一共5个case，标签总数
: 100，你慢慢学吧

x****u
发帖数: 44466

是国内的数据工厂么？

【在 w***g 的大作中提到】

: 有一些专门做图片生意的人，有很多很多图片，但是想挖掘图片的价值。
: 如果从收集数据开始做，那样自然钱就收得比较多了。

g****t
发帖数: 31659

我觉得这个问题可能是反过来。假设minsit的数据量，要做到95%这个性能，至少有5种办
法可以做到。
深学类库平台调参数这个办法流行是因为：第一，会自己写算法的人少。第二，C
plus plus写起来慢。所以自己写算法不划算。
但是你数据集只有三五千图片。全python写程序应该可以满足要求。那么会很快。这种
情况下，调模型不如自己写算法效率高。机器学习算法如果去掉乱七八糟的选项，很多
算法的算术部分其实写不满一页纸。
所以假如你python手写分类器。我觉得很可能2天搞定一个3，5千图片的图片分类应该
是无
压力的。

w***g
发帖数: 5958

你这个肯定不行。我太有经验了。一星期只够调几次参数。
并且手写分类器也基本不可能干过tf和xgboost。

种办

【在 g****t 的大作中提到】

: 我觉得这个问题可能是反过来。假设minsit的数据量，要做到95%这个性能，至少有5种办
: 法可以做到。
: 深学类库平台调参数这个办法流行是因为：第一，会自己写算法的人少。第二，C
: plus plus写起来慢。所以自己写算法不划算。
: 但是你数据集只有三五千图片。全python写程序应该可以满足要求。那么会很快。这种
: 情况下，调模型不如自己写算法效率高。机器学习算法如果去掉乱七八糟的选项，很多
: 算法的算术部分其实写不满一页纸。
: 所以假如你python手写分类器。我觉得很可能2天搞定一个3，5千图片的图片分类应该
: 是无
: 压力的。

相关主题
● 有没有大牛愿意牵头搞一个 deep learning project	● Kaggle 被买了
● ML 需不需要搞懂那些数学	● 数据碗的结果出来了 weidong站上英雄榜了
● 数据科学碗2017	● Ai这个社团很多人是很坏的
进入Programming版参与讨论

w*****r
发帖数: 197

你这个模型的bug在于雇了5个H1b，而且一人一周只train一个模型
基于同一套脚本，如果我把所有命令行变成按键，只要是心智健全的人，一天培训就能
上岗，假设平均训练一个模型要点10次按钮，每人每天要求至少点10000次按钮，这就
是1000个模型,再除去租cloud的费用，是不是赚翻了？

w***g
发帖数: 5958

我已经建议他们这条路线了。训练出来的模型管不管用另说，
自动化训练势在必行了。大不了我每个数据试20种configuration。
每个花10块钱租云训练，也就200的计算成本。

【在 w*****r 的大作中提到】

: 你这个模型的bug在于雇了5个H1b，而且一人一周只train一个模型
: 基于同一套脚本，如果我把所有命令行变成按键，只要是心智健全的人，一天培训就能
: 上岗，假设平均训练一个模型要点10次按钮，每人每天要求至少点10000次按钮，这就
: 是1000个模型,再除去租cloud的费用，是不是赚翻了？

w***g
发帖数: 5958

图片素材厂商。

【在 x****u 的大作中提到】

: 是国内的数据工厂么？

r****t
发帖数: 10904

还有这种厂商？有没有例子我看看，好奇怪，他们卖什么的？

【在 w***g 的大作中提到】

: 图片素材厂商。

r****t
发帖数: 10904

啥需求需要训练一大堆模型？

【在 w***g 的大作中提到】

e*******o
发帖数: 4654

这种商业模式都很苦逼。
做产品才能挣非苦力的钱。

x****u
发帖数: 44466

xgboost调参也那么慢？

【在 w***g 的大作中提到】

: 你这个肯定不行。我太有经验了。一星期只够调几次参数。
: 并且手写分类器也基本不可能干过tf和xgboost。
:
: 种办

g****t
发帖数: 31659

MNIST 6万图片。KNN弄个Jupyter notebook改改，跑到95%以上没问题。就不说别的算
法了。
三五千图片那么少，95%和98%的区别就没什么意义了。另外tf本身参数多，还容易
overfitting.

: 你这个肯定不行。我太有经验了。一星期只够调几次参数。

: 并且手写分类器也基本不可能干过tf和xgboost。

: 种办

【在 w***g 的大作中提到】

: 图片素材厂商。

g****t
发帖数: 31659

更慢。我觉得xgboost其实没什么大用。dl比较普世。尽管如果不做数据增加什么的，
容易overfitting。

: xgboost调参也那么慢？

【在 x****u 的大作中提到】

: xgboost调参也那么慢？

x****u
发帖数: 44466

mnist用各大框架的例子也能跑到99%以上吧

【在 g****t 的大作中提到】

: MNIST 6万图片。KNN弄个Jupyter notebook改改，跑到95%以上没问题。就不说别的算
: 法了。
: 三五千图片那么少，95%和98%的区别就没什么意义了。另外tf本身参数多，还容易
: overfitting.
:
:
: 你这个肯定不行。我太有经验了。一星期只够调几次参数。
:
: 并且手写分类器也基本不可能干过tf和xgboost。
:
: 种办
:

相关主题
● Kaggle比赛禁止中国人参加	● 准备向wdong大牛学习单干了
● Zillow Prize讨论专用贴	● 什么都别说了，刷题是王道，我要加入拳皇帮了
● 廖方舟李哲金奖！ (转载)	● 看了几个kaggle的答题，有点迷惑了
进入Programming版参与讨论

x****u
发帖数: 44466

xgboost适合小数据
如果来了图片那必须果断上dl

【在 g****t 的大作中提到】

: 更慢。我觉得xgboost其实没什么大用。dl比较普世。尽管如果不做数据增加什么的，
: 容易overfitting。
:
:
: xgboost调参也那么慢？
:

g****t
发帖数: 31659

确实是可以。但是框架对你来说是不透明的。所以调节受限制很多。如果你手写个增强
型的knn,增强型的svm, ...
很多古代算法mnist这么少数据的其实都能到90%. 95%的不多但也有不少。
再往上所谓的99%那就是不懂的人胡扯八道了。这问题以前讲过。这里就不说了。

: mnist用各大框架的例子也能跑到99%以上吧

【在 x****u 的大作中提到】

: xgboost适合小数据
: 如果来了图片那必须果断上dl

x****u
发帖数: 44466

mnist验证集99%不难啊

【在 g****t 的大作中提到】

: 确实是可以。但是框架对你来说是不透明的。所以调节受限制很多。如果你手写个增强
: 型的knn,增强型的svm, ...
: 很多古代算法mnist这么少数据的其实都能到90%. 95%的不多但也有不少。
: 再往上所谓的99%那就是不懂的人胡扯八道了。这问题以前讲过。这里就不说了。
:
:
: mnist用各大框架的例子也能跑到99%以上吧
:

g****t
发帖数: 31659

图片切变，对齐，数据增强什么的做好了吗？这些杂工其实最费时间，还容易出错。

: 图片素材厂商。

【在 w***g 的大作中提到】

: 图片素材厂商。

x****u
发帖数: 44466

各大框架默认都有预处理器

【在 g****t 的大作中提到】

: 图片切变，对齐，数据增强什么的做好了吗？这些杂工其实最费时间，还容易出错。
:
:
: 图片素材厂商。
:

g****t
发帖数: 31659

我的意思是这些步骤的thresholds之类的东西定好了吗。
数据部分废工时。

: 各大框架默认都有预处理器

【在 x****u 的大作中提到】

: 各大框架默认都有预处理器

g****t
发帖数: 31659

你看看以前的帖。再琢磨琢磨。所谓的准确率到一定程度之后都是骗人的。这不是难不
难的问题。玩命加参数，计算机速度快了，小数据集能有多难？

: mnist验证集99%不难啊

【在 x****u 的大作中提到】

: 各大框架默认都有预处理器

x****u
发帖数: 44466

哪篇？

【在 g****t 的大作中提到】

: 你看看以前的帖。再琢磨琢磨。所谓的准确率到一定程度之后都是骗人的。这不是难不
: 难的问题。玩命加参数，计算机速度快了，小数据集能有多难？
:
:
: mnist验证集99%不难啊
:

g****t
发帖数: 31659

很早以前了。简单说，mnist不少label本身就没有意义，是作者加的，不是人群给的。
你做一个分类，把错误的挑出来一个个看看，慢慢就琢磨明白了。

: 哪篇？

【在 x****u 的大作中提到】

: 哪篇？

x****u
发帖数: 44466

信上面还有地址不是
你写的时候只要心里想着是0，哪怕写成6了电脑也应该认成0

【在 g****t 的大作中提到】

: 很早以前了。简单说，mnist不少label本身就没有意义，是作者加的，不是人群给的。
: 你做一个分类，把错误的挑出来一个个看看，慢慢就琢磨明白了。
:
:
: 哪篇？
:

相关主题
● predictive analysis只能用来prediction吧？	● 求教 xgboost train error 非常小，咋回事
● 如何评价google的Cloud AutoML	● 单变量xgboost模型好的吓人，求解
● Re: Zillow Prize kaggle的比赛求问	● kaggle上那批人太逆天了
进入Programming版参与讨论

g****t
发帖数: 31659

最简单的解释，mnist 起源于一个产品。准确率只是一个中间环节的人为定义。端到端
的来讲，99%的准确率的算法比98%的算法能节省人工吗？
如果答案是否，那么这种准确率就是为了科研方便所做的方便性约定。但是这种都有和
现实match不到的地方。
其他的解释，你现在理解不了。

: 信上面还有地址不是

: 你写的时候只要心里想着是0，哪怕写成6了电脑也应该认成0

【在 x****u 的大作中提到】

: 信上面还有地址不是
: 你写的时候只要心里想着是0，哪怕写成6了电脑也应该认成0

x****u
发帖数: 44466

98% -> 99%就是错误率减半
错误率就等于二次投递的成本系数，减半意义太大了

【在 g****t 的大作中提到】

: 最简单的解释，mnist 起源于一个产品。准确率只是一个中间环节的人为定义。端到端
: 的来讲，99%的准确率的算法比98%的算法能节省人工吗？
: 如果答案是否，那么这种准确率就是为了科研方便所做的方便性约定。但是这种都有和
: 现实match不到的地方。
: 其他的解释，你现在理解不了。
:
:
: 信上面还有地址不是
:
: 你写的时候只要心里想着是0，哪怕写成6了电脑也应该认成0
:

g****t
发帖数: 31659

你这是纸上的错误率。你把这个准确率做个exp映射什么的，再定义一个所谓的“
错误度”，
从0到360作为一个指标。那么可以弄出来超级错误度减少80%的结论。
实际上连乘法除法，也就是问题的scale那一步都可能会出现和现实对不上的情况。
更别说这些衍生的一些约定了。在纸上。这种东西都是乱枪打鸟，要多少都可以有。

: 98% -

【在 x****u 的大作中提到】

: 98% -> 99%就是错误率减半
: 错误率就等于二次投递的成本系数，减半意义太大了

g****t
发帖数: 31659

回到主贴。简单的说，小型图片分类，我怀疑自动化深学框架，不一定比传统做偏统计
的ML
工人的working flow更经济。
还一个问题，大型框架到发展到一定阶段以后其实是以让更广的人使用为目标的，所以
可能引入很多麻烦，降低专家级用户的效率。也许买个企业版什么的可解决这类问题。

x****u
发帖数: 44466

图片问题基本是深学天下了，而且新的轮子就是特别好使。
VGG加上BN性能立即爆表，不用说resnet了

【在 g****t 的大作中提到】

: 回到主贴。简单的说，小型图片分类，我怀疑自动化深学框架，不一定比传统做偏统计
: 的ML
: 工人的working flow更经济。
: 还一个问题，大型框架到发展到一定阶段以后其实是以让更广的人使用为目标的，所以
: 可能引入很多麻烦，降低专家级用户的效率。也许买个企业版什么的可解决这类问题。

g****t
发帖数: 31659

你似乎不熟悉tf
Mnist最原始的cnn性能就已经爆表了
那需要你说的那些buzz words

: 图片问题基本是深学天下了，而且新的轮子就是特别好使。

: VGG加上BN性能立即爆表，不用说resnet了

【在 x****u 的大作中提到】

: 图片问题基本是深学天下了，而且新的轮子就是特别好使。
: VGG加上BN性能立即爆表，不用说resnet了

n******t
发帖数: 4406

這些事情都是因為別人花了3000刀不一定能掙回3000刀，否則都不是問題。

【在 w***g 的大作中提到】

x****u
发帖数: 44466

mnist用最新的技术可以做到错误率0
更复杂的网络用非dl性能太差

【在 g****t 的大作中提到】

: 你似乎不熟悉tf
: Mnist最原始的cnn性能就已经爆表了
: 那需要你说的那些buzz words
:
:
: 图片问题基本是深学天下了，而且新的轮子就是特别好使。
:
: VGG加上BN性能立即爆表，不用说resnet了
:

w***g
发帖数: 5958

读一篇论文，我会先看它用了什么数据集做验证。
如果我看到一篇论文只用了nmist做验证，除非名声特别响，
剩下的我就不会看一个字了。因为作者deliver的信息是
无非是几选一。1. 这个方法作者自己都不是很看好，
不愿意花时间多验证几个数据集。2. 这个方法在别的数据
集上表现不好。3. 这个作者缺乏工程能力，大的数据集
搞不定。
做项目卖钱，最重要的是降低最后deliver的风险和
成本。按这两个考虑，我目前的策略就是。
1. 表格类的数据无脑上xgboost。纯表格类的项目也没有/不愿意接。
2. 信号类(心电，图片，CT/MRI，音频视频)的数据无脑上DL。
3. 别的项目既没有也接不了。
Again，现在的IT经济已经被VC控制了。VC-backed startup和
上市公司给的工资远超过传统企业。小作坊不可能招得起talent。

【在 g****t 的大作中提到】

x****u
发帖数: 44466

我的话是先上kaggle上找找类似kernel都是怎么写的，哈哈哈

【在 w***g 的大作中提到】

: 读一篇论文，我会先看它用了什么数据集做验证。
: 如果我看到一篇论文只用了nmist做验证，除非名声特别响，
: 剩下的我就不会看一个字了。因为作者deliver的信息是
: 无非是几选一。1. 这个方法作者自己都不是很看好，
: 不愿意花时间多验证几个数据集。2. 这个方法在别的数据
: 集上表现不好。3. 这个作者缺乏工程能力，大的数据集
: 搞不定。
: 做项目卖钱，最重要的是降低最后deliver的风险和
: 成本。按这两个考虑，我目前的策略就是。
: 1. 表格类的数据无脑上xgboost。纯表格类的项目也没有/不愿意接。

相关主题
● 总结一下kaggle比赛	● ML 需不需要搞懂那些数学
● 关于搞ML刷数据的职业前途	● 数据科学碗2017
● 有没有大牛愿意牵头搞一个 deep learning project	● Kaggle 被买了
进入Programming版参与讨论

w***g
发帖数: 5958

kaggle这个东西出来，把data scientist中产阶级全都杀死了。
顶级DS吃香的喝辣的，初级DS直接找kernel上就能秒杀中产DS。
中间的，自己写也写不过public kernel，也体现不出啥价值了。

【在 x****u 的大作中提到】

: 我的话是先上kaggle上找找类似kernel都是怎么写的，哈哈哈

x****u
发帖数: 44466

其实kaggle上面的东西能看懂用起来的已经不算初级ds了吧

【在 w***g 的大作中提到】

: kaggle这个东西出来，把data scientist中产阶级全都杀死了。
: 顶级DS吃香的喝辣的，初级DS直接找kernel上就能秒杀中产DS。
: 中间的，自己写也写不过public kernel，也体现不出啥价值了。

g****t
发帖数: 31659

我提mnist是因为感觉也许mnist就比3，5千图片的training set难。毕竟mnist有6万图
片。

: 读一篇论文，我会先看它用了什么数据集做验证。

: 如果我看到一篇论文只用了nmist做验证，除非名声特别响，

: 剩下的我就不会看一个字了。因为作者deliver的信息是

: 无非是几选一。1. 这个方法作者自己都不是很看好，

: 不愿意花时间多验证几个数据集。2. 这个方法在别的数据

: 集上表现不好。3. 这个作者缺乏工程能力，大的数据集

: 搞不定。

: 做项目卖钱，最重要的是降低最后deliver的风险和

: 成本。按这两个考虑，我目前的策略就是。

: 1. 表格类的数据无脑上xgboost。纯表格类的项目也没有/不愿意接。

【在 w***g 的大作中提到】

w***g
发帖数: 5958

mnist单个图片小，所以虽然样本多，总体也还是CPU能够handle的范围。
而且完全不需要预处理。所以是灌水文的最爱。

【在 g****t 的大作中提到】

: 我提mnist是因为感觉也许mnist就比3，5千图片的training set难。毕竟mnist有6万图
: 片。
:
:
: 读一篇论文，我会先看它用了什么数据集做验证。
:
: 如果我看到一篇论文只用了nmist做验证，除非名声特别响，
:
: 剩下的我就不会看一个字了。因为作者deliver的信息是
:
: 无非是几选一。1. 这个方法作者自己都不是很看好，
:
: 不愿意花时间多验证几个数据集。2. 这个方法在别的数据
:
: 集上表现不好。3. 这个作者缺乏工程能力，大的数据集
:
: 搞不定。

g****t
发帖数: 31659

这要看DS的统计基础，也就是大二概率是不是学的牢靠。真懂统计的，假如open
source或者kaggle出了个好的kernal 其实不是问题。
因为两个方法的residual只要方向不一样，理论上就可以有效平均，得到更强壮的方法
。这个和买股票没有人会只买涨的最快的那个是一样的原因。
为了适应新时代，传统的DS应该把这些kernal看作底层axiom module往上做。不然确实
是很快就没饭吃。他们的工作很可能会被懂得描述问题带入现存tool的软件工程师代替。

: kaggle这个东西出来，把data scientist中产阶级全都杀死了。

: 顶级DS吃香的喝辣的，初级DS直接找kernel上就能秒杀中产DS。

: 中间的，自己写也写不过public kernel，也体现不出啥价值了。

【在 w***g 的大作中提到】

: mnist单个图片小，所以虽然样本多，总体也还是CPU能够handle的范围。
: 而且完全不需要预处理。所以是灌水文的最爱。

w***g
发帖数: 5958

替。
----------------------------------------------------------------------------
----
就是这样。

【在 g****t 的大作中提到】

: 这要看DS的统计基础，也就是大二概率是不是学的牢靠。真懂统计的，假如open
: source或者kaggle出了个好的kernal 其实不是问题。
: 因为两个方法的residual只要方向不一样，理论上就可以有效平均，得到更强壮的方法
: 。这个和买股票没有人会只买涨的最快的那个是一样的原因。
: 为了适应新时代，传统的DS应该把这些kernal看作底层axiom module往上做。不然确实
: 是很快就没饭吃。他们的工作很可能会被懂得描述问题带入现存tool的软件工程师代替。
:
:
: kaggle这个东西出来，把data scientist中产阶级全都杀死了。
:
: 顶级DS吃香的喝辣的，初级DS直接找kernel上就能秒杀中产DS。
:
: 中间的，自己写也写不过public kernel，也体现不出啥价值了。

g****t
发帖数: 31659

说实话十几万一年的高端DS，一个月做的模型，极大的可能不如你招h1b一星期做出来
的。那么未来他们工作的价值最多也就是现在工资的1／10.
技术以及技术的宿主software tool飞速发展，这个没办法。

【在 w***g 的大作中提到】

:
: 替。
: ----------------------------------------------------------------------------
: ----
: 就是这样。

W***o
发帖数: 6519

董老板的work flow要如同福特汽车开始一样实现流水线化就会降低成本了
不过这种需要不停的去开发新客户，还不如去bid 一些政府的长期项目（3-5 年）做。
政府的项目可以很大；
类似的思路可以是去政府项目承包商的sub-contractor，
比如去booz allen hamilton, gd 这种大的承包商分一杯他们没能力没资源做的分项目做
政府的项目很稳定，一般不受经济环境大气候影响

l*******m
发帖数: 1096

现在的形式是海华基本拿不到政府项目。如果有个老白的皮包公司拉项目，还是很肥的

：董老板的work flow要如同福特汽车开始一样实现流水线化就会降低成本了
：

w***g
发帖数: 5958

收买几个老白老黑，控股他们，让他们出面去申请不知道行不行。
最近在看/读《教父》，觉得真牛啊。我现在手下有两个比较可靠的人，
将来做大了让他们当caporegime。

【在 l*******m 的大作中提到】

: 现在的形式是海华基本拿不到政府项目。如果有个老白的皮包公司拉项目，还是很肥的
:
: ：董老板的work flow要如同福特汽车开始一样实现流水线化就会降低成本了
: ：

相关主题
● 数据碗的结果出来了 weidong站上英雄榜了	● Zillow Prize讨论专用贴
● Ai这个社团很多人是很坏的	● 廖方舟李哲金奖！ (转载)
● Kaggle比赛禁止中国人参加	● 准备向wdong大牛学习单干了
进入Programming版参与讨论

x**********i
发帖数: 658

wdong老师，请问用tf+xgboost怎么做？我只知道tf做分类器，但苦于不知道怎么加上
xgboost。你能推荐几个公开的github projects作为参考吗？谢谢

【在 w***g 的大作中提到】

: 你这个肯定不行。我太有经验了。一星期只够调几次参数。
: 并且手写分类器也基本不可能干过tf和xgboost。
:
: 种办

l*******1
发帖数: 1

训练200多模型最后一个还和第一个成本一样，应该陷入沉思了

x***4
发帖数: 1815

这么干何必呢。累死累活才这么一点钱。为什么老中总是挑破活。

【在 w***g 的大作中提到】

x**********i
发帖数: 658

那些排名靠前的kernel作者愿意分享？

【在 w***g 的大作中提到】

g****t
发帖数: 31659

对技艺一般的ds来讲。我认为
花时间看kaggle, github上的各种公开模型，拼凑一下，大概率比自己做模型更有效率。
但是拼凑也要一些经验和背景知识。这条路比较适合软件出身的人走，可以把DS的人的
位置弄的无关紧要。

: 那些排名靠前的kernel作者愿意分享？

【在 x**********i 的大作中提到】

: 那些排名靠前的kernel作者愿意分享？

x****u
发帖数: 44466

有个imagenet打底，3，5千图片不在话下
怕的就是10张MRI让你学出100种疾病标签这种外行数据集

【在 g****t 的大作中提到】

w***g
发帖数: 5958

xgboost tf没一般的做法。tf跑到spark上也是。提出这种需求或者架构，本身就是露
馅了。

: wdong老师，请问用tf xgboost怎么做？我只知道tf做分类器，但苦于不知道怎
么加上

: xgboost。你能推荐几个公开的github projects作为参考吗？谢谢

【在 x**********i 的大作中提到】

: 那些排名靠前的kernel作者愿意分享？

w*****r
发帖数: 197

Tf好像有个boosted tree classifier，效果不如xgboost, yahoo 有个遗腹子，就是
tensorflow on spark

: xgboost tf没一般的做法。tf跑到spark上也是。提出这种需求或者架构
，本身
就是露

: 馅了。

: 么加上

【在 w***g 的大作中提到】

: xgboost tf没一般的做法。tf跑到spark上也是。提出这种需求或者架构，本身就是露
: 馅了。
:
:
: wdong老师，请问用tf xgboost怎么做？我只知道tf做分类器，但苦于不知道怎
: 么加上
:
: xgboost。你能推荐几个公开的github projects作为参考吗？谢谢
:

h***n
发帖数: 1275

问一下，训练好的模型的用途是啥，商业上，怎么赚钱？

【在 w***g 的大作中提到】

g****t
发帖数: 31659

是不是tf那个estimator里的？我好像也见过。

: Tf好像有个boosted tree classifier，效果不如xgboost, yahoo 有个遗腹子，
就是

: tensorflow on spark

:

【在 w*****r 的大作中提到】

: Tf好像有个boosted tree classifier，效果不如xgboost, yahoo 有个遗腹子，就是
: tensorflow on spark
:
:
: xgboost tf没一般的做法。tf跑到spark上也是。提出这种需求或者架构
: ，本身
: 就是露
:
: 馅了。
:
: 么加上
:

相关主题
● 什么都别说了，刷题是王道，我要加入拳皇帮了	● 如何评价google的Cloud AutoML
● 看了几个kaggle的答题，有点迷惑了	● Re: Zillow Prize kaggle的比赛求问
● predictive analysis只能用来prediction吧？	● 求教 xgboost train error 非常小，咋回事
进入Programming版参与讨论

a*****g
发帖数: 19398

不错啊。ｗ

【在 w***g 的大作中提到】

(共1页)

进入Programming版参与讨论

相关主题
● 什么都别说了，刷题是王道，我要加入拳皇帮了	● 总结一下kaggle比赛
● 看了几个kaggle的答题，有点迷惑了	● 关于搞ML刷数据的职业前途
● predictive analysis只能用来prediction吧？	● 有没有大牛愿意牵头搞一个 deep learning project
● 如何评价google的Cloud AutoML	● ML 需不需要搞懂那些数学
● Re: Zillow Prize kaggle的比赛求问	● 数据科学碗2017
● 求教 xgboost train error 非常小，咋回事	● Kaggle 被买了
● 单变量xgboost模型好的吓人，求解	● 数据碗的结果出来了 weidong站上英雄榜了
● kaggle上那批人太逆天了	● Ai这个社团很多人是很坏的

相关话题的讨论汇总
话题: br话题: 模型话题: xgboost话题: 训练话题: tf

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天