w***g 发帖数: 5958 | 1 比如平均三五千张图片的训练集,训练一个分类或者分割模型,收费$2000。
假设不缺生意。假设能招到5个h1b小弟训练干活。一星期出一个模型。
其中假设有1/10搞不定需要我出手。我一星期两天用来解决难题,两天
用来拉生意,还有一天折腾各种事情。
这么算下来,一年revenue是 52 * 5 * 2000 = 52万。
分钱方法是我一年拿20万,小弟没人拿6.4万。
但其实是不可行的。
1. 每年从哪里去找260个模型训练的活。
2. 每个人工作其实都不轻松。
3. 没算各种场地器材utility的overhead。没算任何benefit。
4. 会熟练训练模型的小弟这点钱根本招不到。
要大家活得舒服,每个模型得能收$5000。
这样可以养一个专业的sales。
就是最近有一票生意要训练一大堆模型,我说$3000一个模型。
加起来出了一个对方根本无法承受的价。我还觉得风险太大做不出来,
我自己也没时间去做。
可见模型训练这种事情必须得能自动化才行。 |
l******n 发帖数: 9344 | 2 这种工作是三年不开张,开张吃三年的
【在 w***g 的大作中提到】 : 比如平均三五千张图片的训练集,训练一个分类或者分割模型,收费$2000。 : 假设不缺生意。假设能招到5个h1b小弟训练干活。一星期出一个模型。 : 其中假设有1/10搞不定需要我出手。我一星期两天用来解决难题,两天 : 用来拉生意,还有一天折腾各种事情。 : 这么算下来,一年revenue是 52 * 5 * 2000 = 52万。 : 分钱方法是我一年拿20万,小弟没人拿6.4万。 : 但其实是不可行的。 : 1. 每年从哪里去找260个模型训练的活。 : 2. 每个人工作其实都不轻松。 : 3. 没算各种场地器材utility的overhead。没算任何benefit。
|
m******r 发帖数: 1033 | 3 承包给国内行不行? 其实你以培训班的名义, 招募转行的,不收对方钱,让对方干活
。只要愿意学的,也可以。
你想我学个R, 学了大概两年,烧了不少脑细胞, 才摸个皮毛,还跑到函数编程,绕
了一大圈。 想想都傻.
要是当初有大师指点,多好。
再说,训练数据不都是机器白天晚上跑,人在旁边看热闹么? |
l*******m 发帖数: 1096 | 4 昨天晚上受到巨额水费。今天找人locate和挖地修水管花了$1800
:比如平均三五千张图片的训练集,训练一个分类或者分割模型,收费$2000。
:假设不缺生意。假设能招到5个h1b小弟训练干活。一星期出一个模型。 |
f******2 发帖数: 2455 | 5 收费模型不对。要有售后服务(这些人工资低),然后提高价钱。
这样你就能看到高margin了。现在这个模型团队维持不住 |
x****u 发帖数: 44466 | 6 我有一个疑问,有多少知道怎么收集数据但唯独不会训练模型的人啊?
有些人你告诉他收集数据,人家会说收集了10G的数据,里面一共5个case,标签总数
100,你慢慢学吧
【在 w***g 的大作中提到】 : 比如平均三五千张图片的训练集,训练一个分类或者分割模型,收费$2000。 : 假设不缺生意。假设能招到5个h1b小弟训练干活。一星期出一个模型。 : 其中假设有1/10搞不定需要我出手。我一星期两天用来解决难题,两天 : 用来拉生意,还有一天折腾各种事情。 : 这么算下来,一年revenue是 52 * 5 * 2000 = 52万。 : 分钱方法是我一年拿20万,小弟没人拿6.4万。 : 但其实是不可行的。 : 1. 每年从哪里去找260个模型训练的活。 : 2. 每个人工作其实都不轻松。 : 3. 没算各种场地器材utility的overhead。没算任何benefit。
|
w***g 发帖数: 5958 | 7 有一些专门做图片生意的人,有很多很多图片,但是想挖掘图片的价值。
如果从收集数据开始做,那样自然钱就收得比较多了。
【在 x****u 的大作中提到】 : 我有一个疑问,有多少知道怎么收集数据但唯独不会训练模型的人啊? : 有些人你告诉他收集数据,人家会说收集了10G的数据,里面一共5个case,标签总数 : 100,你慢慢学吧
|
x****u 发帖数: 44466 | 8 是国内的数据工厂么?
【在 w***g 的大作中提到】 : 有一些专门做图片生意的人,有很多很多图片,但是想挖掘图片的价值。 : 如果从收集数据开始做,那样自然钱就收得比较多了。
|
g****t 发帖数: 31659 | 9 我觉得这个问题可能是反过来。假设minsit的数据量,要做到95%这个性能,至少有5种办
法可以做到。
深学类库平台 调参数 这个办法流行是因为:第一,会自己写算法的人少。第二,C
plus plus写起来慢。所以自己写算法不划算。
但是你数据集只有三五千图片。全python写程序应该可以满足要求。那么会很快。这种
情况下,调模型不如自己写算法效率高。机器学习算法如果去掉乱七八糟的选项,很多
算法的算术部分其实写不满一页纸。
所以假如你python手写分类器。我觉得很可能2天搞定一个3,5千图片的图片分类应该
是无
压力的。 |
w***g 发帖数: 5958 | 10 你这个肯定不行。我太有经验了。一星期只够调几次参数。
并且手写分类器也基本不可能干过tf和xgboost。
种办
【在 g****t 的大作中提到】 : 我觉得这个问题可能是反过来。假设minsit的数据量,要做到95%这个性能,至少有5种办 : 法可以做到。 : 深学类库平台 调参数 这个办法流行是因为:第一,会自己写算法的人少。第二,C : plus plus写起来慢。所以自己写算法不划算。 : 但是你数据集只有三五千图片。全python写程序应该可以满足要求。那么会很快。这种 : 情况下,调模型不如自己写算法效率高。机器学习算法如果去掉乱七八糟的选项,很多 : 算法的算术部分其实写不满一页纸。 : 所以假如你python手写分类器。我觉得很可能2天搞定一个3,5千图片的图片分类应该 : 是无 : 压力的。
|
|
|
w*****r 发帖数: 197 | 11 你这个模型的bug在于雇了5个H1b,而且一人一周只train一个模型
基于同一套脚本,如果我把所有命令行变成按键,只要是心智健全的人,一天培训就能
上岗,假设平均训练一个模型要点10次按钮,每人每天要求至少点10000次按钮,这就
是1000个模型,再除去租cloud的费用,是不是赚翻了? |
w***g 发帖数: 5958 | 12 我已经建议他们这条路线了。训练出来的模型管不管用另说,
自动化训练势在必行了。大不了我每个数据试20种configuration。
每个花10块钱租云训练,也就200的计算成本。
【在 w*****r 的大作中提到】 : 你这个模型的bug在于雇了5个H1b,而且一人一周只train一个模型 : 基于同一套脚本,如果我把所有命令行变成按键,只要是心智健全的人,一天培训就能 : 上岗,假设平均训练一个模型要点10次按钮,每人每天要求至少点10000次按钮,这就 : 是1000个模型,再除去租cloud的费用,是不是赚翻了?
|
w***g 发帖数: 5958 | 13 图片素材厂商。
【在 x****u 的大作中提到】 : 是国内的数据工厂么?
|
r****t 发帖数: 10904 | 14 还有这种厂商?有没有例子我看看,好奇怪,他们卖什么的?
【在 w***g 的大作中提到】 : 图片素材厂商。
|
r****t 发帖数: 10904 | 15 啥需求需要训练一大堆模型?
【在 w***g 的大作中提到】 : 比如平均三五千张图片的训练集,训练一个分类或者分割模型,收费$2000。 : 假设不缺生意。假设能招到5个h1b小弟训练干活。一星期出一个模型。 : 其中假设有1/10搞不定需要我出手。我一星期两天用来解决难题,两天 : 用来拉生意,还有一天折腾各种事情。 : 这么算下来,一年revenue是 52 * 5 * 2000 = 52万。 : 分钱方法是我一年拿20万,小弟没人拿6.4万。 : 但其实是不可行的。 : 1. 每年从哪里去找260个模型训练的活。 : 2. 每个人工作其实都不轻松。 : 3. 没算各种场地器材utility的overhead。没算任何benefit。
|
e*******o 发帖数: 4654 | 16 这种商业模式都很苦逼。
做产品才能挣非苦力的钱。 |
x****u 发帖数: 44466 | 17 xgboost调参也那么慢?
【在 w***g 的大作中提到】 : 你这个肯定不行。我太有经验了。一星期只够调几次参数。 : 并且手写分类器也基本不可能干过tf和xgboost。 : : 种办
|
g****t 发帖数: 31659 | 18 MNIST 6万图片。KNN弄个Jupyter notebook改改,跑到95%以上没问题。就不说别的算
法了。
三五千图片那么少,95%和98%的区别就没什么意义了。另外tf本身参数多,还容易
overfitting.
: 你这个肯定不行。我太有经验了。一星期只够调几次参数。
: 并且手写分类器也基本不可能干过tf和xgboost。
: 种办
【在 w***g 的大作中提到】 : 图片素材厂商。
|
g****t 发帖数: 31659 | 19 更慢。我觉得xgboost其实没什么大用。dl比较普世。尽管如果不做数据增加什么的,
容易overfitting。
: xgboost调参也那么慢?
【在 x****u 的大作中提到】 : xgboost调参也那么慢?
|
x****u 发帖数: 44466 | 20 mnist用各大框架的例子也能跑到99%以上吧
【在 g****t 的大作中提到】 : MNIST 6万图片。KNN弄个Jupyter notebook改改,跑到95%以上没问题。就不说别的算 : 法了。 : 三五千图片那么少,95%和98%的区别就没什么意义了。另外tf本身参数多,还容易 : overfitting. : : : 你这个肯定不行。我太有经验了。一星期只够调几次参数。 : : 并且手写分类器也基本不可能干过tf和xgboost。 : : 种办 :
|
|
|
x****u 发帖数: 44466 | 21 xgboost适合小数据
如果来了图片那必须果断上dl
【在 g****t 的大作中提到】 : 更慢。我觉得xgboost其实没什么大用。dl比较普世。尽管如果不做数据增加什么的, : 容易overfitting。 : : : xgboost调参也那么慢? :
|
g****t 发帖数: 31659 | 22 确实是可以。但是框架对你来说是不透明的。所以调节受限制很多。如果你手写个增强
型的knn,增强型的svm, ...
很多古代算法mnist这么少数据的其实都能到90%. 95%的不多但也有不少。
再往上所谓的99%那就是不懂的人胡扯八道了。这问题以前讲过。这里就不说了。
: mnist用各大框架的例子也能跑到99%以上吧
【在 x****u 的大作中提到】 : xgboost适合小数据 : 如果来了图片那必须果断上dl
|
x****u 发帖数: 44466 | 23 mnist验证集99%不难啊
【在 g****t 的大作中提到】 : 确实是可以。但是框架对你来说是不透明的。所以调节受限制很多。如果你手写个增强 : 型的knn,增强型的svm, ... : 很多古代算法mnist这么少数据的其实都能到90%. 95%的不多但也有不少。 : 再往上所谓的99%那就是不懂的人胡扯八道了。这问题以前讲过。这里就不说了。 : : : mnist用各大框架的例子也能跑到99%以上吧 :
|
g****t 发帖数: 31659 | 24 图片切变,对齐,数据增强什么的做好了吗?这些杂工其实最费时间,还容易出错。
: 图片素材厂商。
【在 w***g 的大作中提到】 : 图片素材厂商。
|
x****u 发帖数: 44466 | 25 各大框架默认都有预处理器
【在 g****t 的大作中提到】 : 图片切变,对齐,数据增强什么的做好了吗?这些杂工其实最费时间,还容易出错。 : : : 图片素材厂商。 :
|
g****t 发帖数: 31659 | 26 我的意思是这些步骤的thresholds之类的东西定好了吗。
数据部分废工时。
: 各大框架默认都有预处理器
【在 x****u 的大作中提到】 : 各大框架默认都有预处理器
|
g****t 发帖数: 31659 | 27 你看看以前的帖。再琢磨琢磨。所谓的准确率到一定程度之后都是骗人的。这不是难不
难的问题。玩命加参数,计算机速度快了,小数据集能有多难?
: mnist验证集99%不难啊
【在 x****u 的大作中提到】 : 各大框架默认都有预处理器
|
x****u 发帖数: 44466 | 28 哪篇?
【在 g****t 的大作中提到】 : 你看看以前的帖。再琢磨琢磨。所谓的准确率到一定程度之后都是骗人的。这不是难不 : 难的问题。玩命加参数,计算机速度快了,小数据集能有多难? : : : mnist验证集99%不难啊 :
|
g****t 发帖数: 31659 | 29 很早以前了。简单说,mnist不少label本身就没有意义,是作者加的,不是人群给的。
你做一个分类,把错误的挑出来一个个看看,慢慢就琢磨明白了。
: 哪篇?
【在 x****u 的大作中提到】 : 哪篇?
|
x****u 发帖数: 44466 | 30 信上面还有地址不是
你写的时候只要心里想着是0,哪怕写成6了电脑也应该认成0
【在 g****t 的大作中提到】 : 很早以前了。简单说,mnist不少label本身就没有意义,是作者加的,不是人群给的。 : 你做一个分类,把错误的挑出来一个个看看,慢慢就琢磨明白了。 : : : 哪篇? :
|
|
|
g****t 发帖数: 31659 | 31 最简单的解释,mnist 起源于一个产品。准确率只是一个中间环节的人为定义。端到端
的来讲,99%的准确率的算法比98%的算法能节省人工吗?
如果答案是否,那么这种准确率就是为了科研方便所做的方便性约定。但是这种都有和
现实match不到的地方。
其他的解释,你现在理解不了。
: 信上面还有地址不是
: 你写的时候只要心里想着是0,哪怕写成6了电脑也应该认成0
【在 x****u 的大作中提到】 : 信上面还有地址不是 : 你写的时候只要心里想着是0,哪怕写成6了电脑也应该认成0
|
x****u 发帖数: 44466 | 32 98% -> 99%就是错误率减半
错误率就等于二次投递的成本系数,减半意义太大了
【在 g****t 的大作中提到】 : 最简单的解释,mnist 起源于一个产品。准确率只是一个中间环节的人为定义。端到端 : 的来讲,99%的准确率的算法比98%的算法能节省人工吗? : 如果答案是否,那么这种准确率就是为了科研方便所做的方便性约定。但是这种都有和 : 现实match不到的地方。 : 其他的解释,你现在理解不了。 : : : 信上面还有地址不是 : : 你写的时候只要心里想着是0,哪怕写成6了电脑也应该认成0 :
|
g****t 发帖数: 31659 | 33 你这是纸上的错误率。你把这个准确率做个exp映射什么的,再定义一个所谓的“
错误度”,
从0到360作为一个指标。那么可以弄出来超级错误度减少80%的结论。
实际上连乘法除法,也就是问题的scale那一步都可能会出现和现实对不上的情况。
更别说这些衍生的一些约定了。在纸上。这种东西都是乱枪打鸟,要多少都可以有。
: 98% -
【在 x****u 的大作中提到】 : 98% -> 99%就是错误率减半 : 错误率就等于二次投递的成本系数,减半意义太大了
|
g****t 发帖数: 31659 | 34 回到主贴。简单的说,小型图片分类,我怀疑自动化深学框架,不一定比传统做偏统计
的ML
工人的working flow更经济。
还一个问题,大型框架到发展到一定阶段以后其实是以让更广的人使用为目标的,所以
可能引入很多麻烦,降低专家级用户的效率。也许买个企业版什么的可解决这类问题。 |
x****u 发帖数: 44466 | 35 图片问题基本是深学天下了,而且新的轮子就是特别好使。
VGG加上BN性能立即爆表,不用说resnet了
【在 g****t 的大作中提到】 : 回到主贴。简单的说,小型图片分类,我怀疑自动化深学框架,不一定比传统做偏统计 : 的ML : 工人的working flow更经济。 : 还一个问题,大型框架到发展到一定阶段以后其实是以让更广的人使用为目标的,所以 : 可能引入很多麻烦,降低专家级用户的效率。也许买个企业版什么的可解决这类问题。
|
g****t 发帖数: 31659 | 36 你似乎不熟悉tf
Mnist最原始的cnn性能就已经爆表了
那需要你说的那些buzz words
: 图片问题基本是深学天下了,而且新的轮子就是特别好使。
: VGG加上BN性能立即爆表,不用说resnet了
【在 x****u 的大作中提到】 : 图片问题基本是深学天下了,而且新的轮子就是特别好使。 : VGG加上BN性能立即爆表,不用说resnet了
|
n******t 发帖数: 4406 | 37 這些事情都是因為別人花了3000刀不一定能掙回3000刀,否則都不是問題。
【在 w***g 的大作中提到】 : 比如平均三五千张图片的训练集,训练一个分类或者分割模型,收费$2000。 : 假设不缺生意。假设能招到5个h1b小弟训练干活。一星期出一个模型。 : 其中假设有1/10搞不定需要我出手。我一星期两天用来解决难题,两天 : 用来拉生意,还有一天折腾各种事情。 : 这么算下来,一年revenue是 52 * 5 * 2000 = 52万。 : 分钱方法是我一年拿20万,小弟没人拿6.4万。 : 但其实是不可行的。 : 1. 每年从哪里去找260个模型训练的活。 : 2. 每个人工作其实都不轻松。 : 3. 没算各种场地器材utility的overhead。没算任何benefit。
|
x****u 发帖数: 44466 | 38 mnist用最新的技术可以做到错误率0
更复杂的网络用非dl性能太差
【在 g****t 的大作中提到】 : 你似乎不熟悉tf : Mnist最原始的cnn性能就已经爆表了 : 那需要你说的那些buzz words : : : 图片问题基本是深学天下了,而且新的轮子就是特别好使。 : : VGG加上BN性能立即爆表,不用说resnet了 :
|
w***g 发帖数: 5958 | 39 读一篇论文,我会先看它用了什么数据集做验证。
如果我看到一篇论文只用了nmist做验证,除非名声特别响,
剩下的我就不会看一个字了。因为作者deliver的信息是
无非是几选一。1. 这个方法作者自己都不是很看好,
不愿意花时间多验证几个数据集。2. 这个方法在别的数据
集上表现不好。3. 这个作者缺乏工程能力,大的数据集
搞不定。
做项目卖钱,最重要的是降低最后deliver的风险和
成本。按这两个考虑,我目前的策略就是。
1. 表格类的数据无脑上xgboost。纯表格类的项目也没有/不愿意接。
2. 信号类(心电,图片,CT/MRI,音频视频)的数据无脑上DL。
3. 别的项目既没有也接不了。
Again,现在的IT经济已经被VC控制了。VC-backed startup和
上市公司给的工资远超过传统企业。小作坊不可能招得起talent。
【在 g****t 的大作中提到】 : 你似乎不熟悉tf : Mnist最原始的cnn性能就已经爆表了 : 那需要你说的那些buzz words : : : 图片问题基本是深学天下了,而且新的轮子就是特别好使。 : : VGG加上BN性能立即爆表,不用说resnet了 :
|
x****u 发帖数: 44466 | 40 我的话是先上kaggle上找找类似kernel都是怎么写的,哈哈哈
【在 w***g 的大作中提到】 : 读一篇论文,我会先看它用了什么数据集做验证。 : 如果我看到一篇论文只用了nmist做验证,除非名声特别响, : 剩下的我就不会看一个字了。因为作者deliver的信息是 : 无非是几选一。1. 这个方法作者自己都不是很看好, : 不愿意花时间多验证几个数据集。2. 这个方法在别的数据 : 集上表现不好。3. 这个作者缺乏工程能力,大的数据集 : 搞不定。 : 做项目卖钱,最重要的是降低最后deliver的风险和 : 成本。按这两个考虑,我目前的策略就是。 : 1. 表格类的数据无脑上xgboost。纯表格类的项目也没有/不愿意接。
|
|
|
w***g 发帖数: 5958 | 41 kaggle这个东西出来,把data scientist中产阶级全都杀死了。
顶级DS吃香的喝辣的,初级DS直接找kernel上就能秒杀中产DS。
中间的,自己写也写不过public kernel,也体现不出啥价值了。
【在 x****u 的大作中提到】 : 我的话是先上kaggle上找找类似kernel都是怎么写的,哈哈哈
|
x****u 发帖数: 44466 | 42 其实kaggle上面的东西能看懂用起来的已经不算初级ds了吧
【在 w***g 的大作中提到】 : kaggle这个东西出来,把data scientist中产阶级全都杀死了。 : 顶级DS吃香的喝辣的,初级DS直接找kernel上就能秒杀中产DS。 : 中间的,自己写也写不过public kernel,也体现不出啥价值了。
|
g****t 发帖数: 31659 | 43 我提mnist是因为感觉也许mnist就比3,5千图片的training set难。毕竟mnist有6万图
片。
: 读一篇论文,我会先看它用了什么数据集做验证。
: 如果我看到一篇论文只用了nmist做验证,除非名声特别响,
: 剩下的我就不会看一个字了。因为作者deliver的信息是
: 无非是几选一。1. 这个方法作者自己都不是很看好,
: 不愿意花时间多验证几个数据集。2. 这个方法在别的数据
: 集上表现不好。3. 这个作者缺乏工程能力,大的数据集
: 搞不定。
: 做项目卖钱,最重要的是降低最后deliver的风险和
: 成本。按这两个考虑,我目前的策略就是。
: 1. 表格类的数据无脑上xgboost。纯表格类的项目也没有/不愿意接。
【在 w***g 的大作中提到】 : kaggle这个东西出来,把data scientist中产阶级全都杀死了。 : 顶级DS吃香的喝辣的,初级DS直接找kernel上就能秒杀中产DS。 : 中间的,自己写也写不过public kernel,也体现不出啥价值了。
|
w***g 发帖数: 5958 | 44 mnist单个图片小,所以虽然样本多,总体也还是CPU能够handle的范围。
而且完全不需要预处理。所以是灌水文的最爱。
【在 g****t 的大作中提到】 : 我提mnist是因为感觉也许mnist就比3,5千图片的training set难。毕竟mnist有6万图 : 片。 : : : 读一篇论文,我会先看它用了什么数据集做验证。 : : 如果我看到一篇论文只用了nmist做验证,除非名声特别响, : : 剩下的我就不会看一个字了。因为作者deliver的信息是 : : 无非是几选一。1. 这个方法作者自己都不是很看好, : : 不愿意花时间多验证几个数据集。2. 这个方法在别的数据 : : 集上表现不好。3. 这个作者缺乏工程能力,大的数据集 : : 搞不定。
|
g****t 发帖数: 31659 | 45 这要看DS的统计基础,也就是大二概率是不是学的牢靠。真懂统计的,假如open
source或者kaggle出了个好的kernal 其实不是问题。
因为两个方法的residual只要方向不一样,理论上就可以有效平均,得到更强壮的方法
。这个和买股票没有人会只买涨的最快的那个是一样的原因。
为了适应新时代,传统的DS应该把这些kernal看作底层axiom module往上做。不然确实
是很快就没饭吃。他们的工作很可能会被懂得描述问题带入现存tool的软件工程师代替。
: kaggle这个东西出来,把data scientist中产阶级全都杀死了。
: 顶级DS吃香的喝辣的,初级DS直接找kernel上就能秒杀中产DS。
: 中间的,自己写也写不过public kernel,也体现不出啥价值了。
【在 w***g 的大作中提到】 : mnist单个图片小,所以虽然样本多,总体也还是CPU能够handle的范围。 : 而且完全不需要预处理。所以是灌水文的最爱。
|
w***g 发帖数: 5958 | 46
替。
----------------------------------------------------------------------------
----
就是这样。
【在 g****t 的大作中提到】 : 这要看DS的统计基础,也就是大二概率是不是学的牢靠。真懂统计的,假如open : source或者kaggle出了个好的kernal 其实不是问题。 : 因为两个方法的residual只要方向不一样,理论上就可以有效平均,得到更强壮的方法 : 。这个和买股票没有人会只买涨的最快的那个是一样的原因。 : 为了适应新时代,传统的DS应该把这些kernal看作底层axiom module往上做。不然确实 : 是很快就没饭吃。他们的工作很可能会被懂得描述问题带入现存tool的软件工程师代替。 : : : kaggle这个东西出来,把data scientist中产阶级全都杀死了。 : : 顶级DS吃香的喝辣的,初级DS直接找kernel上就能秒杀中产DS。 : : 中间的,自己写也写不过public kernel,也体现不出啥价值了。
|
g****t 发帖数: 31659 | 47 说实话十几万一年的高端DS,一个月做的模型,极大的可能不如你招h1b一星期做出来
的。那么未来他们工作的价值最多也就是现在工资的1/10.
技术以及技术的宿主software tool飞速发展,这个没办法。
【在 w***g 的大作中提到】 : : 替。 : ---------------------------------------------------------------------------- : ---- : 就是这样。
|
W***o 发帖数: 6519 | 48 董老板的work flow要如同福特汽车开始一样实现流水线化就会降低成本了
不过这种需要不停的去开发新客户,还不如去bid 一些政府的长期项目(3-5 年)做。
政府的项目可以很大;
类似的思路可以是去政府项目承包商的sub-contractor,
比如去booz allen hamilton, gd 这种大的承包商分一杯他们没能力没资源做的分项目做
政府的项目很稳定,一般不受经济环境大气候影响 |
l*******m 发帖数: 1096 | 49 现在的形式是海华基本拿不到政府项目。如果有个老白的皮包公司拉项目,还是很肥的
:董老板的work flow要如同福特汽车开始一样实现流水线化就会降低成本了
: |
w***g 发帖数: 5958 | 50 收买几个老白老黑,控股他们,让他们出面去申请不知道行不行。
最近在看/读《教父》,觉得真牛啊。我现在手下有两个比较可靠的人,
将来做大了让他们当caporegime。
【在 l*******m 的大作中提到】 : 现在的形式是海华基本拿不到政府项目。如果有个老白的皮包公司拉项目,还是很肥的 : : :董老板的work flow要如同福特汽车开始一样实现流水线化就会降低成本了 : :
|
|
|
x**********i 发帖数: 658 | 51 wdong老师,请问用tf+xgboost怎么做?我只知道tf做分类器,但苦于不知道怎么加上
xgboost。你能推荐几个公开的github projects作为参考吗?谢谢
【在 w***g 的大作中提到】 : 你这个肯定不行。我太有经验了。一星期只够调几次参数。 : 并且手写分类器也基本不可能干过tf和xgboost。 : : 种办
|
l*******1 发帖数: 1 | 52 训练200多模型最后一个还和第一个成本一样,应该陷入沉思了 |
x***4 发帖数: 1815 | 53 这么干何必呢。累死累活才这么一点钱。为什么老中总是挑破活。
【在 w***g 的大作中提到】 : 比如平均三五千张图片的训练集,训练一个分类或者分割模型,收费$2000。 : 假设不缺生意。假设能招到5个h1b小弟训练干活。一星期出一个模型。 : 其中假设有1/10搞不定需要我出手。我一星期两天用来解决难题,两天 : 用来拉生意,还有一天折腾各种事情。 : 这么算下来,一年revenue是 52 * 5 * 2000 = 52万。 : 分钱方法是我一年拿20万,小弟没人拿6.4万。 : 但其实是不可行的。 : 1. 每年从哪里去找260个模型训练的活。 : 2. 每个人工作其实都不轻松。 : 3. 没算各种场地器材utility的overhead。没算任何benefit。
|
x**********i 发帖数: 658 | 54 那些排名靠前的kernel作者愿意分享?
【在 w***g 的大作中提到】 : kaggle这个东西出来,把data scientist中产阶级全都杀死了。 : 顶级DS吃香的喝辣的,初级DS直接找kernel上就能秒杀中产DS。 : 中间的,自己写也写不过public kernel,也体现不出啥价值了。
|
g****t 发帖数: 31659 | 55 对技艺一般的ds来讲。我认为
花时间看kaggle, github上的各种公开模型,拼凑一下,大概率比自己做模型更有效率。
但是拼凑也要一些经验和背景知识。这条路比较适合软件出身的人走,可以把DS的人的
位置弄的无关紧要。
: 那些排名靠前的kernel作者愿意分享?
【在 x**********i 的大作中提到】 : 那些排名靠前的kernel作者愿意分享?
|
x****u 发帖数: 44466 | 56 有个imagenet打底,3,5千图片不在话下
怕的就是10张MRI让你学出100种疾病标签这种外行数据集
【在 g****t 的大作中提到】 : 我提mnist是因为感觉也许mnist就比3,5千图片的training set难。毕竟mnist有6万图 : 片。 : : : 读一篇论文,我会先看它用了什么数据集做验证。 : : 如果我看到一篇论文只用了nmist做验证,除非名声特别响, : : 剩下的我就不会看一个字了。因为作者deliver的信息是 : : 无非是几选一。1. 这个方法作者自己都不是很看好, : : 不愿意花时间多验证几个数据集。2. 这个方法在别的数据 : : 集上表现不好。3. 这个作者缺乏工程能力,大的数据集 : : 搞不定。
|
w***g 发帖数: 5958 | 57 xgboost tf没一般的做法。tf跑到spark上也是。提出这种需求或者架构,本身就是露
馅了。
: wdong老师,请问用tf xgboost怎么做?我只知道tf做分类器,但苦于不知道怎
么加上
: xgboost。你能推荐几个公开的github projects作为参考吗?谢谢
【在 x**********i 的大作中提到】 : 那些排名靠前的kernel作者愿意分享?
|
w*****r 发帖数: 197 | 58 Tf好像有个boosted tree classifier,效果不如xgboost, yahoo 有个遗腹子,就是
tensorflow on spark
: xgboost tf没一般的做法。tf跑到spark上也是。提出这种需求或者架构
,本身
就是露
: 馅了。
: 么加上
【在 w***g 的大作中提到】 : xgboost tf没一般的做法。tf跑到spark上也是。提出这种需求或者架构,本身就是露 : 馅了。 : : : wdong老师,请问用tf xgboost怎么做?我只知道tf做分类器,但苦于不知道怎 : 么加上 : : xgboost。你能推荐几个公开的github projects作为参考吗?谢谢 :
|
h***n 发帖数: 1275 | 59 问一下,训练好的模型的用途是啥,商业上,怎么赚钱 ?
【在 w***g 的大作中提到】 : 比如平均三五千张图片的训练集,训练一个分类或者分割模型,收费$2000。 : 假设不缺生意。假设能招到5个h1b小弟训练干活。一星期出一个模型。 : 其中假设有1/10搞不定需要我出手。我一星期两天用来解决难题,两天 : 用来拉生意,还有一天折腾各种事情。 : 这么算下来,一年revenue是 52 * 5 * 2000 = 52万。 : 分钱方法是我一年拿20万,小弟没人拿6.4万。 : 但其实是不可行的。 : 1. 每年从哪里去找260个模型训练的活。 : 2. 每个人工作其实都不轻松。 : 3. 没算各种场地器材utility的overhead。没算任何benefit。
|
g****t 发帖数: 31659 | 60 是不是tf那个estimator里的?我好像也见过。
: Tf好像有个boosted tree classifier,效果不如xgboost, yahoo 有个遗腹子,
就是
: tensorflow on spark
:
【在 w*****r 的大作中提到】 : Tf好像有个boosted tree classifier,效果不如xgboost, yahoo 有个遗腹子,就是 : tensorflow on spark : : : xgboost tf没一般的做法。tf跑到spark上也是。提出这种需求或者架构 : ,本身 : 就是露 : : 馅了。 : : 么加上 :
|
|
|
a*****g 发帖数: 19398 | 61 不错啊。w
【在 w***g 的大作中提到】 : 比如平均三五千张图片的训练集,训练一个分类或者分割模型,收费$2000。 : 假设不缺生意。假设能招到5个h1b小弟训练干活。一星期出一个模型。 : 其中假设有1/10搞不定需要我出手。我一星期两天用来解决难题,两天 : 用来拉生意,还有一天折腾各种事情。 : 这么算下来,一年revenue是 52 * 5 * 2000 = 52万。 : 分钱方法是我一年拿20万,小弟没人拿6.4万。 : 但其实是不可行的。 : 1. 每年从哪里去找260个模型训练的活。 : 2. 每个人工作其实都不轻松。 : 3. 没算各种场地器材utility的overhead。没算任何benefit。
|