f******2 发帖数: 2455 | 1 看了一个文章,用数据库的数据做训练集,做了一个tensorflow的接口。
看完了有两个问题:
1. 深度网络对这种数据真有有用吗?作者是不是蹭热点啊?
2. 即使真有用,tensorflow对这种一行一行sql query出来的数据,训练起来太慢了吧? |
w***g 发帖数: 5958 | 2 一般数据库I/O根本跟不上tf训练要求。
还有spark和tf整合的,都是扯淡。
吧?
【在 f******2 的大作中提到】 : 看了一个文章,用数据库的数据做训练集,做了一个tensorflow的接口。 : 看完了有两个问题: : 1. 深度网络对这种数据真有有用吗?作者是不是蹭热点啊? : 2. 即使真有用,tensorflow对这种一行一行sql query出来的数据,训练起来太慢了吧?
|
f******2 发帖数: 2455 | 3 谢谢指点。
您回答了我第二个问题,这玩意儿系统层面讲就是胡扯。
那么我问的第一个问题您怎么看?(假设系统performance不是问题)数据库的这些
tabulated value能做深度网络的训练数据吗?我孤陋寡闻,似乎没有听说structured
data适合这么玩儿的
: 一般数据库I/O根本跟不上tf训练要求。
: 还有spark和tf整合的,都是扯淡。
: 吧?
【在 w***g 的大作中提到】 : 一般数据库I/O根本跟不上tf训练要求。 : 还有spark和tf整合的,都是扯淡。 : : 吧?
|
w***g 发帖数: 5958 | 4 到2017年12月为止,我认为table data应该无脑上LGBT。
最近我改变观点了。我觉得经过合适的处理,用CNN可以和
LGBT做的差不多好,可能稍微差一点。但是上CNN是值得的,
就是手工调architecture要容易的多,还可以整合各种类型的数据。
CNN提特征再LGBT,就没法end to end,在精度上是要吃亏的。
CNN主要的技术是embedding处理categorical variable。
参考这个kernel:
https://www.kaggle.com/alexanderkireev/deep-learning-support-9663
所有的kernel在这里
https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/kernels
一般分数在0.96x到0.97x之间。 xgb/lgbm流比cnn流的kernel要多,
平均分数要高。但是差别在0.01之内。leaderboard第一是0.983,我估计
就是拿public kernel的技术在加上各种ensemble stacking啥的弄出来的。
structured
【在 f******2 的大作中提到】 : 谢谢指点。 : 您回答了我第二个问题,这玩意儿系统层面讲就是胡扯。 : 那么我问的第一个问题您怎么看?(假设系统performance不是问题)数据库的这些 : tabulated value能做深度网络的训练数据吗?我孤陋寡闻,似乎没有听说structured : data适合这么玩儿的 : : : 一般数据库I/O根本跟不上tf训练要求。 : : 还有spark和tf整合的,都是扯淡。 : : 吧? :
|
w*****r 发帖数: 197 | 5 我觉得从data warehousing的角度,做一个从数据库到类似TFrecord的工具还是有意义
的。先有一个基础大数据集,再针对不同的学习任务,trim一个更高效的衍生数据集 |
s********k 发帖数: 6180 | 6 其实如果数据范式一直比较稳定,可以先train一个embedding,然后直接上DNN,好处
是可以iterate这样做,用spark的地方一般都是stream,不停有数据来,数据来了每次
可以直接算embedding然后做个几层的DNN,类似youtube那种wide network。embedding
每隔一段时间重新train一下,保证pipeline一直走,有可以不断更新
【在 w***g 的大作中提到】 : 到2017年12月为止,我认为table data应该无脑上LGBT。 : 最近我改变观点了。我觉得经过合适的处理,用CNN可以和 : LGBT做的差不多好,可能稍微差一点。但是上CNN是值得的, : 就是手工调architecture要容易的多,还可以整合各种类型的数据。 : CNN提特征再LGBT,就没法end to end,在精度上是要吃亏的。 : CNN主要的技术是embedding处理categorical variable。 : 参考这个kernel: : https://www.kaggle.com/alexanderkireev/deep-learning-support-9663 : 所有的kernel在这里 : https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/kernels
|
l******n 发帖数: 9344 | 7 这对business user是个很大的卖点,把DL完全白菜化。数据库那个公司没有,有了这
么个接口,然后就可以号称ai产品,想想都有点小激动。估计会有一波dl工具的热潮。
这个在搞ml的时候,不是很多公司就干这个,开发工具给analyst做ml?这基本是一个
思路。最好在来个gui的界面,直接drag一下就出model
吧?
【在 f******2 的大作中提到】 : 看了一个文章,用数据库的数据做训练集,做了一个tensorflow的接口。 : 看完了有两个问题: : 1. 深度网络对这种数据真有有用吗?作者是不是蹭热点啊? : 2. 即使真有用,tensorflow对这种一行一行sql query出来的数据,训练起来太慢了吧?
|
M********0 发帖数: 1230 | 8 没有完全明白你说的embedding比LGBT的优势在哪里
去年曾经在我们的data上试过embedding+DNN 结果远不如LGBT 也可能是我train不到位
的原因 我没有GPU 只是用CPU做的training
但如果我可以花很短的时间train一个相对结果更好的LGBT模型 那么embedding+DNN优
势在哪里呢?
【在 w***g 的大作中提到】 : 到2017年12月为止,我认为table data应该无脑上LGBT。 : 最近我改变观点了。我觉得经过合适的处理,用CNN可以和 : LGBT做的差不多好,可能稍微差一点。但是上CNN是值得的, : 就是手工调architecture要容易的多,还可以整合各种类型的数据。 : CNN提特征再LGBT,就没法end to end,在精度上是要吃亏的。 : CNN主要的技术是embedding处理categorical variable。 : 参考这个kernel: : https://www.kaggle.com/alexanderkireev/deep-learning-support-9663 : 所有的kernel在这里 : https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/kernels
|
l*******m 发帖数: 1096 | 9 从训练复杂度来讲,GBM是O(N LOG N)的,N是数据量。DNN是O(N)。而且GBM没法
MINI-BATCH
从计算角度, DNN只用到非常少而且大众的OPERATIONs,很容易在不同的硬件上加速。
【在 M********0 的大作中提到】 : 没有完全明白你说的embedding比LGBT的优势在哪里 : 去年曾经在我们的data上试过embedding+DNN 结果远不如LGBT 也可能是我train不到位 : 的原因 我没有GPU 只是用CPU做的training : 但如果我可以花很短的时间train一个相对结果更好的LGBT模型 那么embedding+DNN优 : 势在哪里呢?
|
M********0 发帖数: 1230 | 10 OK 听着有道理 我需要理解下你的观点 lol
【在 l*******m 的大作中提到】 : 从训练复杂度来讲,GBM是O(N LOG N)的,N是数据量。DNN是O(N)。而且GBM没法 : MINI-BATCH : 从计算角度, DNN只用到非常少而且大众的OPERATIONs,很容易在不同的硬件上加速。
|
|
|
w***g 发帖数: 5958 | 11 我知道的。TF能提供的性能是100, 连上db以后降到10, business users需要的性能
可能只有5。 虽然是杀鸡用牛刀,事情干成了还是有钱赚。
我这样挑剔肯定是赚不到钱的。
【在 l******n 的大作中提到】 : 这对business user是个很大的卖点,把DL完全白菜化。数据库那个公司没有,有了这 : 么个接口,然后就可以号称ai产品,想想都有点小激动。估计会有一波dl工具的热潮。 : 这个在搞ml的时候,不是很多公司就干这个,开发工具给analyst做ml?这基本是一个 : 思路。最好在来个gui的界面,直接drag一下就出model : : 吧?
|
s********k 发帖数: 6180 | 12 https://dynamics.microsoft.com/en-us/
已经被搞进Azure了,大多数business根本不需要DL,但是宣传一下powered by AI估计
能多charge点,本质上还是UX和data pipeline backend的工作多
【在 l******n 的大作中提到】 : 这对business user是个很大的卖点,把DL完全白菜化。数据库那个公司没有,有了这 : 么个接口,然后就可以号称ai产品,想想都有点小激动。估计会有一波dl工具的热潮。 : 这个在搞ml的时候,不是很多公司就干这个,开发工具给analyst做ml?这基本是一个 : 思路。最好在来个gui的界面,直接drag一下就出model : : 吧?
|
c*******v 发帖数: 2599 | 13 DL is a selling point now.
顺风扯旗,跟上大队。你不跟,将来就算DL算法不是最好,
但是大队的人改进DL tool,系统做的干净漂亮高效,你再好的算法也会被打死。
另外CNN只有三个算子。矩阵乘法,ReLu,卷积。结构简单,
扩展性很强。可以堆硬件。堆硬件比堆人省事。这个优点是实打实的。
【在 M********0 的大作中提到】 : 没有完全明白你说的embedding比LGBT的优势在哪里 : 去年曾经在我们的data上试过embedding+DNN 结果远不如LGBT 也可能是我train不到位 : 的原因 我没有GPU 只是用CPU做的training : 但如果我可以花很短的时间train一个相对结果更好的LGBT模型 那么embedding+DNN优 : 势在哪里呢?
|
l*******m 发帖数: 1096 | 14 尤其是云服务商,希望越慢越好。比如在云上租个2xP100或V100,简单的benchmark似
乎没问题,训练个imageNet就慢好多。因为default 硬盘是网盘, IO有限。一般用户
也不知道应该有多块,服务商省了一大笔电费,偷着笑。少数有能力的发现问题,只好
租有local SSD的instances 了,还是要多花些钱,但至少明明白白。
【在 w***g 的大作中提到】 : 我知道的。TF能提供的性能是100, 连上db以后降到10, business users需要的性能 : 可能只有5。 虽然是杀鸡用牛刀,事情干成了还是有钱赚。 : 我这样挑剔肯定是赚不到钱的。
|
L****8 发帖数: 3938 | 15 弱问一句 CNN咋处理这个表格数据?
【在 w***g 的大作中提到】 : 到2017年12月为止,我认为table data应该无脑上LGBT。 : 最近我改变观点了。我觉得经过合适的处理,用CNN可以和 : LGBT做的差不多好,可能稍微差一点。但是上CNN是值得的, : 就是手工调architecture要容易的多,还可以整合各种类型的数据。 : CNN提特征再LGBT,就没法end to end,在精度上是要吃亏的。 : CNN主要的技术是embedding处理categorical variable。 : 参考这个kernel: : https://www.kaggle.com/alexanderkireev/deep-learning-support-9663 : 所有的kernel在这里 : https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/kernels
|
l*******m 发帖数: 1096 | 16 DNN, typo
【在 L****8 的大作中提到】 : 弱问一句 CNN咋处理这个表格数据?
|
f******2 发帖数: 2455 | 17 在输入是图像这种训练输入的时候,每一层干啥大家慢慢能给个不太靠谱的解释。
在输入是一堆(k,(v1,v2,v3.....))这种数据库里的rows的时候,这dnn怎么玩
的?会不会很快就overfit了?
: DNN, typo
【在 l*******m 的大作中提到】 : DNN, typo
|
f******2 发帖数: 2455 | 18 可不可以把tensor算子做成pushdown operator(借用hadoop把运算push到数据侧的思
路,或者数据库trigger的思路),建成一个AI ready的新一代的数据库co-peocessor。
这样不就把系统层面(我的第二个问题)的bottleneck问题解决了吗?
: 我知道的。TF能提供的性能是100, 连上db以后降到10, business users需要的
性能
: 可能只有5。 虽然是杀鸡用牛刀,事情干成了还是有钱赚。
: 我这样挑剔肯定是赚不到钱的。
【在 w***g 的大作中提到】 : 我知道的。TF能提供的性能是100, 连上db以后降到10, business users需要的性能 : 可能只有5。 虽然是杀鸡用牛刀,事情干成了还是有钱赚。 : 我这样挑剔肯定是赚不到钱的。
|
w*****r 发帖数: 197 | 19 在入SQL脚本后,查找结果可以做成streaming的方式吗?这样没准儿能行
: 可不可以把tensor算子做成pushdown operator(借用hadoop把运算push到数据
侧的思
: 路,或者数据库trigger的思路),建成一个AI ready的新一代的数据库co-
peocessor。
: 这样不就把系统层面(我的第二个问题)的bottleneck问题解决了吗?
: 性能
【在 f******2 的大作中提到】 : 可不可以把tensor算子做成pushdown operator(借用hadoop把运算push到数据侧的思 : 路,或者数据库trigger的思路),建成一个AI ready的新一代的数据库co-peocessor。 : 这样不就把系统层面(我的第二个问题)的bottleneck问题解决了吗? : : : 我知道的。TF能提供的性能是100, 连上db以后降到10, business users需要的 : 性能 : : 可能只有5。 虽然是杀鸡用牛刀,事情干成了还是有钱赚。 : : 我这样挑剔肯定是赚不到钱的。 :
|
l*******m 发帖数: 1096 | 20 基本就是两三层全联通,找cross features
:在输入是图像这种训练输入的时候,每一层干啥大家慢慢能给个不太靠谱的解释。
: |
|
|
l*******m 发帖数: 1096 | 21 大的query都是streaming吧
:在入SQL脚本后,查找结果可以做成streaming的方式吗?这样没准儿能行
: |
l******n 发帖数: 9344 | 22 TF能提供的性能是100, 连上db以后降到10,这说明还有很大的改进潜力,business
user也需要升级的空间吗,说不定搞个dnn专用db也挺美好
【在 w***g 的大作中提到】 : 我知道的。TF能提供的性能是100, 连上db以后降到10, business users需要的性能 : 可能只有5。 虽然是杀鸡用牛刀,事情干成了还是有钱赚。 : 我这样挑剔肯定是赚不到钱的。
|
r****t 发帖数: 10904 | 23 弱问一下 ML 里 LGBT 是啥?没狗出来
【在 w***g 的大作中提到】 : 到2017年12月为止,我认为table data应该无脑上LGBT。 : 最近我改变观点了。我觉得经过合适的处理,用CNN可以和 : LGBT做的差不多好,可能稍微差一点。但是上CNN是值得的, : 就是手工调architecture要容易的多,还可以整合各种类型的数据。 : CNN提特征再LGBT,就没法end to end,在精度上是要吃亏的。 : CNN主要的技术是embedding处理categorical variable。 : 参考这个kernel: : https://www.kaggle.com/alexanderkireev/deep-learning-support-9663 : 所有的kernel在这里 : https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/kernels
|
h**c 发帖数: 1979 | 24 Looks like Light Gradient boosting
【在 r****t 的大作中提到】 : 弱问一下 ML 里 LGBT 是啥?没狗出来
|
w***g 发帖数: 5958 | 25 应该是GBDT
:弱问一下 ML 里 LGBT 是啥?没狗出来
: |
M********0 发帖数: 1230 | 26 Typo...是GBDT wdong打成了LGBT
我就被带沟里了 这就是典型的被大牛带歪了 所以说自己不够牛 轻易不要跟着大牛 容
易掉进坑。。。
【在 r****t 的大作中提到】 : 弱问一下 ML 里 LGBT 是啥?没狗出来
|
s********k 发帖数: 6180 | 27 LGBT, or GLBT, is an initialism that stands for lesbian, gay, bisexual, and
transgender.
hah
【在 M********0 的大作中提到】 : Typo...是GBDT wdong打成了LGBT : 我就被带沟里了 这就是典型的被大牛带歪了 所以说自己不够牛 轻易不要跟着大牛 容 : 易掉进坑。。。
|