由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 数据库的data和tensorflow集成
相关主题
[bssd]有本书Embedded Deep Learning有啥好的framework?
Spark 和 Tensorflow 线性回归问题FPGA-based DNNs
Theano, Spark ML, Microsoft’s CNTK, and Google’s TensorFlowdeep learning做embeded system,业界动态或者公司
pytorch技术上先进一些?没人讨论狗家最新开源的tensorflow?
各位自动驾驶技术发烧友们Tensorflow course (FREE Deep Learning)
titan v评测不高啊Deepmind,蜘蛛坦克,小笼包(zz)
[bssd] golang貌似要的人很多啊DNN就是hype (转载)
深度学习真正有实用价值的应用问几个神经网络的问题
相关话题的讨论汇总
话题: lgbt话题: 数据库话题: dnn话题: tensorflow话题: 数据
进入Programming版参与讨论
1 (共1页)
f******2
发帖数: 2455
1
看了一个文章,用数据库的数据做训练集,做了一个tensorflow的接口。
看完了有两个问题:
1. 深度网络对这种数据真有有用吗?作者是不是蹭热点啊?
2. 即使真有用,tensorflow对这种一行一行sql query出来的数据,训练起来太慢了吧?
w***g
发帖数: 5958
2
一般数据库I/O根本跟不上tf训练要求。
还有spark和tf整合的,都是扯淡。

吧?

【在 f******2 的大作中提到】
: 看了一个文章,用数据库的数据做训练集,做了一个tensorflow的接口。
: 看完了有两个问题:
: 1. 深度网络对这种数据真有有用吗?作者是不是蹭热点啊?
: 2. 即使真有用,tensorflow对这种一行一行sql query出来的数据,训练起来太慢了吧?

f******2
发帖数: 2455
3
谢谢指点。
您回答了我第二个问题,这玩意儿系统层面讲就是胡扯。
那么我问的第一个问题您怎么看?(假设系统performance不是问题)数据库的这些
tabulated value能做深度网络的训练数据吗?我孤陋寡闻,似乎没有听说structured
data适合这么玩儿的


: 一般数据库I/O根本跟不上tf训练要求。

: 还有spark和tf整合的,都是扯淡。

: 吧?



【在 w***g 的大作中提到】
: 一般数据库I/O根本跟不上tf训练要求。
: 还有spark和tf整合的,都是扯淡。
:
: 吧?

w***g
发帖数: 5958
4
到2017年12月为止,我认为table data应该无脑上LGBT。
最近我改变观点了。我觉得经过合适的处理,用CNN可以和
LGBT做的差不多好,可能稍微差一点。但是上CNN是值得的,
就是手工调architecture要容易的多,还可以整合各种类型的数据。
CNN提特征再LGBT,就没法end to end,在精度上是要吃亏的。
CNN主要的技术是embedding处理categorical variable。
参考这个kernel:
https://www.kaggle.com/alexanderkireev/deep-learning-support-9663
所有的kernel在这里
https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/kernels
一般分数在0.96x到0.97x之间。 xgb/lgbm流比cnn流的kernel要多,
平均分数要高。但是差别在0.01之内。leaderboard第一是0.983,我估计
就是拿public kernel的技术在加上各种ensemble stacking啥的弄出来的。

structured

【在 f******2 的大作中提到】
: 谢谢指点。
: 您回答了我第二个问题,这玩意儿系统层面讲就是胡扯。
: 那么我问的第一个问题您怎么看?(假设系统performance不是问题)数据库的这些
: tabulated value能做深度网络的训练数据吗?我孤陋寡闻,似乎没有听说structured
: data适合这么玩儿的
:
:
: 一般数据库I/O根本跟不上tf训练要求。
:
: 还有spark和tf整合的,都是扯淡。
:
: 吧?
:

w*****r
发帖数: 197
5
我觉得从data warehousing的角度,做一个从数据库到类似TFrecord的工具还是有意义
的。先有一个基础大数据集,再针对不同的学习任务,trim一个更高效的衍生数据集
s********k
发帖数: 6180
6
其实如果数据范式一直比较稳定,可以先train一个embedding,然后直接上DNN,好处
是可以iterate这样做,用spark的地方一般都是stream,不停有数据来,数据来了每次
可以直接算embedding然后做个几层的DNN,类似youtube那种wide network。embedding
每隔一段时间重新train一下,保证pipeline一直走,有可以不断更新

【在 w***g 的大作中提到】
: 到2017年12月为止,我认为table data应该无脑上LGBT。
: 最近我改变观点了。我觉得经过合适的处理,用CNN可以和
: LGBT做的差不多好,可能稍微差一点。但是上CNN是值得的,
: 就是手工调architecture要容易的多,还可以整合各种类型的数据。
: CNN提特征再LGBT,就没法end to end,在精度上是要吃亏的。
: CNN主要的技术是embedding处理categorical variable。
: 参考这个kernel:
: https://www.kaggle.com/alexanderkireev/deep-learning-support-9663
: 所有的kernel在这里
: https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/kernels

l******n
发帖数: 9344
7
这对business user是个很大的卖点,把DL完全白菜化。数据库那个公司没有,有了这
么个接口,然后就可以号称ai产品,想想都有点小激动。估计会有一波dl工具的热潮。
这个在搞ml的时候,不是很多公司就干这个,开发工具给analyst做ml?这基本是一个
思路。最好在来个gui的界面,直接drag一下就出model

吧?

【在 f******2 的大作中提到】
: 看了一个文章,用数据库的数据做训练集,做了一个tensorflow的接口。
: 看完了有两个问题:
: 1. 深度网络对这种数据真有有用吗?作者是不是蹭热点啊?
: 2. 即使真有用,tensorflow对这种一行一行sql query出来的数据,训练起来太慢了吧?

M********0
发帖数: 1230
8
没有完全明白你说的embedding比LGBT的优势在哪里
去年曾经在我们的data上试过embedding+DNN 结果远不如LGBT 也可能是我train不到位
的原因 我没有GPU 只是用CPU做的training
但如果我可以花很短的时间train一个相对结果更好的LGBT模型 那么embedding+DNN优
势在哪里呢?

【在 w***g 的大作中提到】
: 到2017年12月为止,我认为table data应该无脑上LGBT。
: 最近我改变观点了。我觉得经过合适的处理,用CNN可以和
: LGBT做的差不多好,可能稍微差一点。但是上CNN是值得的,
: 就是手工调architecture要容易的多,还可以整合各种类型的数据。
: CNN提特征再LGBT,就没法end to end,在精度上是要吃亏的。
: CNN主要的技术是embedding处理categorical variable。
: 参考这个kernel:
: https://www.kaggle.com/alexanderkireev/deep-learning-support-9663
: 所有的kernel在这里
: https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/kernels

l*******m
发帖数: 1096
9
从训练复杂度来讲,GBM是O(N LOG N)的,N是数据量。DNN是O(N)。而且GBM没法
MINI-BATCH
从计算角度, DNN只用到非常少而且大众的OPERATIONs,很容易在不同的硬件上加速。

【在 M********0 的大作中提到】
: 没有完全明白你说的embedding比LGBT的优势在哪里
: 去年曾经在我们的data上试过embedding+DNN 结果远不如LGBT 也可能是我train不到位
: 的原因 我没有GPU 只是用CPU做的training
: 但如果我可以花很短的时间train一个相对结果更好的LGBT模型 那么embedding+DNN优
: 势在哪里呢?

M********0
发帖数: 1230
10
OK 听着有道理 我需要理解下你的观点 lol

【在 l*******m 的大作中提到】
: 从训练复杂度来讲,GBM是O(N LOG N)的,N是数据量。DNN是O(N)。而且GBM没法
: MINI-BATCH
: 从计算角度, DNN只用到非常少而且大众的OPERATIONs,很容易在不同的硬件上加速。

相关主题
[bssd] golang貌似要的人很多啊FPGA-based DNNs
深度学习真正有实用价值的应用deep learning做embeded system,业界动态或者公司
Embedded Deep Learning有啥好的framework?没人讨论狗家最新开源的tensorflow?
进入Programming版参与讨论
w***g
发帖数: 5958
11
我知道的。TF能提供的性能是100, 连上db以后降到10, business users需要的性能
可能只有5。 虽然是杀鸡用牛刀,事情干成了还是有钱赚。
我这样挑剔肯定是赚不到钱的。

【在 l******n 的大作中提到】
: 这对business user是个很大的卖点,把DL完全白菜化。数据库那个公司没有,有了这
: 么个接口,然后就可以号称ai产品,想想都有点小激动。估计会有一波dl工具的热潮。
: 这个在搞ml的时候,不是很多公司就干这个,开发工具给analyst做ml?这基本是一个
: 思路。最好在来个gui的界面,直接drag一下就出model
:
: 吧?

s********k
发帖数: 6180
12
https://dynamics.microsoft.com/en-us/
已经被搞进Azure了,大多数business根本不需要DL,但是宣传一下powered by AI估计
能多charge点,本质上还是UX和data pipeline backend的工作多

【在 l******n 的大作中提到】
: 这对business user是个很大的卖点,把DL完全白菜化。数据库那个公司没有,有了这
: 么个接口,然后就可以号称ai产品,想想都有点小激动。估计会有一波dl工具的热潮。
: 这个在搞ml的时候,不是很多公司就干这个,开发工具给analyst做ml?这基本是一个
: 思路。最好在来个gui的界面,直接drag一下就出model
:
: 吧?

c*******v
发帖数: 2599
13
DL is a selling point now.
顺风扯旗,跟上大队。你不跟,将来就算DL算法不是最好,
但是大队的人改进DL tool,系统做的干净漂亮高效,你再好的算法也会被打死。
另外CNN只有三个算子。矩阵乘法,ReLu,卷积。结构简单,
扩展性很强。可以堆硬件。堆硬件比堆人省事。这个优点是实打实的。

【在 M********0 的大作中提到】
: 没有完全明白你说的embedding比LGBT的优势在哪里
: 去年曾经在我们的data上试过embedding+DNN 结果远不如LGBT 也可能是我train不到位
: 的原因 我没有GPU 只是用CPU做的training
: 但如果我可以花很短的时间train一个相对结果更好的LGBT模型 那么embedding+DNN优
: 势在哪里呢?

l*******m
发帖数: 1096
14
尤其是云服务商,希望越慢越好。比如在云上租个2xP100或V100,简单的benchmark似
乎没问题,训练个imageNet就慢好多。因为default 硬盘是网盘, IO有限。一般用户
也不知道应该有多块,服务商省了一大笔电费,偷着笑。少数有能力的发现问题,只好
租有local SSD的instances 了,还是要多花些钱,但至少明明白白。

【在 w***g 的大作中提到】
: 我知道的。TF能提供的性能是100, 连上db以后降到10, business users需要的性能
: 可能只有5。 虽然是杀鸡用牛刀,事情干成了还是有钱赚。
: 我这样挑剔肯定是赚不到钱的。

L****8
发帖数: 3938
15
弱问一句 CNN咋处理这个表格数据?

【在 w***g 的大作中提到】
: 到2017年12月为止,我认为table data应该无脑上LGBT。
: 最近我改变观点了。我觉得经过合适的处理,用CNN可以和
: LGBT做的差不多好,可能稍微差一点。但是上CNN是值得的,
: 就是手工调architecture要容易的多,还可以整合各种类型的数据。
: CNN提特征再LGBT,就没法end to end,在精度上是要吃亏的。
: CNN主要的技术是embedding处理categorical variable。
: 参考这个kernel:
: https://www.kaggle.com/alexanderkireev/deep-learning-support-9663
: 所有的kernel在这里
: https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/kernels

l*******m
发帖数: 1096
16
DNN, typo

【在 L****8 的大作中提到】
: 弱问一句 CNN咋处理这个表格数据?
f******2
发帖数: 2455
17
在输入是图像这种训练输入的时候,每一层干啥大家慢慢能给个不太靠谱的解释。
在输入是一堆(k,(v1,v2,v3.....))这种数据库里的rows的时候,这dnn怎么玩
的?会不会很快就overfit了?


: DNN, typo



【在 l*******m 的大作中提到】
: DNN, typo
f******2
发帖数: 2455
18
可不可以把tensor算子做成pushdown operator(借用hadoop把运算push到数据侧的思
路,或者数据库trigger的思路),建成一个AI ready的新一代的数据库co-peocessor。
这样不就把系统层面(我的第二个问题)的bottleneck问题解决了吗?


: 我知道的。TF能提供的性能是100, 连上db以后降到10, business users需要的
性能

: 可能只有5。 虽然是杀鸡用牛刀,事情干成了还是有钱赚。

: 我这样挑剔肯定是赚不到钱的。



【在 w***g 的大作中提到】
: 我知道的。TF能提供的性能是100, 连上db以后降到10, business users需要的性能
: 可能只有5。 虽然是杀鸡用牛刀,事情干成了还是有钱赚。
: 我这样挑剔肯定是赚不到钱的。

w*****r
发帖数: 197
19
在入SQL脚本后,查找结果可以做成streaming的方式吗?这样没准儿能行


: 可不可以把tensor算子做成pushdown operator(借用hadoop把运算push到数据
侧的思

: 路,或者数据库trigger的思路),建成一个AI ready的新一代的数据库co-
peocessor。

: 这样不就把系统层面(我的第二个问题)的bottleneck问题解决了吗?

: 性能



【在 f******2 的大作中提到】
: 可不可以把tensor算子做成pushdown operator(借用hadoop把运算push到数据侧的思
: 路,或者数据库trigger的思路),建成一个AI ready的新一代的数据库co-peocessor。
: 这样不就把系统层面(我的第二个问题)的bottleneck问题解决了吗?
:
:
: 我知道的。TF能提供的性能是100, 连上db以后降到10, business users需要的
: 性能
:
: 可能只有5。 虽然是杀鸡用牛刀,事情干成了还是有钱赚。
:
: 我这样挑剔肯定是赚不到钱的。
:

l*******m
发帖数: 1096
20
基本就是两三层全联通,找cross features

:在输入是图像这种训练输入的时候,每一层干啥大家慢慢能给个不太靠谱的解释。
相关主题
Tensorflow course (FREE Deep Learning)问几个神经网络的问题
Deepmind,蜘蛛坦克,小笼包(zz)大部分人还认为阿法狗在背棋谱 (转载)
DNN就是hype (转载)关于搞ML刷数据的职业前途
进入Programming版参与讨论
l*******m
发帖数: 1096
21
大的query都是streaming吧

:在入SQL脚本后,查找结果可以做成streaming的方式吗?这样没准儿能行
l******n
发帖数: 9344
22
TF能提供的性能是100, 连上db以后降到10,这说明还有很大的改进潜力,business
user也需要升级的空间吗,说不定搞个dnn专用db也挺美好

【在 w***g 的大作中提到】
: 我知道的。TF能提供的性能是100, 连上db以后降到10, business users需要的性能
: 可能只有5。 虽然是杀鸡用牛刀,事情干成了还是有钱赚。
: 我这样挑剔肯定是赚不到钱的。

r****t
发帖数: 10904
23
弱问一下 ML 里 LGBT 是啥?没狗出来

【在 w***g 的大作中提到】
: 到2017年12月为止,我认为table data应该无脑上LGBT。
: 最近我改变观点了。我觉得经过合适的处理,用CNN可以和
: LGBT做的差不多好,可能稍微差一点。但是上CNN是值得的,
: 就是手工调architecture要容易的多,还可以整合各种类型的数据。
: CNN提特征再LGBT,就没法end to end,在精度上是要吃亏的。
: CNN主要的技术是embedding处理categorical variable。
: 参考这个kernel:
: https://www.kaggle.com/alexanderkireev/deep-learning-support-9663
: 所有的kernel在这里
: https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/kernels

h**c
发帖数: 1979
24
Looks like Light Gradient boosting

【在 r****t 的大作中提到】
: 弱问一下 ML 里 LGBT 是啥?没狗出来
w***g
发帖数: 5958
25
应该是GBDT

:弱问一下 ML 里 LGBT 是啥?没狗出来
M********0
发帖数: 1230
26
Typo...是GBDT wdong打成了LGBT
我就被带沟里了 这就是典型的被大牛带歪了 所以说自己不够牛 轻易不要跟着大牛 容
易掉进坑。。。

【在 r****t 的大作中提到】
: 弱问一下 ML 里 LGBT 是啥?没狗出来
s********k
发帖数: 6180
27
LGBT, or GLBT, is an initialism that stands for lesbian, gay, bisexual, and
transgender.
hah

【在 M********0 的大作中提到】
: Typo...是GBDT wdong打成了LGBT
: 我就被带沟里了 这就是典型的被大牛带歪了 所以说自己不够牛 轻易不要跟着大牛 容
: 易掉进坑。。。

1 (共1页)
进入Programming版参与讨论
相关主题
大部分人还认为阿法狗在背棋谱 (转载)各位自动驾驶技术发烧友们
关于搞ML刷数据的职业前途titan v评测不高啊
caffe等CNN里面convolution和relu是分开的两层?[bssd] golang貌似要的人很多啊
亚麻决定支持mxnet深度学习真正有实用价值的应用
[bssd]有本书Embedded Deep Learning有啥好的framework?
Spark 和 Tensorflow 线性回归问题FPGA-based DNNs
Theano, Spark ML, Microsoft’s CNTK, and Google’s TensorFlowdeep learning做embeded system,业界动态或者公司
pytorch技术上先进一些?没人讨论狗家最新开源的tensorflow?
相关话题的讨论汇总
话题: lgbt话题: 数据库话题: dnn话题: tensorflow话题: 数据