数据库的data和tensorflow集成 - Programming版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 数据库的data和tensorflow集成

相关主题
● [bssd]有本书	● Embedded Deep Learning有啥好的framework？
● Spark 和 Tensorflow 线性回归问题	● FPGA-based DNNs
● Theano, Spark ML, Microsoft’s CNTK, and Google’s TensorFlow	● deep learning做embeded system，业界动态或者公司
● pytorch技术上先进一些？	● 没人讨论狗家最新开源的tensorflow？
● 各位自动驾驶技术发烧友们	● Tensorflow course (FREE Deep Learning)
● titan v评测不高啊	● Deepmind，蜘蛛坦克，小笼包(zz)
● [bssd] golang貌似要的人很多啊	● DNN就是hype (转载)
● 深度学习真正有实用价值的应用	● 问几个神经网络的问题

相关话题的讨论汇总
话题: lgbt话题: 数据库话题: dnn话题: tensorflow话题: 数据

进入Programming版参与讨论

(共1页)

f******2
发帖数: 2455

看了一个文章，用数据库的数据做训练集，做了一个tensorflow的接口。
看完了有两个问题：
1. 深度网络对这种数据真有有用吗？作者是不是蹭热点啊？
2. 即使真有用，tensorflow对这种一行一行sql query出来的数据，训练起来太慢了吧？

w***g
发帖数: 5958

一般数据库I/O根本跟不上tf训练要求。
还有spark和tf整合的，都是扯淡。

吧？

【在 f******2 的大作中提到】

: 看了一个文章，用数据库的数据做训练集，做了一个tensorflow的接口。
: 看完了有两个问题：
: 1. 深度网络对这种数据真有有用吗？作者是不是蹭热点啊？
: 2. 即使真有用，tensorflow对这种一行一行sql query出来的数据，训练起来太慢了吧？

f******2
发帖数: 2455

谢谢指点。
您回答了我第二个问题，这玩意儿系统层面讲就是胡扯。
那么我问的第一个问题您怎么看？（假设系统performance不是问题）数据库的这些
tabulated value能做深度网络的训练数据吗？我孤陋寡闻，似乎没有听说structured
data适合这么玩儿的

: 一般数据库I/O根本跟不上tf训练要求。

: 还有spark和tf整合的，都是扯淡。

: 吧？

【在 w***g 的大作中提到】

: 一般数据库I/O根本跟不上tf训练要求。
: 还有spark和tf整合的，都是扯淡。
:
: 吧？

w***g
发帖数: 5958

到2017年12月为止，我认为table data应该无脑上LGBT。
最近我改变观点了。我觉得经过合适的处理，用CNN可以和
LGBT做的差不多好，可能稍微差一点。但是上CNN是值得的，
就是手工调architecture要容易的多，还可以整合各种类型的数据。
CNN提特征再LGBT，就没法end to end，在精度上是要吃亏的。
CNN主要的技术是embedding处理categorical variable。
参考这个kernel:
https://www.kaggle.com/alexanderkireev/deep-learning-support-9663
所有的kernel在这里
https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/kernels
一般分数在0.96x到0.97x之间。 xgb/lgbm流比cnn流的kernel要多，
平均分数要高。但是差别在0.01之内。leaderboard第一是0.983，我估计
就是拿public kernel的技术在加上各种ensemble stacking啥的弄出来的。

structured

【在 f******2 的大作中提到】

: 谢谢指点。
: 您回答了我第二个问题，这玩意儿系统层面讲就是胡扯。
: 那么我问的第一个问题您怎么看？（假设系统performance不是问题）数据库的这些
: tabulated value能做深度网络的训练数据吗？我孤陋寡闻，似乎没有听说structured
: data适合这么玩儿的
:
:
: 一般数据库I/O根本跟不上tf训练要求。
:
: 还有spark和tf整合的，都是扯淡。
:
: 吧？
:

w*****r
发帖数: 197

我觉得从data warehousing的角度，做一个从数据库到类似TFrecord的工具还是有意义
的。先有一个基础大数据集，再针对不同的学习任务，trim一个更高效的衍生数据集

s********k
发帖数: 6180

其实如果数据范式一直比较稳定，可以先train一个embedding，然后直接上DNN，好处
是可以iterate这样做，用spark的地方一般都是stream，不停有数据来，数据来了每次
可以直接算embedding然后做个几层的DNN，类似youtube那种wide network。embedding
每隔一段时间重新train一下，保证pipeline一直走，有可以不断更新

【在 w***g 的大作中提到】

: 到2017年12月为止，我认为table data应该无脑上LGBT。
: 最近我改变观点了。我觉得经过合适的处理，用CNN可以和
: LGBT做的差不多好，可能稍微差一点。但是上CNN是值得的，
: 就是手工调architecture要容易的多，还可以整合各种类型的数据。
: CNN提特征再LGBT，就没法end to end，在精度上是要吃亏的。
: CNN主要的技术是embedding处理categorical variable。
: 参考这个kernel:
: https://www.kaggle.com/alexanderkireev/deep-learning-support-9663
: 所有的kernel在这里
: https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/kernels

l******n
发帖数: 9344

这对business user是个很大的卖点，把DL完全白菜化。数据库那个公司没有，有了这
么个接口，然后就可以号称ai产品，想想都有点小激动。估计会有一波dl工具的热潮。
这个在搞ml的时候，不是很多公司就干这个，开发工具给analyst做ml？这基本是一个
思路。最好在来个gui的界面，直接drag一下就出model

吧？

【在 f******2 的大作中提到】

M********0
发帖数: 1230

没有完全明白你说的embedding比LGBT的优势在哪里
去年曾经在我们的data上试过embedding+DNN 结果远不如LGBT 也可能是我train不到位
的原因我没有GPU 只是用CPU做的training
但如果我可以花很短的时间train一个相对结果更好的LGBT模型那么embedding+DNN优
势在哪里呢？

【在 w***g 的大作中提到】

l*******m
发帖数: 1096

从训练复杂度来讲，GBM是O（N LOG N）的，N是数据量。DNN是O（N）。而且GBM没法
MINI-BATCH
从计算角度， DNN只用到非常少而且大众的OPERATIONs，很容易在不同的硬件上加速。

【在 M********0 的大作中提到】

: 没有完全明白你说的embedding比LGBT的优势在哪里
: 去年曾经在我们的data上试过embedding+DNN 结果远不如LGBT 也可能是我train不到位
: 的原因我没有GPU 只是用CPU做的training
: 但如果我可以花很短的时间train一个相对结果更好的LGBT模型那么embedding+DNN优
: 势在哪里呢？

M********0
发帖数: 1230

OK 听着有道理我需要理解下你的观点 lol

【在 l*******m 的大作中提到】

: 从训练复杂度来讲，GBM是O（N LOG N）的，N是数据量。DNN是O（N）。而且GBM没法
: MINI-BATCH
: 从计算角度， DNN只用到非常少而且大众的OPERATIONs，很容易在不同的硬件上加速。

相关主题
● [bssd] golang貌似要的人很多啊	● FPGA-based DNNs
● 深度学习真正有实用价值的应用	● deep learning做embeded system，业界动态或者公司
● Embedded Deep Learning有啥好的framework？	● 没人讨论狗家最新开源的tensorflow？
进入Programming版参与讨论

w***g
发帖数: 5958

我知道的。TF能提供的性能是100, 连上db以后降到10, business users需要的性能
可能只有5。虽然是杀鸡用牛刀，事情干成了还是有钱赚。
我这样挑剔肯定是赚不到钱的。

【在 l******n 的大作中提到】

: 这对business user是个很大的卖点，把DL完全白菜化。数据库那个公司没有，有了这
: 么个接口，然后就可以号称ai产品，想想都有点小激动。估计会有一波dl工具的热潮。
: 这个在搞ml的时候，不是很多公司就干这个，开发工具给analyst做ml？这基本是一个
: 思路。最好在来个gui的界面，直接drag一下就出model
:
: 吧？

s********k
发帖数: 6180

https://dynamics.microsoft.com/en-us/
已经被搞进Azure了，大多数business根本不需要DL，但是宣传一下powered by AI估计
能多charge点，本质上还是UX和data pipeline backend的工作多

【在 l******n 的大作中提到】

c*******v
发帖数: 2599

DL is a selling point now.
顺风扯旗，跟上大队。你不跟，将来就算DL算法不是最好，
但是大队的人改进DL tool，系统做的干净漂亮高效，你再好的算法也会被打死。
另外CNN只有三个算子。矩阵乘法，ReLu，卷积。结构简单，
扩展性很强。可以堆硬件。堆硬件比堆人省事。这个优点是实打实的。

【在 M********0 的大作中提到】

l*******m
发帖数: 1096

尤其是云服务商，希望越慢越好。比如在云上租个2xP100或V100，简单的benchmark似
乎没问题，训练个imageNet就慢好多。因为default 硬盘是网盘， IO有限。一般用户
也不知道应该有多块，服务商省了一大笔电费，偷着笑。少数有能力的发现问题，只好
租有local SSD的instances 了，还是要多花些钱，但至少明明白白。

【在 w***g 的大作中提到】

: 我知道的。TF能提供的性能是100, 连上db以后降到10, business users需要的性能
: 可能只有5。虽然是杀鸡用牛刀，事情干成了还是有钱赚。
: 我这样挑剔肯定是赚不到钱的。

L****8
发帖数: 3938

弱问一句 CNN咋处理这个表格数据？

【在 w***g 的大作中提到】

l*******m
发帖数: 1096

DNN， typo

【在 L****8 的大作中提到】

: 弱问一句 CNN咋处理这个表格数据？

f******2
发帖数: 2455

在输入是图像这种训练输入的时候，每一层干啥大家慢慢能给个不太靠谱的解释。
在输入是一堆（k，（v1，v2，v3.....））这种数据库里的rows的时候，这dnn怎么玩
的？会不会很快就overfit了？

: DNN， typo

【在 l*******m 的大作中提到】

: DNN， typo

f******2
发帖数: 2455

可不可以把tensor算子做成pushdown operator（借用hadoop把运算push到数据侧的思
路，或者数据库trigger的思路），建成一个AI ready的新一代的数据库co-peocessor。
这样不就把系统层面（我的第二个问题）的bottleneck问题解决了吗？

: 我知道的。TF能提供的性能是100, 连上db以后降到10, business users需要的
性能

: 可能只有5。虽然是杀鸡用牛刀，事情干成了还是有钱赚。

: 我这样挑剔肯定是赚不到钱的。

【在 w***g 的大作中提到】

w*****r
发帖数: 197

在入SQL脚本后，查找结果可以做成streaming的方式吗？这样没准儿能行

: 可不可以把tensor算子做成pushdown operator（借用hadoop把运算push到数据
侧的思

: 路，或者数据库trigger的思路），建成一个AI ready的新一代的数据库co-
peocessor。

: 这样不就把系统层面（我的第二个问题）的bottleneck问题解决了吗？

: 性能

【在 f******2 的大作中提到】

: 可不可以把tensor算子做成pushdown operator（借用hadoop把运算push到数据侧的思
: 路，或者数据库trigger的思路），建成一个AI ready的新一代的数据库co-peocessor。
: 这样不就把系统层面（我的第二个问题）的bottleneck问题解决了吗？
:
:
: 我知道的。TF能提供的性能是100, 连上db以后降到10, business users需要的
: 性能
:
: 可能只有5。虽然是杀鸡用牛刀，事情干成了还是有钱赚。
:
: 我这样挑剔肯定是赚不到钱的。
:

l*******m
发帖数: 1096

基本就是两三层全联通，找cross features

：在输入是图像这种训练输入的时候，每一层干啥大家慢慢能给个不太靠谱的解释。
：

相关主题
● Tensorflow course (FREE Deep Learning)	● 问几个神经网络的问题
● Deepmind，蜘蛛坦克，小笼包(zz)	● 大部分人还认为阿法狗在背棋谱 (转载)
● DNN就是hype (转载)	● 关于搞ML刷数据的职业前途
进入Programming版参与讨论

l*******m
发帖数: 1096

大的query都是streaming吧

：在入SQL脚本后，查找结果可以做成streaming的方式吗？这样没准儿能行
：

l******n
发帖数: 9344

TF能提供的性能是100, 连上db以后降到10，这说明还有很大的改进潜力，business
user也需要升级的空间吗，说不定搞个dnn专用db也挺美好

【在 w***g 的大作中提到】

r****t
发帖数: 10904

弱问一下 ML 里 LGBT 是啥？没狗出来

【在 w***g 的大作中提到】

h**c
发帖数: 1979

Looks like Light Gradient boosting

【在 r****t 的大作中提到】

: 弱问一下 ML 里 LGBT 是啥？没狗出来

w***g
发帖数: 5958

应该是GBDT

：弱问一下 ML 里 LGBT 是啥？没狗出来
：

M********0
发帖数: 1230

Typo...是GBDT wdong打成了LGBT
我就被带沟里了这就是典型的被大牛带歪了所以说自己不够牛轻易不要跟着大牛容
易掉进坑。。。

【在 r****t 的大作中提到】

: 弱问一下 ML 里 LGBT 是啥？没狗出来

s********k
发帖数: 6180

LGBT, or GLBT, is an initialism that stands for lesbian, gay, bisexual, and
transgender.
hah

【在 M********0 的大作中提到】

: Typo...是GBDT wdong打成了LGBT
: 我就被带沟里了这就是典型的被大牛带歪了所以说自己不够牛轻易不要跟着大牛容
: 易掉进坑。。。

(共1页)

进入Programming版参与讨论

相关主题
● 大部分人还认为阿法狗在背棋谱 (转载)	● 各位自动驾驶技术发烧友们
● 关于搞ML刷数据的职业前途	● titan v评测不高啊
● caffe等CNN里面convolution和relu是分开的两层？	● [bssd] golang貌似要的人很多啊
● 亚麻决定支持mxnet	● 深度学习真正有实用价值的应用
● [bssd]有本书	● Embedded Deep Learning有啥好的framework？
● Spark 和 Tensorflow 线性回归问题	● FPGA-based DNNs
● Theano, Spark ML, Microsoft’s CNTK, and Google’s TensorFlow	● deep learning做embeded system，业界动态或者公司
● pytorch技术上先进一些？	● 没人讨论狗家最新开源的tensorflow？

相关话题的讨论汇总
话题: lgbt话题: 数据库话题: dnn话题: tensorflow话题: 数据

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天