由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - DNN OpenSource
相关主题
CNN 能对输入的image做patch normalization么?关于在c++ member function里用signal( )
bash中怎样进行变量名递归替换?请教一个microarray问题
tensorflow lstm 的traing accuracy 总是under 0.1how to get the number of days between two dates in C++
[bssd] golang貌似要的人很多啊问一个c的问题
lightroom请科普下双路deep learningboost的deadline_timer要多脑残才能整出来?
Spark 和 Tensorflow 线性回归问题mint 是啥语言写的
double转换int的问题军版悬案求助:万能的军版求问个数学问题
FPGA-based DNNs没人讨论狗家最新开源的tensorflow?
相关话题的讨论汇总
话题: dnn话题: model话题: dataset话题: train话题: opensource
进入Programming版参与讨论
1 (共1页)
w*****r
发帖数: 197
1
我目前试了好几个github不同的open source DNN,包括tensorflow/莫的老师/
research下面的code。。。现象如下:
1,拿他pre-train的model,跑我的dataset X,accuracy为a
2,基于pretrain的model,我在X上fine-tune,然后再在X上测,accuracy为b,b< 3,我自己用公版training script在X上train from scratch,accuracy为c,c< 第3步,可以说是我技不如人,但是train.py应该是没大问题
bother我的是第2步,别人的model在没见过我的dataset时的performance,比我让该
model在我的dataset加train几个epoch的结果还要好。。。
怎么解释?决定跟这个问题死磕了。。。
g****t
发帖数: 31659
2
Try more epoch to check the trends?
In theory, the information should be fully absorbed if you use the dataset X
infinity times.

【在 w*****r 的大作中提到】
: 我目前试了好几个github不同的open source DNN,包括tensorflow/莫的老师/
: research下面的code。。。现象如下:
: 1,拿他pre-train的model,跑我的dataset X,accuracy为a
: 2,基于pretrain的model,我在X上fine-tune,然后再在X上测,accuracy为b,b<: 3,我自己用公版training script在X上train from scratch,accuracy为c,c<: 第3步,可以说是我技不如人,但是train.py应该是没大问题
: bother我的是第2步,别人的model在没见过我的dataset时的performance,比我让该
: model在我的dataset加train几个epoch的结果还要好。。。
: 怎么解释?决定跟这个问题死磕了。。。

w***g
发帖数: 5958
3
我四月份花了一整个星期研究为啥一个pytorch的resnet比
tf.slim的resnet在cifar10上收敛的快。train model水太深了。
2和3我估计是同一个问题。b和c比怎么样? 正常的话<也就算了,不应该<<
我严重怀疑你分辨率太大了。

【在 w*****r 的大作中提到】
: 我目前试了好几个github不同的open source DNN,包括tensorflow/莫的老师/
: research下面的code。。。现象如下:
: 1,拿他pre-train的model,跑我的dataset X,accuracy为a
: 2,基于pretrain的model,我在X上fine-tune,然后再在X上测,accuracy为b,b<: 3,我自己用公版training script在X上train from scratch,accuracy为c,c<: 第3步,可以说是我技不如人,但是train.py应该是没大问题
: bother我的是第2步,别人的model在没见过我的dataset时的performance,比我让该
: model在我的dataset加train几个epoch的结果还要好。。。
: 怎么解释?决定跟这个问题死磕了。。。

w*****r
发帖数: 197
4
如何从分辨率高推出 b b ~= a-3
c和b没可比性,公版model已经在imagenet上过了一遍了。不过可以确定的是,现在的
train.py能train出个大概,说明这个script没有大问题。

【在 w***g 的大作中提到】
: 我四月份花了一整个星期研究为啥一个pytorch的resnet比
: tf.slim的resnet在cifar10上收敛的快。train model水太深了。
: 2和3我估计是同一个问题。b和c比怎么样? 正常的话<也就算了,不应该<<
: 我严重怀疑你分辨率太大了。

h**c
发帖数: 1979
5
听你们描述炼丹过程,感觉就是瞎几把乱试啊
x****u
发帖数: 44466
6
你做fine-tune的时候lr过大了吧

【在 w*****r 的大作中提到】
: 我目前试了好几个github不同的open source DNN,包括tensorflow/莫的老师/
: research下面的code。。。现象如下:
: 1,拿他pre-train的model,跑我的dataset X,accuracy为a
: 2,基于pretrain的model,我在X上fine-tune,然后再在X上测,accuracy为b,b<: 3,我自己用公版training script在X上train from scratch,accuracy为c,c<: 第3步,可以说是我技不如人,但是train.py应该是没大问题
: bother我的是第2步,别人的model在没见过我的dataset时的performance,比我让该
: model在我的dataset加train几个epoch的结果还要好。。。
: 怎么解释?决定跟这个问题死磕了。。。

x****u
发帖数: 44466
7
pytorch的模型都是改过的吧

【在 w***g 的大作中提到】
: 我四月份花了一整个星期研究为啥一个pytorch的resnet比
: tf.slim的resnet在cifar10上收敛的快。train model水太深了。
: 2和3我估计是同一个问题。b和c比怎么样? 正常的话<也就算了,不应该<<
: 我严重怀疑你分辨率太大了。

w***g
发帖数: 5958
8
难道不是这样的?


:听你们描述炼丹过程,感觉就是瞎几把乱试啊
w*****r
发帖数: 197
9
0.0001, 不大吧。。。

【在 x****u 的大作中提到】
: 你做fine-tune的时候lr过大了吧
x****u
发帖数: 44466
10
我搞过的一个东西用只有1e-6才工作,万分之一立即爆掉

【在 w*****r 的大作中提到】
: 0.0001, 不大吧。。。
x****u
发帖数: 44466
11
那都是为了发paper,工业界只要能出东西就行,没必要花几个月把结果都交叉验证一遍

【在 h**c 的大作中提到】
: 听你们描述炼丹过程,感觉就是瞎几把乱试啊
w***g
发帖数: 5958
12
你用的是哪个轮子? 我很想仔细看眼。 因为各种坑特别多,在这行干我感觉
全靠见得多。

【在 w*****r 的大作中提到】
: 我目前试了好几个github不同的open source DNN,包括tensorflow/莫的老师/
: research下面的code。。。现象如下:
: 1,拿他pre-train的model,跑我的dataset X,accuracy为a
: 2,基于pretrain的model,我在X上fine-tune,然后再在X上测,accuracy为b,b<: 3,我自己用公版training script在X上train from scratch,accuracy为c,c<: 第3步,可以说是我技不如人,但是train.py应该是没大问题
: bother我的是第2步,别人的model在没见过我的dataset时的performance,比我让该
: model在我的dataset加train几个epoch的结果还要好。。。
: 怎么解释?决定跟这个问题死磕了。。。

w*****r
发帖数: 197
13
我把 fine tune batch norm关掉,貌似就好了。能解释吗?


: 你用的是哪个轮子? 我很想仔细看眼。 因为各种坑特别多,在这行干我感觉

: 全靠见得多。



【在 w***g 的大作中提到】
: 你用的是哪个轮子? 我很想仔细看眼。 因为各种坑特别多,在这行干我感觉
: 全靠见得多。

w***g
发帖数: 5958
14
TF有个坑是默认的batch_norm参数有问题。比如,我的model外面需要罩上这么多。
这个bn decay默认值也不是说有问题,毕竟人家那么牛的model也是这么train出来的。
但是对于小的dataset来说,默认的decay参数会收敛过慢。
我就知道这么多。
with slim.arg_scope([slim.conv2d, slim.conv2d_transpose, slim.max_pool2d
],
padding='SAME'), \
slim.arg_scope([slim.conv2d, slim.conv2d
_transpose], weights_regularizer=slim.l2_regularizer(2.5e-4), normalizer_fn=
slim.batch_norm, normalizer_params={'decay': 0.9, 'epsilon': 5e-4, 'scale':
False, 'is_training':is_training}), \
slim.arg_scope([slim.batch_norm], is_training=is_training):

【在 w*****r 的大作中提到】
: 我把 fine tune batch norm关掉,貌似就好了。能解释吗?
:
:
: 你用的是哪个轮子? 我很想仔细看眼。 因为各种坑特别多,在这行干我感觉
:
: 全靠见得多。
:

1 (共1页)
进入Programming版参与讨论
相关主题
Tensorflow course (FREE Deep Learning)lightroom请科普下双路deep learning
Deepmind,蜘蛛坦克,小笼包(zz)Spark 和 Tensorflow 线性回归问题
DNN就是hype (转载)double转换int的问题
问几个神经网络的问题FPGA-based DNNs
CNN 能对输入的image做patch normalization么?关于在c++ member function里用signal( )
bash中怎样进行变量名递归替换?请教一个microarray问题
tensorflow lstm 的traing accuracy 总是under 0.1how to get the number of days between two dates in C++
[bssd] golang貌似要的人很多啊问一个c的问题
相关话题的讨论汇总
话题: dnn话题: model话题: dataset话题: train话题: opensource