由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 神经网络研究的致命伤
相关主题
xiaoju 老师进来一下caffe等CNN里面convolution和relu是分开的两层?
妈的怎么那么多鸡毛语言/软件CNN网络之后一般还要加FNN?
区块链真正有意义的地方是Facebook的用CNN作翻译怎么性能超过RNN的
胡扯几句什么叫Deep Learning入门100伪币悬赏:CNN这个东西本质上处理不了形变
machine learning, neural network 为啥这几年火?请教CNN中的convolution layer中每个kernel需要设计吗?
谷歌大脑之父吴恩达(Andrew Ng)加盟百度这个总结的 ai 最新趋势真不错
卷积这东西真神了如果数据少,是不是就不能用CNN
向做Deeplearning的同学们请教个问题。CNN里面不用max pooling但是用更大的stride step
相关话题的讨论汇总
话题: cnn话题: pooling话题: 人脑话题: 神经网络
进入Programming版参与讨论
1 (共1页)
w***g
发帖数: 5958
1
multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
原始算法的老命。这个所有人都知道。
2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
大部分alternative架构的研究,圈死了人们的想象力。
CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
东西本身存在的合理性。
一个新手开始学用CNN,把别人的model跑通应该用不了几个小时。然后立刻就会
遇到一个问题:为什么别人的architecture要这么定?怎么样可以改这个
architecture让预测效果变得更好? 因为design space实在太大,又没有
一个像牛顿定理那样的指导原则,所以architecture设计基本上是一门
black magic。新手与老手的区别也在于老手看到一个dataset以后对于怎么
定architecture最好更有"感觉"。
我要吹的是,目前描述CNN architecture的这套语言本身就是很不合理的,甚至
是不应该存在的。这个不合理性是设计architecture难的本质原因,而不是没有
牛顿定理。一个合理的有CNN预测能力的模型,应该只需要十几个功能正交的
参数(meta parameter),而不是一层复一层垒重复性的东西。我相信所有学习
CNN的人都有观察到了这种重复性或者说是冗余,并且在那一瞬间达到了和真相
最接近的一个local optimum。然后一旦开始纠结怎么垒层数,我觉得就开始
堕入邪道了。轮子的最终用户其实没啥选择的余地,因为轮子就是这样的,
语言限制思维。但是这么多轮子全都在垒层数拾人牙慧,让我觉得这个
世界是多么没有审美力和想象力。
算法的大框架我已经有了,但是没啥时间和资源来做,能力上也有些不足。
我觉得世界上应该还是有一些人能想到我在想的东西,并且有能力把它做出来。
我可以比较肯定地说,现在还在垒层数需要architecture描述脚本的轮子,
其实都是纸老虎。五年之内应该全都会被颠覆。现在刚开始读PhD的同学,建议
不要把时间浪费在研究怎么垒层数这种无谓的问题上面,要么思考一些更加
本质的事情,要么干脆去做application。
故弄玄虚一下,这些文字献给王垠吧。
w***g
发帖数: 5958
2
没有人跟得上吗,还是我脑子出问题了?

【在 w***g 的大作中提到】
: multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
: 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
: 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
: 原始算法的老命。这个所有人都知道。
: 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
: 大部分alternative架构的研究,圈死了人们的想象力。
: CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
: 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
: 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
: 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个

l*******m
发帖数: 1096
3
真正做研究的现在都在做RL, recurrent. CNN做不动了。cnn的重心有些偏向inference
加速,我现在可以在没有heatsink的arm上80 ms per frame. 中型网络。
两个星期前,打印了四片RL文章,准备学术讨论, 跟上前沿。结果谁也没读,凡事太多

【在 w***g 的大作中提到】
: multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
: 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
: 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
: 原始算法的老命。这个所有人都知道。
: 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
: 大部分alternative架构的研究,圈死了人们的想象力。
: CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
: 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
: 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
: 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个

h*i
发帖数: 3446
4
做出来再说。CS只有想不到的,没有啥是”没有资源和时间“去做的。

我觉得中国教育出来的人最大的问题就是没有野心(注意,野心这个词在中文是贬义,
ambition在西方是褒义)。
整天哭诉啥被烙印骑在头上拉屎就是症状。大部分中国人都是小富即安,刷题进FLG就
觉得完事了,就没几个有野心的。自己不想要,得不到就不要报怨。


【在 w***g 的大作中提到】
: multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
: 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
: 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
: 原始算法的老命。这个所有人都知道。
: 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
: 大部分alternative架构的研究,圈死了人们的想象力。
: CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
: 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
: 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
: 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个

ET
发帖数: 10701
5
虽然对这个话题一窍不通,但能明白你说的意思。
大部分还是跟着潮流走。

【在 w***g 的大作中提到】
: multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
: 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
: 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
: 原始算法的老命。这个所有人都知道。
: 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
: 大部分alternative架构的研究,圈死了人们的想象力。
: CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
: 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
: 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
: 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个

w***g
发帖数: 5958
6
做出来再说就成马后炮了。再说做了也可能做不出来,反而丢了工作。
我就选了小富即安,以后没啥前途我也认了。
穷人没啥机会成本,可以去搞野心。
小富了再去搞野心,机会成本太大,不划算。这个不是中国人的问题,
全人类都一样。Larry Ellison号称哈佛毕业就完蛋也是这个原因,
因为哈佛一毕业一般就小富了,不会再去实现野心。
CEO里面骗子的比例比PhD的比例要高得多,但是骗子中穷人的比例比
PhD中穷人的比例要高得更多。
Update: 应该是耶鲁。反正都一样。

【在 h*i 的大作中提到】
: 做出来再说。CS只有想不到的,没有啥是”没有资源和时间“去做的。
:
: 我觉得中国教育出来的人最大的问题就是没有野心(注意,野心这个词在中文是贬义,
: ambition在西方是褒义)。
: 整天哭诉啥被烙印骑在头上拉屎就是症状。大部分中国人都是小富即安,刷题进FLG就
: 觉得完事了,就没几个有野心的。自己不想要,得不到就不要报怨。
:

w***g
发帖数: 5958
7
话说我那个kgraph你还用吗?我有两年没改算法,发现已经被CMU和老毛子团队比下去
了, MIT也有一波人没放弃LSH最近又搞了个轮子出来。我这两天业余时间都在改进
kgraph。这种规模得轮子属于业于时间搞搞还可以一拼的。这种事情做不到世界第一
就等于没做。我东家最近情况不是很好,如果他们完蛋了我就全力去做CNN。
老毛子战斗力太强了。

【在 h*i 的大作中提到】
: 做出来再说。CS只有想不到的,没有啥是”没有资源和时间“去做的。
:
: 我觉得中国教育出来的人最大的问题就是没有野心(注意,野心这个词在中文是贬义,
: ambition在西方是褒义)。
: 整天哭诉啥被烙印骑在头上拉屎就是症状。大部分中国人都是小富即安,刷题进FLG就
: 觉得完事了,就没几个有野心的。自己不想要,得不到就不要报怨。
:

d*******r
发帖数: 3299
8
就是你说这个 idea, 你业余做不下来?
wdong 你自己当个体户,应该很爽的,工作时间应该很好掌控吧.

【在 w***g 的大作中提到】
: 做出来再说就成马后炮了。再说做了也可能做不出来,反而丢了工作。
: 我就选了小富即安,以后没啥前途我也认了。
: 穷人没啥机会成本,可以去搞野心。
: 小富了再去搞野心,机会成本太大,不划算。这个不是中国人的问题,
: 全人类都一样。Larry Ellison号称哈佛毕业就完蛋也是这个原因,
: 因为哈佛一毕业一般就小富了,不会再去实现野心。
: CEO里面骗子的比例比PhD的比例要高得多,但是骗子中穷人的比例比
: PhD中穷人的比例要高得更多。
: Update: 应该是耶鲁。反正都一样。

W***o
发帖数: 6519
9
ambition 那叫“抱负”,这个在中文里绝对是褒义词

【在 h*i 的大作中提到】
: 做出来再说。CS只有想不到的,没有啥是”没有资源和时间“去做的。
:
: 我觉得中国教育出来的人最大的问题就是没有野心(注意,野心这个词在中文是贬义,
: ambition在西方是褒义)。
: 整天哭诉啥被烙印骑在头上拉屎就是症状。大部分中国人都是小富即安,刷题进FLG就
: 觉得完事了,就没几个有野心的。自己不想要,得不到就不要报怨。
:

w***g
发帖数: 5958
10
我其实没啥业余不业余的,但是现在手头要做得东西还不少。
等task queue排空点肯定会做的。但是确实水平有限不一定
做的出东西来。我有过很多算法上的idea,最后能干活的很少。
相比之下发个贴做个预言要容易得多。

【在 d*******r 的大作中提到】
: 就是你说这个 idea, 你业余做不下来?
: wdong 你自己当个体户,应该很爽的,工作时间应该很好掌控吧.

相关主题
谷歌大脑之父吴恩达(Andrew Ng)加盟百度caffe等CNN里面convolution和relu是分开的两层?
卷积这东西真神了CNN网络之后一般还要加FNN?
向做Deeplearning的同学们请教个问题。Facebook的用CNN作翻译怎么性能超过RNN的
进入Programming版参与讨论
v*******e
发帖数: 11604
11
楼主就瞎叨叨。neuron network精髓就在层数上,层数越多越牛。
h*i
发帖数: 3446
12
还在用。不过我们公司有点转型了,现在主要在做别的东西,用处不太大了。
我觉得DL啥的用处有限,就是堆数据,但弄数据是个人最难做的,所以不太适合你。
你要有兴趣,我个人觉得做图数据库更有前景,不是分布式那种,而是单机(也许用
GPU)的。不管你们信不信,我个人觉得AI的下一个突破就在这里。

【在 w***g 的大作中提到】
: 话说我那个kgraph你还用吗?我有两年没改算法,发现已经被CMU和老毛子团队比下去
: 了, MIT也有一波人没放弃LSH最近又搞了个轮子出来。我这两天业余时间都在改进
: kgraph。这种规模得轮子属于业于时间搞搞还可以一拼的。这种事情做不到世界第一
: 就等于没做。我东家最近情况不是很好,如果他们完蛋了我就全力去做CNN。
: 老毛子战斗力太强了。

x****u
发帖数: 44466
13
我觉得生物进化出5-6层大脑视觉皮层,应该是暗示了什么原理的

【在 w***g 的大作中提到】
: multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
: 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
: 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
: 原始算法的老命。这个所有人都知道。
: 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
: 大部分alternative架构的研究,圈死了人们的想象力。
: CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
: 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
: 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
: 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个

x****u
发帖数: 44466
14
MSRA已经搞出了1000层的怪胎了,还是没造出上帝来。

【在 v*******e 的大作中提到】
: 楼主就瞎叨叨。neuron network精髓就在层数上,层数越多越牛。
l******n
发帖数: 9344
15
wdong,干脆搞个神经网络的编程培训班,在中国肯定是高端大气的,市场大大的,将来
进BAT或者来去其他地方肯定有帮助。感觉比给人写code干事还靠谱点
何如?

【在 w***g 的大作中提到】
: 我其实没啥业余不业余的,但是现在手头要做得东西还不少。
: 等task queue排空点肯定会做的。但是确实水平有限不一定
: 做的出东西来。我有过很多算法上的idea,最后能干活的很少。
: 相比之下发个贴做个预言要容易得多。

m****s
发帖数: 1481
16
需要那么多层主要是工程问题,理论上已经证明了只需一层的浅网络就可以模拟任何数
学模型,但是实际中没有有效的算法能学出来适合解决问题的模型,所以才用很深的网
络分层学习特征,才能达到解决实际问题的效果。
另外神经网络只是受到人脑的启发,实际上和人脑的工作原理是不是一样根本没有人说
得清,因为人脑是怎么工作的现在还没弄明白,所以说什么真相,都是压根儿没学明白
的,根本没有所谓的真相,只有基于具体问题的performance好不好。
深度学习现在主要两大块,generative和discriminative,也就是无监督和有监督,
CNN只是一种模型,其他还有很多种模型,而且神经网络很多时候也不是单独在用,和
其他机器学习模型结合也是扩展业务的一个大的发展方向。
深度神经网络现在是处于hype之中,但是真正搞这个领域的还是很清楚它的优缺点和接
下来的研究重点的。hinton一直致力于继续研究人脑的机理来改进神经网络模型,其他
一些大牛则不过分拘泥于模拟自然脑,而是利用已经发掘的神经网络的原理另辟蹊径开
发应用,比如lecun的抛弃语法,词,句完全从字母学习语言的应用。在某些课题上确
实进步空间不大,比如静态图片分类,但是有些课题还有很大潜力可挖,比如文本处理
,语音,视频场景分析等等。现在就谈硬伤为时尚早
x****u
发帖数: 44466
17
你没看到本质啊
现在既然是要骗钱,那名头是最很重要的。人家宁可要个10年前的2-3流AI phd,也不
一定对转行的数据科学家感兴趣。

【在 l******n 的大作中提到】
: wdong,干脆搞个神经网络的编程培训班,在中国肯定是高端大气的,市场大大的,将来
: 进BAT或者来去其他地方肯定有帮助。感觉比给人写code干事还靠谱点
: 何如?

c*****w
发帖数: 50
18
在我看来CNN的本质在于
一是convolution, 这个约束极大的减少了参数的数量。
二是multi-layer,多个layer把一张图片从裸像素一层层抽象到高级概念,这个很接近
人脑了。
按照Hinton牛的说法,CNN的改进方向在Pooling

【在 w***g 的大作中提到】
: multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
: 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
: 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
: 原始算法的老命。这个所有人都知道。
: 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
: 大部分alternative架构的研究,圈死了人们的想象力。
: CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
: 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
: 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
: 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个

L****8
发帖数: 3938
19
如果去掉pooling
多层毫无用处

【在 c*****w 的大作中提到】
: 在我看来CNN的本质在于
: 一是convolution, 这个约束极大的减少了参数的数量。
: 二是multi-layer,多个layer把一张图片从裸像素一层层抽象到高级概念,这个很接近
: 人脑了。
: 按照Hinton牛的说法,CNN的改进方向在Pooling

L****8
发帖数: 3938
20
我觉得CNN有效的重要原因之一 是max pooling+分层
这是对物体形状/纹理的很好的编码
比如 如下两个形状 都可以被识别为一类
--------------
_ _
- - -- --- ---
- _

【在 m****s 的大作中提到】
: 需要那么多层主要是工程问题,理论上已经证明了只需一层的浅网络就可以模拟任何数
: 学模型,但是实际中没有有效的算法能学出来适合解决问题的模型,所以才用很深的网
: 络分层学习特征,才能达到解决实际问题的效果。
: 另外神经网络只是受到人脑的启发,实际上和人脑的工作原理是不是一样根本没有人说
: 得清,因为人脑是怎么工作的现在还没弄明白,所以说什么真相,都是压根儿没学明白
: 的,根本没有所谓的真相,只有基于具体问题的performance好不好。
: 深度学习现在主要两大块,generative和discriminative,也就是无监督和有监督,
: CNN只是一种模型,其他还有很多种模型,而且神经网络很多时候也不是单独在用,和
: 其他机器学习模型结合也是扩展业务的一个大的发展方向。
: 深度神经网络现在是处于hype之中,但是真正搞这个领域的还是很清楚它的优缺点和接

相关主题
100伪币悬赏:CNN这个东西本质上处理不了形变如果数据少,是不是就不能用CNN
请教CNN中的convolution layer中每个kernel需要设计吗?CNN里面不用max pooling但是用更大的stride step
这个总结的 ai 最新趋势真不错DL一个基础问题:
进入Programming版参与讨论
y*j
发帖数: 3139
21
1. 这不叫convolution,这是weight sharing,它能避免overfitting
2. 它实际上是一个pyramid 的概念,在机器视觉里应用很多
传统的神经网络一是层数没有这么多,二是没有weight sharing,还有其他的一些问题
,还有当时的硬件配置比现在差太远了, 导致当时的失败。
我认为现在deep learning 最大的约束是硬件:速度,核的数目,内存都需要极大的提
高。硅基的计算机比碳基的生物也许更有优势,将来也许会超过人。

:在我看来CNN的本质在于
:一是convolution, 这个约束极大的减少了参数的数量。
:二是multi-layer,多个layer把一张图片从裸像素一层层抽象到高级概念,这个很接
近人脑了。
:按照Hinton牛的说法,CNN的改进方向在Pooling

【在 c*****w 的大作中提到】
: 在我看来CNN的本质在于
: 一是convolution, 这个约束极大的减少了参数的数量。
: 二是multi-layer,多个layer把一张图片从裸像素一层层抽象到高级概念,这个很接近
: 人脑了。
: 按照Hinton牛的说法,CNN的改进方向在Pooling

x****u
发帖数: 44466
22
现在神经网络单机的计算能力,已经超过了人脑。
当然结构大不一样,目前单机只够模拟人脑的部分功能。

【在 y*j 的大作中提到】
: 1. 这不叫convolution,这是weight sharing,它能避免overfitting
: 2. 它实际上是一个pyramid 的概念,在机器视觉里应用很多
: 传统的神经网络一是层数没有这么多,二是没有weight sharing,还有其他的一些问题
: ,还有当时的硬件配置比现在差太远了, 导致当时的失败。
: 我认为现在deep learning 最大的约束是硬件:速度,核的数目,内存都需要极大的提
: 高。硅基的计算机比碳基的生物也许更有优势,将来也许会超过人。
:
: :在我看来CNN的本质在于
: :一是convolution, 这个约束极大的减少了参数的数量。
: :二是multi-layer,多个layer把一张图片从裸像素一层层抽象到高级概念,这个很接

y*j
发帖数: 3139
23
并行能力比人脑差太远了,人脑有10^11个neurons. 现在计算机的计算能力就好比是自
闭症患者的特殊能力,但是没有很好的学习能力。

:现在神经网络单机的计算能力,已经超过了人脑。
:当然结构大不一样,目前单机只够模拟人脑的部分功能。

【在 x****u 的大作中提到】
: 现在神经网络单机的计算能力,已经超过了人脑。
: 当然结构大不一样,目前单机只够模拟人脑的部分功能。

x****u
发帖数: 44466
24
人脑的运算速度比芯片慢n个数量级,而且人脑有极为苛刻的功耗限制,几十年前就有
paper发现最大激活的神经元数不超过1%。
所以综合这两点,人脑计算能力已经在7-8年前被电脑超过了。当然目前cpu,gpu的结
构是非常不适合当神经网络就是了。

【在 y*j 的大作中提到】
: 并行能力比人脑差太远了,人脑有10^11个neurons. 现在计算机的计算能力就好比是自
: 闭症患者的特殊能力,但是没有很好的学习能力。
:
: :现在神经网络单机的计算能力,已经超过了人脑。
: :当然结构大不一样,目前单机只够模拟人脑的部分功能。

c*****w
发帖数: 50
25
不一定的,非线性是必需,比如ReLU。pooling不一定必需,但实际非常有效。LeCun有
篇paper说为啥要多层,当然他也是猜。

【在 L****8 的大作中提到】
: 如果去掉pooling
: 多层毫无用处

c*****w
发帖数: 50
26
你看CNN某一层“被激发”的feature,也就那么几个,有人认为这和大脑很类似。但并
不是说其它大量的feature就没用,它们会在其它的input pattern下被激发。和人脑比
起来神经网络还很粗陋,人脑复杂的神经元间的连接不是那么容易就模拟的,CNN也许
抓到了一些关键,所以比较成功。

【在 x****u 的大作中提到】
: 人脑的运算速度比芯片慢n个数量级,而且人脑有极为苛刻的功耗限制,几十年前就有
: paper发现最大激活的神经元数不超过1%。
: 所以综合这两点,人脑计算能力已经在7-8年前被电脑超过了。当然目前cpu,gpu的结
: 构是非常不适合当神经网络就是了。

c*****w
发帖数: 50
27
convolution enables weight sharing。否则干嘛用convolution,直接上full
connection不久好了。convolution限制了神经网络的结构,减少了参数数量,减少了
overfitting的可能。实际上神经网络最大的问题之一就是overfitting,说明网络结构
还不是最优。

【在 y*j 的大作中提到】
: 1. 这不叫convolution,这是weight sharing,它能避免overfitting
: 2. 它实际上是一个pyramid 的概念,在机器视觉里应用很多
: 传统的神经网络一是层数没有这么多,二是没有weight sharing,还有其他的一些问题
: ,还有当时的硬件配置比现在差太远了, 导致当时的失败。
: 我认为现在deep learning 最大的约束是硬件:速度,核的数目,内存都需要极大的提
: 高。硅基的计算机比碳基的生物也许更有优势,将来也许会超过人。
:
: :在我看来CNN的本质在于
: :一是convolution, 这个约束极大的减少了参数的数量。
: :二是multi-layer,多个layer把一张图片从裸像素一层层抽象到高级概念,这个很接

L****8
发帖数: 3938
28
pooling是提高推广能力的法宝 尤其是物体是线框类的比如数字

【在 c*****w 的大作中提到】
: 不一定的,非线性是必需,比如ReLU。pooling不一定必需,但实际非常有效。LeCun有
: 篇paper说为啥要多层,当然他也是猜。

w***g
发帖数: 5958
29
还真不一定是你说的那样,pooling也是一种非线性。
其实ReLU+pool就相当于去掉ReLU,然后在每个pooling window里加一个0。
其实再想想,把这个0去掉或许也能干活。

【在 c*****w 的大作中提到】
: 不一定的,非线性是必需,比如ReLU。pooling不一定必需,但实际非常有效。LeCun有
: 篇paper说为啥要多层,当然他也是猜。

c*********e
发帖数: 16335
30
什么叫骗子啊?这年月,叫 会吹牛。 我公司的ceo就特别会吹。 白人特别会说,做不
行。看看obama就明白了。白人都这德性。

【在 w***g 的大作中提到】
: 做出来再说就成马后炮了。再说做了也可能做不出来,反而丢了工作。
: 我就选了小富即安,以后没啥前途我也认了。
: 穷人没啥机会成本,可以去搞野心。
: 小富了再去搞野心,机会成本太大,不划算。这个不是中国人的问题,
: 全人类都一样。Larry Ellison号称哈佛毕业就完蛋也是这个原因,
: 因为哈佛一毕业一般就小富了,不会再去实现野心。
: CEO里面骗子的比例比PhD的比例要高得多,但是骗子中穷人的比例比
: PhD中穷人的比例要高得更多。
: Update: 应该是耶鲁。反正都一样。

相关主题
再问机器学习。。。用keras分类妈的怎么那么多鸡毛语言/软件
嵌套循环,层数可变 怎么实现区块链真正有意义的地方是
xiaoju 老师进来一下胡扯几句什么叫Deep Learning入门
进入Programming版参与讨论
x****u
发帖数: 44466
31
CNN的一大问题就是和人脑比不够稀疏

【在 c*****w 的大作中提到】
: 你看CNN某一层“被激发”的feature,也就那么几个,有人认为这和大脑很类似。但并
: 不是说其它大量的feature就没用,它们会在其它的input pattern下被激发。和人脑比
: 起来神经网络还很粗陋,人脑复杂的神经元间的连接不是那么容易就模拟的,CNN也许
: 抓到了一些关键,所以比较成功。

x****u
发帖数: 44466
32
CNN在解决overfitting上已经远远超过人类了
人的大脑在同样情况下不可避免的要过拟合

【在 c*****w 的大作中提到】
: convolution enables weight sharing。否则干嘛用convolution,直接上full
: connection不久好了。convolution限制了神经网络的结构,减少了参数数量,减少了
: overfitting的可能。实际上神经网络最大的问题之一就是overfitting,说明网络结构
: 还不是最优。

L****8
发帖数: 3938
33
详细讲讲?

【在 w***g 的大作中提到】
: 还真不一定是你说的那样,pooling也是一种非线性。
: 其实ReLU+pool就相当于去掉ReLU,然后在每个pooling window里加一个0。
: 其实再想想,把这个0去掉或许也能干活。

w***g
发帖数: 5958
34
为什么去掉0也能干活?因为一个pooling window中有十几个数,几乎必然有一个大于0。
即使不加0,最大值小于0的可能性也很小。

【在 L****8 的大作中提到】
: 详细讲讲?
L****8
发帖数: 3938
35
你这意思是说 pooling才是核心技术?

于0。

【在 w***g 的大作中提到】
: 为什么去掉0也能干活?因为一个pooling window中有十几个数,几乎必然有一个大于0。
: 即使不加0,最大值小于0的可能性也很小。

s*****w
发帖数: 1527
36
赞大牛!

【在 w***g 的大作中提到】
: multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
: 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
: 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
: 原始算法的老命。这个所有人都知道。
: 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
: 大部分alternative架构的研究,圈死了人们的想象力。
: CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
: 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
: 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
: 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个

w*******x
发帖数: 489
37
我觉得CNN 本身作为视觉图像处理(模拟人类或动物视觉神经部分)应该是已经非常成
熟和有效了,不需要太多数据(order of 100)就可以达到高精度(比如把region of
interest 做segmentaion 出来)。performance差主要来源于后面的类似于人的逻辑处
理的层 (比如判断什么物体,手势,结构等等),这些层也决定了人脑远胜于动物的
脑子,这些一般就简单的用fully connected layer来模拟,或者增加CNN的层数+FC
layer来做,也许完全是”错“的。CNN很大程度解决了图像/语音处理,但也许DNN的发
展还需要有个突破来解决逻辑处理 也许是某种RNN?
我就想,智商160和智商60的大脑结构差在哪里? train出来的网络performance可以有
如此大的差别~~~

【在 w***g 的大作中提到】
: multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
: 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
: 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
: 原始算法的老命。这个所有人都知道。
: 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
: 大部分alternative架构的研究,圈死了人们的想象力。
: CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
: 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
: 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
: 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个

L****8
发帖数: 3938
38
今天仔细想了想 觉得多层是没必要的
假设 有三层 全连接
第一层 第二层 第三层
第一层和第二层之间连接关系 A=[a_ij] 链接 节点i(第一层) 和 节点j (第二层)
第二层和第三层之间连接关系 B=[b_jk] 链接 节点i(第一层) 和 节点j (第二层)
wdong所说有道理, 如果用ReLU节点+max pooling 那么多数情况输入都是正的 ReLU就
是个线性放大器
如果忽略放大倍数,第一层和第三层直接连接关系C=[c_ik] 满足 矩阵C=A*B
这么看来 CNN的法宝 就是 max pooling + dropout
max pooling 相当于分级模板匹配 对物体形变的一种离散化
dropout 相当于聚类
我把 max pooling 的想法用在了另一个应用上 效果不错

【在 w***g 的大作中提到】
: multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
: 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
: 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
: 原始算法的老命。这个所有人都知道。
: 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
: 大部分alternative架构的研究,圈死了人们的想象力。
: CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
: 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
: 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
: 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个

L****8
发帖数: 3938
39
研究的如何了?

【在 w***g 的大作中提到】
: multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
: 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
: 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
: 原始算法的老命。这个所有人都知道。
: 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
: 大部分alternative架构的研究,圈死了人们的想象力。
: CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
: 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
: 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
: 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个

N*****m
发帖数: 42603
40
感觉现在搞计算机的数学功底不行
谁要是把CNN的数学理论原理搞出来了,搞个图灵应该轻轻松松

【在 w***g 的大作中提到】
: multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
: 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
: 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
: 原始算法的老命。这个所有人都知道。
: 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
: 大部分alternative架构的研究,圈死了人们的想象力。
: CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
: 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
: 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
: 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个

相关主题
胡扯几句什么叫Deep Learning入门卷积这东西真神了
machine learning, neural network 为啥这几年火?向做Deeplearning的同学们请教个问题。
谷歌大脑之父吴恩达(Andrew Ng)加盟百度caffe等CNN里面convolution和relu是分开的两层?
进入Programming版参与讨论
L****8
发帖数: 3938
41
我设计了一种新的结构
相当于CNN 两层conv 两层max-pooling
MNIST 上跑到了0.87 错误率
是个啥水平?

【在 w***g 的大作中提到】
: multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
: 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
: 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
: 原始算法的老命。这个所有人都知道。
: 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
: 大部分alternative架构的研究,圈死了人们的想象力。
: CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
: 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
: 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
: 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个

a*********y
发帖数: 63
42
也不能简单地说数学功底不行. 神经网络的数学模型归根到底是一个非线性系统. 然而
现在的数学对非线性系统还没有什么系统的有效的解决方法,除了一些特殊的情况.
所以不能说搞计算机的数学功底不行, 而是现在的数学就这个水平.

【在 N*****m 的大作中提到】
: 感觉现在搞计算机的数学功底不行
: 谁要是把CNN的数学理论原理搞出来了,搞个图灵应该轻轻松松

k****i
发帖数: 101
43
NN从计算的角度,相当于以“普适”的算法产生不同的参数来对应于各种特定的算法,
并能从中选择最优的参数来解答问题。
从CNN的角度,flying parts就是堆层超参,用各种architectures及frameworks来实现
并简化该过程。
大作中提到的meta parameters是要fix the flying parts,进而能适配各种应用吗?

【在 w***g 的大作中提到】
: multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
: 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
: 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
: 原始算法的老命。这个所有人都知道。
: 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
: 大部分alternative架构的研究,圈死了人们的想象力。
: CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
: 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
: 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
: 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个

d*******r
发帖数: 3299
44
那所以大家都是在瞎蒙? 那在这个瞎蒙过程中,数学在哪一部分比较起作用?

【在 a*********y 的大作中提到】
: 也不能简单地说数学功底不行. 神经网络的数学模型归根到底是一个非线性系统. 然而
: 现在的数学对非线性系统还没有什么系统的有效的解决方法,除了一些特殊的情况.
: 所以不能说搞计算机的数学功底不行, 而是现在的数学就这个水平.

k****i
发帖数: 101
45
数据↑ ⇒ S↑
参数↓ ⇒ N↓

【在 c*****w 的大作中提到】
: convolution enables weight sharing。否则干嘛用convolution,直接上full
: connection不久好了。convolution限制了神经网络的结构,减少了参数数量,减少了
: overfitting的可能。实际上神经网络最大的问题之一就是overfitting,说明网络结构
: 还不是最优。

v*****k
发帖数: 7798
46
我说诸位表瞎猜cnn的物理意义了。这物理意义包括为啥convolution 为啥pooling学一
点信号处理就清楚的很。
a*********y
发帖数: 63
47
ZKSS please.

【在 v*****k 的大作中提到】
: 我说诸位表瞎猜cnn的物理意义了。这物理意义包括为啥convolution 为啥pooling学一
: 点信号处理就清楚的很。

w***g
发帖数: 5958
48
CNN就是多层带模糊和扰动的模版匹配. 刚好操作跟信号处理的convolution
很像, 所以叫CNN. 为啥我跟信号处理没关系. 信号处理的核心是FFT,
CNN和FFT的关系最多到有一小撮人用FFT加速运算, 而且这撮人已经好久没有
消息了.

【在 a*********y 的大作中提到】
: ZKSS please.
T*******x
发帖数: 8565
49
赞。

【在 w*******x 的大作中提到】
: 我觉得CNN 本身作为视觉图像处理(模拟人类或动物视觉神经部分)应该是已经非常成
: 熟和有效了,不需要太多数据(order of 100)就可以达到高精度(比如把region of
: interest 做segmentaion 出来)。performance差主要来源于后面的类似于人的逻辑处
: 理的层 (比如判断什么物体,手势,结构等等),这些层也决定了人脑远胜于动物的
: 脑子,这些一般就简单的用fully connected layer来模拟,或者增加CNN的层数+FC
: layer来做,也许完全是”错“的。CNN很大程度解决了图像/语音处理,但也许DNN的发
: 展还需要有个突破来解决逻辑处理 也许是某种RNN?
: 我就想,智商160和智商60的大脑结构差在哪里? train出来的网络performance可以有
: 如此大的差别~~~

j*********n
发帖数: 74
50
mark
相关主题
CNN网络之后一般还要加FNN?请教CNN中的convolution layer中每个kernel需要设计吗?
Facebook的用CNN作翻译怎么性能超过RNN的这个总结的 ai 最新趋势真不错
100伪币悬赏:CNN这个东西本质上处理不了形变如果数据少,是不是就不能用CNN
进入Programming版参与讨论
J**********r
发帖数: 508
51
zan

【在 w***g 的大作中提到】
: CNN就是多层带模糊和扰动的模版匹配. 刚好操作跟信号处理的convolution
: 很像, 所以叫CNN. 为啥我跟信号处理没关系. 信号处理的核心是FFT,
: CNN和FFT的关系最多到有一小撮人用FFT加速运算, 而且这撮人已经好久没有
: 消息了.

w***g
发帖数: 5958
52
multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
原始算法的老命。这个所有人都知道。
2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
大部分alternative架构的研究,圈死了人们的想象力。
CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个
东西本身存在的合理性。
一个新手开始学用CNN,把别人的model跑通应该用不了几个小时。然后立刻就会
遇到一个问题:为什么别人的architecture要这么定?怎么样可以改这个
architecture让预测效果变得更好? 因为design space实在太大,又没有
一个像牛顿定理那样的指导原则,所以architecture设计基本上是一门
black magic。新手与老手的区别也在于老手看到一个dataset以后对于怎么
定architecture最好更有"感觉"。
我要吹的是,目前描述CNN architecture的这套语言本身就是很不合理的,甚至
是不应该存在的。这个不合理性是设计architecture难的本质原因,而不是没有
牛顿定理。一个合理的有CNN预测能力的模型,应该只需要十几个功能正交的
参数(meta parameter),而不是一层复一层垒重复性的东西。我相信所有学习
CNN的人都有观察到了这种重复性或者说是冗余,并且在那一瞬间达到了和真相
最接近的一个local optimum。然后一旦开始纠结怎么垒层数,我觉得就开始
堕入邪道了。轮子的最终用户其实没啥选择的余地,因为轮子就是这样的,
语言限制思维。但是这么多轮子全都在垒层数拾人牙慧,让我觉得这个
世界是多么没有审美力和想象力。
算法的大框架我已经有了,但是没啥时间和资源来做,能力上也有些不足。
我觉得世界上应该还是有一些人能想到我在想的东西,并且有能力把它做出来。
我可以比较肯定地说,现在还在垒层数需要architecture描述脚本的轮子,
其实都是纸老虎。五年之内应该全都会被颠覆。现在刚开始读PhD的同学,建议
不要把时间浪费在研究怎么垒层数这种无谓的问题上面,要么思考一些更加
本质的事情,要么干脆去做application。
故弄玄虚一下,这些文字献给王垠吧。
w***g
发帖数: 5958
53
没有人跟得上吗,还是我脑子出问题了?

【在 w***g 的大作中提到】
: multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
: 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
: 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
: 原始算法的老命。这个所有人都知道。
: 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
: 大部分alternative架构的研究,圈死了人们的想象力。
: CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
: 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
: 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
: 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个

l*******m
发帖数: 1096
54
真正做研究的现在都在做RL, recurrent. CNN做不动了。cnn的重心有些偏向inference
加速,我现在可以在没有heatsink的arm上80 ms per frame. 中型网络。
两个星期前,打印了四片RL文章,准备学术讨论, 跟上前沿。结果谁也没读,凡事太多

【在 w***g 的大作中提到】
: multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
: 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
: 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
: 原始算法的老命。这个所有人都知道。
: 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
: 大部分alternative架构的研究,圈死了人们的想象力。
: CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
: 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
: 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
: 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个

h*i
发帖数: 3446
55
做出来再说。CS只有想不到的,没有啥是”没有资源和时间“去做的。

我觉得中国教育出来的人最大的问题就是没有野心(注意,野心这个词在中文是贬义,
ambition在西方是褒义)。
整天哭诉啥被烙印骑在头上拉屎就是症状。大部分中国人都是小富即安,刷题进FLG就
觉得完事了,就没几个有野心的。自己不想要,得不到就不要报怨。


【在 w***g 的大作中提到】
: multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
: 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
: 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
: 原始算法的老命。这个所有人都知道。
: 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
: 大部分alternative架构的研究,圈死了人们的想象力。
: CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
: 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
: 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
: 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个

ET
发帖数: 10701
56
虽然对这个话题一窍不通,但能明白你说的意思。
大部分还是跟着潮流走。

【在 w***g 的大作中提到】
: multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
: 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
: 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
: 原始算法的老命。这个所有人都知道。
: 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
: 大部分alternative架构的研究,圈死了人们的想象力。
: CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
: 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
: 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
: 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个

w***g
发帖数: 5958
57
做出来再说就成马后炮了。再说做了也可能做不出来,反而丢了工作。
我就选了小富即安,以后没啥前途我也认了。
穷人没啥机会成本,可以去搞野心。
小富了再去搞野心,机会成本太大,不划算。这个不是中国人的问题,
全人类都一样。Larry Ellison号称哈佛毕业就完蛋也是这个原因,
因为哈佛一毕业一般就小富了,不会再去实现野心。
CEO里面骗子的比例比PhD的比例要高得多,但是骗子中穷人的比例比
PhD中穷人的比例要高得更多。
Update: 应该是耶鲁。反正都一样。

【在 h*i 的大作中提到】
: 做出来再说。CS只有想不到的,没有啥是”没有资源和时间“去做的。
:
: 我觉得中国教育出来的人最大的问题就是没有野心(注意,野心这个词在中文是贬义,
: ambition在西方是褒义)。
: 整天哭诉啥被烙印骑在头上拉屎就是症状。大部分中国人都是小富即安,刷题进FLG就
: 觉得完事了,就没几个有野心的。自己不想要,得不到就不要报怨。
:

w***g
发帖数: 5958
58
话说我那个kgraph你还用吗?我有两年没改算法,发现已经被CMU和老毛子团队比下去
了, MIT也有一波人没放弃LSH最近又搞了个轮子出来。我这两天业余时间都在改进
kgraph。这种规模得轮子属于业于时间搞搞还可以一拼的。这种事情做不到世界第一
就等于没做。我东家最近情况不是很好,如果他们完蛋了我就全力去做CNN。
老毛子战斗力太强了。

【在 h*i 的大作中提到】
: 做出来再说。CS只有想不到的,没有啥是”没有资源和时间“去做的。
:
: 我觉得中国教育出来的人最大的问题就是没有野心(注意,野心这个词在中文是贬义,
: ambition在西方是褒义)。
: 整天哭诉啥被烙印骑在头上拉屎就是症状。大部分中国人都是小富即安,刷题进FLG就
: 觉得完事了,就没几个有野心的。自己不想要,得不到就不要报怨。
:

d*******r
发帖数: 3299
59
就是你说这个 idea, 你业余做不下来?
wdong 你自己当个体户,应该很爽的,工作时间应该很好掌控吧.

【在 w***g 的大作中提到】
: 做出来再说就成马后炮了。再说做了也可能做不出来,反而丢了工作。
: 我就选了小富即安,以后没啥前途我也认了。
: 穷人没啥机会成本,可以去搞野心。
: 小富了再去搞野心,机会成本太大,不划算。这个不是中国人的问题,
: 全人类都一样。Larry Ellison号称哈佛毕业就完蛋也是这个原因,
: 因为哈佛一毕业一般就小富了,不会再去实现野心。
: CEO里面骗子的比例比PhD的比例要高得多,但是骗子中穷人的比例比
: PhD中穷人的比例要高得更多。
: Update: 应该是耶鲁。反正都一样。

W***o
发帖数: 6519
60
ambition 那叫“抱负”,这个在中文里绝对是褒义词

【在 h*i 的大作中提到】
: 做出来再说。CS只有想不到的,没有啥是”没有资源和时间“去做的。
:
: 我觉得中国教育出来的人最大的问题就是没有野心(注意,野心这个词在中文是贬义,
: ambition在西方是褒义)。
: 整天哭诉啥被烙印骑在头上拉屎就是症状。大部分中国人都是小富即安,刷题进FLG就
: 觉得完事了,就没几个有野心的。自己不想要,得不到就不要报怨。
:

相关主题
CNN里面不用max pooling但是用更大的stride step嵌套循环,层数可变 怎么实现
DL一个基础问题:xiaoju 老师进来一下
再问机器学习。。。用keras分类妈的怎么那么多鸡毛语言/软件
进入Programming版参与讨论
w***g
发帖数: 5958
61
我其实没啥业余不业余的,但是现在手头要做得东西还不少。
等task queue排空点肯定会做的。但是确实水平有限不一定
做的出东西来。我有过很多算法上的idea,最后能干活的很少。
相比之下发个贴做个预言要容易得多。

【在 d*******r 的大作中提到】
: 就是你说这个 idea, 你业余做不下来?
: wdong 你自己当个体户,应该很爽的,工作时间应该很好掌控吧.

h*i
发帖数: 3446
62
还在用。不过我们公司有点转型了,现在主要在做别的东西,用处不太大了。
我觉得DL啥的用处有限,就是堆数据,但弄数据是个人最难做的,所以不太适合你。
你要有兴趣,我个人觉得做图数据库更有前景,不是分布式那种,而是单机(也许用
GPU)的。不管你们信不信,我个人觉得AI的下一个突破就在这里。

【在 w***g 的大作中提到】
: 话说我那个kgraph你还用吗?我有两年没改算法,发现已经被CMU和老毛子团队比下去
: 了, MIT也有一波人没放弃LSH最近又搞了个轮子出来。我这两天业余时间都在改进
: kgraph。这种规模得轮子属于业于时间搞搞还可以一拼的。这种事情做不到世界第一
: 就等于没做。我东家最近情况不是很好,如果他们完蛋了我就全力去做CNN。
: 老毛子战斗力太强了。

x****u
发帖数: 44466
63
我觉得生物进化出5-6层大脑视觉皮层,应该是暗示了什么原理的

【在 w***g 的大作中提到】
: multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
: 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
: 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
: 原始算法的老命。这个所有人都知道。
: 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
: 大部分alternative架构的研究,圈死了人们的想象力。
: CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
: 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
: 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
: 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个

x****u
发帖数: 44466
64
MSRA已经搞出了1000层的怪胎了,还是没造出上帝来。

【在 v*******e 的大作中提到】
: 楼主就瞎叨叨。neuron network精髓就在层数上,层数越多越牛。
l******n
发帖数: 9344
65
wdong,干脆搞个神经网络的编程培训班,在中国肯定是高端大气的,市场大大的,将来
进BAT或者来去其他地方肯定有帮助。感觉比给人写code干事还靠谱点
何如?

【在 w***g 的大作中提到】
: 我其实没啥业余不业余的,但是现在手头要做得东西还不少。
: 等task queue排空点肯定会做的。但是确实水平有限不一定
: 做的出东西来。我有过很多算法上的idea,最后能干活的很少。
: 相比之下发个贴做个预言要容易得多。

m****s
发帖数: 1481
66
需要那么多层主要是工程问题,理论上已经证明了只需一层的浅网络就可以模拟任何数
学模型,但是实际中没有有效的算法能学出来适合解决问题的模型,所以才用很深的网
络分层学习特征,才能达到解决实际问题的效果。
另外神经网络只是受到人脑的启发,实际上和人脑的工作原理是不是一样根本没有人说
得清,因为人脑是怎么工作的现在还没弄明白,所以说什么真相,都是压根儿没学明白
的,根本没有所谓的真相,只有基于具体问题的performance好不好。
深度学习现在主要两大块,generative和discriminative,也就是无监督和有监督,
CNN只是一种模型,其他还有很多种模型,而且神经网络很多时候也不是单独在用,和
其他机器学习模型结合也是扩展业务的一个大的发展方向。
深度神经网络现在是处于hype之中,但是真正搞这个领域的还是很清楚它的优缺点和接
下来的研究重点的。hinton一直致力于继续研究人脑的机理来改进神经网络模型,其他
一些大牛则不过分拘泥于模拟自然脑,而是利用已经发掘的神经网络的原理另辟蹊径开
发应用,比如lecun的抛弃语法,词,句完全从字母学习语言的应用。在某些课题上确
实进步空间不大,比如静态图片分类,但是有些课题还有很大潜力可挖,比如文本处理
,语音,视频场景分析等等。现在就谈硬伤为时尚早
x****u
发帖数: 44466
67
你没看到本质啊
现在既然是要骗钱,那名头是最很重要的。人家宁可要个10年前的2-3流AI phd,也不
一定对转行的数据科学家感兴趣。

【在 l******n 的大作中提到】
: wdong,干脆搞个神经网络的编程培训班,在中国肯定是高端大气的,市场大大的,将来
: 进BAT或者来去其他地方肯定有帮助。感觉比给人写code干事还靠谱点
: 何如?

c*****w
发帖数: 50
68
在我看来CNN的本质在于
一是convolution, 这个约束极大的减少了参数的数量。
二是multi-layer,多个layer把一张图片从裸像素一层层抽象到高级概念,这个很接近
人脑了。
按照Hinton牛的说法,CNN的改进方向在Pooling

【在 w***g 的大作中提到】
: multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
: 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
: 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
: 原始算法的老命。这个所有人都知道。
: 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
: 大部分alternative架构的研究,圈死了人们的想象力。
: CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
: 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
: 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
: 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个

L****8
发帖数: 3938
69
如果去掉pooling
多层毫无用处

【在 c*****w 的大作中提到】
: 在我看来CNN的本质在于
: 一是convolution, 这个约束极大的减少了参数的数量。
: 二是multi-layer,多个layer把一张图片从裸像素一层层抽象到高级概念,这个很接近
: 人脑了。
: 按照Hinton牛的说法,CNN的改进方向在Pooling

L****8
发帖数: 3938
70
我觉得CNN有效的重要原因之一 是max pooling+分层
这是对物体形状/纹理的很好的编码
比如 如下两个形状 都可以被识别为一类
--------------
_ _
- - -- --- ---
- _

【在 m****s 的大作中提到】
: 需要那么多层主要是工程问题,理论上已经证明了只需一层的浅网络就可以模拟任何数
: 学模型,但是实际中没有有效的算法能学出来适合解决问题的模型,所以才用很深的网
: 络分层学习特征,才能达到解决实际问题的效果。
: 另外神经网络只是受到人脑的启发,实际上和人脑的工作原理是不是一样根本没有人说
: 得清,因为人脑是怎么工作的现在还没弄明白,所以说什么真相,都是压根儿没学明白
: 的,根本没有所谓的真相,只有基于具体问题的performance好不好。
: 深度学习现在主要两大块,generative和discriminative,也就是无监督和有监督,
: CNN只是一种模型,其他还有很多种模型,而且神经网络很多时候也不是单独在用,和
: 其他机器学习模型结合也是扩展业务的一个大的发展方向。
: 深度神经网络现在是处于hype之中,但是真正搞这个领域的还是很清楚它的优缺点和接

相关主题
妈的怎么那么多鸡毛语言/软件machine learning, neural network 为啥这几年火?
区块链真正有意义的地方是谷歌大脑之父吴恩达(Andrew Ng)加盟百度
胡扯几句什么叫Deep Learning入门卷积这东西真神了
进入Programming版参与讨论
y*j
发帖数: 3139
71
1. 这不叫convolution,这是weight sharing,它能避免overfitting
2. 它实际上是一个pyramid 的概念,在机器视觉里应用很多
传统的神经网络一是层数没有这么多,二是没有weight sharing,还有其他的一些问题
,还有当时的硬件配置比现在差太远了, 导致当时的失败。
我认为现在deep learning 最大的约束是硬件:速度,核的数目,内存都需要极大的提
高。硅基的计算机比碳基的生物也许更有优势,将来也许会超过人。

:在我看来CNN的本质在于
:一是convolution, 这个约束极大的减少了参数的数量。
:二是multi-layer,多个layer把一张图片从裸像素一层层抽象到高级概念,这个很接
近人脑了。
:按照Hinton牛的说法,CNN的改进方向在Pooling

【在 c*****w 的大作中提到】
: 在我看来CNN的本质在于
: 一是convolution, 这个约束极大的减少了参数的数量。
: 二是multi-layer,多个layer把一张图片从裸像素一层层抽象到高级概念,这个很接近
: 人脑了。
: 按照Hinton牛的说法,CNN的改进方向在Pooling

x****u
发帖数: 44466
72
现在神经网络单机的计算能力,已经超过了人脑。
当然结构大不一样,目前单机只够模拟人脑的部分功能。

【在 y*j 的大作中提到】
: 1. 这不叫convolution,这是weight sharing,它能避免overfitting
: 2. 它实际上是一个pyramid 的概念,在机器视觉里应用很多
: 传统的神经网络一是层数没有这么多,二是没有weight sharing,还有其他的一些问题
: ,还有当时的硬件配置比现在差太远了, 导致当时的失败。
: 我认为现在deep learning 最大的约束是硬件:速度,核的数目,内存都需要极大的提
: 高。硅基的计算机比碳基的生物也许更有优势,将来也许会超过人。
:
: :在我看来CNN的本质在于
: :一是convolution, 这个约束极大的减少了参数的数量。
: :二是multi-layer,多个layer把一张图片从裸像素一层层抽象到高级概念,这个很接

y*j
发帖数: 3139
73
并行能力比人脑差太远了,人脑有10^11个neurons. 现在计算机的计算能力就好比是自
闭症患者的特殊能力,但是没有很好的学习能力。

:现在神经网络单机的计算能力,已经超过了人脑。
:当然结构大不一样,目前单机只够模拟人脑的部分功能。

【在 x****u 的大作中提到】
: 现在神经网络单机的计算能力,已经超过了人脑。
: 当然结构大不一样,目前单机只够模拟人脑的部分功能。

x****u
发帖数: 44466
74
人脑的运算速度比芯片慢n个数量级,而且人脑有极为苛刻的功耗限制,几十年前就有
paper发现最大激活的神经元数不超过1%。
所以综合这两点,人脑计算能力已经在7-8年前被电脑超过了。当然目前cpu,gpu的结
构是非常不适合当神经网络就是了。

【在 y*j 的大作中提到】
: 并行能力比人脑差太远了,人脑有10^11个neurons. 现在计算机的计算能力就好比是自
: 闭症患者的特殊能力,但是没有很好的学习能力。
:
: :现在神经网络单机的计算能力,已经超过了人脑。
: :当然结构大不一样,目前单机只够模拟人脑的部分功能。

c*****w
发帖数: 50
75
不一定的,非线性是必需,比如ReLU。pooling不一定必需,但实际非常有效。LeCun有
篇paper说为啥要多层,当然他也是猜。

【在 L****8 的大作中提到】
: 如果去掉pooling
: 多层毫无用处

c*****w
发帖数: 50
76
你看CNN某一层“被激发”的feature,也就那么几个,有人认为这和大脑很类似。但并
不是说其它大量的feature就没用,它们会在其它的input pattern下被激发。和人脑比
起来神经网络还很粗陋,人脑复杂的神经元间的连接不是那么容易就模拟的,CNN也许
抓到了一些关键,所以比较成功。

【在 x****u 的大作中提到】
: 人脑的运算速度比芯片慢n个数量级,而且人脑有极为苛刻的功耗限制,几十年前就有
: paper发现最大激活的神经元数不超过1%。
: 所以综合这两点,人脑计算能力已经在7-8年前被电脑超过了。当然目前cpu,gpu的结
: 构是非常不适合当神经网络就是了。

c*****w
发帖数: 50
77
convolution enables weight sharing。否则干嘛用convolution,直接上full
connection不久好了。convolution限制了神经网络的结构,减少了参数数量,减少了
overfitting的可能。实际上神经网络最大的问题之一就是overfitting,说明网络结构
还不是最优。

【在 y*j 的大作中提到】
: 1. 这不叫convolution,这是weight sharing,它能避免overfitting
: 2. 它实际上是一个pyramid 的概念,在机器视觉里应用很多
: 传统的神经网络一是层数没有这么多,二是没有weight sharing,还有其他的一些问题
: ,还有当时的硬件配置比现在差太远了, 导致当时的失败。
: 我认为现在deep learning 最大的约束是硬件:速度,核的数目,内存都需要极大的提
: 高。硅基的计算机比碳基的生物也许更有优势,将来也许会超过人。
:
: :在我看来CNN的本质在于
: :一是convolution, 这个约束极大的减少了参数的数量。
: :二是multi-layer,多个layer把一张图片从裸像素一层层抽象到高级概念,这个很接

L****8
发帖数: 3938
78
pooling是提高推广能力的法宝 尤其是物体是线框类的比如数字

【在 c*****w 的大作中提到】
: 不一定的,非线性是必需,比如ReLU。pooling不一定必需,但实际非常有效。LeCun有
: 篇paper说为啥要多层,当然他也是猜。

w***g
发帖数: 5958
79
还真不一定是你说的那样,pooling也是一种非线性。
其实ReLU+pool就相当于去掉ReLU,然后在每个pooling window里加一个0。
其实再想想,把这个0去掉或许也能干活。

【在 c*****w 的大作中提到】
: 不一定的,非线性是必需,比如ReLU。pooling不一定必需,但实际非常有效。LeCun有
: 篇paper说为啥要多层,当然他也是猜。

c*********e
发帖数: 16335
80
什么叫骗子啊?这年月,叫 会吹牛。 我公司的ceo就特别会吹。 白人特别会说,做不
行。看看obama就明白了。白人都这德性。

【在 w***g 的大作中提到】
: 做出来再说就成马后炮了。再说做了也可能做不出来,反而丢了工作。
: 我就选了小富即安,以后没啥前途我也认了。
: 穷人没啥机会成本,可以去搞野心。
: 小富了再去搞野心,机会成本太大,不划算。这个不是中国人的问题,
: 全人类都一样。Larry Ellison号称哈佛毕业就完蛋也是这个原因,
: 因为哈佛一毕业一般就小富了,不会再去实现野心。
: CEO里面骗子的比例比PhD的比例要高得多,但是骗子中穷人的比例比
: PhD中穷人的比例要高得更多。
: Update: 应该是耶鲁。反正都一样。

相关主题
向做Deeplearning的同学们请教个问题。Facebook的用CNN作翻译怎么性能超过RNN的
caffe等CNN里面convolution和relu是分开的两层?100伪币悬赏:CNN这个东西本质上处理不了形变
CNN网络之后一般还要加FNN?请教CNN中的convolution layer中每个kernel需要设计吗?
进入Programming版参与讨论
x****u
发帖数: 44466
81
CNN的一大问题就是和人脑比不够稀疏

【在 c*****w 的大作中提到】
: 你看CNN某一层“被激发”的feature,也就那么几个,有人认为这和大脑很类似。但并
: 不是说其它大量的feature就没用,它们会在其它的input pattern下被激发。和人脑比
: 起来神经网络还很粗陋,人脑复杂的神经元间的连接不是那么容易就模拟的,CNN也许
: 抓到了一些关键,所以比较成功。

x****u
发帖数: 44466
82
CNN在解决overfitting上已经远远超过人类了
人的大脑在同样情况下不可避免的要过拟合

【在 c*****w 的大作中提到】
: convolution enables weight sharing。否则干嘛用convolution,直接上full
: connection不久好了。convolution限制了神经网络的结构,减少了参数数量,减少了
: overfitting的可能。实际上神经网络最大的问题之一就是overfitting,说明网络结构
: 还不是最优。

L****8
发帖数: 3938
83
详细讲讲?

【在 w***g 的大作中提到】
: 还真不一定是你说的那样,pooling也是一种非线性。
: 其实ReLU+pool就相当于去掉ReLU,然后在每个pooling window里加一个0。
: 其实再想想,把这个0去掉或许也能干活。

w***g
发帖数: 5958
84
为什么去掉0也能干活?因为一个pooling window中有十几个数,几乎必然有一个大于0。
即使不加0,最大值小于0的可能性也很小。

【在 L****8 的大作中提到】
: 详细讲讲?
L****8
发帖数: 3938
85
你这意思是说 pooling才是核心技术?

于0。

【在 w***g 的大作中提到】
: 为什么去掉0也能干活?因为一个pooling window中有十几个数,几乎必然有一个大于0。
: 即使不加0,最大值小于0的可能性也很小。

s*****w
发帖数: 1527
86
赞大牛!

【在 w***g 的大作中提到】
: multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
: 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
: 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
: 原始算法的老命。这个所有人都知道。
: 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
: 大部分alternative架构的研究,圈死了人们的想象力。
: CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
: 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
: 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
: 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个

w*******x
发帖数: 489
87
我觉得CNN 本身作为视觉图像处理(模拟人类或动物视觉神经部分)应该是已经非常成
熟和有效了,不需要太多数据(order of 100)就可以达到高精度(比如把region of
interest 做segmentaion 出来)。performance差主要来源于后面的类似于人的逻辑处
理的层 (比如判断什么物体,手势,结构等等),这些层也决定了人脑远胜于动物的
脑子,这些一般就简单的用fully connected layer来模拟,或者增加CNN的层数+FC
layer来做,也许完全是”错“的。CNN很大程度解决了图像/语音处理,但也许DNN的发
展还需要有个突破来解决逻辑处理 也许是某种RNN?
我就想,智商160和智商60的大脑结构差在哪里? train出来的网络performance可以有
如此大的差别~~~

【在 w***g 的大作中提到】
: multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
: 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
: 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
: 原始算法的老命。这个所有人都知道。
: 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
: 大部分alternative架构的研究,圈死了人们的想象力。
: CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
: 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
: 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
: 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个

L****8
发帖数: 3938
88
今天仔细想了想 觉得多层是没必要的
假设 有三层 全连接
第一层 第二层 第三层
第一层和第二层之间连接关系 A=[a_ij] 链接 节点i(第一层) 和 节点j (第二层)
第二层和第三层之间连接关系 B=[b_jk] 链接 节点i(第一层) 和 节点j (第二层)
wdong所说有道理, 如果用ReLU节点+max pooling 那么多数情况输入都是正的 ReLU就
是个线性放大器
如果忽略放大倍数,第一层和第三层直接连接关系C=[c_ik] 满足 矩阵C=A*B
这么看来 CNN的法宝 就是 max pooling + dropout
max pooling 相当于分级模板匹配 对物体形变的一种离散化
dropout 相当于聚类
我把 max pooling 的想法用在了另一个应用上 效果不错

【在 w***g 的大作中提到】
: multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
: 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
: 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
: 原始算法的老命。这个所有人都知道。
: 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
: 大部分alternative架构的研究,圈死了人们的想象力。
: CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
: 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
: 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
: 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个

L****8
发帖数: 3938
89
研究的如何了?

【在 w***g 的大作中提到】
: multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
: 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
: 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
: 原始算法的老命。这个所有人都知道。
: 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
: 大部分alternative架构的研究,圈死了人们的想象力。
: CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
: 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
: 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
: 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个

N*****m
发帖数: 42603
90
感觉现在搞计算机的数学功底不行
谁要是把CNN的数学理论原理搞出来了,搞个图灵应该轻轻松松

【在 w***g 的大作中提到】
: multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
: 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
: 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
: 原始算法的老命。这个所有人都知道。
: 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
: 大部分alternative架构的研究,圈死了人们的想象力。
: CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
: 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
: 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
: 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个

相关主题
这个总结的 ai 最新趋势真不错DL一个基础问题:
如果数据少,是不是就不能用CNN再问机器学习。。。用keras分类
CNN里面不用max pooling但是用更大的stride step嵌套循环,层数可变 怎么实现
进入Programming版参与讨论
L****8
发帖数: 3938
91
我设计了一种新的结构
相当于CNN 两层conv 两层max-pooling
MNIST 上跑到了0.87 错误率
是个啥水平?

【在 w***g 的大作中提到】
: multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
: 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
: 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
: 原始算法的老命。这个所有人都知道。
: 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
: 大部分alternative架构的研究,圈死了人们的想象力。
: CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
: 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
: 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
: 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个

a*********y
发帖数: 63
92
也不能简单地说数学功底不行. 神经网络的数学模型归根到底是一个非线性系统. 然而
现在的数学对非线性系统还没有什么系统的有效的解决方法,除了一些特殊的情况.
所以不能说搞计算机的数学功底不行, 而是现在的数学就这个水平.

【在 N*****m 的大作中提到】
: 感觉现在搞计算机的数学功底不行
: 谁要是把CNN的数学理论原理搞出来了,搞个图灵应该轻轻松松

k****i
发帖数: 101
93
NN从计算的角度,相当于以“普适”的算法产生不同的参数来对应于各种特定的算法,
并能从中选择最优的参数来解答问题。
从CNN的角度,flying parts就是堆层超参,用各种architectures及frameworks来实现
并简化该过程。
大作中提到的meta parameters是要fix the flying parts,进而能适配各种应用吗?

【在 w***g 的大作中提到】
: multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
: 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
: 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
: 原始算法的老命。这个所有人都知道。
: 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
: 大部分alternative架构的研究,圈死了人们的想象力。
: CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
: 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
: 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
: 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个

d*******r
发帖数: 3299
94
那所以大家都是在瞎蒙? 那在这个瞎蒙过程中,数学在哪一部分比较起作用?

【在 a*********y 的大作中提到】
: 也不能简单地说数学功底不行. 神经网络的数学模型归根到底是一个非线性系统. 然而
: 现在的数学对非线性系统还没有什么系统的有效的解决方法,除了一些特殊的情况.
: 所以不能说搞计算机的数学功底不行, 而是现在的数学就这个水平.

k****i
发帖数: 101
95
数据↑ ⇒ S↑
参数↓ ⇒ N↓

【在 c*****w 的大作中提到】
: convolution enables weight sharing。否则干嘛用convolution,直接上full
: connection不久好了。convolution限制了神经网络的结构,减少了参数数量,减少了
: overfitting的可能。实际上神经网络最大的问题之一就是overfitting,说明网络结构
: 还不是最优。

v*****k
发帖数: 7798
96
我说诸位表瞎猜cnn的物理意义了。这物理意义包括为啥convolution 为啥pooling学一
点信号处理就清楚的很。
a*********y
发帖数: 63
97
ZKSS please.

【在 v*****k 的大作中提到】
: 我说诸位表瞎猜cnn的物理意义了。这物理意义包括为啥convolution 为啥pooling学一
: 点信号处理就清楚的很。

w***g
发帖数: 5958
98
CNN就是多层带模糊和扰动的模版匹配. 刚好操作跟信号处理的convolution
很像, 所以叫CNN. 为啥我跟信号处理没关系. 信号处理的核心是FFT,
CNN和FFT的关系最多到有一小撮人用FFT加速运算, 而且这撮人已经好久没有
消息了.

【在 a*********y 的大作中提到】
: ZKSS please.
T*******x
发帖数: 8565
99
赞。

【在 w*******x 的大作中提到】
: 我觉得CNN 本身作为视觉图像处理(模拟人类或动物视觉神经部分)应该是已经非常成
: 熟和有效了,不需要太多数据(order of 100)就可以达到高精度(比如把region of
: interest 做segmentaion 出来)。performance差主要来源于后面的类似于人的逻辑处
: 理的层 (比如判断什么物体,手势,结构等等),这些层也决定了人脑远胜于动物的
: 脑子,这些一般就简单的用fully connected layer来模拟,或者增加CNN的层数+FC
: layer来做,也许完全是”错“的。CNN很大程度解决了图像/语音处理,但也许DNN的发
: 展还需要有个突破来解决逻辑处理 也许是某种RNN?
: 我就想,智商160和智商60的大脑结构差在哪里? train出来的网络performance可以有
: 如此大的差别~~~

j*********n
发帖数: 74
100
mark
相关主题
xiaoju 老师进来一下胡扯几句什么叫Deep Learning入门
妈的怎么那么多鸡毛语言/软件machine learning, neural network 为啥这几年火?
区块链真正有意义的地方是谷歌大脑之父吴恩达(Andrew Ng)加盟百度
进入Programming版参与讨论
J**********r
发帖数: 508
101
zan

【在 w***g 的大作中提到】
: CNN就是多层带模糊和扰动的模版匹配. 刚好操作跟信号处理的convolution
: 很像, 所以叫CNN. 为啥我跟信号处理没关系. 信号处理的核心是FFT,
: CNN和FFT的关系最多到有一小撮人用FFT加速运算, 而且这撮人已经好久没有
: 消息了.

g****t
发帖数: 31659
102
where is Liber8 now?
I tested with MNIST earlier too. But I did not use soft computation
methods.

【在 L****8 的大作中提到】
: 我设计了一种新的结构
: 相当于CNN 两层conv 两层max-pooling
: MNIST 上跑到了0.87 错误率
: 是个啥水平?

g****t
发帖数: 31659
103
For those question in the originial post:
"怎么样可以改这个
architecture让预测效果变得更好? 因为design space实在太大,又没有
一个像牛顿定理那样的指导原则
"
-----------------------------------------------------------
我有个处理参数的技术。
不管你什么预测模型,或者分类模型。
假如5个参数,分别选00001,00010,。。这样,然后
出来5路误差序列,e1,e2,e3,e4,e5。
通过对数据进行线性滤波的前处理,然后结果再逆变换
回来后处理,让中间的误差方向尽量分散。就是这五路误差尽量
正交。
直觉上来讲,误差的方向分散了,那么参数就充分用到了。
上面方法故意不考虑几个参数同时改变时候的coorelation情况,
相当于把一些东西简化成对角阵。这样使用面可以更广一些。
这个尽量把误差分散和正交的思路是我处理这些问题时侯的主要的trick。
前处理滤波器和后处理滤波器,可以优化设计出来

【在 w***g 的大作中提到】
: multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
: 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
: 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
: 原始算法的老命。这个所有人都知道。
: 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
: 大部分alternative架构的研究,圈死了人们的想象力。
: CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
: 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
: 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
: 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个

z*****k
发帖数: 600
104
>>我的印象中没有人质疑architecture这个东西本身存在的合理性。。。。
>>为什么别人的architecture要这么定?
架构与brain视觉中枢神经架构比较相符。你可以质疑,但是单单质疑没啥意思。
>>应该只需要十几个功能正交的参数(meta parameter),而不是一层复一层垒重复性的
东西。
已有的正交的东西都试过了,才有人出来搞nn而且很成功。再说正交那都是线性主义的
老一套,试了又试,知道不行了。 nn优点恰好就是引入了非线性且融合得比较好。多
层重复架构是早旧有的仿视觉处理的multiscale approach, 不是nn弄出来的新东西。

【在 w***g 的大作中提到】
: multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
: 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
: 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
: 原始算法的老命。这个所有人都知道。
: 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
: 大部分alternative架构的研究,圈死了人们的想象力。
: CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
: 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
: 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
: 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个

s********k
发帖数: 6180
105
假如第一层有16个feature map,第二层又来8个 filter,第二层就有16*8个feature
map了?这个越往后feature map会爆炸增加吧

【在 L****8 的大作中提到】
: 今天仔细想了想 觉得多层是没必要的
: 假设 有三层 全连接
: 第一层 第二层 第三层
: 第一层和第二层之间连接关系 A=[a_ij] 链接 节点i(第一层) 和 节点j (第二层)
: 第二层和第三层之间连接关系 B=[b_jk] 链接 节点i(第一层) 和 节点j (第二层)
: wdong所说有道理, 如果用ReLU节点+max pooling 那么多数情况输入都是正的 ReLU就
: 是个线性放大器
: 如果忽略放大倍数,第一层和第三层直接连接关系C=[c_ik] 满足 矩阵C=A*B
: 这么看来 CNN的法宝 就是 max pooling + dropout
: max pooling 相当于分级模板匹配 对物体形变的一种离散化

z*****k
发帖数: 600
106
No, 8 in your example, ie the same as the # of the filters

【在 s********k 的大作中提到】
: 假如第一层有16个feature map,第二层又来8个 filter,第二层就有16*8个feature
: map了?这个越往后feature map会爆炸增加吧

s********k
发帖数: 6180
107
假设原图第一层layer有16个filter,会出来16个feature map吧,那第二层又有8个
filter,应该会对16个feature map再做CNN?还是只是对原图做CNN?

【在 z*****k 的大作中提到】
: No, 8 in your example, ie the same as the # of the filters
z*****k
发帖数: 600
108
第二层又有8个filter,当然结果是8个feature maps。每个Filter要作用在上一层的所
有的 16 个feature maps上。不然 DCNN 的“D”的作用没法完全发挥!

【在 s********k 的大作中提到】
: 假设原图第一层layer有16个filter,会出来16个feature map吧,那第二层又有8个
: filter,应该会对16个feature map再做CNN?还是只是对原图做CNN?

s********k
发帖数: 6180
109
对啊,第二层每个filter‘要用在上一层的16个feature map,所以最后第二层的
feature map就是16*8个

【在 z*****k 的大作中提到】
: 第二层又有8个filter,当然结果是8个feature maps。每个Filter要作用在上一层的所
: 有的 16 个feature maps上。不然 DCNN 的“D”的作用没法完全发挥!

g****t
发帖数: 31659
110
1d 卷积就是RC电路什么的。2维是wave equation 之类PDE的解。
http://www.emis.de/journals/HOA/DENM/2007/49251.pdf
check equation 1.3

【在 a*********y 的大作中提到】
: ZKSS please.
相关主题
谷歌大脑之父吴恩达(Andrew Ng)加盟百度caffe等CNN里面convolution和relu是分开的两层?
卷积这东西真神了CNN网络之后一般还要加FNN?
向做Deeplearning的同学们请教个问题。Facebook的用CNN作翻译怎么性能超过RNN的
进入Programming版参与讨论
g****t
发帖数: 31659
111
我分开说,是因为多变量fourier分析其实我个人认为数学上没什么说法。
单变量的则研究的比较清楚了。
我怀疑最后是因为平面闭合曲线可以把平面分成两部分。
高维空间一条闭合曲线没这个兴致。
所以高维计算,各种分层分段分grid,步长什么的学问很大。
和time series这种1维的很不同。

【在 g****t 的大作中提到】
: 1d 卷积就是RC电路什么的。2维是wave equation 之类PDE的解。
: http://www.emis.de/journals/HOA/DENM/2007/49251.pdf
: check equation 1.3

N*****m
发帖数: 42603
112
据说DL的数学理论有人用group theory解决了
不知道真假

【在 w***g 的大作中提到】
: multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
: 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
: 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
: 原始算法的老命。这个所有人都知道。
: 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
: 大部分alternative架构的研究,圈死了人们的想象力。
: CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
: 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
: 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
: 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个

g****t
发帖数: 31659
113
This paper:
https://arxiv.org/abs/1410.3831
看着有道理。
但是重整化群本身就是个大的计算坑。这就好比说deep learning被PDE解释了类似。
‘解决’这个不好定义。

【在 N*****m 的大作中提到】
: 据说DL的数学理论有人用group theory解决了
: 不知道真假

c*****e
发帖数: 3226
114
很多公司最后 data scientist 工作就是把这些模型运行一下,调节一下参数

【在 w***g 的大作中提到】
: multi-layer convolutional neural network在一定程度上已经很接近事情的真相了,
: 不然不可能这么effective。2012年alexnet的横空出世其实有两个后果:
: 1. CNN研究多年的惨淡经营终于破茧而出,然后迅速解放生产力革了众多前CNN时代
: 原始算法的老命。这个所有人都知道。
: 2. 大部分人没意识到的是alexnet同时也把CNN的基本框架给夯实了,然后迅速杀死了
: 大部分alternative架构的研究,圈死了人们的想象力。
: CNN应用的一个核心概念就是"architecture",也就是一个描述CNN结构的小程序。
: 2012年以来看似CNN研究爆炸了,但是除了应用以外,对CNN本身的研究几乎全都
: 是围绕着这个architecture展开的:怎么添加新类型的layer,怎么增加层数,
: 怎么连,怎么算得快,等等等等。但是我的印象中没有人质疑architecture这个

1 (共1页)
进入Programming版参与讨论
相关主题
CNN里面不用max pooling但是用更大的stride stepmachine learning, neural network 为啥这几年火?
DL一个基础问题:谷歌大脑之父吴恩达(Andrew Ng)加盟百度
再问机器学习。。。用keras分类卷积这东西真神了
嵌套循环,层数可变 怎么实现向做Deeplearning的同学们请教个问题。
xiaoju 老师进来一下caffe等CNN里面convolution和relu是分开的两层?
妈的怎么那么多鸡毛语言/软件CNN网络之后一般还要加FNN?
区块链真正有意义的地方是Facebook的用CNN作翻译怎么性能超过RNN的
胡扯几句什么叫Deep Learning入门100伪币悬赏:CNN这个东西本质上处理不了形变
相关话题的讨论汇总
话题: cnn话题: pooling话题: 人脑话题: 神经网络