r*g 发帖数: 3159 | 1 理论上。
还是只能做线性拟合,或者广义线性拟合? |
v*******e 发帖数: 11604 | 2 能能能
人脑能做到的机器都能。还是将来时,不过我估计很快了。 |
g****t 发帖数: 31659 | 3 一个信号和1.2.3,4,5卷积一下不就发现直线了
你手写一个0
找个图卷积一下,分数高不就说明这个图旋转不变
计算拓扑很成熟了 |
x****u 发帖数: 44466 | 4 机器学习做不到,深度学习能做到
不但能理解你的0,还能把你手写字体伪造的惟妙惟肖
【在 g****t 的大作中提到】 : 一个信号和1.2.3,4,5卷积一下不就发现直线了 : 你手写一个0 : 找个图卷积一下,分数高不就说明这个图旋转不变 : 计算拓扑很成熟了
|
r*g 发帖数: 3159 | 5 学习静止的东西,估值函数简单,即使是围棋。我设想一个双盲试验,一组用一些规则
模拟一个世界,另一组通过观察能否发现背后所有的规律。比什么图灵测试靠谱吧。
【在 x****u 的大作中提到】 : 机器学习做不到,深度学习能做到 : 不但能理解你的0,还能把你手写字体伪造的惟妙惟肖
|
g****t 发帖数: 31659 | 6 机器学习可以做到。数字识别很简单可以到90%
用minst测试集。我前段自己做过。
0尤其容易。
: 机器学习做不到,深度学习能做到
: 不但能理解你的0,还能把你手写字体伪造的惟妙惟肖
【在 x****u 的大作中提到】 : 机器学习做不到,深度学习能做到 : 不但能理解你的0,还能把你手写字体伪造的惟妙惟肖
|
x****u 发帖数: 44466 | 7 ML的90%怎么够啊,mnist一般的CNN sample都有99.x%,业界不少能100%的。
【在 g****t 的大作中提到】 : 机器学习可以做到。数字识别很简单可以到90% : 用minst测试集。我前段自己做过。 : 0尤其容易。 : : : 机器学习做不到,深度学习能做到 : : 不但能理解你的0,还能把你手写字体伪造的惟妙惟肖 :
|
g****t 发帖数: 31659 | 8 一来精度最后一点都是各种细节挖。不是通用知识
学了没有意义。所以我没继续。
二来99.x%那些,我认为都是垃圾论文。
Minst里有好多图,找10000000个人看,相当一部分人看出来会是1,
另一部分看出来是7。你的算法全认为是1,看着和label一样,
那当然是错的。
图对应的结果,不是写字的人说是什么就是什么。
最后是应用场景来定。
这就好比蓝色金色裙子那件事。
你写个算法,看出来是蓝的,那就是错的。
: ML的90%怎么够啊,mnist一般的CNN sample都有99.x%,业界不少能100%
的。
【在 x****u 的大作中提到】 : ML的90%怎么够啊,mnist一般的CNN sample都有99.x%,业界不少能100%的。
|
x****u 发帖数: 44466 | 9 mnist的标记是仔细做的,基本不需要考虑错误,一个数字是几取决于写的时候人想的
是几
神经网络搞mnist基本是不研究数据本身只微调参数和结构啊
【在 g****t 的大作中提到】 : 一来精度最后一点都是各种细节挖。不是通用知识 : 学了没有意义。所以我没继续。 : 二来99.x%那些,我认为都是垃圾论文。 : Minst里有好多图,找10000000个人看,相当一部分人看出来会是1, : 另一部分看出来是7。你的算法全认为是1,看着和label一样, : 那当然是错的。 : 图对应的结果,不是写字的人说是什么就是什么。 : 最后是应用场景来定。 : 这就好比蓝色金色裙子那件事。 : 你写个算法,看出来是蓝的,那就是错的。
|
g****t 发帖数: 31659 | 10 你没做过mnist吧?
1和7你如果全弄对了,0和9也全对了,那
几乎可以肯定overfitting了
我记得Ambitions image在yann的文章也有提及。不是啥新鲜事.
写文章这样可以。卖是不行的。
给你0加个小缺口说不定就废了
: mnist的标记是仔细做的,基本不需要考虑错误,一个数字是几取决于写
的时候
人想的
: 是几
: 神经网络搞mnist基本是不研究数据本身只微调参数和结构啊
【在 x****u 的大作中提到】 : mnist的标记是仔细做的,基本不需要考虑错误,一个数字是几取决于写的时候人想的 : 是几 : 神经网络搞mnist基本是不研究数据本身只微调参数和结构啊
|
|
|
w***g 发帖数: 5958 | 11 99%属于正常水平。
机器学习的结果,如果有谁claim 100%,就是unprofessional,直接可以滚蛋了。
现在有很多>99%的结果,我不是很信。
因为nmist已经在那里好几年了,大家说是cross-validation,
其实都是对着validate的结果调的hyper parameter。
很多deep learning框架都拿nmist做toy example。
我刚刚用lasagne跑了下,两分钟之内达到99%。
这个因改没太多over-fitting,因为CNN架构就是随便一个简单的,
没有专门为nmist优化的迹象。
估计多循环几次还能上去。不过就像guvest说的
1和7, 0和9 这个很难全弄对。就是validation准确率上去,
我其实也不信。就像我们用一个仪器测东西有额定精度,
dataset做evaluation也有精度。我觉得nmist这个dataset
的精度应该在99%一下。用这个dataset测出>99%的精度
没有意义。
要看dataset的同学我已经导好了
http://www.aaalgo.com/picpac/datasets/nmist/
Linux下用这个程序看图(chmod +x picpac-explorer就能运行)
http://www.aaalgo.com/picpac/binary/picpac-explorer
【在 g****t 的大作中提到】 : 你没做过mnist吧? : 1和7你如果全弄对了,0和9也全对了,那 : 几乎可以肯定overfitting了 : 我记得Ambitions image在yann的文章也有提及。不是啥新鲜事. : 写文章这样可以。卖是不行的。 : 给你0加个小缺口说不定就废了 : : : mnist的标记是仔细做的,基本不需要考虑错误,一个数字是几取决于写 : 的时候 : 人想的
|
x****u 发帖数: 44466 | 12 怎么可能?今天CNN认的很准,尤其是0和6出头多点少点这种。
现在早不是yann的时代了,当年杨乐村发明了CNN但没办法把结果做得更好,还转了几
次行被当成loser过。
【在 g****t 的大作中提到】 : 你没做过mnist吧? : 1和7你如果全弄对了,0和9也全对了,那 : 几乎可以肯定overfitting了 : 我记得Ambitions image在yann的文章也有提及。不是啥新鲜事. : 写文章这样可以。卖是不行的。 : 给你0加个小缺口说不定就废了 : : : mnist的标记是仔细做的,基本不需要考虑错误,一个数字是几取决于写 : 的时候 : 人想的
|
x****u 发帖数: 44466 | 13 0和9弄全对说明过拟合了美国邮递员的思路啊
有几个逻辑回归不认yann认的东西,挑出来一看我赞同逻辑回归的观点,换我们小学老
师早把作业本给当场撕了。。。
【在 w***g 的大作中提到】 : 99%属于正常水平。 : 机器学习的结果,如果有谁claim 100%,就是unprofessional,直接可以滚蛋了。 : 现在有很多>99%的结果,我不是很信。 : 因为nmist已经在那里好几年了,大家说是cross-validation, : 其实都是对着validate的结果调的hyper parameter。 : 很多deep learning框架都拿nmist做toy example。 : 我刚刚用lasagne跑了下,两分钟之内达到99%。 : 这个因改没太多over-fitting,因为CNN架构就是随便一个简单的, : 没有专门为nmist优化的迹象。 : 估计多循环几次还能上去。不过就像guvest说的
|
w***g 发帖数: 5958 | 14 nmist的test set 10000张图片。
如果99%, 错误100张,尚有统计意义。
到99.9%, 错误10张,我觉得统计意义就不明显了。要测99.9%, 数据量再x10才行。
【在 x****u 的大作中提到】 : 0和9弄全对说明过拟合了美国邮递员的思路啊 : 有几个逻辑回归不认yann认的东西,挑出来一看我赞同逻辑回归的观点,换我们小学老 : 师早把作业本给当场撕了。。。
|
x****u 发帖数: 44466 | 15 如果99.9%,说明拟合邮递员感觉比较成功吧,是发掘为什么老美这样认啊。不过搞的
越准要求数据得洗得越干净,不然里面有几个就是写错了加送错的就完蛋了
【在 w***g 的大作中提到】 : nmist的test set 10000张图片。 : 如果99%, 错误100张,尚有统计意义。 : 到99.9%, 错误10张,我觉得统计意义就不明显了。要测99.9%, 数据量再x10才行。
|
g****t 发帖数: 31659 | 16 往应用说,机器学习不是看label,是要卖东西。
所以你把0,6和1,7全搞定了,谁信?1万个人还有10个写错
看错的吧!
往理论说,那还有什么camero rao bound 什么的东西。
弄的太精确最后一定等于是牺牲了robustness.
: 怎么可能?今天CNN认的很准,尤其是0和6出头多点少点这种。
: 现在早不是yann的时代了,当年杨乐村发明了CNN但没办法把结果做得更
好,还
转了几
: 次行被当成loser过。
【在 x****u 的大作中提到】 : 如果99.9%,说明拟合邮递员感觉比较成功吧,是发掘为什么老美这样认啊。不过搞的 : 越准要求数据得洗得越干净,不然里面有几个就是写错了加送错的就完蛋了
|
x****u 发帖数: 44466 | 17 这就好比breaking bad里面,老头解释为啥97%+的纯度好于70%的
【在 g****t 的大作中提到】 : 往应用说,机器学习不是看label,是要卖东西。 : 所以你把0,6和1,7全搞定了,谁信?1万个人还有10个写错 : 看错的吧! : 往理论说,那还有什么camero rao bound 什么的东西。 : 弄的太精确最后一定等于是牺牲了robustness. : : : 怎么可能?今天CNN认的很准,尤其是0和6出头多点少点这种。 : : 现在早不是yann的时代了,当年杨乐村发明了CNN但没办法把结果做得更 : 好,还 : 转了几
|
g****t 发帖数: 31659 | 18 Mnist里很有些图让人来看都有一定错误率的。
假定10万个人看同一个图
里头10%说是0,90%说是6
现在你一个算法全说是6
那我肯定认为这个算法无法fit in我的原有业务,一定
会出事。
: nmist的test set 10000张图片。
: 如果99%, 错误100张,尚有统计意义。
: 到99.9%, 错误10张,我觉得统计意义就不明显了。要测99.9%, 数据量再x10
才行。
【在 w***g 的大作中提到】 : nmist的test set 10000张图片。 : 如果99%, 错误100张,尚有统计意义。 : 到99.9%, 错误10张,我觉得统计意义就不明显了。要测99.9%, 数据量再x10才行。
|
g****t 发帖数: 31659 | 19 两回事。他那是提升精度会带来更好体验。直接化学反应。
我前面讲了逻辑实证主义。
一个图是0还是6
我认为答案是以下思想实验或者逻辑操作:
找x个人看这个图,给出答案。
X趋向于无穷,看0和6的比例。
如果这个比例认为0的多于10%
你的算法给的小于10%
那两者不能替换
会有应用场景出事
: 这就好比breaking bad里面,老头解释为啥97% 的纯度好于70%的
【在 x****u 的大作中提到】 : 这就好比breaking bad里面,老头解释为啥97%+的纯度好于70%的
|
x****u 发帖数: 44466 | 20 这两回事,Mnist就是要努力学老美信封的写法,然后降低认错带来的损失。如果你连
90%确定度都不接受,那还有别的玩法。
x10
【在 g****t 的大作中提到】 : Mnist里很有些图让人来看都有一定错误率的。 : 假定10万个人看同一个图 : 里头10%说是0,90%说是6 : 现在你一个算法全说是6 : 那我肯定认为这个算法无法fit in我的原有业务,一定 : 会出事。 : : : nmist的test set 10000张图片。 : : 如果99%, 错误100张,尚有统计意义。 : : 到99.9%, 错误10张,我觉得统计意义就不明显了。要测99.9%, 数据量再x10
|
|
|
x****u 发帖数: 44466 | 21 CNN输出都是概率矩阵啊,你要是足够闲把几万个数字都统计一下对于10个数字每个的
概率拿来训练,而不是直接把1映射到[0, 1, 0...],那训练出来的也一样。
但是这么做,你训练标签含义就变了,从本来应该是什么,变成了这数字长得像什么,
【在 g****t 的大作中提到】 : 两回事。他那是提升精度会带来更好体验。直接化学反应。 : 我前面讲了逻辑实证主义。 : 一个图是0还是6 : 我认为答案是以下思想实验或者逻辑操作: : 找x个人看这个图,给出答案。 : X趋向于无穷,看0和6的比例。 : 如果这个比例认为0的多于10% : 你的算法给的小于10% : 那两者不能替换 : 会有应用场景出事
|
g****t 发帖数: 31659 | 22 90%我只是举个例子。
你要调试过自己写的 mnist算法就会发现问题了。
相当一部分label如果让很多人来给,统计是不会稳定到那么高的。
我之前自己发明了个野鸡算法,失败的例子调出来看过,
所以我知道那里不少label是有疑问的
: 这两回事,Mnist就是要努力学老美信封的写法,然后降低认错带来的损失。如
果你连
: 90%确定度都不接受,那还有别的玩法。
: x10
【在 x****u 的大作中提到】 : CNN输出都是概率矩阵啊,你要是足够闲把几万个数字都统计一下对于10个数字每个的 : 概率拿来训练,而不是直接把1映射到[0, 1, 0...],那训练出来的也一样。 : 但是这么做,你训练标签含义就变了,从本来应该是什么,变成了这数字长得像什么,
|
g****t 发帖数: 31659 | 23 如果真有人买了手写体99.xx%的系统。
那对我来说就是非常值得学习和研究的business case
和技术。完全的新知识。
Xiaoju说的也有可能对。
毕竟大千世界无奇不有。尤其现在这个乱枪打鸟的时代
: 99%属于正常水平。
: 机器学习的结果,如果有谁claim 100%,就是unprofessional,直接可以
滚蛋了。
: 现在有很多
【在 w***g 的大作中提到】 : nmist的test set 10000张图片。 : 如果99%, 错误100张,尚有统计意义。 : 到99.9%, 错误10张,我觉得统计意义就不明显了。要测99.9%, 数据量再x10才行。
|
x****u 发帖数: 44466 | 24 这就是我上面说的,label含义问题
现在的label是指数字实际是什么,你可以把它改成数字长的像什么,叫mnist+。
【在 g****t 的大作中提到】 : 90%我只是举个例子。 : 你要调试过自己写的 mnist算法就会发现问题了。 : 相当一部分label如果让很多人来给,统计是不会稳定到那么高的。 : 我之前自己发明了个野鸡算法,失败的例子调出来看过, : 所以我知道那里不少label是有疑问的 : : : 这两回事,Mnist就是要努力学老美信封的写法,然后降低认错带来的损失。如 : 果你连 : : 90%确定度都不接受,那还有别的玩法。 : : x10
|
g****t 发帖数: 31659 | 25 对。我基本上只认外延定义。
不认为“是”这个字有意义。
谁来规定什么是什么?
写字的人写多了出错是肯定的。让写的人自己定义label困难也很多。
我碰到问题,或者设计产品卖点。
首要的办法,就是构造对应的统计稳定的,逻辑一致的
理想实验,或者用户场景,来代替这个“是”字。然后慢慢分析。这算是
跟着einstein邯郸学步。
我觉得数据产品最后就是数字和应用场景联系。
无用词汇没有帮助。
: 这就是我上面说的,label含义问题
: 现在的label是指数字实际是什么,你可以把它改成数字长的像什么,叫
mnist 。
【在 x****u 的大作中提到】 : 这就是我上面说的,label含义问题 : 现在的label是指数字实际是什么,你可以把它改成数字长的像什么,叫mnist+。
|