由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 求指教:关于汉字拆分和图像识别
相关主题
有人做图像识别或者OCR的吗?对于现在machine learning有个问题,请指教
问个图像识别问题求教中小公司普通码农职业发展
现在的图像识别技术真是把验证码逼的无路可走啊同时train segm和obj detect
2天撸了个手写体数字识别程序subpixel conv == transposed conv
请教图像识别的人工智能算法 (转载)如何train一个把签名(手写)与印刷字体区别的model?
并行可以降低计算复杂度??谷歌为避免将黑人标为“大猩猩”,将“大猩猩”一词屏蔽 (转载
前途是光明的,道路是曲折的问个优化问题
人工智能下围棋超过人类, 是一个虚假结论, 纯属误导!每年cvpr aaai上那么多算法文章
相关话题的讨论汇总
话题: 拆分话题: 汉字话题: 识别话题: 图像识别话题: 问题
进入Programming版参与讨论
1 (共1页)
w**********a
发帖数: 6
1
编程菜鸟恳请大家指教,希望能用图象识别的方法完成汉字拆分,一开始不需要考虑
手写体的问题,只面对已经可以打出来的字,比如汉字,拆分为氵又和宀又。
请高手在以下几方面指点一下:
1 整个目标难度多大,是现有条件可完成的吗。
2 需要读些什么书,最好是容易上手的。
3 有没有现成的开源项目可以借鉴下。
先谢谢了。
b*******s
发帖数: 5216
2
你可以把这个问题转化为一个比较简单的问题
1 先识别这个字,现在很多办法了
2 先验的知道这个字怎么拆分,直接查表得到结果

【在 w**********a 的大作中提到】
: 编程菜鸟恳请大家指教,希望能用图象识别的方法完成汉字拆分,一开始不需要考虑
: 手写体的问题,只面对已经可以打出来的字,比如汉字,拆分为氵又和宀又。
: 请高手在以下几方面指点一下:
: 1 整个目标难度多大,是现有条件可完成的吗。
: 2 需要读些什么书,最好是容易上手的。
: 3 有没有现成的开源项目可以借鉴下。
: 先谢谢了。

e***e
发帖数: 3872
3
狗狗radical/stroke extraction/segmentation
这应该不算是个programming的问题,搞CVPR的还在发paper混饭吃呢

【在 w**********a 的大作中提到】
: 编程菜鸟恳请大家指教,希望能用图象识别的方法完成汉字拆分,一开始不需要考虑
: 手写体的问题,只面对已经可以打出来的字,比如汉字,拆分为氵又和宀又。
: 请高手在以下几方面指点一下:
: 1 整个目标难度多大,是现有条件可完成的吗。
: 2 需要读些什么书,最好是容易上手的。
: 3 有没有现成的开源项目可以借鉴下。
: 先谢谢了。

N******K
发帖数: 10202
4
这是正途
人也是这么做的

【在 b*******s 的大作中提到】
: 你可以把这个问题转化为一个比较简单的问题
: 1 先识别这个字,现在很多办法了
: 2 先验的知道这个字怎么拆分,直接查表得到结果

w**********a
发帖数: 6
5
多谢楼上三位先生赐教。
我不只是想获得汉字的拆分的具体结果,这一点,IDS (ideographic description
sequence) 项目已经做了几万字出来了,的确是查表可以得到结果。
我想做的是,通过图像识别的方法,用程序来完成这个拆分,来学习图像识别技术。
IDS的结果正好可以为图像识别的结果提供校验。
按etude先生的指点找到了一篇文章,学习中。
先生看来是CVPR(惭愧,这个词也是放狗才知道是Computer Vision and Pattern
Recognition的缩写)的行家,烦请介绍两本适合初学者的入门书吧。
e***e
发帖数: 3872
6
我不是行家,只学过一点CVPR,知道的书也很少。貌似很多人书架上有这本书:
Christopher M. Bishop, 2007, Pattern Recognition and Machine Learning
另外比较新的,引用数也比较高的有这本:
C. H. Chen et al., 2009, Handbook of pattern recognition and computer vision
虽然我觉得可能都有点远水解不了近渴——如果是做项目的话。能问下你拆分的目的是
什么吗?如果学习模式识别,这个题目既不好做,又不好卖啊……

【在 w**********a 的大作中提到】
: 多谢楼上三位先生赐教。
: 我不只是想获得汉字的拆分的具体结果,这一点,IDS (ideographic description
: sequence) 项目已经做了几万字出来了,的确是查表可以得到结果。
: 我想做的是,通过图像识别的方法,用程序来完成这个拆分,来学习图像识别技术。
: IDS的结果正好可以为图像识别的结果提供校验。
: 按etude先生的指点找到了一篇文章,学习中。
: 先生看来是CVPR(惭愧,这个词也是放狗才知道是Computer Vision and Pattern
: Recognition的缩写)的行家,烦请介绍两本适合初学者的入门书吧。

w**********a
发帖数: 6
7
多谢etude先生,我不是在做项目,就像你说的,以我现在的起点,还没跑到远水那儿
,肯定早就渴死了。我就是想学编程,但水平很菜,书看了些,半懂不懂的,纸上得来
终觉浅,
到处都说要想学会编程,就得自己做点东西来上手。我对汉字文化一直比较感兴趣,以
这个做出发点,也许能让自己坚持更久一些,所以“钱途”和难度不是问题。
多谢先生介绍的两本书,先下载了,慢慢读。
找到一个Andrew Kirillov 的例程,正在学习。
g*****y
发帖数: 7271
8
学编程不建议从这个项目入手。先做点简单的基础部分,比如connected components,
HMM 之类的。

【在 w**********a 的大作中提到】
: 多谢etude先生,我不是在做项目,就像你说的,以我现在的起点,还没跑到远水那儿
: ,肯定早就渴死了。我就是想学编程,但水平很菜,书看了些,半懂不懂的,纸上得来
: 终觉浅,
: 到处都说要想学会编程,就得自己做点东西来上手。我对汉字文化一直比较感兴趣,以
: 这个做出发点,也许能让自己坚持更久一些,所以“钱途”和难度不是问题。
: 多谢先生介绍的两本书,先下载了,慢慢读。
: 找到一个Andrew Kirillov 的例程,正在学习。

g*****y
发帖数: 7271
9
对了,另外可以参考一下itk是怎么实现相关的算法的。反正开源的。

【在 g*****y 的大作中提到】
: 学编程不建议从这个项目入手。先做点简单的基础部分,比如connected components,
: HMM 之类的。

N*n
发帖数: 456
10
这个是个比较难做的项目。。
首先方向就有问题。。 “汉”字如果从图象识别的话,并不容易拆出左边的“三点水
”和右边的“又”字。
识别有另外的方向。。不过,这个不能随便说。。
如果纯粹学编程,你学习怎么显示汉字比识别要容易至少三个数量级的计算难度。

【在 w**********a 的大作中提到】
: 多谢etude先生,我不是在做项目,就像你说的,以我现在的起点,还没跑到远水那儿
: ,肯定早就渴死了。我就是想学编程,但水平很菜,书看了些,半懂不懂的,纸上得来
: 终觉浅,
: 到处都说要想学会编程,就得自己做点东西来上手。我对汉字文化一直比较感兴趣,以
: 这个做出发点,也许能让自己坚持更久一些,所以“钱途”和难度不是问题。
: 多谢先生介绍的两本书,先下载了,慢慢读。
: 找到一个Andrew Kirillov 的例程,正在学习。

相关主题
并行可以降低计算复杂度??对于现在machine learning有个问题,请指教
前途是光明的,道路是曲折的求教中小公司普通码农职业发展
人工智能下围棋超过人类, 是一个虚假结论, 纯属误导!同时train segm和obj detect
进入Programming版参与讨论
e***e
发帖数: 3872
11
看吧,大家都說不好做,模式識別那東西真的比較費力不討好的——其實也不用去
codeproject找牛人的例程,opencv里就基本包括了做这个问题60%以上的函数,只是剩
下的3、40%,要有足夠数学基礎和機器學習的實踐經驗,可能还要有点小牛的idea,才
能搞定
想學編程就學學網頁設計,嬌娃,派送,還覺得不過癮就看看算法書(比如Cormen那本
算法引論),上這裡瞅瞅熱鬧,吵吵架什麼的
對漢字文化感興趣就去ChineseClassics版灌灌水,有空時臨兩篇貼,奔一下,多好

【在 w**********a 的大作中提到】
: 多谢etude先生,我不是在做项目,就像你说的,以我现在的起点,还没跑到远水那儿
: ,肯定早就渴死了。我就是想学编程,但水平很菜,书看了些,半懂不懂的,纸上得来
: 终觉浅,
: 到处都说要想学会编程,就得自己做点东西来上手。我对汉字文化一直比较感兴趣,以
: 这个做出发点,也许能让自己坚持更久一些,所以“钱途”和难度不是问题。
: 多谢先生介绍的两本书,先下载了,慢慢读。
: 找到一个Andrew Kirillov 的例程,正在学习。

d*******r
发帖数: 3299
12
嬌娃,派送 ... 看半天才反应过来,哈哈
你台湾同胞? :)

【在 e***e 的大作中提到】
: 看吧,大家都說不好做,模式識別那東西真的比較費力不討好的——其實也不用去
: codeproject找牛人的例程,opencv里就基本包括了做这个问题60%以上的函数,只是剩
: 下的3、40%,要有足夠数学基礎和機器學習的實踐經驗,可能还要有点小牛的idea,才
: 能搞定
: 想學編程就學學網頁設計,嬌娃,派送,還覺得不過癮就看看算法書(比如Cormen那本
: 算法引論),上這裡瞅瞅熱鬧,吵吵架什麼的
: 對漢字文化感興趣就去ChineseClassics版灌灌水,有空時臨兩篇貼,奔一下,多好

w**********a
发帖数: 6
13
多谢楼上诸位的关心。
to Gallery:
一开口就知道是行家里手。
图像识别一开始有个识图的问题。
当待识别的图以m*n的点阵表示时,最起码可以用一个m*n的矩阵来表达这个图。
但这里有个问题,当待识别的图发生尺码变化时,比如2m*2n,需要存储,处理的数据量
变得过大。而对人来说,如果已经认识一个字,把这个字放大一倍而重新识别,基本上是
不成问题的。
针对这个问题,Andrew Kirillov 的做法是创立一个receptors set,好像先随机撒一
把探针出去,由它们与特定形状的相交情况,来获取这个形状的认识。
根据特立的识别目的(待识别的字符集所限定的形状集),可以筛选出一个够小又够用
的探针集,这样可以控制数据量。
我一开始,(其实每个人的正常思维都这样),直觉上也觉得图论应该可以派上用场,
连通图是描述汉字轮廓的最好方法。把一个图分解为多个连通图应该有现成的算法,这
样,稍加调整,就可以对汉字进行部件拆分了。
to Nan:
一看形象秀就知道是同好,btw,那是个什么字,难道是“森”?
“汉”字如果从图象识别的话,并不容易拆出左边的“三点水
”和右边的“又”字。
按图像识别,拆出三个孤立点和又字应该是比较容易的。
图论有现在的方法吧。
其实大部分汉字部件都可以用连通图表达,像三点水,两点水这样的是特例,可以进行
再处 理。
识别有另外的方向。。不过,这个不能随便说。。
还是请随便说说吧,难道怕泄露天机?
昔年仓颉造字,天雨粟鬼夜哭,据说是因为两间之密尽泄矣。
你看,两间之密已经泄完了,你再泄泄也无妨。
to Etude:
谢谢信息提供,我学过点c++,现在用的是c#,甘心当#底之蛙,
娇娃派送这样的好事咱就不想了。
對漢字文化感興趣就去ChineseClassics版灌灌水,有空時臨兩篇貼,奔一下,多好
从来没临过帖,倒是先生这样说,一定是高手了,有没有帖出来的,让我也见识见识。
N*n
发帖数: 456
14
看得出你花了不少功夫研究。。我是在视觉信息加工这个领域花了不少时间
和心血的。。如果你真想做点什么的话,我们何妨先做朋友。。如果只是玩
玩,则无所。

据量
上是

【在 w**********a 的大作中提到】
: 多谢楼上诸位的关心。
: to Gallery:
: 一开口就知道是行家里手。
: 图像识别一开始有个识图的问题。
: 当待识别的图以m*n的点阵表示时,最起码可以用一个m*n的矩阵来表达这个图。
: 但这里有个问题,当待识别的图发生尺码变化时,比如2m*2n,需要存储,处理的数据量
: 变得过大。而对人来说,如果已经认识一个字,把这个字放大一倍而重新识别,基本上是
: 不成问题的。
: 针对这个问题,Andrew Kirillov 的做法是创立一个receptors set,好像先随机撒一
: 把探针出去,由它们与特定形状的相交情况,来获取这个形状的认识。

g*****y
发帖数: 7271
15
看起来好像你不是突然的心血来潮,还是看了一些相关东西的。
不过我不是搞这个的,所以我说的你也就当我瞎说算了。
就识别汉字来说,其实字的大小,方向我觉得一般并不构成太大困难。因为
可以通过行或列的检测来得到字的大小和方向。然后只要重新采样图片
就得到想要的分辨率下的字了。不像人脸识别之类的,只能满图片不同尺寸,
不同位置,不同角度的搜索一遍,别无捷径。
至于你说的随机撒探针这个事情,我觉得好像有点过时了的说。现在比较
热门的应该是跟大数据挂个沟,比如说搞出接近无穷种不同尺码,不同
位置的integral feature,然后通过data mining或者boosting
之类的从中选出比较有效的combine起来的features。这样就可以和
big data,machine learning, data mining搅和到一块了,
感觉buzz words比较多一点了。哈哈

据量
上是

【在 w**********a 的大作中提到】
: 多谢楼上诸位的关心。
: to Gallery:
: 一开口就知道是行家里手。
: 图像识别一开始有个识图的问题。
: 当待识别的图以m*n的点阵表示时,最起码可以用一个m*n的矩阵来表达这个图。
: 但这里有个问题,当待识别的图发生尺码变化时,比如2m*2n,需要存储,处理的数据量
: 变得过大。而对人来说,如果已经认识一个字,把这个字放大一倍而重新识别,基本上是
: 不成问题的。
: 针对这个问题,Andrew Kirillov 的做法是创立一个receptors set,好像先随机撒一
: 把探针出去,由它们与特定形状的相交情况,来获取这个形状的认识。

a*****g
发帖数: 19398
16
就是个 OCR 了

【在 w**********a 的大作中提到】
: 编程菜鸟恳请大家指教,希望能用图象识别的方法完成汉字拆分,一开始不需要考虑
: 手写体的问题,只面对已经可以打出来的字,比如汉字,拆分为氵又和宀又。
: 请高手在以下几方面指点一下:
: 1 整个目标难度多大,是现有条件可完成的吗。
: 2 需要读些什么书,最好是容易上手的。
: 3 有没有现成的开源项目可以借鉴下。
: 先谢谢了。

b*******s
发帖数: 5216
17
嗯,期待你成功,这可以是个新的验证码的基础

【在 w**********a 的大作中提到】
: 多谢楼上三位先生赐教。
: 我不只是想获得汉字的拆分的具体结果,这一点,IDS (ideographic description
: sequence) 项目已经做了几万字出来了,的确是查表可以得到结果。
: 我想做的是,通过图像识别的方法,用程序来完成这个拆分,来学习图像识别技术。
: IDS的结果正好可以为图像识别的结果提供校验。
: 按etude先生的指点找到了一篇文章,学习中。
: 先生看来是CVPR(惭愧,这个词也是放狗才知道是Computer Vision and Pattern
: Recognition的缩写)的行家,烦请介绍两本适合初学者的入门书吧。

e***e
发帖数: 3872
18
也不算过时,Donoho的basis pursuit,Tao也follow这个问题做了一些 (Candès and
Tao, IEEE TIT, 2009)。不过sparsity基本不反映在低级视觉模型中,那里
overcomplete,虽然不是infite,是更普遍的特性。
另一个方向,也算跟这个问题相关,是Tenenbaum的工作(Kemp, C. and Tenenbaum, J
. B. PNAS, 2008)

【在 g*****y 的大作中提到】
: 看起来好像你不是突然的心血来潮,还是看了一些相关东西的。
: 不过我不是搞这个的,所以我说的你也就当我瞎说算了。
: 就识别汉字来说,其实字的大小,方向我觉得一般并不构成太大困难。因为
: 可以通过行或列的检测来得到字的大小和方向。然后只要重新采样图片
: 就得到想要的分辨率下的字了。不像人脸识别之类的,只能满图片不同尺寸,
: 不同位置,不同角度的搜索一遍,别无捷径。
: 至于你说的随机撒探针这个事情,我觉得好像有点过时了的说。现在比较
: 热门的应该是跟大数据挂个沟,比如说搞出接近无穷种不同尺码,不同
: 位置的integral feature,然后通过data mining或者boosting
: 之类的从中选出比较有效的combine起来的features。这样就可以和

w**********a
发帖数: 6
19
很高兴看到大家的回应,就是大牛们爱扔蜂鸣器,一下子嗡嗡之声就不绝于耳了。
这么多行家在这里,我是一定要交朋友的,特别是Nan。
先自己一步步做,弄出点东西就在这里交报告,希望大家继续帮助。
就绛紫。
k**********g
发帖数: 989
20

and
J
seems you want to apply Viola-Jones (Haar wavelet features + boosting) on
Chinese character recognition?
http://en.wikipedia.org/wiki/Viola%E2%80%93Jones_object_detecti

【在 e***e 的大作中提到】
: 也不算过时,Donoho的basis pursuit,Tao也follow这个问题做了一些 (Candès and
: Tao, IEEE TIT, 2009)。不过sparsity基本不反映在低级视觉模型中,那里
: overcomplete,虽然不是infite,是更普遍的特性。
: 另一个方向,也算跟这个问题相关,是Tenenbaum的工作(Kemp, C. and Tenenbaum, J
: . B. PNAS, 2008)

相关主题
subpixel conv == transposed conv问个优化问题
如何train一个把签名(手写)与印刷字体区别的model?每年cvpr aaai上那么多算法文章
谷歌为避免将黑人标为“大猩猩”,将“大猩猩”一词屏蔽 (转载有个问题,听听大家的建议
进入Programming版参与讨论
N******K
发帖数: 10202
21
lz要干的事情 难度远超过这个vj
汉字的精细图像分割

【在 k**********g 的大作中提到】
:
: and
: J
: seems you want to apply Viola-Jones (Haar wavelet features + boosting) on
: Chinese character recognition?
: http://en.wikipedia.org/wiki/Viola%E2%80%93Jones_object_detecti

N******K
发帖数: 10202
22
比ocr难多了

【在 a*****g 的大作中提到】
: 就是个 OCR 了
N******K
发帖数: 10202
23
穷举?

据量
上是

【在 w**********a 的大作中提到】
: 多谢楼上诸位的关心。
: to Gallery:
: 一开口就知道是行家里手。
: 图像识别一开始有个识图的问题。
: 当待识别的图以m*n的点阵表示时,最起码可以用一个m*n的矩阵来表达这个图。
: 但这里有个问题,当待识别的图发生尺码变化时,比如2m*2n,需要存储,处理的数据量
: 变得过大。而对人来说,如果已经认识一个字,把这个字放大一倍而重新识别,基本上是
: 不成问题的。
: 针对这个问题,Andrew Kirillov 的做法是创立一个receptors set,好像先随机撒一
: 把探针出去,由它们与特定形状的相交情况,来获取这个形状的认识。

e***e
发帖数: 3872
24
OCR没多少好做的了吧? 我做生物视觉,顺便关心下相关计算模型而已。

【在 k**********g 的大作中提到】
:
: and
: J
: seems you want to apply Viola-Jones (Haar wavelet features + boosting) on
: Chinese character recognition?
: http://en.wikipedia.org/wiki/Viola%E2%80%93Jones_object_detecti

k**********g
发帖数: 989
25

how about this one ... stroke-width transform
http://research.microsoft.com/pubs/149305/1509.pdf

【在 e***e 的大作中提到】
: OCR没多少好做的了吧? 我做生物视觉,顺便关心下相关计算模型而已。
e***e
发帖数: 3872
26
有些idea可以参考吧,不过这楼的问题确实很难的,我觉得做这个问题涉及的理论和方
法,已经可以做很多很有价值的事了。ad hoc的解决可能有,比如针对一两种字体,基
于rule、类似专家系统的方式,但那样的系统有什么意义呢?说到底,这个问题本身就
没有什么实用意义,如果不能从中发展出一般性的理论方法来的话。
在我看来,这个问题有意思的地方有两点:1、中文母语的人对整字和部首的识别,会
出现转化——翻开字典的一页,大约2、30秒后,那页的高频字会被看成部首组合;2、
手写和书法风格的认知与生成,是同这个分解有密切关系的。这两点可能会对一般性的
物体、场景以及动态识别的计算模型有意义。

【在 k**********g 的大作中提到】
:
: how about this one ... stroke-width transform
: http://research.microsoft.com/pubs/149305/1509.pdf

N******K
发帖数: 10202
27
deep learning 的东西 你分析过么?

【在 e***e 的大作中提到】
: 有些idea可以参考吧,不过这楼的问题确实很难的,我觉得做这个问题涉及的理论和方
: 法,已经可以做很多很有价值的事了。ad hoc的解决可能有,比如针对一两种字体,基
: 于rule、类似专家系统的方式,但那样的系统有什么意义呢?说到底,这个问题本身就
: 没有什么实用意义,如果不能从中发展出一般性的理论方法来的话。
: 在我看来,这个问题有意思的地方有两点:1、中文母语的人对整字和部首的识别,会
: 出现转化——翻开字典的一页,大约2、30秒后,那页的高频字会被看成部首组合;2、
: 手写和书法风格的认知与生成,是同这个分解有密切关系的。这两点可能会对一般性的
: 物体、场景以及动态识别的计算模型有意义。

1 (共1页)
进入Programming版参与讨论
相关主题
每年cvpr aaai上那么多算法文章请教图像识别的人工智能算法 (转载)
有个问题,听听大家的建议并行可以降低计算复杂度??
Any good OCR engine?前途是光明的,道路是曲折的
matlab怎么分段读取大文件?人工智能下围棋超过人类, 是一个虚假结论, 纯属误导!
有人做图像识别或者OCR的吗?对于现在machine learning有个问题,请指教
问个图像识别问题求教中小公司普通码农职业发展
现在的图像识别技术真是把验证码逼的无路可走啊同时train segm和obj detect
2天撸了个手写体数字识别程序subpixel conv == transposed conv
相关话题的讨论汇总
话题: 拆分话题: 汉字话题: 识别话题: 图像识别话题: 问题