求指教：关于汉字拆分和图像识别 - Programming版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 求指教：关于汉字拆分和图像识别

相关主题
● 有人做图像识别或者OCR的吗？	● 对于现在machine learning有个问题，请指教
● 问个图像识别问题	● 求教中小公司普通码农职业发展
● 现在的图像识别技术真是把验证码逼的无路可走啊	● 同时train segm和obj detect
● 2天撸了个手写体数字识别程序	● subpixel conv == transposed conv
● 请教图像识别的人工智能算法 (转载)	● 如何train一个把签名（手写）与印刷字体区别的model？
● 并行可以降低计算复杂度？？	● 谷歌为避免将黑人标为“大猩猩”，将“大猩猩”一词屏蔽 (转载
● 前途是光明的，道路是曲折的	● 问个优化问题
● 人工智能下围棋超过人类, 是一个虚假结论，纯属误导！	● 每年cvpr aaai上那么多算法文章

相关话题的讨论汇总
话题: 拆分话题: 汉字话题: 识别话题: 图像识别话题: 问题

进入Programming版参与讨论

(共1页)

w**********a
发帖数: 6

编程菜鸟恳请大家指教，希望能用图象识别的方法完成汉字拆分，一开始不需要考虑
手写体的问题，只面对已经可以打出来的字，比如汉字，拆分为氵又和宀又。
请高手在以下几方面指点一下：
1 整个目标难度多大，是现有条件可完成的吗。
2 需要读些什么书，最好是容易上手的。
3 有没有现成的开源项目可以借鉴下。
先谢谢了。

b*******s
发帖数: 5216

你可以把这个问题转化为一个比较简单的问题
1 先识别这个字，现在很多办法了
2 先验的知道这个字怎么拆分，直接查表得到结果

【在 w**********a 的大作中提到】

: 编程菜鸟恳请大家指教，希望能用图象识别的方法完成汉字拆分，一开始不需要考虑
: 手写体的问题，只面对已经可以打出来的字，比如汉字，拆分为氵又和宀又。
: 请高手在以下几方面指点一下：
: 1 整个目标难度多大，是现有条件可完成的吗。
: 2 需要读些什么书，最好是容易上手的。
: 3 有没有现成的开源项目可以借鉴下。
: 先谢谢了。

e***e
发帖数: 3872

狗狗radical/stroke extraction/segmentation
这应该不算是个programming的问题，搞CVPR的还在发paper混饭吃呢

【在 w**********a 的大作中提到】

N******K
发帖数: 10202

这是正途
人也是这么做的

【在 b*******s 的大作中提到】

: 你可以把这个问题转化为一个比较简单的问题
: 1 先识别这个字，现在很多办法了
: 2 先验的知道这个字怎么拆分，直接查表得到结果

w**********a
发帖数: 6

多谢楼上三位先生赐教。
我不只是想获得汉字的拆分的具体结果，这一点，IDS （ideographic description
sequence）项目已经做了几万字出来了，的确是查表可以得到结果。
我想做的是，通过图像识别的方法，用程序来完成这个拆分，来学习图像识别技术。
IDS的结果正好可以为图像识别的结果提供校验。
按etude先生的指点找到了一篇文章，学习中。
先生看来是CVPR（惭愧，这个词也是放狗才知道是Computer Vision and Pattern
Recognition的缩写）的行家，烦请介绍两本适合初学者的入门书吧。

e***e
发帖数: 3872

我不是行家，只学过一点CVPR，知道的书也很少。貌似很多人书架上有这本书：
Christopher M. Bishop, 2007, Pattern Recognition and Machine Learning
另外比较新的，引用数也比较高的有这本：
C. H. Chen et al., 2009, Handbook of pattern recognition and computer vision
虽然我觉得可能都有点远水解不了近渴——如果是做项目的话。能问下你拆分的目的是
什么吗？如果学习模式识别，这个题目既不好做，又不好卖啊……

【在 w**********a 的大作中提到】

: 多谢楼上三位先生赐教。
: 我不只是想获得汉字的拆分的具体结果，这一点，IDS （ideographic description
: sequence）项目已经做了几万字出来了，的确是查表可以得到结果。
: 我想做的是，通过图像识别的方法，用程序来完成这个拆分，来学习图像识别技术。
: IDS的结果正好可以为图像识别的结果提供校验。
: 按etude先生的指点找到了一篇文章，学习中。
: 先生看来是CVPR（惭愧，这个词也是放狗才知道是Computer Vision and Pattern
: Recognition的缩写）的行家，烦请介绍两本适合初学者的入门书吧。

w**********a
发帖数: 6

多谢etude先生，我不是在做项目，就像你说的，以我现在的起点，还没跑到远水那儿
，肯定早就渴死了。我就是想学编程，但水平很菜，书看了些，半懂不懂的，纸上得来
终觉浅，
到处都说要想学会编程，就得自己做点东西来上手。我对汉字文化一直比较感兴趣，以
这个做出发点，也许能让自己坚持更久一些，所以“钱途”和难度不是问题。
多谢先生介绍的两本书，先下载了，慢慢读。
找到一个Andrew Kirillov 的例程，正在学习。

g*****y
发帖数: 7271

学编程不建议从这个项目入手。先做点简单的基础部分，比如connected components，
HMM 之类的。

【在 w**********a 的大作中提到】

: 多谢etude先生，我不是在做项目，就像你说的，以我现在的起点，还没跑到远水那儿
: ，肯定早就渴死了。我就是想学编程，但水平很菜，书看了些，半懂不懂的，纸上得来
: 终觉浅，
: 到处都说要想学会编程，就得自己做点东西来上手。我对汉字文化一直比较感兴趣，以
: 这个做出发点，也许能让自己坚持更久一些，所以“钱途”和难度不是问题。
: 多谢先生介绍的两本书，先下载了，慢慢读。
: 找到一个Andrew Kirillov 的例程，正在学习。

g*****y
发帖数: 7271

对了，另外可以参考一下itk是怎么实现相关的算法的。反正开源的。

【在 g*****y 的大作中提到】

: 学编程不建议从这个项目入手。先做点简单的基础部分，比如connected components，
: HMM 之类的。

N*n
发帖数: 456

这个是个比较难做的项目。。
首先方向就有问题。。 “汉”字如果从图象识别的话，并不容易拆出左边的“三点水
”和右边的“又”字。
识别有另外的方向。。不过，这个不能随便说。。
如果纯粹学编程，你学习怎么显示汉字比识别要容易至少三个数量级的计算难度。

【在 w**********a 的大作中提到】

相关主题
● 并行可以降低计算复杂度？？	● 对于现在machine learning有个问题，请指教
● 前途是光明的，道路是曲折的	● 求教中小公司普通码农职业发展
● 人工智能下围棋超过人类, 是一个虚假结论，纯属误导！	● 同时train segm和obj detect
进入Programming版参与讨论

e***e
发帖数: 3872

看吧，大家都說不好做，模式識別那東西真的比較費力不討好的——其實也不用去
codeproject找牛人的例程，opencv里就基本包括了做这个问题60%以上的函数，只是剩
下的3、40%，要有足夠数学基礎和機器學習的實踐經驗，可能还要有点小牛的idea，才
能搞定
想學編程就學學網頁設計，嬌娃，派送，還覺得不過癮就看看算法書（比如Cormen那本
算法引論），上這裡瞅瞅熱鬧，吵吵架什麼的
對漢字文化感興趣就去ChineseClassics版灌灌水，有空時臨兩篇貼，奔一下，多好

【在 w**********a 的大作中提到】

d*******r
发帖数: 3299

嬌娃，派送 ... 看半天才反应过来，哈哈
你台湾同胞? :)

【在 e***e 的大作中提到】

: 看吧，大家都說不好做，模式識別那東西真的比較費力不討好的——其實也不用去
: codeproject找牛人的例程，opencv里就基本包括了做这个问题60%以上的函数，只是剩
: 下的3、40%，要有足夠数学基礎和機器學習的實踐經驗，可能还要有点小牛的idea，才
: 能搞定
: 想學編程就學學網頁設計，嬌娃，派送，還覺得不過癮就看看算法書（比如Cormen那本
: 算法引論），上這裡瞅瞅熱鬧，吵吵架什麼的
: 對漢字文化感興趣就去ChineseClassics版灌灌水，有空時臨兩篇貼，奔一下，多好

w**********a
发帖数: 6

多谢楼上诸位的关心。
to Gallery:
一开口就知道是行家里手。
图像识别一开始有个识图的问题。
当待识别的图以m*n的点阵表示时，最起码可以用一个m*n的矩阵来表达这个图。
但这里有个问题，当待识别的图发生尺码变化时，比如2m*2n，需要存储，处理的数据量
变得过大。而对人来说，如果已经认识一个字，把这个字放大一倍而重新识别，基本上是
不成问题的。
针对这个问题，Andrew Kirillov 的做法是创立一个receptors set，好像先随机撒一
把探针出去，由它们与特定形状的相交情况，来获取这个形状的认识。
根据特立的识别目的（待识别的字符集所限定的形状集），可以筛选出一个够小又够用
的探针集，这样可以控制数据量。
我一开始，（其实每个人的正常思维都这样），直觉上也觉得图论应该可以派上用场，
连通图是描述汉字轮廓的最好方法。把一个图分解为多个连通图应该有现成的算法，这
样，稍加调整，就可以对汉字进行部件拆分了。
to Nan:
一看形象秀就知道是同好，btw,那是个什么字，难道是“森”？
“汉”字如果从图象识别的话，并不容易拆出左边的“三点水
”和右边的“又”字。
按图像识别，拆出三个孤立点和又字应该是比较容易的。
图论有现在的方法吧。
其实大部分汉字部件都可以用连通图表达，像三点水，两点水这样的是特例，可以进行
再处理。
识别有另外的方向。。不过，这个不能随便说。。
还是请随便说说吧，难道怕泄露天机?
昔年仓颉造字，天雨粟鬼夜哭，据说是因为两间之密尽泄矣。
你看，两间之密已经泄完了，你再泄泄也无妨。
to Etude:
谢谢信息提供，我学过点c++,现在用的是c#,甘心当#底之蛙，
娇娃派送这样的好事咱就不想了。
對漢字文化感興趣就去ChineseClassics版灌灌水，有空時臨兩篇貼，奔一下，多好
从来没临过帖，倒是先生这样说，一定是高手了，有没有帖出来的，让我也见识见识。

N*n
发帖数: 456

看得出你花了不少功夫研究。。我是在视觉信息加工这个领域花了不少时间
和心血的。。如果你真想做点什么的话，我们何妨先做朋友。。如果只是玩
玩，则无所。

据量
上是

【在 w**********a 的大作中提到】

: 多谢楼上诸位的关心。
: to Gallery:
: 一开口就知道是行家里手。
: 图像识别一开始有个识图的问题。
: 当待识别的图以m*n的点阵表示时，最起码可以用一个m*n的矩阵来表达这个图。
: 但这里有个问题，当待识别的图发生尺码变化时，比如2m*2n，需要存储，处理的数据量
: 变得过大。而对人来说，如果已经认识一个字，把这个字放大一倍而重新识别，基本上是
: 不成问题的。
: 针对这个问题，Andrew Kirillov 的做法是创立一个receptors set，好像先随机撒一
: 把探针出去，由它们与特定形状的相交情况，来获取这个形状的认识。

g*****y
发帖数: 7271

看起来好像你不是突然的心血来潮，还是看了一些相关东西的。
不过我不是搞这个的，所以我说的你也就当我瞎说算了。
就识别汉字来说，其实字的大小，方向我觉得一般并不构成太大困难。因为
可以通过行或列的检测来得到字的大小和方向。然后只要重新采样图片
就得到想要的分辨率下的字了。不像人脸识别之类的，只能满图片不同尺寸，
不同位置，不同角度的搜索一遍，别无捷径。
至于你说的随机撒探针这个事情，我觉得好像有点过时了的说。现在比较
热门的应该是跟大数据挂个沟，比如说搞出接近无穷种不同尺码，不同
位置的integral feature，然后通过data mining或者boosting
之类的从中选出比较有效的combine起来的features。这样就可以和
big data，machine learning， data mining搅和到一块了，
感觉buzz words比较多一点了。哈哈

据量
上是

【在 w**********a 的大作中提到】

a*****g
发帖数: 19398

就是个 OCR 了

【在 w**********a 的大作中提到】

b*******s
发帖数: 5216

嗯，期待你成功，这可以是个新的验证码的基础

【在 w**********a 的大作中提到】

e***e
发帖数: 3872

也不算过时，Donoho的basis pursuit，Tao也follow这个问题做了一些 (Candès and
Tao, IEEE TIT, 2009)。不过sparsity基本不反映在低级视觉模型中，那里
overcomplete，虽然不是infite，是更普遍的特性。
另一个方向，也算跟这个问题相关，是Tenenbaum的工作（Kemp, C. and Tenenbaum, J
. B. PNAS, 2008)

【在 g*****y 的大作中提到】

: 看起来好像你不是突然的心血来潮，还是看了一些相关东西的。
: 不过我不是搞这个的，所以我说的你也就当我瞎说算了。
: 就识别汉字来说，其实字的大小，方向我觉得一般并不构成太大困难。因为
: 可以通过行或列的检测来得到字的大小和方向。然后只要重新采样图片
: 就得到想要的分辨率下的字了。不像人脸识别之类的，只能满图片不同尺寸，
: 不同位置，不同角度的搜索一遍，别无捷径。
: 至于你说的随机撒探针这个事情，我觉得好像有点过时了的说。现在比较
: 热门的应该是跟大数据挂个沟，比如说搞出接近无穷种不同尺码，不同
: 位置的integral feature，然后通过data mining或者boosting
: 之类的从中选出比较有效的combine起来的features。这样就可以和

w**********a
发帖数: 6

很高兴看到大家的回应，就是大牛们爱扔蜂鸣器，一下子嗡嗡之声就不绝于耳了。
这么多行家在这里，我是一定要交朋友的，特别是Nan。
先自己一步步做，弄出点东西就在这里交报告，希望大家继续帮助。
就绛紫。

k**********g
发帖数: 989

and
J
seems you want to apply Viola-Jones (Haar wavelet features + boosting) on
Chinese character recognition?
http://en.wikipedia.org/wiki/Viola%E2%80%93Jones_object_detecti

【在 e***e 的大作中提到】

: 也不算过时，Donoho的basis pursuit，Tao也follow这个问题做了一些 (Candès and
: Tao, IEEE TIT, 2009)。不过sparsity基本不反映在低级视觉模型中，那里
: overcomplete，虽然不是infite，是更普遍的特性。
: 另一个方向，也算跟这个问题相关，是Tenenbaum的工作（Kemp, C. and Tenenbaum, J
: . B. PNAS, 2008)

相关主题
● subpixel conv == transposed conv	● 问个优化问题
● 如何train一个把签名（手写）与印刷字体区别的model？	● 每年cvpr aaai上那么多算法文章
● 谷歌为避免将黑人标为“大猩猩”，将“大猩猩”一词屏蔽 (转载	● 有个问题，听听大家的建议
进入Programming版参与讨论

N******K
发帖数: 10202

lz要干的事情难度远超过这个vj
汉字的精细图像分割

【在 k**********g 的大作中提到】

:
: and
: J
: seems you want to apply Viola-Jones (Haar wavelet features + boosting) on
: Chinese character recognition?
: http://en.wikipedia.org/wiki/Viola%E2%80%93Jones_object_detecti

N******K
发帖数: 10202

比ocr难多了

【在 a*****g 的大作中提到】

: 就是个 OCR 了

N******K
发帖数: 10202

穷举？

据量
上是

【在 w**********a 的大作中提到】

e***e
发帖数: 3872

OCR没多少好做的了吧? 我做生物视觉，顺便关心下相关计算模型而已。

【在 k**********g 的大作中提到】

:
: and
: J
: seems you want to apply Viola-Jones (Haar wavelet features + boosting) on
: Chinese character recognition?
: http://en.wikipedia.org/wiki/Viola%E2%80%93Jones_object_detecti

k**********g
发帖数: 989

how about this one ... stroke-width transform
http://research.microsoft.com/pubs/149305/1509.pdf

【在 e***e 的大作中提到】

: OCR没多少好做的了吧? 我做生物视觉，顺便关心下相关计算模型而已。

e***e
发帖数: 3872

有些idea可以参考吧，不过这楼的问题确实很难的，我觉得做这个问题涉及的理论和方
法，已经可以做很多很有价值的事了。ad hoc的解决可能有，比如针对一两种字体，基
于rule、类似专家系统的方式，但那样的系统有什么意义呢？说到底，这个问题本身就
没有什么实用意义，如果不能从中发展出一般性的理论方法来的话。
在我看来，这个问题有意思的地方有两点：1、中文母语的人对整字和部首的识别，会
出现转化——翻开字典的一页，大约2、30秒后，那页的高频字会被看成部首组合；2、
手写和书法风格的认知与生成，是同这个分解有密切关系的。这两点可能会对一般性的
物体、场景以及动态识别的计算模型有意义。

【在 k**********g 的大作中提到】

:
: how about this one ... stroke-width transform
: http://research.microsoft.com/pubs/149305/1509.pdf

N******K
发帖数: 10202

deep learning 的东西你分析过么？

【在 e***e 的大作中提到】

: 有些idea可以参考吧，不过这楼的问题确实很难的，我觉得做这个问题涉及的理论和方
: 法，已经可以做很多很有价值的事了。ad hoc的解决可能有，比如针对一两种字体，基
: 于rule、类似专家系统的方式，但那样的系统有什么意义呢？说到底，这个问题本身就
: 没有什么实用意义，如果不能从中发展出一般性的理论方法来的话。
: 在我看来，这个问题有意思的地方有两点：1、中文母语的人对整字和部首的识别，会
: 出现转化——翻开字典的一页，大约2、30秒后，那页的高频字会被看成部首组合；2、
: 手写和书法风格的认知与生成，是同这个分解有密切关系的。这两点可能会对一般性的
: 物体、场景以及动态识别的计算模型有意义。

(共1页)

进入Programming版参与讨论

相关主题
● 每年cvpr aaai上那么多算法文章	● 请教图像识别的人工智能算法 (转载)
● 有个问题，听听大家的建议	● 并行可以降低计算复杂度？？
● Any good OCR engine?	● 前途是光明的，道路是曲折的
● matlab怎么分段读取大文件？	● 人工智能下围棋超过人类, 是一个虚假结论，纯属误导！
● 有人做图像识别或者OCR的吗？	● 对于现在machine learning有个问题，请指教
● 问个图像识别问题	● 求教中小公司普通码农职业发展
● 现在的图像识别技术真是把验证码逼的无路可走啊	● 同时train segm和obj detect
● 2天撸了个手写体数字识别程序	● subpixel conv == transposed conv

相关话题的讨论汇总
话题: 拆分话题: 汉字话题: 识别话题: 图像识别话题: 问题

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天