由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 西方以词为单位取得先机
相关主题
架构设计问题,请各位大神指点请教一个跟search中用到的auto suggestion问题
[合集] 很中肯的批评 STL话说莫言也不会几国外语
请教各位,nutch(lucene)的index用lucene.net可以搜索吗?请问有什么好的开源中英文搜索引擎?
firtex vs lucene vs lemur与其无意义的争论,不如干点实事
想搭一个搜索引擎,哪种open source的crawler最好? (转载)有人用过PyLucene吗
search engine需要哪些prerequisite课程?一个网站里的search功能,是在search这个网站的database,还是象IDE里面的search workspace?
学search engine哪种语言最有用?请大牛来谈谈对Solr的看法
算法求教从版上的讨论想到开源项目
相关话题的讨论汇总
话题: chinese话题: more话题: 分词话题: 古代话题: 西方
进入Programming版参与讨论
1 (共1页)
e********2
发帖数: 495
1
读Lucene有感。老祖宗以字为单位,导致分词困难。古代一个句子不分开也确实挺难读
的。
w***g
发帖数: 5958
2
结巴分词除了一米线搞不定外还是挺好用的。

【在 e********2 的大作中提到】
: 读Lucene有感。老祖宗以字为单位,导致分词困难。古代一个句子不分开也确实挺难读
: 的。

v*******e
发帖数: 11604
3

古代没有分词问题,因为一个字就是一个词;你爱我吗?
后来字不够用了,用两个或多个字组成词,才有分词问题。这是老祖宗搞方块字的时候
没想到的问题。

【在 e********2 的大作中提到】
: 读Lucene有感。老祖宗以字为单位,导致分词困难。古代一个句子不分开也确实挺难读
: 的。

N******K
发帖数: 10202
4
自恨waif

【在 e********2 的大作中提到】
: 读Lucene有感。老祖宗以字为单位,导致分词困难。古代一个句子不分开也确实挺难读
: 的。

W***o
发帖数: 6519
5
Chinese is more concise than English, and even more so than Spanish, French,
German....
Chinese characters are more condense in meaning, which means the Chinese
ancestors are probably more intelligent in using/exchanging information.

【在 e********2 的大作中提到】
: 读Lucene有感。老祖宗以字为单位,导致分词困难。古代一个句子不分开也确实挺难读
: 的。

d****i
发帖数: 4809
6
Re, 中文在所有语言中相同字符承载的信息最多,《联合国宪章》用中,英,法,俄,
西,阿六种官方语言出版,中文版的最薄,只有其他语言的三分之一到一半那么厚。

French,

【在 W***o 的大作中提到】
: Chinese is more concise than English, and even more so than Spanish, French,
: German....
: Chinese characters are more condense in meaning, which means the Chinese
: ancestors are probably more intelligent in using/exchanging information.

c******o
发帖数: 1277
7
事实上,在过去几百年来,英语在向中文的方向大踏步迈进。
屈折语/综合语渐趋转向孤立语/分析语。
不通过词的内部形态,而通过独立的虚词和固定的词序来表达语法意义是超大规模应用
的语言的趋势。
w***9
发帖数: 804
8
西方文字是dos系统,中文是windows系统。不是一个级别的,我们老祖宗越过command
line直接搞了个GUI,非常有远见。
d*******r
发帖数: 3299
9
汉语比英文先进太多, lz该去复习下史版菌版的汉语VS英文大坑,长点知识再来讨论这
个问题...
不过汉字主要缺点是难手写,语法不精确,这些以后都可以由计算机完美地修正了,不
扯开讲了,lz请自行脑补

【在 e********2 的大作中提到】
: 读Lucene有感。老祖宗以字为单位,导致分词困难。古代一个句子不分开也确实挺难读
: 的。

ET
发帖数: 10701
10
汉语是先进。可我们学的是simplified chinese, 5000字摆脱文盲行列。
就5000字而言,一点也没显示汉语的优势。

【在 d*******r 的大作中提到】
: 汉语比英文先进太多, lz该去复习下史版菌版的汉语VS英文大坑,长点知识再来讨论这
: 个问题...
: 不过汉字主要缺点是难手写,语法不精确,这些以后都可以由计算机完美地修正了,不
: 扯开讲了,lz请自行脑补

N******K
发帖数: 10202
11
你应该去菌斑接收一下再教育

【在 ET 的大作中提到】
: 汉语是先进。可我们学的是simplified chinese, 5000字摆脱文盲行列。
: 就5000字而言,一点也没显示汉语的优势。

W***o
发帖数: 6519
12
应该去学甲骨文

【在 ET 的大作中提到】
: 汉语是先进。可我们学的是simplified chinese, 5000字摆脱文盲行列。
: 就5000字而言,一点也没显示汉语的优势。

W***o
发帖数: 6519
13
你这是转移话题偷换概念,我那帖子里说的Chinese 显然是现代中文和现代西方语言做
的比较, 你从哪儿看出来我在用古代文言文和西方语言比较了?如果非要用古代文言
文,那你也要和拉丁做比较。
退一步按照你的逻辑讲,西方语言不够concise, 你让英国人法国人读一下古代拉丁文
,他妈的的能读得懂吗?当代人能否读懂古代文字绝对不在于是否简洁,不多说了,你
这bonehead 总是跑偏抬杠
1 (共1页)
进入Programming版参与讨论
相关主题
从版上的讨论想到开源项目想搭一个搜索引擎,哪种open source的crawler最好? (转载)
如何智能化合并数据库中属于相关objects的各种属性到一个object下?search engine需要哪些prerequisite课程?
有没工具或framework可以对大数据库运行中去重复?学search engine哪种语言最有用?
求推荐一个search internet的API算法求教
架构设计问题,请各位大神指点请教一个跟search中用到的auto suggestion问题
[合集] 很中肯的批评 STL话说莫言也不会几国外语
请教各位,nutch(lucene)的index用lucene.net可以搜索吗?请问有什么好的开源中英文搜索引擎?
firtex vs lucene vs lemur与其无意义的争论,不如干点实事
相关话题的讨论汇总
话题: chinese话题: more话题: 分词话题: 古代话题: 西方