由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 文本分析,document_term matrix求解。
相关主题
这个小孩真牛啊Wget 提交form的问题
关于新语言的想法请教计算关键词出现频率的算法
请问哪有用python处理文本或者html的code请教txt文本过长,怎么把它分成几部分处理
perl的文本处理大部分容易在python里实现吗?请教
What's the algorithm behind Summly^M字符是什么意思? (转载)
大家对这高中生写个app以$30M卖给Yahoo咋看问个gdb的问题
如何有效的用C/C++ 移动文件中的文本块?matlab读入数据的错误
help on GAMS! thx!!请教一个C++关于输入输出的问题
相关话题的讨论汇总
话题: 文本话题: 分析话题: matrix话题: document话题: rarely
进入Programming版参与讨论
1 (共1页)
m******r
发帖数: 1033
1
正在自学text mining. 当然我肯定不会自己造轮子,我当初设想会有什么牛逼的
package, 按照一本什么样的字典,进行主谓,宾定状补解析文本,同时考虑名词,动词
,形容词,介词,冠词什么的根据实际情况忽略。 还有否定词,not , barely, rarely
等等也应该考虑进去。
自学了一段时间,怎么也找不到我要的算法。 网上大量的文章,99%以上,都在讲
document term matrix . 这种算法虽然简单,我觉得并不实用。 无非是扔掉
stopwords, 对stem word算一些frequency. 这种算法是不是过于简单了?
所以我想请教,是不是我没有理解document matrix的真谛? 如果大家知道什么好的文
本分析的软件,可否推荐一下?
我想干什么呢,举个例子。 一篇报纸文章好几千字。 我想用文本分析总结一下主要观
点。比如,trump好,因为1,2,3. trump不好,因为4,5,6. 某股票会升值,因为1,2,3
会贬值因为4,5,6
再比如,amazon review一本书,一个电影。 喜欢这本书,因为1,2,3; 不喜欢这本书
,因为4,5,6.
既然计算机可以对程序进行编译,我不明白为什么对文本'编译'- 也就是分析下语法结
构,得到作者观点 , 难道很难吗?
h*i
发帖数: 3446
2
“难道很难吗?” 哈哈。
Are you f*ing serious?

rarely

【在 m******r 的大作中提到】
: 正在自学text mining. 当然我肯定不会自己造轮子,我当初设想会有什么牛逼的
: package, 按照一本什么样的字典,进行主谓,宾定状补解析文本,同时考虑名词,动词
: ,形容词,介词,冠词什么的根据实际情况忽略。 还有否定词,not , barely, rarely
: 等等也应该考虑进去。
: 自学了一段时间,怎么也找不到我要的算法。 网上大量的文章,99%以上,都在讲
: document term matrix . 这种算法虽然简单,我觉得并不实用。 无非是扔掉
: stopwords, 对stem word算一些frequency. 这种算法是不是过于简单了?
: 所以我想请教,是不是我没有理解document matrix的真谛? 如果大家知道什么好的文
: 本分析的软件,可否推荐一下?
: 我想干什么呢,举个例子。 一篇报纸文章好几千字。 我想用文本分析总结一下主要观

x***4
发帖数: 1815
3
赚钱很难的。

rarely

【在 m******r 的大作中提到】
: 正在自学text mining. 当然我肯定不会自己造轮子,我当初设想会有什么牛逼的
: package, 按照一本什么样的字典,进行主谓,宾定状补解析文本,同时考虑名词,动词
: ,形容词,介词,冠词什么的根据实际情况忽略。 还有否定词,not , barely, rarely
: 等等也应该考虑进去。
: 自学了一段时间,怎么也找不到我要的算法。 网上大量的文章,99%以上,都在讲
: document term matrix . 这种算法虽然简单,我觉得并不实用。 无非是扔掉
: stopwords, 对stem word算一些frequency. 这种算法是不是过于简单了?
: 所以我想请教,是不是我没有理解document matrix的真谛? 如果大家知道什么好的文
: 本分析的软件,可否推荐一下?
: 我想干什么呢,举个例子。 一篇报纸文章好几千字。 我想用文本分析总结一下主要观

m******r
发帖数: 1033
4
我知道你做生意,给你出个点子。 很多文学名著,都是大部头的著作,平常人根本没
时间空读。 你用文本分析,把原著缩略成几个小时能读完的,推销给国内出版社。肯
定赚钱。
或者,把每天的英文报纸,华尔街日报,弄成个缩略版的,让人十分钟看完。 推销给
国内网站。

【在 h*i 的大作中提到】
: “难道很难吗?” 哈哈。
: Are you f*ing serious?
:
: rarely

m******r
发帖数: 1033
5
此话怎讲 ? 一天到晚讨论机器人取代人类。 如果机器连这点本事都没有 也太差劲了


【在 h*i 的大作中提到】
: “难道很难吗?” 哈哈。
: Are you f*ing serious?
:
: rarely

w********m
发帖数: 1137
6
美国最牛逼的FBI,连一个在UIUC出现过的车牌,都parse不出来。
这是真实的世界,别想多了。
t******o
发帖数: 61
7
这个真的很难。
关于句法分析,请搜索 pcfg parser
关于为啥喜欢某个产品啥的,请搜索sentiment analysis
别看学术界工业界吹得震天响,很多基本的应用都还差劲的很。

rarely

【在 m******r 的大作中提到】
: 正在自学text mining. 当然我肯定不会自己造轮子,我当初设想会有什么牛逼的
: package, 按照一本什么样的字典,进行主谓,宾定状补解析文本,同时考虑名词,动词
: ,形容词,介词,冠词什么的根据实际情况忽略。 还有否定词,not , barely, rarely
: 等等也应该考虑进去。
: 自学了一段时间,怎么也找不到我要的算法。 网上大量的文章,99%以上,都在讲
: document term matrix . 这种算法虽然简单,我觉得并不实用。 无非是扔掉
: stopwords, 对stem word算一些frequency. 这种算法是不是过于简单了?
: 所以我想请教,是不是我没有理解document matrix的真谛? 如果大家知道什么好的文
: 本分析的软件,可否推荐一下?
: 我想干什么呢,举个例子。 一篇报纸文章好几千字。 我想用文本分析总结一下主要观

d*******r
发帖数: 3299
8
你说的那个叫自然语言语义分析了,是 NLP 里最难的部分, 而且没啥实质进展的.
计算机真能读懂文献了, 那不是各种图灵测试都能通过了?

rarely

【在 m******r 的大作中提到】
: 正在自学text mining. 当然我肯定不会自己造轮子,我当初设想会有什么牛逼的
: package, 按照一本什么样的字典,进行主谓,宾定状补解析文本,同时考虑名词,动词
: ,形容词,介词,冠词什么的根据实际情况忽略。 还有否定词,not , barely, rarely
: 等等也应该考虑进去。
: 自学了一段时间,怎么也找不到我要的算法。 网上大量的文章,99%以上,都在讲
: document term matrix . 这种算法虽然简单,我觉得并不实用。 无非是扔掉
: stopwords, 对stem word算一些frequency. 这种算法是不是过于简单了?
: 所以我想请教,是不是我没有理解document matrix的真谛? 如果大家知道什么好的文
: 本分析的软件,可否推荐一下?
: 我想干什么呢,举个例子。 一篇报纸文章好几千字。 我想用文本分析总结一下主要观

z*********8
发帖数: 2070
9
这个点子挺老的了
有个类似的app叫Summly, 做的屎一样也卖了30个米

【在 m******r 的大作中提到】
: 我知道你做生意,给你出个点子。 很多文学名著,都是大部头的著作,平常人根本没
: 时间空读。 你用文本分析,把原著缩略成几个小时能读完的,推销给国内出版社。肯
: 定赚钱。
: 或者,把每天的英文报纸,华尔街日报,弄成个缩略版的,让人十分钟看完。 推销给
: 国内网站。

m******r
发帖数: 1033
10
你说的是人工翻译的还是人工智能的 ?
如果机器有一天要统治人类,第一步,它也得理解人类的各种文档。 好比你念phd,第
一步得看该领域人都成天忙活些什么,有了哪些进展,试图解决哪些问题。 机器获取
这些文档,那是不费吹灰之力,关键是如何解析,从字里行间琢磨出什么东西来。
我挺好奇这玩意到底有多难。按理说人类的语法规则(尤其是书面英语,商务英语)很
严谨,字典也都是现成的。 要是想从正规网站,报纸,书籍里面找出违反语法规则的
例子, 挺难。人工智能既能下棋,又能翻译,还能自己写文章,神通大了,可为什么
让它写个梗概 就这么难?
我印象里我们小学语文课就要求写这类东西。 什么看图说话,缩写故事,续写故事,
都是基本功。 我记得看图说话的故事有: 华盛顿砍了他爸的樱桃树,他爸问谁砍得,
华盛顿说了实话。 列宁到姑妈家做客,打碎了茶杯,姑妈问谁干的,列宁说了实话。
草船借箭,缩写故事。

【在 z*********8 的大作中提到】
: 这个点子挺老的了
: 有个类似的app叫Summly, 做的屎一样也卖了30个米

d******c
发帖数: 2407
11
显然你想象的,觉得理所当然的东西并不成立。
你不是经常读paper吗?看看基本的,从书看起,别从paper看起,更能了解一个领域的
基础。

【在 m******r 的大作中提到】
: 你说的是人工翻译的还是人工智能的 ?
: 如果机器有一天要统治人类,第一步,它也得理解人类的各种文档。 好比你念phd,第
: 一步得看该领域人都成天忙活些什么,有了哪些进展,试图解决哪些问题。 机器获取
: 这些文档,那是不费吹灰之力,关键是如何解析,从字里行间琢磨出什么东西来。
: 我挺好奇这玩意到底有多难。按理说人类的语法规则(尤其是书面英语,商务英语)很
: 严谨,字典也都是现成的。 要是想从正规网站,报纸,书籍里面找出违反语法规则的
: 例子, 挺难。人工智能既能下棋,又能翻译,还能自己写文章,神通大了,可为什么
: 让它写个梗概 就这么难?
: 我印象里我们小学语文课就要求写这类东西。 什么看图说话,缩写故事,续写故事,
: 都是基本功。 我记得看图说话的故事有: 华盛顿砍了他爸的樱桃树,他爸问谁砍得,

1 (共1页)
进入Programming版参与讨论
相关主题
请教一个C++关于输入输出的问题What's the algorithm behind Summly
为什么一说文本处理就提perl大家对这高中生写个app以$30M卖给Yahoo咋看
c++ 能够一次打开多个文本文件读数据么?如何有效的用C/C++ 移动文件中的文本块?
一个python script同时写一万多个文本文件help on GAMS! thx!!
这个小孩真牛啊Wget 提交form的问题
关于新语言的想法请教计算关键词出现频率的算法
请问哪有用python处理文本或者html的code请教txt文本过长,怎么把它分成几部分处理
perl的文本处理大部分容易在python里实现吗?请教
相关话题的讨论汇总
话题: 文本话题: 分析话题: matrix话题: document话题: rarely