m******r 发帖数: 1033 | 1 正在自学text mining. 当然我肯定不会自己造轮子,我当初设想会有什么牛逼的
package, 按照一本什么样的字典,进行主谓,宾定状补解析文本,同时考虑名词,动词
,形容词,介词,冠词什么的根据实际情况忽略。 还有否定词,not , barely, rarely
等等也应该考虑进去。
自学了一段时间,怎么也找不到我要的算法。 网上大量的文章,99%以上,都在讲
document term matrix . 这种算法虽然简单,我觉得并不实用。 无非是扔掉
stopwords, 对stem word算一些frequency. 这种算法是不是过于简单了?
所以我想请教,是不是我没有理解document matrix的真谛? 如果大家知道什么好的文
本分析的软件,可否推荐一下?
我想干什么呢,举个例子。 一篇报纸文章好几千字。 我想用文本分析总结一下主要观
点。比如,trump好,因为1,2,3. trump不好,因为4,5,6. 某股票会升值,因为1,2,3
会贬值因为4,5,6
再比如,amazon review一本书,一个电影。 喜欢这本书,因为1,2,3; 不喜欢这本书
,因为4,5,6.
既然计算机可以对程序进行编译,我不明白为什么对文本'编译'- 也就是分析下语法结
构,得到作者观点 , 难道很难吗? | h*i 发帖数: 3446 | 2 “难道很难吗?” 哈哈。
Are you f*ing serious?
rarely
【在 m******r 的大作中提到】 : 正在自学text mining. 当然我肯定不会自己造轮子,我当初设想会有什么牛逼的 : package, 按照一本什么样的字典,进行主谓,宾定状补解析文本,同时考虑名词,动词 : ,形容词,介词,冠词什么的根据实际情况忽略。 还有否定词,not , barely, rarely : 等等也应该考虑进去。 : 自学了一段时间,怎么也找不到我要的算法。 网上大量的文章,99%以上,都在讲 : document term matrix . 这种算法虽然简单,我觉得并不实用。 无非是扔掉 : stopwords, 对stem word算一些frequency. 这种算法是不是过于简单了? : 所以我想请教,是不是我没有理解document matrix的真谛? 如果大家知道什么好的文 : 本分析的软件,可否推荐一下? : 我想干什么呢,举个例子。 一篇报纸文章好几千字。 我想用文本分析总结一下主要观
| x***4 发帖数: 1815 | 3 赚钱很难的。
rarely
【在 m******r 的大作中提到】 : 正在自学text mining. 当然我肯定不会自己造轮子,我当初设想会有什么牛逼的 : package, 按照一本什么样的字典,进行主谓,宾定状补解析文本,同时考虑名词,动词 : ,形容词,介词,冠词什么的根据实际情况忽略。 还有否定词,not , barely, rarely : 等等也应该考虑进去。 : 自学了一段时间,怎么也找不到我要的算法。 网上大量的文章,99%以上,都在讲 : document term matrix . 这种算法虽然简单,我觉得并不实用。 无非是扔掉 : stopwords, 对stem word算一些frequency. 这种算法是不是过于简单了? : 所以我想请教,是不是我没有理解document matrix的真谛? 如果大家知道什么好的文 : 本分析的软件,可否推荐一下? : 我想干什么呢,举个例子。 一篇报纸文章好几千字。 我想用文本分析总结一下主要观
| m******r 发帖数: 1033 | 4 我知道你做生意,给你出个点子。 很多文学名著,都是大部头的著作,平常人根本没
时间空读。 你用文本分析,把原著缩略成几个小时能读完的,推销给国内出版社。肯
定赚钱。
或者,把每天的英文报纸,华尔街日报,弄成个缩略版的,让人十分钟看完。 推销给
国内网站。
【在 h*i 的大作中提到】 : “难道很难吗?” 哈哈。 : Are you f*ing serious? : : rarely
| m******r 发帖数: 1033 | 5 此话怎讲 ? 一天到晚讨论机器人取代人类。 如果机器连这点本事都没有 也太差劲了
。
【在 h*i 的大作中提到】 : “难道很难吗?” 哈哈。 : Are you f*ing serious? : : rarely
| w********m 发帖数: 1137 | 6 美国最牛逼的FBI,连一个在UIUC出现过的车牌,都parse不出来。
这是真实的世界,别想多了。 | t******o 发帖数: 61 | 7 这个真的很难。
关于句法分析,请搜索 pcfg parser
关于为啥喜欢某个产品啥的,请搜索sentiment analysis
别看学术界工业界吹得震天响,很多基本的应用都还差劲的很。
rarely
【在 m******r 的大作中提到】 : 正在自学text mining. 当然我肯定不会自己造轮子,我当初设想会有什么牛逼的 : package, 按照一本什么样的字典,进行主谓,宾定状补解析文本,同时考虑名词,动词 : ,形容词,介词,冠词什么的根据实际情况忽略。 还有否定词,not , barely, rarely : 等等也应该考虑进去。 : 自学了一段时间,怎么也找不到我要的算法。 网上大量的文章,99%以上,都在讲 : document term matrix . 这种算法虽然简单,我觉得并不实用。 无非是扔掉 : stopwords, 对stem word算一些frequency. 这种算法是不是过于简单了? : 所以我想请教,是不是我没有理解document matrix的真谛? 如果大家知道什么好的文 : 本分析的软件,可否推荐一下? : 我想干什么呢,举个例子。 一篇报纸文章好几千字。 我想用文本分析总结一下主要观
| d*******r 发帖数: 3299 | 8 你说的那个叫自然语言语义分析了,是 NLP 里最难的部分, 而且没啥实质进展的.
计算机真能读懂文献了, 那不是各种图灵测试都能通过了?
rarely
【在 m******r 的大作中提到】 : 正在自学text mining. 当然我肯定不会自己造轮子,我当初设想会有什么牛逼的 : package, 按照一本什么样的字典,进行主谓,宾定状补解析文本,同时考虑名词,动词 : ,形容词,介词,冠词什么的根据实际情况忽略。 还有否定词,not , barely, rarely : 等等也应该考虑进去。 : 自学了一段时间,怎么也找不到我要的算法。 网上大量的文章,99%以上,都在讲 : document term matrix . 这种算法虽然简单,我觉得并不实用。 无非是扔掉 : stopwords, 对stem word算一些frequency. 这种算法是不是过于简单了? : 所以我想请教,是不是我没有理解document matrix的真谛? 如果大家知道什么好的文 : 本分析的软件,可否推荐一下? : 我想干什么呢,举个例子。 一篇报纸文章好几千字。 我想用文本分析总结一下主要观
| z*********8 发帖数: 2070 | 9 这个点子挺老的了
有个类似的app叫Summly, 做的屎一样也卖了30个米
【在 m******r 的大作中提到】 : 我知道你做生意,给你出个点子。 很多文学名著,都是大部头的著作,平常人根本没 : 时间空读。 你用文本分析,把原著缩略成几个小时能读完的,推销给国内出版社。肯 : 定赚钱。 : 或者,把每天的英文报纸,华尔街日报,弄成个缩略版的,让人十分钟看完。 推销给 : 国内网站。
| m******r 发帖数: 1033 | 10 你说的是人工翻译的还是人工智能的 ?
如果机器有一天要统治人类,第一步,它也得理解人类的各种文档。 好比你念phd,第
一步得看该领域人都成天忙活些什么,有了哪些进展,试图解决哪些问题。 机器获取
这些文档,那是不费吹灰之力,关键是如何解析,从字里行间琢磨出什么东西来。
我挺好奇这玩意到底有多难。按理说人类的语法规则(尤其是书面英语,商务英语)很
严谨,字典也都是现成的。 要是想从正规网站,报纸,书籍里面找出违反语法规则的
例子, 挺难。人工智能既能下棋,又能翻译,还能自己写文章,神通大了,可为什么
让它写个梗概 就这么难?
我印象里我们小学语文课就要求写这类东西。 什么看图说话,缩写故事,续写故事,
都是基本功。 我记得看图说话的故事有: 华盛顿砍了他爸的樱桃树,他爸问谁砍得,
华盛顿说了实话。 列宁到姑妈家做客,打碎了茶杯,姑妈问谁干的,列宁说了实话。
草船借箭,缩写故事。
【在 z*********8 的大作中提到】 : 这个点子挺老的了 : 有个类似的app叫Summly, 做的屎一样也卖了30个米
| d******c 发帖数: 2407 | 11 显然你想象的,觉得理所当然的东西并不成立。
你不是经常读paper吗?看看基本的,从书看起,别从paper看起,更能了解一个领域的
基础。
【在 m******r 的大作中提到】 : 你说的是人工翻译的还是人工智能的 ? : 如果机器有一天要统治人类,第一步,它也得理解人类的各种文档。 好比你念phd,第 : 一步得看该领域人都成天忙活些什么,有了哪些进展,试图解决哪些问题。 机器获取 : 这些文档,那是不费吹灰之力,关键是如何解析,从字里行间琢磨出什么东西来。 : 我挺好奇这玩意到底有多难。按理说人类的语法规则(尤其是书面英语,商务英语)很 : 严谨,字典也都是现成的。 要是想从正规网站,报纸,书籍里面找出违反语法规则的 : 例子, 挺难。人工智能既能下棋,又能翻译,还能自己写文章,神通大了,可为什么 : 让它写个梗概 就这么难? : 我印象里我们小学语文课就要求写这类东西。 什么看图说话,缩写故事,续写故事, : 都是基本功。 我记得看图说话的故事有: 华盛顿砍了他爸的樱桃树,他爸问谁砍得,
|
|