a*****e 发帖数: 216 | 1 有没有谁做 text mining 的?最近做了一个text mining 的项目。总的说就是处理一
些 text string , 用 regular expression 等,再计算一些 quantity 像 similarity
之类的,由于text string 有许多 pattern, 处理了现有数据的几乎的所有的
pattern 用 regular expression 等,但是就是不知道今后还有什么 pattern ,我告
诉同组负责数据传送的人说以后如果有新的pattern 进来,还要根据新 pattern 改
code, 他说, 那简直是 nightmare, 他说应该有一个 universal 的东西,能一下处理
所有的text pattern ,然后就不用改 code 了。我上来问一下有没有做text mining
的?有没有这样一种universal 的东西, 能一下处理全部的pattern , 然后今后不用
改 code? 我感觉不能,因为 text mining code 都是随着 text 走的,text 变了,
code 自然得变呀。大家觉得?我就想问一下版上有没有text mining 的大拿,知道详
情的?多谢! |
c******n 发帖数: 16666 | 2 不懂乱说
哪里有这么好现成的universal的东西
要么让他自己去搞个ml的来生成新的regex |
b*******s 发帖数: 5216 | 3 @goodbug
he will write millions of classes for you |
z****e 发帖数: 54598 | 4 regular expressions? wth
u do it in wrong/old/stupid ways
try to find some new methods like NLP
otherwise u ppl just waste ur time here
similarity
【在 a*****e 的大作中提到】 : 有没有谁做 text mining 的?最近做了一个text mining 的项目。总的说就是处理一 : 些 text string , 用 regular expression 等,再计算一些 quantity 像 similarity : 之类的,由于text string 有许多 pattern, 处理了现有数据的几乎的所有的 : pattern 用 regular expression 等,但是就是不知道今后还有什么 pattern ,我告 : 诉同组负责数据传送的人说以后如果有新的pattern 进来,还要根据新 pattern 改 : code, 他说, 那简直是 nightmare, 他说应该有一个 universal 的东西,能一下处理 : 所有的text pattern ,然后就不用改 code 了。我上来问一下有没有做text mining : 的?有没有这样一种universal 的东西, 能一下处理全部的pattern , 然后今后不用 : 改 code? 我感觉不能,因为 text mining code 都是随着 text 走的,text 变了, : code 自然得变呀。大家觉得?我就想问一下版上有没有text mining 的大拿,知道详
|
g*****g 发帖数: 34805 | 5 不需要,正三边到正一万边形只需要一个带参数的类,可以套同一公式。可惜有傻逼不
先写个parser.就是不会算面积。
【在 b*******s 的大作中提到】 : @goodbug : he will write millions of classes for you
|
d********u 发帖数: 5383 | 6 是用JAVA写的吗?用轮子了吗?
similarity
【在 a*****e 的大作中提到】 : 有没有谁做 text mining 的?最近做了一个text mining 的项目。总的说就是处理一 : 些 text string , 用 regular expression 等,再计算一些 quantity 像 similarity : 之类的,由于text string 有许多 pattern, 处理了现有数据的几乎的所有的 : pattern 用 regular expression 等,但是就是不知道今后还有什么 pattern ,我告 : 诉同组负责数据传送的人说以后如果有新的pattern 进来,还要根据新 pattern 改 : code, 他说, 那简直是 nightmare, 他说应该有一个 universal 的东西,能一下处理 : 所有的text pattern ,然后就不用改 code 了。我上来问一下有没有做text mining : 的?有没有这样一种universal 的东西, 能一下处理全部的pattern , 然后今后不用 : 改 code? 我感觉不能,因为 text mining code 都是随着 text 走的,text 变了, : code 自然得变呀。大家觉得?我就想问一下版上有没有text mining 的大拿,知道详
|
a*****e 发帖数: 216 | 7 我用python 写的。不咋会用 java. 其实是写了一个 web service ,中间带了些计算
。 python webpy, get rest method. java 能行。这个项目已经run 了快一年了。难
道要重写?
【在 d********u 的大作中提到】 : 是用JAVA写的吗?用轮子了吗? : : similarity
|
a*****e 发帖数: 216 | 8 Thank you. desides NLP, do you have more suggestions?
【在 z****e 的大作中提到】 : regular expressions? wth : u do it in wrong/old/stupid ways : try to find some new methods like NLP : otherwise u ppl just waste ur time here : : similarity
|
d******e 发帖数: 2265 | 9 pyparsing.
【在 a*****e 的大作中提到】 : 我用python 写的。不咋会用 java. 其实是写了一个 web service ,中间带了些计算 : 。 python webpy, get rest method. java 能行。这个项目已经run 了快一年了。难 : 道要重写?
|
c********1 发帖数: 5269 | 10 Is NLP a 牛刀?
【在 a*****e 的大作中提到】 : Thank you. desides NLP, do you have more suggestions?
|
l*******s 发帖数: 1258 | 11 我是搞NLP的。
这个自动生成Regex 目前来讲NLP做不到
不知道你的具体任务是什么 基本来讲 可以这个思路:
1.用以前的Regex跑一边 得到一些结果 作为最初的training data
2.用这些training data建一个classifier,named entity recognizer之类的,取决于
你的应用
3.再进来新的数据,就用上一步得到的东西来处理。
4.把得分高的data point加回到training data,重新训练一遍classifier。慢慢的性
能就会越来越好。
感兴趣的话可以查一下active learning和Reinforcement learning |
z****e 发帖数: 54598 | 12 holy
ppl
use inverted index table
to compare the similarity of two txts
this type of simple requirement could be easily solved by some simple tools
there is no need for ml |
l*******s 发帖数: 1258 | 13 就算是比较similarity,也要找到最合适的模型和参数,也不是那么容易的。而这又牵
扯到不少的ML
况且lz这个要求,还并不清楚到底什么细节,只用比较相似度很难讲能不能解决。
tools
【在 z****e 的大作中提到】 : holy : ppl : use inverted index table : to compare the similarity of two txts : this type of simple requirement could be easily solved by some simple tools : there is no need for ml
|