由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 有没有谁做 text mining 的?
相关主题
perl的文本处理大部分容易在python里实现吗?implement a simple regular expression match?
请教Regular Expression,这个小孩真牛啊
data分类问题请教简单的perl正则表达式文本替换多个空行问题求教
python的re怎么有很多莫名奇妙的行为, 我估计是bug吧有知道machine learning, data mining 的同学吗?
scala的pattern match就一switch吧。求推荐machine learning和data mining的书
哪个框架最适合快速开发手机app后台的web service?运算量比较请问如何把一个论坛上所有的文章都抓回来?
请教一个变态的regular expression 替换请问 regular expression
regular expressionHow many people use design patterns when coding?
相关话题的讨论汇总
话题: text话题: mining话题: pattern话题: 有没有话题: nlp
进入Programming版参与讨论
1 (共1页)
a*****e
发帖数: 216
1
有没有谁做 text mining 的?最近做了一个text mining 的项目。总的说就是处理一
些 text string , 用 regular expression 等,再计算一些 quantity 像 similarity
之类的,由于text string 有许多 pattern, 处理了现有数据的几乎的所有的
pattern 用 regular expression 等,但是就是不知道今后还有什么 pattern ,我告
诉同组负责数据传送的人说以后如果有新的pattern 进来,还要根据新 pattern 改
code, 他说, 那简直是 nightmare, 他说应该有一个 universal 的东西,能一下处理
所有的text pattern ,然后就不用改 code 了。我上来问一下有没有做text mining
的?有没有这样一种universal 的东西, 能一下处理全部的pattern , 然后今后不用
改 code? 我感觉不能,因为 text mining code 都是随着 text 走的,text 变了,
code 自然得变呀。大家觉得?我就想问一下版上有没有text mining 的大拿,知道详
情的?多谢!
c******n
发帖数: 16666
2
不懂乱说
哪里有这么好现成的universal的东西
要么让他自己去搞个ml的来生成新的regex
b*******s
发帖数: 5216
3
@goodbug
he will write millions of classes for you
z****e
发帖数: 54598
4
regular expressions? wth
u do it in wrong/old/stupid ways
try to find some new methods like NLP
otherwise u ppl just waste ur time here

similarity

【在 a*****e 的大作中提到】
: 有没有谁做 text mining 的?最近做了一个text mining 的项目。总的说就是处理一
: 些 text string , 用 regular expression 等,再计算一些 quantity 像 similarity
: 之类的,由于text string 有许多 pattern, 处理了现有数据的几乎的所有的
: pattern 用 regular expression 等,但是就是不知道今后还有什么 pattern ,我告
: 诉同组负责数据传送的人说以后如果有新的pattern 进来,还要根据新 pattern 改
: code, 他说, 那简直是 nightmare, 他说应该有一个 universal 的东西,能一下处理
: 所有的text pattern ,然后就不用改 code 了。我上来问一下有没有做text mining
: 的?有没有这样一种universal 的东西, 能一下处理全部的pattern , 然后今后不用
: 改 code? 我感觉不能,因为 text mining code 都是随着 text 走的,text 变了,
: code 自然得变呀。大家觉得?我就想问一下版上有没有text mining 的大拿,知道详

g*****g
发帖数: 34805
5
不需要,正三边到正一万边形只需要一个带参数的类,可以套同一公式。可惜有傻逼不
先写个parser.就是不会算面积。

【在 b*******s 的大作中提到】
: @goodbug
: he will write millions of classes for you

d********u
发帖数: 5383
6
是用JAVA写的吗?用轮子了吗?

similarity

【在 a*****e 的大作中提到】
: 有没有谁做 text mining 的?最近做了一个text mining 的项目。总的说就是处理一
: 些 text string , 用 regular expression 等,再计算一些 quantity 像 similarity
: 之类的,由于text string 有许多 pattern, 处理了现有数据的几乎的所有的
: pattern 用 regular expression 等,但是就是不知道今后还有什么 pattern ,我告
: 诉同组负责数据传送的人说以后如果有新的pattern 进来,还要根据新 pattern 改
: code, 他说, 那简直是 nightmare, 他说应该有一个 universal 的东西,能一下处理
: 所有的text pattern ,然后就不用改 code 了。我上来问一下有没有做text mining
: 的?有没有这样一种universal 的东西, 能一下处理全部的pattern , 然后今后不用
: 改 code? 我感觉不能,因为 text mining code 都是随着 text 走的,text 变了,
: code 自然得变呀。大家觉得?我就想问一下版上有没有text mining 的大拿,知道详

a*****e
发帖数: 216
7
我用python 写的。不咋会用 java. 其实是写了一个 web service ,中间带了些计算
。 python webpy, get rest method. java 能行。这个项目已经run 了快一年了。难
道要重写?

【在 d********u 的大作中提到】
: 是用JAVA写的吗?用轮子了吗?
:
: similarity

a*****e
发帖数: 216
8
Thank you. desides NLP, do you have more suggestions?

【在 z****e 的大作中提到】
: regular expressions? wth
: u do it in wrong/old/stupid ways
: try to find some new methods like NLP
: otherwise u ppl just waste ur time here
:
: similarity

d******e
发帖数: 2265
9
pyparsing.

【在 a*****e 的大作中提到】
: 我用python 写的。不咋会用 java. 其实是写了一个 web service ,中间带了些计算
: 。 python webpy, get rest method. java 能行。这个项目已经run 了快一年了。难
: 道要重写?

c********1
发帖数: 5269
10
Is NLP a 牛刀?

【在 a*****e 的大作中提到】
: Thank you. desides NLP, do you have more suggestions?
l*******s
发帖数: 1258
11
我是搞NLP的。
这个自动生成Regex 目前来讲NLP做不到
不知道你的具体任务是什么 基本来讲 可以这个思路:
1.用以前的Regex跑一边 得到一些结果 作为最初的training data
2.用这些training data建一个classifier,named entity recognizer之类的,取决于
你的应用
3.再进来新的数据,就用上一步得到的东西来处理。
4.把得分高的data point加回到training data,重新训练一遍classifier。慢慢的性
能就会越来越好。
感兴趣的话可以查一下active learning和Reinforcement learning
z****e
发帖数: 54598
12
holy
ppl
use inverted index table
to compare the similarity of two txts
this type of simple requirement could be easily solved by some simple tools
there is no need for ml
l*******s
发帖数: 1258
13
就算是比较similarity,也要找到最合适的模型和参数,也不是那么容易的。而这又牵
扯到不少的ML
况且lz这个要求,还并不清楚到底什么细节,只用比较相似度很难讲能不能解决。

tools

【在 z****e 的大作中提到】
: holy
: ppl
: use inverted index table
: to compare the similarity of two txts
: this type of simple requirement could be easily solved by some simple tools
: there is no need for ml

1 (共1页)
进入Programming版参与讨论
相关主题
How many people use design patterns when coding?scala的pattern match就一switch吧。
design patterns到底有用吗?哪个框架最适合快速开发手机app后台的web service?运算量比较
Python:How to replace 2 different patterns in 1 line in file请教一个变态的regular expression 替换
快速系统学习 c++ design pattern有什么好书或者网站吗regular expression
perl的文本处理大部分容易在python里实现吗?implement a simple regular expression match?
请教Regular Expression,这个小孩真牛啊
data分类问题请教简单的perl正则表达式文本替换多个空行问题求教
python的re怎么有很多莫名奇妙的行为, 我估计是bug吧有知道machine learning, data mining 的同学吗?
相关话题的讨论汇总
话题: text话题: mining话题: pattern话题: 有没有话题: nlp