s******o 发帖数: 656 | 1 求各路大神给小弟指条明路,这几个语言哪个更适用于我的情况
我是学文科的,编程经验很少,之前用过matlab做些简单的运算,转文科后主要用SAS
和stata做统计。没接触过C之类的复杂的语言。最近经常帮RA的老板手工收集数据,例
如从上市公司财务报表中找出需要的信息,手工收集到excel之类的软件以方便SAS读取
。手工收集数据太费时间,以后还可能经常用到,所以想学个语言看能不能编程代替手
工收集。
现在主要的困惑一是心里没啥概念到底编程能不能完全代替手工收集或者省掉大部分手
工时间,因为收集某些数据的时候需要先读一遍报表里的话然后才能决定这段话里提到
的数据是不是我需要的。我网上搜到python里有个natural language tool kit http://nltk.org/ 貌似能分析自然语言,但是不知道这个工具能不能强大到分析报表摘出有用信息。
另外一个搞不清的地方是如果编程能代替手工收集,哪一种语言解决我的问题最有效?
我刚看到FAS133同学发在本版的帖子,他遇到的问题貌似跟我的有点像,帖子里各位有
的说Java适用有的说Perl最好。有点糊涂。http://www.mitbbs.com/article_t/Programming/31253053.html
之前我网上做了点research,貌似python现在用的人多支持也不错,代码维护起来也简
单些,也有很多说perl分析文字最好但语法有点怪不容易学,还有说java+jquery最好
。目前以我的基础和时间限制,我只能选一个语言,请各位帮忙分析一下我该怎么办,
多谢! |
t***a 发帖数: 416 | 2 你这个需求我觉得python和perl现成的东西多些,自己下载个别人写的小脚本改改,解
析个文本啥的,挺容易的
java也好用,我自己就是用java的,但java各种库太多,学起来慢,而且你对c都不熟
悉,从0开始,不太好学
SAS
【在 s******o 的大作中提到】 : 求各路大神给小弟指条明路,这几个语言哪个更适用于我的情况 : 我是学文科的,编程经验很少,之前用过matlab做些简单的运算,转文科后主要用SAS : 和stata做统计。没接触过C之类的复杂的语言。最近经常帮RA的老板手工收集数据,例 : 如从上市公司财务报表中找出需要的信息,手工收集到excel之类的软件以方便SAS读取 : 。手工收集数据太费时间,以后还可能经常用到,所以想学个语言看能不能编程代替手 : 工收集。 : 现在主要的困惑一是心里没啥概念到底编程能不能完全代替手工收集或者省掉大部分手 : 工时间,因为收集某些数据的时候需要先读一遍报表里的话然后才能决定这段话里提到 : 的数据是不是我需要的。我网上搜到python里有个natural language tool kit http://nltk.org/ 貌似能分析自然语言,但是不知道这个工具能不能强大到分析报表摘出有用信息。 : 另外一个搞不清的地方是如果编程能代替手工收集,哪一种语言解决我的问题最有效?
|
s******o 发帖数: 656 | 3 多谢!perl跟python比起来哪个更适用我的情况呢?网上看到不止一次说perl分析文本
比较好,没看见有人说python干这个好的,还是只要用regex都差不多?
【在 t***a 的大作中提到】 : 你这个需求我觉得python和perl现成的东西多些,自己下载个别人写的小脚本改改,解 : 析个文本啥的,挺容易的 : java也好用,我自己就是用java的,但java各种库太多,学起来慢,而且你对c都不熟 : 悉,从0开始,不太好学 : : SAS
|
d**o 发帖数: 864 | 4 python完全胜任,python有更多的附加工具。
【在 s******o 的大作中提到】 : 多谢!perl跟python比起来哪个更适用我的情况呢?网上看到不止一次说perl分析文本 : 比较好,没看见有人说python干这个好的,还是只要用regex都差不多?
|
s******o 发帖数: 656 | 5 大侠可否推荐一两个
【在 d**o 的大作中提到】 : python完全胜任,python有更多的附加工具。
|
p**o 发帖数: 3409 | 6 NLTK 对你有没有用,要结合你具体的需求来说。耐心读一读它的API文档以及示例,看
看有没有你需要的。毕竟它不是拿鼠标点点就能完成操作的图形软件,是个类库,是一
堆砖头。你要造房子,当然需要你自己和水泥、一块砖一块砖地砌。
就语言本身来说,python比perl易学易读不少,都是0基础的话还是建议python。
话说看你本版发文,两年前就开始用python写程序了,怎么现在还在纠结这个问题?
SAS
【在 s******o 的大作中提到】 : 求各路大神给小弟指条明路,这几个语言哪个更适用于我的情况 : 我是学文科的,编程经验很少,之前用过matlab做些简单的运算,转文科后主要用SAS : 和stata做统计。没接触过C之类的复杂的语言。最近经常帮RA的老板手工收集数据,例 : 如从上市公司财务报表中找出需要的信息,手工收集到excel之类的软件以方便SAS读取 : 。手工收集数据太费时间,以后还可能经常用到,所以想学个语言看能不能编程代替手 : 工收集。 : 现在主要的困惑一是心里没啥概念到底编程能不能完全代替手工收集或者省掉大部分手 : 工时间,因为收集某些数据的时候需要先读一遍报表里的话然后才能决定这段话里提到 : 的数据是不是我需要的。我网上搜到python里有个natural language tool kit http://nltk.org/ 貌似能分析自然语言,但是不知道这个工具能不能强大到分析报表摘出有用信息。 : 另外一个搞不清的地方是如果编程能代替手工收集,哪一种语言解决我的问题最有效?
|
d**o 发帖数: 864 | 7 要看你具体需求,如果简单的统计分析,numpy scipy够用。
【在 s******o 的大作中提到】 : 大侠可否推荐一两个
|
c****f 发帖数: 1102 | |
t***a 发帖数: 416 | 9 perl的铁杆当然说perl的文本处理多无敌,我觉得差不多,
perl很适合写那种quick&dirty的一次性脚本,至于regex匹配的performance, perl粉
说perl好一些,我觉得差不了太多,regex那玩意匹配起来要多少时间,谁说的也不算
我的建议是,有现成的脚本就用人家的,管它perl还是python呢,要是自己从头写,
python比较好,这语言简单干净
【在 s******o 的大作中提到】 : 多谢!perl跟python比起来哪个更适用我的情况呢?网上看到不止一次说perl分析文本 : 比较好,没看见有人说python干这个好的,还是只要用regex都差不多?
|
s******o 发帖数: 656 | 10 呵呵,你还记得啊!
我当时也是碰到类似的手工收集的问题,想现学现卖,后来发现时间紧自己搞不定,就
找了一个CS的朋友帮忙搞定的。当时我那朋友好像都没有用到编程或者用了一点perl,
大部分直接用shell script就弄好了。那之后我一直没有再做类似的手工收集,就扔下
了。最近又被assign给这个老板做RA,干的事比以前还麻烦。另外就是我们这一行最近
也开始有人在搞类似的东西了,比如说编程模拟大规模手工收集数据,谁有别人没有的
数据谁就能发paper,还有人编程或者用软件分析财务报表的语气发paper的,也算是个
研究的趋势吧,这些东西SAS或者Stata实现起来很难,所以打算认真弄一弄编程语言。
上次学的那点python连皮毛都不是,学了半天也稀里糊涂的,而且我问了一下发现我认
识的人学perl的比较多大部分没用过python没法比较。多谢大神指教!另外还想请教一
下如果nltk不适用,我应该去哪里找我需要的工具呢?光google有点大海捞针的感觉,
我是编程门门外汉也不知道该去哪找。
【在 p**o 的大作中提到】 : NLTK 对你有没有用,要结合你具体的需求来说。耐心读一读它的API文档以及示例,看 : 看有没有你需要的。毕竟它不是拿鼠标点点就能完成操作的图形软件,是个类库,是一 : 堆砖头。你要造房子,当然需要你自己和水泥、一块砖一块砖地砌。 : 就语言本身来说,python比perl易学易读不少,都是0基础的话还是建议python。 : 话说看你本版发文,两年前就开始用python写程序了,怎么现在还在纠结这个问题? : : SAS
|
|
|
s******o 发帖数: 656 | 11 我主要想做数据收集,文档分析类的,应该用哪种呢?或者去哪里找呢?
【在 d**o 的大作中提到】 : 要看你具体需求,如果简单的统计分析,numpy scipy够用。
|
s******o 发帖数: 656 | 12 多谢多谢!
【在 t***a 的大作中提到】 : perl的铁杆当然说perl的文本处理多无敌,我觉得差不多, : perl很适合写那种quick&dirty的一次性脚本,至于regex匹配的performance, perl粉 : 说perl好一些,我觉得差不了太多,regex那玩意匹配起来要多少时间,谁说的也不算 : 我的建议是,有现成的脚本就用人家的,管它perl还是python呢,要是自己从头写, : python比较好,这语言简单干净
|
s******o 发帖数: 656 | |
s******o 发帖数: 656 | 14 我靠!刚发现一个包子是10个伪币,还扣手续费!只能发一个包子,我就按回帖顺序发
了,duqo,pulo,还有cxfcxf大神,我先欠着你们的包子。
话说怎么挣伪币啊。。。我注册好多年了这么穷逼是不是太失败了 |
i***r 发帖数: 1035 | |
p**o 发帖数: 3409 | 16 什么“编程代替手工收集”、“分析报表摘出有用信息”都是非常含混不清的描述,这
更不是程序员能理解的语言。“收集”什么?从哪里“收集”?什么是“报表”(什么
格式、是文本文件还是二进制文件)?什么叫“有用信息”?提出这样含混的问题,你
期待能具体到什么程度的回答?一个受过(或者正在受到)PhD训练的人,应该学会如
何准确地提问。
抛开具体问题不说,对于researcher——尤其是data scientist——来说,python是比
较理想的万金油语言。什么都可以用它来做,虽然任何一方面都有比它更胜任的选择。 |
d**o 发帖数: 864 | 17 描述太不精确了。
你先从简单的做起,python肯定能满足你的需求,多找现成的package用。
【在 s******o 的大作中提到】 : 我主要想做数据收集,文档分析类的,应该用哪种呢?或者去哪里找呢?
|
c****e 发帖数: 1453 | |
s*w 发帖数: 729 | 19 文本一般都是 unstructured 的,你需要做成报表(structured) 理论上讲是不可能的
实际上,如果文本里的感兴趣信息符合 regular expression 的话,你是可以提取的,
任何语言都能用, python 简单些 . paper 里做这个的都是 assume 了很多
【在 s******o 的大作中提到】 : 呵呵,你还记得啊! : 我当时也是碰到类似的手工收集的问题,想现学现卖,后来发现时间紧自己搞不定,就 : 找了一个CS的朋友帮忙搞定的。当时我那朋友好像都没有用到编程或者用了一点perl, : 大部分直接用shell script就弄好了。那之后我一直没有再做类似的手工收集,就扔下 : 了。最近又被assign给这个老板做RA,干的事比以前还麻烦。另外就是我们这一行最近 : 也开始有人在搞类似的东西了,比如说编程模拟大规模手工收集数据,谁有别人没有的 : 数据谁就能发paper,还有人编程或者用软件分析财务报表的语气发paper的,也算是个 : 研究的趋势吧,这些东西SAS或者Stata实现起来很难,所以打算认真弄一弄编程语言。 : 上次学的那点python连皮毛都不是,学了半天也稀里糊涂的,而且我问了一下发现我认 : 识的人学perl的比较多大部分没用过python没法比较。多谢大神指教!另外还想请教一
|