由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 有啥好轮子可以抓取网页里的不规则信息?
相关主题
请问哪里有python的code exampleparsing bibliography and sorting (转载)
请教一个初级问题python+ beautifulsoup 爬网页怎么那么复杂?
请教个网页数据抓取的程序设计Python做计算怎么只用一个核?
telnet下如何verify进入哪个页面?那位大侠介绍一下python的webcrawler吧
从网页周期性抓取信息然后自动发邮件,应该怎么做?python regexp question
请教html中的href问个用python scratch yelp html 数据的问题
同主题转寄 (转载)问java api的问题
How to Parsing function in haskell?parsing file in node: js or python ?
相关话题的讨论汇总
话题: 140话题: 2016话题: pp话题: 信息话题: eb3
进入Programming版参与讨论
1 (共1页)
W***o
发帖数: 6519
1
需要抓取一些网站页面里的信息,主要是日期,以及状态;这些日期和状态可以有好多
种格式,拿绿卡版的信息作个例子:
信息1:
EB3 140 PP: 04/28/2016
EB3 140 PP: approved on 05/03/2016
信息2:
EB3 140 premium processing: 2016-04-28
EB3 140 PP: rejected on 2016-05-03
信息3:
EB2 140 屁屁: 2016年4月28
EB2 140 屁屁: 被拒 2016年5月3日
信息4:
EB1A 140 pp: 02/26/2016, approved: 03/02/2016
需要抓取/parse的信息(绿卡类型,申请类型(比如 140), pp否,提交日期,结果,
结果日期):
EB1A, 140 pp, 02/26/2016, approved: 03/02/2016
EB3, 140 premium processing / 140 PP, rejected on 2016-05-03
EB2, 140 屁屁, 被拒 2016年5月3日
这些信息可以任何形式出现,但是关键字(e.g 140)应该还是有的,有没有什么轮子可
以从网页抓这些无序信息?Python Beautifulsoup 可以用来抓取这些unstructured
data吗?
l**********n
发帖数: 8443
2
当然。

【在 W***o 的大作中提到】
: 需要抓取一些网站页面里的信息,主要是日期,以及状态;这些日期和状态可以有好多
: 种格式,拿绿卡版的信息作个例子:
: 信息1:
: EB3 140 PP: 04/28/2016
: EB3 140 PP: approved on 05/03/2016
: 信息2:
: EB3 140 premium processing: 2016-04-28
: EB3 140 PP: rejected on 2016-05-03
: 信息3:
: EB2 140 屁屁: 2016年4月28

l**********n
发帖数: 8443
W***o
发帖数: 6519
4
thanks man

【在 l**********n 的大作中提到】
: https://github.com/IonicaBizau/scrape-it
1 (共1页)
进入Programming版参与讨论
相关主题
parsing file in node: js or python ?从网页周期性抓取信息然后自动发邮件,应该怎么做?
请教一个parser的问题请教html中的href
怎么自学cloud/big data programming同主题转寄 (转载)
如何把文字转换成机器可读形式?How to Parsing function in haskell?
请问哪里有python的code exampleparsing bibliography and sorting (转载)
请教一个初级问题python+ beautifulsoup 爬网页怎么那么复杂?
请教个网页数据抓取的程序设计Python做计算怎么只用一个核?
telnet下如何verify进入哪个页面?那位大侠介绍一下python的webcrawler吧
相关话题的讨论汇总
话题: 140话题: 2016话题: pp话题: 信息话题: eb3