W***o 发帖数: 6519 | 1 需要抓取一些网站页面里的信息,主要是日期,以及状态;这些日期和状态可以有好多
种格式,拿绿卡版的信息作个例子:
信息1:
EB3 140 PP: 04/28/2016
EB3 140 PP: approved on 05/03/2016
信息2:
EB3 140 premium processing: 2016-04-28
EB3 140 PP: rejected on 2016-05-03
信息3:
EB2 140 屁屁: 2016年4月28
EB2 140 屁屁: 被拒 2016年5月3日
信息4:
EB1A 140 pp: 02/26/2016, approved: 03/02/2016
需要抓取/parse的信息(绿卡类型,申请类型(比如 140), pp否,提交日期,结果,
结果日期):
EB1A, 140 pp, 02/26/2016, approved: 03/02/2016
EB3, 140 premium processing / 140 PP, rejected on 2016-05-03
EB2, 140 屁屁, 被拒 2016年5月3日
这些信息可以任何形式出现,但是关键字(e.g 140)应该还是有的,有没有什么轮子可
以从网页抓这些无序信息?Python Beautifulsoup 可以用来抓取这些unstructured
data吗? |