有啥好轮子可以抓取网页里的不规则信息？ - Programming版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 有啥好轮子可以抓取网页里的不规则信息？

相关主题
● 请问哪里有python的code example	● parsing bibliography and sorting (转载)
● 请教一个初级问题	● python+ beautifulsoup 爬网页怎么那么复杂？
● 请教个网页数据抓取的程序设计	● Python做计算怎么只用一个核？
● telnet下如何verify进入哪个页面？	● 那位大侠介绍一下python的webcrawler吧
● 从网页周期性抓取信息然后自动发邮件，应该怎么做？	● python regexp question
● 请教html中的href	● 问个用python scratch yelp html 数据的问题
● 同主题转寄 (转载)	● 问java api的问题
● How to Parsing function in haskell?	● parsing file in node: js or python ?

相关话题的讨论汇总
话题: 140话题: 2016话题: pp话题: 信息话题: eb3

进入Programming版参与讨论

1

(共1页)

W***o 发帖数: 6519	1 需要抓取一些网站页面里的信息，主要是日期，以及状态；这些日期和状态可以有好多种格式，拿绿卡版的信息作个例子：信息1: EB3 140 PP: 04/28/2016 EB3 140 PP: approved on 05/03/2016 信息2: EB3 140 premium processing: 2016-04-28 EB3 140 PP: rejected on 2016-05-03 信息3: EB2 140 屁屁: 2016年4月28 EB2 140 屁屁: 被拒 2016年5月3日信息4: EB1A 140 pp: 02/26/2016, approved: 03/02/2016 需要抓取/parse的信息（绿卡类型，申请类型（比如 140), pp否，提交日期，结果，结果日期）： EB1A, 140 pp, 02/26/2016, approved: 03/02/2016 EB3, 140 premium processing / 140 PP, rejected on 2016-05-03 EB2, 140 屁屁, 被拒 2016年5月3日这些信息可以任何形式出现，但是关键字（e.g 140)应该还是有的，有没有什么轮子可以从网页抓这些无序信息？Python Beautifulsoup 可以用来抓取这些unstructured data吗？
l**********n 发帖数: 8443	2 当然。【在 W***o 的大作中提到】 : 需要抓取一些网站页面里的信息，主要是日期，以及状态；这些日期和状态可以有好多 : 种格式，拿绿卡版的信息作个例子： : 信息1: : EB3 140 PP: 04/28/2016 : EB3 140 PP: approved on 05/03/2016 : 信息2: : EB3 140 premium processing: 2016-04-28 : EB3 140 PP: rejected on 2016-05-03 : 信息3: : EB2 140 屁屁: 2016年4月28
l**********n 发帖数: 8443	3 https://github.com/IonicaBizau/scrape-it
W***o 发帖数: 6519	4 thanks man 【在 l**********n 的大作中提到】 : https://github.com/IonicaBizau/scrape-it

1

(共1页)

进入Programming版参与讨论

相关主题
● parsing file in node: js or python ?	● 从网页周期性抓取信息然后自动发邮件，应该怎么做？
● 请教一个parser的问题	● 请教html中的href
● 怎么自学cloud/big data programming	● 同主题转寄 (转载)
● 如何把文字转换成机器可读形式？	● How to Parsing function in haskell?
● 请问哪里有python的code example	● parsing bibliography and sorting (转载)
● 请教一个初级问题	● python+ beautifulsoup 爬网页怎么那么复杂？
● 请教个网页数据抓取的程序设计	● Python做计算怎么只用一个核？
● telnet下如何verify进入哪个页面？	● 那位大侠介绍一下python的webcrawler吧

相关话题的讨论汇总
话题: 140话题: 2016话题: pp话题: 信息话题: eb3

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)