由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 问个用php抓网页的问题
相关主题
Re: USER_AGENT: python-requests/2.18.4问个HTML DOM JavaScript相关的问题
问一个用R抓网上数据,抓下来的和网页不一致用python urlopen 抓mitbbs页面的问题
what will happen if user disable JavaScript?问java applet的问题
有谁可以帮忙写个小小小软件在带有ajax的页面做screen scrape
问个perl Mechanize问题Cannot recvfrom() on ipv6, HELP!
问个web page manipulation的问题问一下关于http persistent connection的问题
问个UI的问题关于http keep-alive的一个问题
问个Python问题wwzz请进
相关话题的讨论汇总
话题: 网页话题: 抓下来话题: php话题: source话题: 问个
进入Programming版参与讨论
1 (共1页)
p*******t
发帖数: 501
1
我想从下面这个网站抓网页:
http://community.giffgaff.com/
但是发现,从浏览器窗口看到的网页和source code,跟我用php抓下来的网页和source
code不一样,而且有比较大的区别。请问有什么比较简单的方法能把网页原样抓下来
么?
比如说这个网页:
http://community.giffgaff.com/t5/user/viewprofilepage/user-id/9
抓下来的和browser里面看到的就不一样
d****y
发帖数: 910
2
这个是网站的自身设置(可以是web服务器的设置也可以是页面代码方面的设置等等)。
http://web-sniffer.net/ 在这里输入你说的页面,如果选择user agent是Firefox的话,你可以看到所有HTML;如果是某个不知名的user agent,例如web-sniffer,就会返回一个HTTP 302跳转,让你什么也抓不到。
所以你自己用PHP写代码的话,HTTP请求的user agent要手工改成某个流行的浏览器的。
网站方面这个做法主要是为了阻止机器人、阻止spam attack等等。
1 (共1页)
进入Programming版参与讨论
相关主题
wwzz请进问个perl Mechanize问题
一个较难的pythpn输出函数运行信息的project.问个web page manipulation的问题
这种问题该怎么编程处理问个UI的问题
good C++ open source project?问个Python问题
Re: USER_AGENT: python-requests/2.18.4问个HTML DOM JavaScript相关的问题
问一个用R抓网上数据,抓下来的和网页不一致用python urlopen 抓mitbbs页面的问题
what will happen if user disable JavaScript?问java applet的问题
有谁可以帮忙写个小小小软件在带有ajax的页面做screen scrape
相关话题的讨论汇总
话题: 网页话题: 抓下来话题: php话题: source话题: 问个