由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - perl question
相关主题
help on perl彻底被JAVA打败
请教,网页抓取、内容整理提取用什么做比较简单web scraper
请教 PHP vs Perlkao, ubuntu真烂
Perl/Python/.NET难道是搞网页的?headless chrome要出来了 不用再将就破phantom了
Q: 2 submit buttons in 1 page (转载)最近前端喜讯不断啊 echarts-GL和headless chrome
java main的疑问小白问网页scraping 的一个问题
这个cassandra paging的解决方案怎么样? (转载)Micro Center Instore -- 5美金Raspberry Pi Zero W
一个网页点击link和copy link address再打开得到不同结果贡献一下:本版上搜集的 Google 面试题 (转载)
相关话题的讨论汇总
话题: page话题: perl话题: web话题: link话题: splash
进入Programming版参与讨论
1 (共1页)
t*********n
发帖数: 278
1
用PERL写了个WEB CRAWLER。但是遇到了一点小问题。我要访问的一个网站用了SPLASH
PAGE。 在WEB下,可以看到是一个广告的FALSH, 如果你等10秒,就会把你带到MAIN
PAGE.或者点击LINK, 也可以把你带到MAIN PAGE。 但是我这个PERL的WEB CRAWLER 总
是读取INTRO PAGE, 也就是那个带有广告的PAGE. 该如何读取真正的main page呢?谢
谢。
g*****g
发帖数: 34805
2
parse这个page,然后连接那个link就是。

SPLASH

【在 t*********n 的大作中提到】
: 用PERL写了个WEB CRAWLER。但是遇到了一点小问题。我要访问的一个网站用了SPLASH
: PAGE。 在WEB下,可以看到是一个广告的FALSH, 如果你等10秒,就会把你带到MAIN
: PAGE.或者点击LINK, 也可以把你带到MAIN PAGE。 但是我这个PERL的WEB CRAWLER 总
: 是读取INTRO PAGE, 也就是那个带有广告的PAGE. 该如何读取真正的main page呢?谢
: 谢。

t*********n
发帖数: 278
3
在我的CODE 里面, 我是HARD CODE 那个LINK 的. 可是, 每次用GET 命令读取那个LINK
的时候,总是收到SPLASH PAGE的HTML CODE. 我觉得是那个网站对每个打开网页的指令
,强迫VISIT SPLASH PAGE. THANX

【在 g*****g 的大作中提到】
: parse这个page,然后连接那个link就是。
:
: SPLASH

m*****e
发帖数: 4193
4
看看header里面有redirect的link,直接取

SPLASH

【在 t*********n 的大作中提到】
: 用PERL写了个WEB CRAWLER。但是遇到了一点小问题。我要访问的一个网站用了SPLASH
: PAGE。 在WEB下,可以看到是一个广告的FALSH, 如果你等10秒,就会把你带到MAIN
: PAGE.或者点击LINK, 也可以把你带到MAIN PAGE。 但是我这个PERL的WEB CRAWLER 总
: 是读取INTRO PAGE, 也就是那个带有广告的PAGE. 该如何读取真正的main page呢?谢
: 谢。

g*****g
发帖数: 34805
5
如果是这样的话,可能是首页cookie返回了一个session ID,
你不发回去就重新redirect回首页。

LINK

【在 t*********n 的大作中提到】
: 在我的CODE 里面, 我是HARD CODE 那个LINK 的. 可是, 每次用GET 命令读取那个LINK
: 的时候,总是收到SPLASH PAGE的HTML CODE. 我觉得是那个网站对每个打开网页的指令
: ,强迫VISIT SPLASH PAGE. THANX

t*********n
发帖数: 278
6
请问如何在PERL 里面读取那个SESSION ID, 发回去呢?

【在 g*****g 的大作中提到】
: 如果是这样的话,可能是首页cookie返回了一个session ID,
: 你不发回去就重新redirect回首页。
:
: LINK

g*****g
发帖数: 34805
7
这个还真不知道,用java的htmlunit是很容易的。
你看看perl有没有open source的headless browser吧。
如果手工做就是把读回来的cookie全部返回。

【在 t*********n 的大作中提到】
: 请问如何在PERL 里面读取那个SESSION ID, 发回去呢?
1 (共1页)
进入Programming版参与讨论
相关主题
贡献一下:本版上搜集的 Google 面试题 (转载)Q: 2 submit buttons in 1 page (转载)
网络问题java main的疑问
Bing就这水平?还是洗洗睡了吧这个cassandra paging的解决方案怎么样? (转载)
想搭一个搜索引擎,哪种open source的crawler最好? (转载)一个网页点击link和copy link address再打开得到不同结果
help on perl彻底被JAVA打败
请教,网页抓取、内容整理提取用什么做比较简单web scraper
请教 PHP vs Perlkao, ubuntu真烂
Perl/Python/.NET难道是搞网页的?headless chrome要出来了 不用再将就破phantom了
相关话题的讨论汇总
话题: page话题: perl话题: web话题: link话题: splash