t*********n 发帖数: 278 | 1 用PERL写了个WEB CRAWLER。但是遇到了一点小问题。我要访问的一个网站用了SPLASH
PAGE。 在WEB下,可以看到是一个广告的FALSH, 如果你等10秒,就会把你带到MAIN
PAGE.或者点击LINK, 也可以把你带到MAIN PAGE。 但是我这个PERL的WEB CRAWLER 总
是读取INTRO PAGE, 也就是那个带有广告的PAGE. 该如何读取真正的main page呢?谢
谢。 |
g*****g 发帖数: 34805 | 2 parse这个page,然后连接那个link就是。
SPLASH
【在 t*********n 的大作中提到】 : 用PERL写了个WEB CRAWLER。但是遇到了一点小问题。我要访问的一个网站用了SPLASH : PAGE。 在WEB下,可以看到是一个广告的FALSH, 如果你等10秒,就会把你带到MAIN : PAGE.或者点击LINK, 也可以把你带到MAIN PAGE。 但是我这个PERL的WEB CRAWLER 总 : 是读取INTRO PAGE, 也就是那个带有广告的PAGE. 该如何读取真正的main page呢?谢 : 谢。
|
t*********n 发帖数: 278 | 3 在我的CODE 里面, 我是HARD CODE 那个LINK 的. 可是, 每次用GET 命令读取那个LINK
的时候,总是收到SPLASH PAGE的HTML CODE. 我觉得是那个网站对每个打开网页的指令
,强迫VISIT SPLASH PAGE. THANX
【在 g*****g 的大作中提到】 : parse这个page,然后连接那个link就是。 : : SPLASH
|
m*****e 发帖数: 4193 | 4 看看header里面有redirect的link,直接取
SPLASH
【在 t*********n 的大作中提到】 : 用PERL写了个WEB CRAWLER。但是遇到了一点小问题。我要访问的一个网站用了SPLASH : PAGE。 在WEB下,可以看到是一个广告的FALSH, 如果你等10秒,就会把你带到MAIN : PAGE.或者点击LINK, 也可以把你带到MAIN PAGE。 但是我这个PERL的WEB CRAWLER 总 : 是读取INTRO PAGE, 也就是那个带有广告的PAGE. 该如何读取真正的main page呢?谢 : 谢。
|
g*****g 发帖数: 34805 | 5 如果是这样的话,可能是首页cookie返回了一个session ID,
你不发回去就重新redirect回首页。
LINK
【在 t*********n 的大作中提到】 : 在我的CODE 里面, 我是HARD CODE 那个LINK 的. 可是, 每次用GET 命令读取那个LINK : 的时候,总是收到SPLASH PAGE的HTML CODE. 我觉得是那个网站对每个打开网页的指令 : ,强迫VISIT SPLASH PAGE. THANX
|
t*********n 发帖数: 278 | 6 请问如何在PERL 里面读取那个SESSION ID, 发回去呢?
【在 g*****g 的大作中提到】 : 如果是这样的话,可能是首页cookie返回了一个session ID, : 你不发回去就重新redirect回首页。 : : LINK
|
g*****g 发帖数: 34805 | 7 这个还真不知道,用java的htmlunit是很容易的。
你看看perl有没有open source的headless browser吧。
如果手工做就是把读回来的cookie全部返回。
【在 t*********n 的大作中提到】 : 请问如何在PERL 里面读取那个SESSION ID, 发回去呢?
|