由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Seattle版 - Coding求助
相关主题
请问斑竹一个问题面了一印
Win8 Metro版的IE不怎么样啊【zz】西雅图的气质美女JJ
车子卖了,需要向Washington DOL汇报吗?黑灯瞎火奔
小小 youtube -> Mitbbs 转换。求助!我每天都快被outlook搞疯了!
历史在不断的重演Windows Live还能设计得更脑残点么
童话寓言故事(如有雷同,纯属巧合,请不要对号入座)也来夸一夸bing地图:加国落基山游记
password是世界上最愚蠢的事情。。。。请推荐西雅图地区电台
这个好像不错-女人修养术:女人不漂亮靠什么吸引男人?发100个包子。。。
相关话题的讨论汇总
话题: coding话题: login话题: div话题: browser话题: java
进入Seattle版参与讨论
1 (共1页)
a********e
发帖数: 5779
1
有没有一个办法每天定期几次从某一个website读webpage,把其中某些感兴趣的data存
到database中。用什么写比较方便?多谢。优秀建议我发1000伪币。好的建议100wb。
s*******e
发帖数: 1630
2
如果website不需要login才看到的话很简单,随便一种语言都有function去抓整个
webpage的html下来,如果data的pattern很简单,直接regex抽就好,否则看看有没有
html parser,最后insert db。如果要schedule run,你可以找个免费hosting的地方
,可能php hosting的免费最多。收费的话可以租VM,也就是几十刀一年,然后你装什
么软件都可以,什么语言都可以了。
a********e
发帖数: 5779
3
Thank you very much.
Here is what I got by using java. But I did not set any browser information
when I call URL myURL=new URL("https://xxxxxxxxxxxxxxxx");


【在 s*******e 的大作中提到】
: 如果website不需要login才看到的话很简单,随便一种语言都有function去抓整个
: webpage的html下来,如果data的pattern很简单,直接regex抽就好,否则看看有没有
: html parser,最后insert db。如果要schedule run,你可以找个免费hosting的地方
: ,可能php hosting的免费最多。收费的话可以租VM,也就是几十刀一年,然后你装什
: 么软件都可以,什么语言都可以了。

g*****A
发帖数: 14950
4
财大气粗
土豪
a********e
发帖数: 5779
5
你帮我写吧,所有wb归你

【在 g*****A 的大作中提到】
: 财大气粗
: 土豪

T*******p
发帖数: 524
6
这么简单的东西最多几小时的coding,login不login的没什么区别,也就用get或post.
然后用regular expression parse 下data存进database就搞定

【在 a********e 的大作中提到】
: 有没有一个办法每天定期几次从某一个website读webpage,把其中某些感兴趣的data存
: 到database中。用什么写比较方便?多谢。优秀建议我发1000伪币。好的建议100wb。

T*******p
发帖数: 524
7
换个compatible的browser agent

information

【在 a********e 的大作中提到】
: Thank you very much.
: Here is what I got by using java. But I did not set any browser information
: when I call URL myURL=new URL("https://xxxxxxxxxxxxxxxx");
:

a********e
发帖数: 5779
8
I am running from command line, not from a web browser.

【在 T*******p 的大作中提到】
: 换个compatible的browser agent
:
: information

T*******p
发帖数: 524
9
By compatible browser agent , I meant in your code.
If you write you code in Java, google "Java set user agent"

【在 a********e 的大作中提到】
: I am running from command line, not from a web browser.
a********e
发帖数: 5779
10
thank you.

【在 T*******p 的大作中提到】
: By compatible browser agent , I meant in your code.
: If you write you code in Java, google "Java set user agent"

相关主题
童话寓言故事(如有雷同,纯属巧合,请不要对号入座)面了一印
password是世界上最愚蠢的事情。。。。【zz】西雅图的气质美女JJ
这个好像不错-女人修养术:女人不漂亮靠什么吸引男人?黑灯瞎火奔
进入Seattle版参与讨论
g*****A
发帖数: 14950
11
好会骂人喔

【在 a********e 的大作中提到】
: 你帮我写吧,所有wb归你
s*******e
发帖数: 1630
12
re改user agent。抓到之后看看有没有你想要的data,万一那些data是ajax call回来
的,你html里边就一堆js script而已,又更难一些了。

【在 a********e 的大作中提到】
: thank you.
a********e
发帖数: 5779
13
是的。现在正google一个parser. 有啥建议?thx.

【在 s*******e 的大作中提到】
: re改user agent。抓到之后看看有没有你想要的data,万一那些data是ajax call回来
: 的,你html里边就一堆js script而已,又更难一些了。

A********r
发帖数: 28
14
免费奉送my visa bulletin后台的一段code,做的事情和你描述的基本一样: http://pastebin.com/Wka99Jpp
用的python,在google app engine运行,使用beautiful soup parse html
同时欢迎下载my visa bulletin app: https://play.google.com/store/apps/details
?id=com.endlessrain.myvb :D
j*****y
发帖数: 2042
15
有的有Pay wall的内容login不login差别可大了
没有pay wall但是不带针对搜索引擎优化的静态页面的比如论坛,差别也有点大

post.

【在 T*******p 的大作中提到】
: 这么简单的东西最多几小时的coding,login不login的没什么区别,也就用get或post.
: 然后用regular expression parse 下data存进database就搞定

T*******p
发帖数: 524
16
我原帖是说问题关键不在login不login
当然有复杂的情况,关健在于server是怎样track你的session,包括用cookie或script
. 没有login的session,可以做得比有login还复杂。

【在 j*****y 的大作中提到】
: 有的有Pay wall的内容login不login差别可大了
: 没有pay wall但是不带针对搜索引擎优化的静态页面的比如论坛,差别也有点大
:
: post.

b******n
发帖数: 4509
17
python or ruby, piece of cake
or if you are old enough, use perlx

【在 a********e 的大作中提到】
: 有没有一个办法每天定期几次从某一个website读webpage,把其中某些感兴趣的data存
: 到database中。用什么写比较方便?多谢。优秀建议我发1000伪币。好的建议100wb。

1 (共1页)
进入Seattle版参与讨论
相关主题
发100个包子。。。历史在不断的重演
美女啊。。。童话寓言故事(如有雷同,纯属巧合,请不要对号入座)
Bellevue这边换护照的注册开始了password是世界上最愚蠢的事情。。。。
这里有google的人吗?也问个问题这个好像不错-女人修养术:女人不漂亮靠什么吸引男人?
请问斑竹一个问题面了一印
Win8 Metro版的IE不怎么样啊【zz】西雅图的气质美女JJ
车子卖了,需要向Washington DOL汇报吗?黑灯瞎火奔
小小 youtube -> Mitbbs 转换。求助!我每天都快被outlook搞疯了!
相关话题的讨论汇总
话题: coding话题: login话题: div话题: browser话题: java