摘要:
一般的爬虫都是直接使用http协议,下载指定url的html内容,并对内容进行分析和抽取。在我写的爬虫框架webmagic里也使用了HttpClient来完成这样的任务。但是有些页面是通过js以及ajax动态加载的,例如:花瓣网。这时如果我们直接分析原始页面的html,是得不到有效的信息的。当然,因... 阅读全文
posted @ 2016-01-22 01:02
xxxxxxxx1x2xxxxxxx
阅读(358)
评论(0)
推荐(0)
浙公网安备 33010602011771号