摘要:
一般让爬虫在一个进程内多线程并发,有几种方法。 阅读全文
posted @ 2010-05-18 16:12
老兵笔记
阅读(8079)
评论(1)
推荐(2)
摘要:
设置 HTTP 或 Socket 访问超时,来防止爬虫抓取某个页面时间过长。 阅读全文
posted @ 2010-05-18 16:07
老兵笔记
阅读(12116)
评论(0)
推荐(1)
摘要:
我们需要确定网页的内容/标题等文字的编码格式,比如 utf-8 、gb2312 等。 阅读全文
posted @ 2010-05-18 15:57
老兵笔记
阅读(3550)
评论(1)
推荐(1)
只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2010-05-18 14:48
老兵笔记
阅读(4153)
评论(4)
推荐(3)
浙公网安备 33010602011771号