摘要: 如果是非定向爬虫,不是专门爬一个固定位置的信息,而是成千上万的未知网站,那就需要找到编码格式了,使用如下正则,可以正确找到,准确率99%content=requests.get(url).contentbianma_group=re.search('<meta[\s\S]*?charset="?([ 阅读全文
posted @ 2017-08-07 14:16 北风之神0509 阅读(522) 评论(0) 推荐(0)
摘要: 反爬很重要的手段之一就是根据ip来了,包括新浪微博搜索页 微信搜索页 360全系网站360搜索 360百科 360 问答 360新闻,这些都是明确的提示了是根据ip反扒的,所以需要买ip。买得是快代理和芝麻代理。 芝麻代理是4600元包年,每天200个ip,每个ip可用时长为25到180分钟,也就意 阅读全文
posted @ 2017-08-07 11:05 北风之神0509 阅读(949) 评论(0) 推荐(0)