摘要: 煎蛋网在反爬虫方面做了不少工作,无法通过正常的方式爬取,比如用下面这段代码爬取无法得到我们想要的源代码。 执行上述代码,你得到的结果应该跟我一样: 煎蛋网应该是通过检测headers来判断是否爬虫,要想获取正常的源代码,需要伪装成浏览器。 当然,这个爬虫脚本也不是永久有效,说不定哪天煎蛋就出新招了, 阅读全文
posted @ 2016-05-17 12:05 昨、夜星辰 阅读(3957) 评论(0) 推荐(0)