设计爬虫如何选择合适的搜索引擎
首先 去除百度
直接使用浏览器搜索生成的url访问不通会返回以下内容,。因为百度会对refer和cookie进行验证,他们的生成机制不了解,
<html>
<head>
<script>
location.replace(location.href.replace("https://","http://"));
</script>
</head>
<body>
<noscript>
<meta http-equiv="refresh" content="0;url=http://www.baidu.com/"></noscript>
</body>
</html>
然后再去除360,可以通过浏览器搜索生成的url进行访问,但是同一个关键词访问二三十次就触发验证

bing

浙公网安备 33010602011771号