设计爬虫如何选择合适的搜索引擎

首先 去除百度

直接使用浏览器搜索生成的url访问不通会返回以下内容,。因为百度会对refer和cookie进行验证,他们的生成机制不了解,

<html>
<head>
    <script>
        location.replace(location.href.replace("https://","http://"));
    </script>
</head>
<body>
    <noscript>
        <meta http-equiv="refresh" content="0;url=http://www.baidu.com/"></noscript>
</body>
</html>

 

然后再去除360,可以通过浏览器搜索生成的url进行访问,但是同一个关键词访问二三十次就触发验证

 

 bing

posted @ 2022-02-10 10:37  不打鱼光晒网  阅读(54)  评论(0)    收藏  举报