爬虫 - 随笔分类 - 李小六儿

日常反反爬虫

摘要：这里介绍几种工作中遇到过的常见反爬虫机制及应对策略。爬虫的君子协议有些网站希望被搜索引擎抓住，有些敏感信息网站不希望被搜索引擎发现。网站内容的所有者是网站管理员，搜索引擎应该尊重所有者的意愿，为了满足以上等等，就需要提供一种网站和爬虫进行沟通的途径，给网站管理员表达自己意愿的机会。有需求就有供阅读全文

posted @ 2018-03-29 18:03 李小六儿阅读(1796) 评论(0) 推荐(0)

scrapy学习笔记一

摘要：scrapy学习笔记下面以爬取1919网站为例子，完成对一整个网站数据爬取的scrapy项目创建。创建一个scrapy文件在任意目录下输入命令将会得到如下目录的文件接着创建一个spider文件用来编写爬取规则此时在spiders文件夹下就会生成一个onenine.py文件，我们将在这个文阅读全文

posted @ 2018-03-27 17:58 李小六儿阅读(213) 评论(0) 推荐(0)

爬取大众点评地址数据

摘要：如下图是我们要爬取的数据因为要爬取所有的地址数据，所以我们要将更多点开。这就涉及js操作，需要使用selenium模块。找到每个更多，然后点开。当所有的更多都被点开后，光标已经挪动到了最底层的位置，这时需要我们将光标再返回到顶部。点击返回顶部的按钮。然后再开始一级一级的爬取数据。完整版阅读全文

posted @ 2017-08-09 13:43 李小六儿阅读(695) 评论(0) 推荐(0)

Talk is cheap

饮冰十年难凉热血

随笔分类 - 爬虫

公告

Talk is cheap

饮冰十年 难凉热血

随笔分类 - 爬虫

公告

饮冰十年难凉热血