随笔分类 -  爬虫

摘要:这里介绍几种工作中遇到过的常见反爬虫机制及应对策略。 爬虫的君子协议 有些网站希望被搜索引擎抓住,有些敏感信息网站不希望被搜索引擎发现。 网站内容的所有者是网站管理员,搜索引擎应该尊重所有者的意愿,为了满足以上等等,就需要提供一种网站和爬虫进行沟通的途径,给网站管理员表达自己意愿的机会。有需求就有供 阅读全文
posted @ 2018-03-29 18:03 李小六儿 阅读(1796) 评论(0) 推荐(0)
摘要:scrapy学习笔记 下面以爬取1919网站为例子,完成对一整个网站数据爬取的scrapy项目创建。 创建一个scrapy文件 在任意目录下输入命令 将会得到如下目录的文件 接着创建一个spider文件用来编写爬取规则 此时在spiders文件夹下就会生成一个onenine.py文件,我们将在这个文 阅读全文
posted @ 2018-03-27 17:58 李小六儿 阅读(213) 评论(0) 推荐(0)
摘要:如下图是我们要爬取的数据 因为要爬取所有的地址数据,所以我们要将 更多 点开。这就涉及js操作,需要使用selenium模块。 找到每个更多,然后点开。 当所有的更多都被点开后,光标已经挪动到了最底层的位置,这时需要我们将光标再返回到顶部。点击返回顶部的按钮。 然后再开始一级一级的爬取数据。 完整版 阅读全文
posted @ 2017-08-09 13:43 李小六儿 阅读(695) 评论(0) 推荐(0)