随笔分类 -  scrapy

摘要:Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 Scrapy 使用了 Twisted异步网络框架来处理网络通讯,可以加快我们的下载速度, 阅读全文
posted @ 2018-11-17 21:37 寒菱 阅读(532) 评论(0) 推荐(0)
摘要:selenium 下载安装驱动 "https://selenium python.readthedocs.io/index.html" 安装位置: python环境变量位置( ) <! more 简单使用 声明浏览器对象 访问页面 元素查找 多个元素查找 元素交互 执行JavaScript 获取元素 阅读全文
posted @ 2018-11-05 11:38 寒菱 阅读(217) 评论(0) 推荐(0)
摘要:CrawlSpider继承Spider,提供了强大的爬取规则(Rule)供使用 <! more 填充 ,浏览器中的请求头 sql SET FOREIGN_KEY_CHECKS=0; Table structure for lagou_job DROP TABLE IF EXISTS ; CREATE 阅读全文
posted @ 2018-11-04 19:39 寒菱 阅读(306) 评论(0) 推荐(0)
摘要:首先搭建虚拟环境,创建工程 <! more 修改 获取网页信息 ArticleSpider/spiders/jobbole.py ArticleSpider/items.py ArticleSpider/pipelines.py ArticleSpider/settings.py 创建一个文件夹 , 阅读全文
posted @ 2018-11-04 19:37 寒菱 阅读(315) 评论(0) 推荐(0)
摘要:登陆 参考 "https://github.com/zkqiang/Zhihu Login" <! more 数据库设计 sql DROP TABLE IF EXISTS ; CREATE TABLE ( bigint(20) NOT NULL, varchar(255) DEFAULT NULL, 阅读全文
posted @ 2018-11-04 19:35 寒菱 阅读(635) 评论(0) 推荐(0)
摘要:随机切换UserAgent "https://github.com/hellysmile/fake useragent" scrapy 使用 fake useragent <! more 在全局配置文件中禁用掉默认的UA,将其设置为None即可 settings.py 在中间件中编写自己的middl 阅读全文
posted @ 2018-11-04 19:32 寒菱 阅读(224) 评论(0) 推荐(0)
摘要:参考 "https://github.com/zkqiang/Zhihu Login" 阅读全文
posted @ 2018-10-17 13:56 寒菱 阅读(195) 评论(0) 推荐(1)