随笔分类 - scrapy
摘要:Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 Scrapy 使用了 Twisted异步网络框架来处理网络通讯,可以加快我们的下载速度,
阅读全文
摘要:selenium 下载安装驱动 "https://selenium python.readthedocs.io/index.html" 安装位置: python环境变量位置( ) <! more 简单使用 声明浏览器对象 访问页面 元素查找 多个元素查找 元素交互 执行JavaScript 获取元素
阅读全文
摘要:CrawlSpider继承Spider,提供了强大的爬取规则(Rule)供使用 <! more 填充 ,浏览器中的请求头 sql SET FOREIGN_KEY_CHECKS=0; Table structure for lagou_job DROP TABLE IF EXISTS ; CREATE
阅读全文
摘要:首先搭建虚拟环境,创建工程 <! more 修改 获取网页信息 ArticleSpider/spiders/jobbole.py ArticleSpider/items.py ArticleSpider/pipelines.py ArticleSpider/settings.py 创建一个文件夹 ,
阅读全文
摘要:登陆 参考 "https://github.com/zkqiang/Zhihu Login" <! more 数据库设计 sql DROP TABLE IF EXISTS ; CREATE TABLE ( bigint(20) NOT NULL, varchar(255) DEFAULT NULL,
阅读全文
摘要:随机切换UserAgent "https://github.com/hellysmile/fake useragent" scrapy 使用 fake useragent <! more 在全局配置文件中禁用掉默认的UA,将其设置为None即可 settings.py 在中间件中编写自己的middl
阅读全文
摘要:参考 "https://github.com/zkqiang/Zhihu Login"
阅读全文