2019 年 3月 28 日随笔档案 - bookwed

2019年3月28日

摘要：介绍：Scrapy是一个为了爬取网站数据、提取结构性数据而编写的应用框架，我们只需要实现少量的代码，就能够快速抓取。Scrapy使用了Twisted异步网络框架，可以加快我们的下载速度。 0、说明：保存数据的方法有4种(json、jsonl、csv、xml)，-o 输出指定格式的文件 scrapy 阅读全文

posted @ 2019-03-28 21:58 bookwed 阅读(416) 评论(0) 推荐(0) 编辑

scrapy爬虫系列之一--scrapy的基本用法

摘要：功能点：scrapy基本使用爬取网站：传智播客老师完整代码：https://files.cnblogs.com/files/bookwed/first.zip 主要代码： ff.py pipelines.py 阅读全文

posted @ 2019-03-28 21:54 bookwed 阅读(285) 评论(0) 推荐(0) 编辑

scrapy爬虫系列之二--翻页爬取及日志的基本用法

摘要：功能点：如何翻页爬取信息，如何发送请求，日志的简单实用爬取网站：腾讯社会招聘网完整代码：https://files.cnblogs.com/files/bookwed/tencent.zip 主要代码： job.py pipelines.py 阅读全文

posted @ 2019-03-28 21:48 bookwed 阅读(1825) 评论(0) 推荐(0) 编辑

scrapy爬虫系列之三--爬取图片保存到本地

摘要：功能点：如何爬取图片，并保存到本地爬取网站：斗鱼主播完整代码：https://files.cnblogs.com/files/bookwed/Douyu.zip 主要代码： douyu.py pipelines.py 阅读全文

posted @ 2019-03-28 21:33 bookwed 阅读(2674) 评论(0) 推荐(0) 编辑

scrapy爬虫系列之四--爬取列表和详情

摘要：功能点：如何爬取列表页，并根据列表页获取详情页信息？爬取网站：东莞阳光政务网完整代码：https://files.cnblogs.com/files/bookwed/yangguang.zip 主要代码： yg.py pipelines.py 阅读全文

posted @ 2019-03-28 21:23 bookwed 阅读(4938) 评论(0) 推荐(0) 编辑

bookwed

公告