Python爬虫 - 随笔分类 - 风缘

Scrapy爬虫框架（三）---- settings设置

摘要：Scrapy框架 settings.py 在settings.py文件中，可以设置关于scrapy爬虫，比如反爬措施、提高性能等一、反爬： 1、USER-AGENT设置：创建一个USER-AGENT池，随机从其中抽取一条作为request中的User-Agent； demo： 2、cookies 阅读全文

posted @ 2018-06-04 17:39 风缘阅读(1039) 评论(0) 推荐(0)

Scrapy爬虫框架（二）---- 数据持久化（暂）

摘要：Scrapy爬虫数据持久化一、本地文件持久化：最简单的储存成json格式文件，在运行爬虫时，命令为：scrapy crawl name -o xxx.json jsonlines格式：命令为：scrapy crawl name -o xxx.jl 二、数据库持久化： 1、MySQL存储： (1) 阅读全文

posted @ 2018-06-04 16:48 风缘阅读(475) 评论(0) 推荐(0)

Scrapy爬虫框架（一）

摘要：Scrapy爬虫框架一、创建爬虫：scrapy startproject SpiderName 建议创建完成后，将最外层的文件夹名称改名，否则后续操作导入settings或items文件时会出错运行爬虫：scrapy crawl name 运行爬虫并保存为json文件：scrapy crawl 阅读全文

posted @ 2018-06-03 15:16 风缘阅读(373) 评论(0) 推荐(0)

调试Scrapy方法

摘要：编辑器，IDE调试Scrapy方法目前手里使用VSCode和PyCharm写程序关于Scrapy调试，可以分别设置： 1、PyCharm：在scrapy.cfg同级目录下，创建py文件，之后运行该文件即可，断点调试打在爬虫代码上 2、VSCode：在爬虫代码文件中，添加代码，直接运行即可ht 阅读全文

posted @ 2018-05-18 13:37 风缘阅读(621) 评论(0) 推荐(0)

风缘

群星认为你们还有所欠缺！

随笔分类 - Python爬虫

公告