随笔分类 - Python爬虫
摘要:Scrapy框架 settings.py 在settings.py文件中,可以设置关于scrapy爬虫,比如反爬措施、提高性能等 一、反爬: 1、USER-AGENT设置: 创建一个USER-AGENT池,随机从其中抽取一条作为request中的User-Agent; demo: 2、cookies
阅读全文
摘要:Scrapy爬虫数据持久化 一、本地文件持久化: 最简单的储存成json格式文件,在运行爬虫时,命令为:scrapy crawl name -o xxx.json jsonlines格式:命令为:scrapy crawl name -o xxx.jl 二、数据库持久化: 1、MySQL存储: (1)
阅读全文
摘要:Scrapy爬虫框架 一、创建爬虫:scrapy startproject SpiderName 建议创建完成后,将最外层的文件夹名称改名,否则后续操作导入settings或items文件时会出错 运行爬虫:scrapy crawl name 运行爬虫并保存为json文件:scrapy crawl
阅读全文
摘要:编辑器,IDE调试Scrapy方法 目前手里使用VSCode和PyCharm写程序 关于Scrapy调试,可以分别设置: 1、PyCharm: 在scrapy.cfg同级目录下,创建py文件,之后运行该文件即可,断点调试打在爬虫代码上 2、VSCode: 在爬虫代码文件中,添加代码,直接运行即可ht
阅读全文

浙公网安备 33010602011771号