随笔分类 -  Python爬虫

摘要:Scrapy框架 settings.py 在settings.py文件中,可以设置关于scrapy爬虫,比如反爬措施、提高性能等 一、反爬: 1、USER-AGENT设置: 创建一个USER-AGENT池,随机从其中抽取一条作为request中的User-Agent; demo: 2、cookies 阅读全文
posted @ 2018-06-04 17:39 风缘 阅读(1039) 评论(0) 推荐(0)
摘要:Scrapy爬虫数据持久化 一、本地文件持久化: 最简单的储存成json格式文件,在运行爬虫时,命令为:scrapy crawl name -o xxx.json jsonlines格式:命令为:scrapy crawl name -o xxx.jl 二、数据库持久化: 1、MySQL存储: (1) 阅读全文
posted @ 2018-06-04 16:48 风缘 阅读(475) 评论(0) 推荐(0)
摘要:Scrapy爬虫框架 一、创建爬虫:scrapy startproject SpiderName 建议创建完成后,将最外层的文件夹名称改名,否则后续操作导入settings或items文件时会出错 运行爬虫:scrapy crawl name 运行爬虫并保存为json文件:scrapy crawl 阅读全文
posted @ 2018-06-03 15:16 风缘 阅读(373) 评论(0) 推荐(0)
摘要:编辑器,IDE调试Scrapy方法 目前手里使用VSCode和PyCharm写程序 关于Scrapy调试,可以分别设置: 1、PyCharm: 在scrapy.cfg同级目录下,创建py文件,之后运行该文件即可,断点调试打在爬虫代码上 2、VSCode: 在爬虫代码文件中,添加代码,直接运行即可ht 阅读全文
posted @ 2018-05-18 13:37 风缘 阅读(621) 评论(0) 推荐(0)