摘要:scrapy框架 架构 爬虫文件夹:spider 管道文件: pipelines.py 中间件文件: middlewares.py item模块:items.py 设置文件 :settings.py 相关命令 创建scrapy项目:scrapy startproject 项目名 创建爬虫文件: cd
阅读全文
04 2020 档案
摘要:scrapy框架 架构 爬虫文件夹:spider 管道文件: pipelines.py 中间件文件: middlewares.py item模块:items.py 设置文件 :settings.py 相关命令 创建scrapy项目:scrapy startproject 项目名 创建爬虫文件: cd
阅读全文
摘要:爬取思路:- 1.分析网站是否ajax解析数据,清除页面刷新网站,看XHR有没有对应的网站,发现为空,表明数据不是由ajax数据解析来的,我们可以直接由网站url来抓取数据,即 url = "https://www.pearvideo.com/category_4" 顺便获取headers head
阅读全文
摘要:1.命名空间和作用域命名空间 有三种 内置命名空间 —— python解释器 就是python解释器一启动就可以使用的名字存储在内置命名空间中.内置的名字在启动解释器的时候被加载进内存里 全局命名空间 —— 我们写的代码但不是函数中的代码 是在程序从上到下被执行的过程中依次加载进内存的.放置了我们设
阅读全文
摘要:注意事项:- 1.模拟登陆的请求参数有些是动态的,需要从页面源码中动态解析获取- 2.下载图片最好是用requests来下载,而不是urllib,他是会带上ua信息- 3.使用Session去自动处理cookie请求 import requests from lxml import etree fr
阅读全文
摘要:以下将从处理cookie的两种方式来分析爬取雪球网的新闻数据, 一个是手动处理cookie,到源码去抓包,找到他的request header里面的cookie,复制出来封装到headers内; 另一个是自动处理cookie,引入模块requests的session,这个方法和requests一样可
阅读全文
|