公告

04 2020 档案

摘要：scrapy框架架构爬虫文件夹:spider 管道文件: pipelines.py 中间件文件: middlewares.py item模块:items.py 设置文件 :settings.py 相关命令创建scrapy项目:scrapy startproject 项目名创建爬虫文件: cd 阅读全文

posted @ 2020-04-22 21:42 GroundControl_852 阅读(247) 评论(0) 推荐(0)

基于multiprocessing.dummy线程池爬取梨视频的视频信息

摘要：爬取思路:- 1.分析网站是否ajax解析数据,清除页面刷新网站,看XHR有没有对应的网站,发现为空,表明数据不是由ajax数据解析来的,我们可以直接由网站url来抓取数据,即 url = "https://www.pearvideo.com/category_4" 顺便获取headers head 阅读全文

posted @ 2020-04-11 10:46 GroundControl_852 阅读(183) 评论(0) 推荐(0)

python_函数进阶

摘要：1.命名空间和作用域命名空间有三种内置命名空间 —— python解释器就是python解释器一启动就可以使用的名字存储在内置命名空间中.内置的名字在启动解释器的时候被加载进内存里全局命名空间 —— 我们写的代码但不是函数中的代码是在程序从上到下被执行的过程中依次加载进内存的.放置了我们设阅读全文

posted @ 2020-04-11 10:34 GroundControl_852 阅读(140) 评论(0) 推荐(0)

模拟登陆古诗文网

摘要：注意事项:- 1.模拟登陆的请求参数有些是动态的,需要从页面源码中动态解析获取- 2.下载图片最好是用requests来下载,而不是urllib,他是会带上ua信息- 3.使用Session去自动处理cookie请求 import requests from lxml import etree fr 阅读全文

posted @ 2020-04-02 21:00 GroundControl_852 阅读(425) 评论(0) 推荐(0)

爬取雪球网的新闻数据

摘要：以下将从处理cookie的两种方式来分析爬取雪球网的新闻数据, 一个是手动处理cookie,到源码去抓包,找到他的request header里面的cookie,复制出来封装到headers内; 另一个是自动处理cookie,引入模块requests的session,这个方法和requests一样可阅读全文

posted @ 2020-04-01 20:56 GroundControl_852 阅读(1555) 评论(0) 推荐(1)