上一页 1 2 3 4 5 6 7 8 ··· 15 下一页
摘要: # 1 下载中间件和爬虫中间件 -爬虫中间件 》控制输入输出 》一般不用# 2 下载中间件 -process_request:request对象,请求头,请求地址。。 -process_response:response# 3 修改请求头,加入cookie,加入referer,加入请求头,加代理:r 阅读全文
posted @ 2024-02-27 15:25 拆尼斯、帕丁顿 阅读(52) 评论(0) 推荐(0)
摘要: # 1 scrapy 框架 架构 -爬虫:我们写爬取起始地址,解析数据的位置 -引擎:控制数据流向 -调度器:控制爬取的先后 -下载器:负责下载,建立在twisted 之上 -pipline:持久化 # 2 目录结构 -创建爬虫命令:scrapy gensipder 名字 网址 -运行爬虫:scra 阅读全文
posted @ 2024-02-26 15:29 拆尼斯、帕丁顿 阅读(47) 评论(0) 推荐(0)
摘要: scrapy 架构介绍 # scrapy:爬虫框架 》使用scrapy创建爬虫项目# pip install scrapy# 创建scrapy项目 scrapy startproject 项目名 # 架构spiders:爬虫,主要是咱们写代码的地方 》设置起始爬取的地址--》解析数据engine:引 阅读全文
posted @ 2024-02-23 15:15 拆尼斯、帕丁顿 阅读(53) 评论(0) 推荐(0)
摘要: 自动登录cnblogs--获取cookie import time import json from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.chrom 阅读全文
posted @ 2024-02-22 15:17 拆尼斯、帕丁顿 阅读(23) 评论(0) 推荐(0)
摘要: selenium介绍 #1 由于requests不能 执行js 》逐个分析 ajax请求--》模拟发送获取数据 -使用requests爬取的数据 很大概率跟在浏览器中看到的不一样 -requests不能执行js#2 seleniumselenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解 阅读全文
posted @ 2024-02-21 15:56 拆尼斯、帕丁顿 阅读(53) 评论(0) 推荐(0)
摘要: 免费代理池搭建 # 代理有免费和收费代理# 代理有http代理和https代理# 匿名度 -高匿:隐藏访问者ip -透明:服务端能拿到访问者ip -作为后端,如何拿到使用代理人的ip -请求头中:x-forword-for -如果一个 HTTP 请求到达服务器之前,经过了三个代理 Proxy1、Pr 阅读全文
posted @ 2024-02-20 15:07 拆尼斯、帕丁顿 阅读(69) 评论(0) 推荐(0)
摘要: 爬虫介绍 爬虫是什么? -通过编程技术 》把互联网中的数据 》获取到 》数据清洗 》存到库中 python:request,selenium 》app,小程序,网站 》xpaht,lxml 》mysql,redis,文件,excel,mongodb -通过编程语言 》模拟发送http请求 》获取数据 阅读全文
posted @ 2024-02-19 15:23 拆尼斯、帕丁顿 阅读(74) 评论(0) 推荐(0)
摘要: 前倾回顾 1 搜索功能 -前端:搜索框,搜索结果页面 -后端:一种类型课程 -APIResponse(actual_course=res.data.get('results'),free_course=[],light_course=[]) -搜索,如果数据量很大,直接使用mysql,效率非常低-- 阅读全文
posted @ 2024-02-01 19:14 拆尼斯、帕丁顿 阅读(33) 评论(0) 推荐(0)
摘要: 前倾回顾 # 1 课程板块 》表分析 -多种类型课程 》设计成一个表还是多个表 -表: - 实战课表 - 课程分类表 - 老师表 - 章节表 - 课时表 # 2 录入数据 # 3 课程板块的接口分析 - 课程分类接口 》查询所有课程分析 - 查询所有课程接口 - 排序:内置排序 - 过滤:第三方 d 阅读全文
posted @ 2024-01-31 19:15 拆尼斯、帕丁顿 阅读(8) 评论(0) 推荐(0)
摘要: 前倾回顾: # 1 celery 分布式异步任务框架 -异步 -分布式 # 2 解决的问题 -异步 :发送短信,异步秒杀 -延迟任务:订单延迟取消 -定时任务:定时更新轮播图 # 3 补充:如果后续只需要定时任务 》可以使用别的模块 APSchudler:https://www.cnblogs.co 阅读全文
posted @ 2024-01-30 18:54 拆尼斯、帕丁顿 阅读(7) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 ··· 15 下一页