随笔分类 -  python

记录一些python学习路上遇到的坑,以及解决办法和参考文章
摘要:在nodejs的语法中运行python的脚本 阅读全文
posted @ 2021-11-30 16:03 墨染清浅 阅读(2277) 评论(0) 推荐(0)
摘要:增量式爬虫 - 概念:监测网站数据更新的情况,只会爬取网站最新更新出来的数据。 - 分析: - 指定一个起始url - 基于CrawlSpider获取其他页码链接 - 基于Rule将其他页码链接进行请求 - 从每一个页码对应的页面源码中解析出每一个电影详情页的URL - 核心:检测电影详情页的url 阅读全文
posted @ 2021-11-23 16:13 墨染清浅 阅读(48) 评论(0) 推荐(0)
摘要:- 分布式爬虫 - 概念:我们需要搭建一个分布式的机群,让其对一组资源进行分布联合爬取。 - 作用:提升爬取数据的效率 - 如何实现分布式? - 安装一个scrapy-redis的组件 - 原生的scarapy是不可以实现分布式爬虫,必须要让scrapy结合着scrapy-redis组件一起实现分布 阅读全文
posted @ 2021-11-23 16:06 墨染清浅 阅读(135) 评论(0) 推荐(0)
摘要:- CrawlSpider:类,Spider的一个子类 - 全站数据爬取的方式 - 基于Spider:手动请求 - 基于CrawlSpider - CrawlSpider的使用: - 创建一个工程 - cd XXX - 创建爬虫文件(CrawlSpider): - scrapy genspider 阅读全文
posted @ 2021-11-23 16:05 墨染清浅 阅读(60) 评论(0) 推荐(0)
摘要:聚焦爬虫:爬取页面中指定的页面内容。 - 编码流程: - 指定url - 发起请求 - 获取响应数据 - 数据解析 - 持久化存储 数据解析分类: - 正则 - bs4 - xpath(***) 数据解析原理概述: - 解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储 - 1.进行指定 阅读全文
posted @ 2021-11-11 09:18 墨染清浅 阅读(57) 评论(0) 推荐(0)
摘要:import asyncio import time async def request(url): print('正在下载',url) #在异步协程中如果出现了同步模块相关的代码,那么就无法实现异步。 # time.sleep(2) #当在asyncio中遇到阻塞操作必须进行手动挂起 await 阅读全文
posted @ 2021-11-10 17:23 墨染清浅 阅读(30) 评论(0) 推荐(0)
摘要:目的:在爬虫中使用异步实现高性能的数据爬取操作。 异步爬虫的方式: - 多线程: 多进程(不建议): 好处:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作就可以异步执行; 弊端:无法无限制的开启多线程或者多进程; - 线程池、进程池(适当的使用): 好处:可以降低系统对进程或者线程创建和销毁的一 阅读全文
posted @ 2021-11-10 17:22 墨染清浅 阅读(31) 评论(0) 推荐(0)
摘要:from selenium import webdriver from time import sleep #导入动作链对应的类 from selenium.webdriver import ActionChains bro = webdriver.Chrome(executable_path='. 阅读全文
posted @ 2021-11-10 16:51 墨染清浅 阅读(94) 评论(0) 推荐(0)
摘要:from lxml import etree import sys from PIL import Image sys.path.append("public") from chaojiying import codeResult # selenium主要是为了解决requests无法执行JavaS 阅读全文
posted @ 2021-11-10 16:26 墨染清浅 阅读(104) 评论(0) 推荐(0)
摘要:python中selenium的基本使用 阅读全文
posted @ 2021-11-10 16:13 墨染清浅 阅读(145) 评论(0) 推荐(0)
摘要:谷歌驱动、MongoDB下载、python三方库 阅读全文
posted @ 2021-11-04 14:04 墨染清浅 阅读(52) 评论(0) 推荐(0)
摘要:实例化session 先使用session发送请求,登录对网站,把cookie保存在session中 再使用session请求登录后才能访问的网站,session能够自动的携带登录成功时保存在其中的cookie,进行请求 不发送post请求,使用cookie获取登录后的页面: cookie过期时间很 阅读全文
posted @ 2020-04-04 23:52 墨染清浅 阅读(200) 评论(0) 推荐(0)
摘要:准备一堆的ip地址,组成IP池,随机选择一个ip来使用; 如何随机选择代理IP,让使用次数少的IP地址有更大可能性被用到; { ‘ip':'ip','times':0} [{},{},{},{}]对这个ip的列表进行排序,按照使用次数进行排序 选择使用次数最少的10个IP,从中随机选择一个 检查IP 阅读全文
posted @ 2020-04-04 23:07 墨染清浅 阅读(81) 评论(0) 推荐(0)
摘要:get请求的格式 import requests url = "https://tieba.baidu.com/f" keyStr = "kw={}&ie=utf-8&pn={}".format("古风", 0) headers = { 'user-agent': "Mozilla/5.0 (Win 阅读全文
posted @ 2020-04-04 22:59 墨染清浅 阅读(4500) 评论(0) 推荐(0)