python - 随笔分类 - 墨染清浅

摘要：在nodejs的语法中运行python的脚本阅读全文

posted @ 2021-11-30 16:03 墨染清浅阅读(2293) 评论(0) 推荐(0)

摘要：增量式爬虫 - 概念：监测网站数据更新的情况，只会爬取网站最新更新出来的数据。 - 分析： - 指定一个起始url - 基于CrawlSpider获取其他页码链接 - 基于Rule将其他页码链接进行请求 - 从每一个页码对应的页面源码中解析出每一个电影详情页的URL - 核心：检测电影详情页的url 阅读全文

posted @ 2021-11-23 16:13 墨染清浅阅读(49) 评论(0) 推荐(0)

分布式爬虫

摘要：- 分布式爬虫 - 概念：我们需要搭建一个分布式的机群，让其对一组资源进行分布联合爬取。 - 作用：提升爬取数据的效率 - 如何实现分布式？ - 安装一个scrapy-redis的组件 - 原生的scarapy是不可以实现分布式爬虫，必须要让scrapy结合着scrapy-redis组件一起实现分布阅读全文

posted @ 2021-11-23 16:06 墨染清浅阅读(137) 评论(0) 推荐(0)

CrawlSpider全站式爬虫

摘要：- CrawlSpider:类，Spider的一个子类 - 全站数据爬取的方式 - 基于Spider：手动请求 - 基于CrawlSpider - CrawlSpider的使用： - 创建一个工程 - cd XXX - 创建爬虫文件（CrawlSpider）： - scrapy genspider 阅读全文

posted @ 2021-11-23 16:05 墨染清浅阅读(69) 评论(0) 推荐(0)

数据解析（爬虫）

摘要：聚焦爬虫:爬取页面中指定的页面内容。 - 编码流程： - 指定url - 发起请求 - 获取响应数据 - 数据解析 - 持久化存储数据解析分类： - 正则 - bs4 - xpath（***）数据解析原理概述： - 解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储 - 1.进行指定阅读全文

posted @ 2021-11-11 09:18 墨染清浅阅读(58) 评论(0) 推荐(0)

多任务协程

摘要：import asyncio import time async def request(url): print('正在下载',url) #在异步协程中如果出现了同步模块相关的代码，那么就无法实现异步。 # time.sleep(2) #当在asyncio中遇到阻塞操作必须进行手动挂起 await 阅读全文

posted @ 2021-11-10 17:23 墨染清浅阅读(34) 评论(0) 推荐(0)

高性能异步爬虫

摘要：目的：在爬虫中使用异步实现高性能的数据爬取操作。异步爬虫的方式： - 多线程：多进程（不建议）：好处：可以为相关阻塞的操作单独开启线程或者进程，阻塞操作就可以异步执行；弊端：无法无限制的开启多线程或者多进程； - 线程池、进程池（适当的使用）：好处：可以降低系统对进程或者线程创建和销毁的一阅读全文

posted @ 2021-11-10 17:22 墨染清浅阅读(38) 评论(0) 推荐(0)

selenium针对iframe网站的操作

摘要：from selenium import webdriver from time import sleep #导入动作链对应的类 from selenium.webdriver import ActionChains bro = webdriver.Chrome(executable_path='. 阅读全文

posted @ 2021-11-10 16:51 墨染清浅阅读(99) 评论(0) 推荐(0)

selenium登录古诗文网

摘要：from lxml import etree import sys from PIL import Image sys.path.append("public") from chaojiying import codeResult # selenium主要是为了解决requests无法执行JavaS 阅读全文

posted @ 2021-11-10 16:26 墨染清浅阅读(112) 评论(0) 推荐(0)

selenium的基本使用

摘要：python中selenium的基本使用阅读全文

posted @ 2021-11-10 16:13 墨染清浅阅读(151) 评论(0) 推荐(0)

常用链接

摘要：谷歌驱动、MongoDB下载、python三方库阅读全文

posted @ 2021-11-04 14:04 墨染清浅阅读(68) 评论(0) 推荐(0)

请求登录之后的网站的思路

摘要：实例化session 先使用session发送请求,登录对网站,把cookie保存在session中再使用session请求登录后才能访问的网站，session能够自动的携带登录成功时保存在其中的cookie，进行请求不发送post请求，使用cookie获取登录后的页面： cookie过期时间很阅读全文

posted @ 2020-04-04 23:52 墨染清浅阅读(202) 评论(0) 推荐(0)

使用代理的思路

摘要：准备一堆的ip地址，组成IP池，随机选择一个ip来使用；如何随机选择代理IP，让使用次数少的IP地址有更大可能性被用到； { ‘ip':'ip','times':0} [{},{},{},{}]对这个ip的列表进行排序，按照使用次数进行排序选择使用次数最少的10个IP，从中随机选择一个检查IP 阅读全文

posted @ 2020-04-04 23:07 墨染清浅阅读(81) 评论(0) 推荐(0)

requests的get方法和参数格式

摘要：get请求的格式 import requests url = "https://tieba.baidu.com/f" keyStr = "kw={}&ie=utf-8&pn={}".format("古风", 0) headers = { 'user-agent': "Mozilla/5.0 (Win 阅读全文

posted @ 2020-04-04 22:59 墨染清浅阅读(4500) 评论(0) 推荐(0)

清浅

疏影横斜水清浅，暗香浮动月黄昏~

随笔分类 - python

公告