python爬虫 - 随笔分类 - 乐之之

某数5代--算法版分析

摘要：提示：本文章仅供学习交流，严禁用于非法用途，如有不当可联系本人删除！文章于2024-4-24发布网站：aHR0cDovL3d3dy5uaGMuZ292LmNuL3dqdy9nZnh3amovbGlzdC5zaHRtbA== r5方法与r4流程基本一致，区别在于两点：1、rs5没有假cookie。2 阅读全文

posted @ 2024-04-24 13:36 乐之之阅读(103) 评论(0) 推荐(0)

某数4代——某房地产为例扣算法

摘要：提示：本文章仅供学习交流，严禁用于非法用途，如有不当可联系本人删除！文章于2024-3-13发布网站：aHR0cDovL3d3dy5mYW5nZGkuY29tLmNuL25ld19ob3VzZS9uZXdfaG91c2UuaHRtbA== 过rs4的方法大致有两种，一种是补环境，另一种就是扣算法，阅读全文

posted @ 2024-03-13 11:03 乐之之阅读(121) 评论(0) 推荐(0)

CSS选择器

摘要：Beautiful Soup还提供了另外一种选择器——CSS选择器，所以CSS选择器是基于Beautiful Soup的库来实现的。使用CSS选择器只需要调用select方法，传入相应的CSS选择器即可。下面我们通过一个实例来看一下CSS选择有哪些具体用法。代码案例如下： html='<div c 阅读全文

posted @ 2023-05-07 20:24 乐之之阅读(69) 评论(0) 推荐(0)

常见的js加密方式

摘要：RSA、16进制、Base64 都属于可逆加密方式，可以通过相应的解密方法将密文还原为明文。而哈希算法是不可逆加密方式，只能将明文进行哈希后得到一段固定长度的密文，但无法通过密文还原出明文。其中，SHA 算法、MD5 算法都是常用的哈希算法。一、16进制加密加密和解密示例： def hex_e 阅读全文

posted @ 2023-05-06 15:03 乐之之阅读(903) 评论(0) 推荐(0)

解决Python中报错RequestsDependencyWarning: urllib3 (1.26.9) or chardet (5.1.0)/charset_normalizer (2.0.12) doesn't match a supported version!

摘要：在运行requests包时，出现了以下报错信息： RequestsDependencyWarning: urllib3 (1.26.9) or chardet (5.1.0)/charset_normalizer (2.0.12) doesn't match a supported version! 阅读全文

posted @ 2023-04-26 12:15 乐之之阅读(5546) 评论(0) 推荐(1)

pycharm中运行js文件出现UnicodeDecodeError: 'gbk' codec can't decode byte 0xaf in position 205: illegal multibyte sequence报错？

摘要：在做有道翻译时发现python文件中调用js文件并读取，出现了UnicodeDecodeError: 'gbk' codec can't decode byte 0xaf in position 205: illegal multibyte sequence报错。其实修改很简单，我们只需要将subp 阅读全文

posted @ 2023-04-19 12:09 乐之之阅读(761) 评论(0) 推荐(0)

python中如何对程序运行时长进行计时？

摘要：在python中对程序运行的是时长进行计时这里主要介绍两种方式：自定义和TimePinner。 1、自定义计时自定义计时，我们这里只需要简单记录开始时间和结束时间，计算出时差进行打印。首先导入datetime库 import datetime 记录开始时间和结束时间 # 开始时间 start_t 阅读全文

posted @ 2023-04-16 19:16 乐之之阅读(1048) 评论(0) 推荐(0)

python程序中如何结束程序的运行？

摘要：结束程序运行主要的方式有四种： sys.exit() threading.Thread._stop() os._exit() os.kill(os.getpid(), signal.SIGTERM) 1、单线程或单进程结束程序。（1）sys.exit() sys.exit()指令可以直接结束整个P 阅读全文

posted @ 2023-04-16 18:47 乐之之阅读(1732) 评论(0) 推荐(0)

新的vps云服务器如何快速配置成为代理服务器？

摘要：快速配置云服务器为代理服务器主要有10个点，具体配置详情如下。 1、连接vps云主机拿到新的vps云主机时，首先我们需要安装CentOS系统，安装成功后开启，然后通过Xshell工具进行连接。通过Xshell工具连接云主机时需要注意用户名尽量填为root。 2、测试网络首先我们需要ping一下是阅读全文

posted @ 2023-04-16 18:38 乐之之阅读(2) 评论(0) 推荐(0)

更新yum时发现总是重试或失败如何解决？

摘要：更新yum时发现总是重试且失败，可以ping通网络，但就是更新和下载其他库和包时不行，可能出现的问题：网络连接问题：请确保网络连接正常，并且可以访问yum存储库。仓库配置问题：请检查仓库配置是否正确，并且yum源是否可用。其他软件包正在使用yum：请检查是否有其他软件包正在使用yum，如果是阅读全文

posted @ 2023-04-16 18:37 乐之之阅读(823) 评论(0) 推荐(0)

储存数据至mysql数据库时出现sql语法报错该怎么解决？

摘要：在msyql数据库中存储数据时，程序出现了如下报错：打印存储的数据类型发现数据类型有错误，将数据转为str类型就可以了。。。解决思路：在初入数据库学习时，出现这个报错还是有些懵的，于是改了捕获异常，发现存储数据函数有问题。从报错中可以看出是有跟'自营店'类似的数据有关系的，于是，查看了自己的数阅读全文

posted @ 2023-04-16 14:37 乐之之阅读(213) 评论(0) 推荐(0)

scrapy爬虫框架（七）Extension的使用

摘要：一、简介 Scrapy提供了一个Extension机制，可以让我们添加和扩展一些自定义的功能。利用Extension我们可以注册一些处理方法并监听Scrapy运行过程中的各个信号，做到发生某个事件时执行我们自定义的方法。 Scrapy已经内置了一些Extension，如LogStats这个Exten 阅读全文

posted @ 2023-04-08 22:40 乐之之阅读(312) 评论(0) 推荐(0)

如何使用adsl自动拨号实现换代理？（保姆级教程）

摘要：由于之前曾受ip代理的成本之苦，那么今天给大家带来adsl自动拨号换代理的保姆级教程。观前须知：此方法的局限性是需要等待拨号后生效的时间（5~10s），首先我们需要了解配置的大概流程：需要一台vps云服务器一个Xshell工具 python脚本我们需要的Xshell工具是用来登录远程服务器的c 阅读全文

posted @ 2023-04-07 23:02 乐之之阅读(850) 评论(0) 推荐(0)

scrapy爬虫框架（六）Item Pipeline的使用

摘要：Item Pipeline即项目管道，它的调用发生在Spider产生Item之后。当Spider解析完Response，Item就会被Engine传递到Item Pipeline，被定义的Item Pipeline组件会顺次被调用，完成一连串的处理过程，比如数据清洗、存储等。 Item Pipeli 阅读全文

posted @ 2023-04-07 14:19 乐之之阅读(1282) 评论(0) 推荐(0)

pycharm中配置MongoDB数据库出现未找到驱动程序类 'com.dbschema.MongoJdbcDriver' (view)？

摘要：之前重新装了一下pycharm，发现MongoDB数据库连接时发生了错误。具体错误：未找到驱动程序类 'com.dbschema.MongoJdbcDriver' (view)。这怎么解决呢？其实很简单，在驱动程序中选一个版本进行下载就好了。步骤如下： 1、找到驱动程序，点击MongoDB，再点击阅读全文

posted @ 2023-04-06 21:49 乐之之阅读(1078) 评论(0) 推荐(0)

scrapy爬虫框架（五）Spider Middleware

摘要：Spider Middleware，中文可以翻译为爬虫中间件，但我个人认为英文的叫法更为合适。它是处于Spider 和 Engine 之间的处理模块。当 Downloader 生成 Response 之后，Response 会被发送给 Spider,在发送给 Spider 之前，Response 会阅读全文

posted @ 2023-04-05 00:18 乐之之阅读(354) 评论(0) 推荐(0)

scrapy爬虫框架（四）Downloader Middleware的使用

摘要：Downloader Middleware是处于Engine和Downloader之间的模块，其重要作用就是处理schduler调度器发送到Engine的Request和经过Downloader响应后的response返回至Engine过程中的处理。如图所示：也就是说，Downloader Mid 阅读全文

posted @ 2023-04-03 15:23 乐之之阅读(384) 评论(0) 推荐(0)

scrapy爬虫框架（三）Spider的使用

摘要：在前面已经简单介绍了spider的基础用法，那么今天我们来详细了解一下Spider的具体用法。一、Spider的运行流程 spider是scrapy框架中最核心的组件，其定义了爬取网站的逻辑和解析方式，而spider主要做两件事情：定义爬取网站的动作。分析爬取下来的网页。那么他的运行流程主要阅读全文

posted @ 2023-03-31 19:59 乐之之阅读(1054) 评论(0) 推荐(1)

scrapy爬虫框架（二）scrapy中Selector的使用

摘要：在scrapy框架前，相信大家或多或少的已经了解了一些网页数据解析方法，如：xpath、bs4、正则表达式等，但是在scrapy框架中也有一个内置的数据提取方法--Selector。在这里我们就先简单介绍一下Selector在scrapy中的运用及常用方法。为了方便示例，我们以官方文档中的示例页面阅读全文

posted @ 2023-03-31 10:48 乐之之阅读(445) 评论(0) 推荐(0)

scrapy爬虫框架（一）入门介绍

摘要：在爬虫过程中，每次写一个爬虫程序时，都会从研究网页信息基本情况，所用到的库和方法。每次写基础代码时，都会略显繁琐。之前我也曾想过自己写一个基础的框架，从请求到响应再到解析和数据的保存。实现代码复用率，但发现其实并不用自己再造一遍轮子，因为市面上已经有了强大的异步框架--scrapy。我们只需要在此框阅读全文

posted @ 2023-03-29 18:11 乐之之阅读(219) 评论(0) 推荐(0)

乐之之

公告

随笔分类 - python爬虫