乐之之

知而行乐,乐而行之,天道酬勤,学无止境。

随笔分类 -  python爬虫

某数5代--算法版分析
摘要:提示:本文章仅供学习交流,严禁用于非法用途,如有不当可联系本人删除!文章于2024-4-24发布 网站:aHR0cDovL3d3dy5uaGMuZ292LmNuL3dqdy9nZnh3amovbGlzdC5zaHRtbA== r5方法与r4流程基本一致,区别在于两点:1、rs5没有假cookie。2 阅读全文

posted @ 2024-04-24 13:36 乐之之 阅读(103) 评论(0) 推荐(0)

某数4代——某房地产为例扣算法
摘要:提示:本文章仅供学习交流,严禁用于非法用途,如有不当可联系本人删除!文章于2024-3-13发布 网站:aHR0cDovL3d3dy5mYW5nZGkuY29tLmNuL25ld19ob3VzZS9uZXdfaG91c2UuaHRtbA== 过rs4的方法大致有两种,一种是补环境,另一种就是扣算法, 阅读全文

posted @ 2024-03-13 11:03 乐之之 阅读(121) 评论(0) 推荐(0)

CSS选择器
摘要:Beautiful Soup还提供了另外一种选择器——CSS选择器,所以CSS选择器是基于Beautiful Soup的库来实现的。使用CSS选择器只需要调用select方法,传入相应的CSS选择器即可。下面我们通过一个实例来看一下CSS选择有哪些具体用法。 代码案例如下: html='<div c 阅读全文

posted @ 2023-05-07 20:24 乐之之 阅读(69) 评论(0) 推荐(0)

常见的js加密方式
摘要:RSA、16进制、Base64 都属于可逆加密方式,可以通过相应的解密方法将密文还原为明文。 而哈希算法是不可逆加密方式,只能将明文进行哈希后得到一段固定长度的密文,但无法通过密文还原出明文。其中,SHA 算法、MD5 算法都是常用的哈希算法。 一、16进制加密 加密和解密示例: def hex_e 阅读全文

posted @ 2023-05-06 15:03 乐之之 阅读(903) 评论(0) 推荐(0)

解决Python中报错RequestsDependencyWarning: urllib3 (1.26.9) or chardet (5.1.0)/charset_normalizer (2.0.12) doesn't match a supported version!
摘要:在运行requests包时,出现了以下报错信息: RequestsDependencyWarning: urllib3 (1.26.9) or chardet (5.1.0)/charset_normalizer (2.0.12) doesn't match a supported version! 阅读全文

posted @ 2023-04-26 12:15 乐之之 阅读(5546) 评论(0) 推荐(1)

pycharm中运行js文件出现UnicodeDecodeError: 'gbk' codec can't decode byte 0xaf in position 205: illegal multibyte sequence报错?
摘要:在做有道翻译时发现python文件中调用js文件并读取,出现了UnicodeDecodeError: 'gbk' codec can't decode byte 0xaf in position 205: illegal multibyte sequence报错。其实修改很简单,我们只需要将subp 阅读全文

posted @ 2023-04-19 12:09 乐之之 阅读(761) 评论(0) 推荐(0)

python中如何对程序运行时长进行计时?
摘要:在python中对程序运行的是时长进行计时这里主要介绍两种方式:自定义和TimePinner。 1、自定义计时 自定义计时,我们这里只需要简单记录开始时间和结束时间,计算出时差进行打印。 首先导入datetime库 import datetime 记录开始时间和结束时间 # 开始时间 start_t 阅读全文

posted @ 2023-04-16 19:16 乐之之 阅读(1048) 评论(0) 推荐(0)

python程序中如何结束程序的运行?
摘要:结束程序运行主要的方式有四种: sys.exit() threading.Thread._stop() os._exit() os.kill(os.getpid(), signal.SIGTERM) 1、单线程或单进程结束程序。 (1)sys.exit() sys.exit()指令可以直接结束整个P 阅读全文

posted @ 2023-04-16 18:47 乐之之 阅读(1732) 评论(0) 推荐(0)

新的vps云服务器如何快速配置成为代理服务器?
摘要:快速配置云服务器为代理服务器主要有10个点,具体配置详情如下。 1、连接vps云主机 拿到新的vps云主机时,首先我们需要安装CentOS系统,安装成功后开启,然后通过Xshell工具进行连接。通过Xshell工具连接云主机时需要注意用户名尽量填为root。 2、测试网络 首先我们需要ping一下是 阅读全文

posted @ 2023-04-16 18:38 乐之之 阅读(2) 评论(0) 推荐(0)

更新yum时发现总是重试或失败如何解决?
摘要:更新yum时发现总是重试且失败,可以ping通网络,但就是更新和下载其他库和包时不行, 可能出现的问题: 网络连接问题:请确保网络连接正常,并且可以访问yum存储库。 仓库配置问题:请检查仓库配置是否正确,并且yum源是否可用。 其他软件包正在使用yum:请检查是否有其他软件包正在使用yum,如果是 阅读全文

posted @ 2023-04-16 18:37 乐之之 阅读(823) 评论(0) 推荐(0)

储存数据至mysql数据库时出现sql语法报错该怎么解决?
摘要:在msyql数据库中存储数据时,程序出现了如下报错: 打印存储的数据类型发现数据类型有错误,将数据转为str类型就可以了。。。 解决思路: 在初入数据库学习时,出现这个报错还是有些懵的,于是改了捕获异常,发现存储数据函数有问题。从报错中可以看出是有跟'自营店'类似的数据有关系的,于是,查看了自己的数 阅读全文

posted @ 2023-04-16 14:37 乐之之 阅读(213) 评论(0) 推荐(0)

scrapy爬虫框架(七)Extension的使用
摘要:一、简介 Scrapy提供了一个Extension机制,可以让我们添加和扩展一些自定义的功能。利用Extension我们可以注册一些处理方法并监听Scrapy运行过程中的各个信号,做到发生某个事件时执行我们自定义的方法。 Scrapy已经内置了一些Extension,如LogStats这个Exten 阅读全文

posted @ 2023-04-08 22:40 乐之之 阅读(312) 评论(0) 推荐(0)

如何使用adsl自动拨号实现换代理?(保姆级教程)
摘要:由于之前曾受ip代理的成本之苦,那么今天给大家带来adsl自动拨号换代理的保姆级教程。观前须知:此方法的局限性是需要等待拨号后生效的时间(5~10s),首先我们需要了解配置的大概流程: 需要一台vps云服务器 一个Xshell工具 python脚本 我们需要的Xshell工具是用来登录远程服务器的c 阅读全文

posted @ 2023-04-07 23:02 乐之之 阅读(850) 评论(0) 推荐(0)

scrapy爬虫框架(六)Item Pipeline的使用
摘要:Item Pipeline即项目管道,它的调用发生在Spider产生Item之后。当Spider解析完Response,Item就会被Engine传递到Item Pipeline,被定义的Item Pipeline组件会顺次被调用,完成一连串的处理过程,比如数据清洗、存储等。 Item Pipeli 阅读全文

posted @ 2023-04-07 14:19 乐之之 阅读(1282) 评论(0) 推荐(0)

pycharm中配置MongoDB数据库出现未找到驱动程序类 'com.dbschema.MongoJdbcDriver' (view)?
摘要:之前重新装了一下pycharm,发现MongoDB数据库连接时发生了错误。具体错误:未找到驱动程序类 'com.dbschema.MongoJdbcDriver' (view)。这怎么解决呢?其实很简单,在驱动程序中选一个版本进行下载就好了。 步骤如下: 1、找到驱动程序,点击MongoDB,再点击 阅读全文

posted @ 2023-04-06 21:49 乐之之 阅读(1078) 评论(0) 推荐(0)

scrapy爬虫框架(五)Spider Middleware
摘要:Spider Middleware,中文可以翻译为爬虫中间件,但我个人认为英文的叫法更为合适。它是处于Spider 和 Engine 之间的处理模块。当 Downloader 生成 Response 之后,Response 会被发送给 Spider,在发送给 Spider 之前,Response 会 阅读全文

posted @ 2023-04-05 00:18 乐之之 阅读(354) 评论(0) 推荐(0)

scrapy爬虫框架(四)Downloader Middleware的使用
摘要:Downloader Middleware是处于Engine和Downloader之间的模块,其重要作用就是处理schduler调度器发送到Engine的Request和经过Downloader响应后的response返回至Engine过程中的处理。如图所示: 也就是说,Downloader Mid 阅读全文

posted @ 2023-04-03 15:23 乐之之 阅读(384) 评论(0) 推荐(0)

scrapy爬虫框架(三)Spider的使用
摘要:在前面已经简单介绍了spider的基础用法,那么今天我们来详细了解一下Spider的具体用法。 一、Spider的运行流程 spider是scrapy框架中最核心的组件,其定义了爬取网站的逻辑和解析方式,而spider主要做两件事情: 定义爬取网站的动作。 分析爬取下来的网页。 那么他的运行流程主要 阅读全文

posted @ 2023-03-31 19:59 乐之之 阅读(1054) 评论(0) 推荐(1)

scrapy爬虫框架(二)scrapy中Selector的使用
摘要:在scrapy框架前,相信大家或多或少的已经了解了一些网页数据解析方法,如:xpath、bs4、正则表达式等,但是在scrapy框架中也有一个内置的数据提取方法--Selector。在这里我们就先简单介绍一下Selector在scrapy中的运用及常用方法。 为了方便示例,我们以官方文档中的示例页面 阅读全文

posted @ 2023-03-31 10:48 乐之之 阅读(445) 评论(0) 推荐(0)

scrapy爬虫框架(一)入门介绍
摘要:在爬虫过程中,每次写一个爬虫程序时,都会从研究网页信息基本情况,所用到的库和方法。每次写基础代码时,都会略显繁琐。之前我也曾想过自己写一个基础的框架,从请求到响应再到解析和数据的保存。实现代码复用率,但发现其实并不用自己再造一遍轮子,因为市面上已经有了强大的异步框架--scrapy。我们只需要在此框 阅读全文

posted @ 2023-03-29 18:11 乐之之 阅读(219) 评论(0) 推荐(0)