摘要: 一、准备阶段 二、制作阶段 三、使用阶段 阅读全文
posted @ 2025-03-26 16:55 JJJhr 阅读(16) 评论(0) 推荐(0)
摘要: # Pandas中的两个数据结构:Series和DataFrame # Series:一维数组,可以包含任何数据类型,可以包含重复的标签,有以下两个部分组成: # 1.values:一维数据ndarray类型,可以包含重复的标签 # 2.index:相关数据的索引标签 from pandas imp 阅读全文
posted @ 2025-03-08 17:31 JJJhr 阅读(8) 评论(0) 推荐(0)
摘要: numpy数组的索引和切片 arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]) 阅读全文
posted @ 2025-03-08 16:44 JJJhr 阅读(7) 评论(0) 推荐(0)
摘要: Jupyter note book工具 1.打开命令C:\Users\用户名>jupyter.exe notebook 2.配置文件 C:\Users\用户名\jupyter_notebook_config.py 设置默认打开路径 ## The directory to use for notebo 阅读全文
posted @ 2025-01-02 14:40 JJJhr 阅读(35) 评论(0) 推荐(0)
摘要: 简介 多线程:threading,利用 cpu 和 io可以同时执行的原理,让 CPU 不会等待 IO 完成 多进程:multiprocess,利用多核 CPU 的能力,真正的并行执行任务 异步IO:asynio,在单线程利用 CPU 和 IO 同时执行的原理,实现函数异步执行 使用 Lock 对共 阅读全文
posted @ 2024-08-07 18:10 JJJhr 阅读(24) 评论(0) 推荐(0)
摘要: Scrapy 是一个基于 Twisted 的异步处理框架,是纯 Python 实现的爬虫框架,其架构清晰,模块之间的耦合程度低,可扩展性极强,可以灵活完成各种需求。我们只需要定制开发几个模块就可以轻松实现一个爬虫。 架构介绍 Scrapy 框架的架构,可以分为如下的几个部分。 Engine,引擎,用 阅读全文
posted @ 2024-08-01 16:26 JJJhr 阅读(132) 评论(0) 推荐(0)
摘要: http://www.kxdaili.com/dailiip.htmlhttps://www.zdaye.com/Free/http://www.xsdaili.cn/dltq.htmlhttp://http.taiyangruanjian.com/free/https://ip.ihuan.me/ 阅读全文
posted @ 2024-07-23 09:22 JJJhr 阅读(57) 评论(0) 推荐(0)
摘要: 准备工作 需要先获取一个可用代理,代理就是 IP 地址和端口的组合,就是 <ip>:<port> 这样的格式。如果代理需要访问认证,那就还需要额外的用户名密码两个信息。 那怎么获取一个可用代理呢? 使用搜索引擎搜索 “代理” 关键字,可以看到许多代理服务网站,网站上会有很多免费或付费代理,比如快代理 阅读全文
posted @ 2024-07-12 01:53 JJJhr 阅读(547) 评论(0) 推荐(0)
摘要: 在做爬虫的过程中经常会遇到这样的情况,最初爬虫正常运行,正常抓取数据,一切看起来都是那么美好,然而一杯茶的功夫可能就会出现错误,比如 403 Forbidden,这时打开网页一看,可能会看到 “您的 IP 访问频率太高” 这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。比如,服务器会检测某 阅读全文
posted @ 2024-07-12 00:47 JJJhr 阅读(165) 评论(0) 推荐(0)
摘要: 随着大数据时代的发展,各个公司的数据保护意识越来越强,大家都在想尽办法保护自家产品的数据不轻易被爬虫爬走。由于网页是提供信息和服务的重要载体,所以对网页上的信息进行保护就成了至关重要的一个环节。 网页是运行在浏览器端的,当浏览一个网页时,其 HTML 代码、 JavaScript 代码都会被下载到浏 阅读全文
posted @ 2024-07-11 19:45 JJJhr 阅读(323) 评论(0) 推荐(0)