随笔分类 -  Python

摘要:Jupyter note book工具 1.打开命令C:\Users\用户名>jupyter.exe notebook 2.配置文件 C:\Users\用户名\jupyter_notebook_config.py 设置默认打开路径 ## The directory to use for notebo 阅读全文
posted @ 2025-01-02 14:40 JJJhr 阅读(33) 评论(0) 推荐(0)
摘要:简介 多线程:threading,利用 cpu 和 io可以同时执行的原理,让 CPU 不会等待 IO 完成 多进程:multiprocess,利用多核 CPU 的能力,真正的并行执行任务 异步IO:asynio,在单线程利用 CPU 和 IO 同时执行的原理,实现函数异步执行 使用 Lock 对共 阅读全文
posted @ 2024-08-07 18:10 JJJhr 阅读(22) 评论(0) 推荐(0)
摘要:Scrapy-Redis 是 Scrapy 的一个扩展,主要用于分布式爬虫开发。它通过 Redis 实现多个爬虫实例之间的任务队列共享和数据去重,使得爬虫可以在多个机器上协同工作,提高爬取效率和数据处理能力。 Scrapy-Redis 的主要特点 分布式调度:任务队列存储在 Redis 中,多个爬虫 阅读全文
posted @ 2024-07-05 01:11 JJJhr 阅读(122) 评论(0) 推荐(0)
摘要:Scrapy 是一个强大的 Python 网络爬虫框架,专门设计用于快速开发和管理网络爬虫程序。它提供了一套完整的工具集,使得爬取网站数据变得高效、灵活和可扩展。以下是 Scrapy 的基础介绍和使用方法: Scrapy 的基础概念 项目(Project): Scrapy 爬虫程序的基本工作单位,包 阅读全文
posted @ 2024-07-05 01:04 JJJhr 阅读(39) 评论(0) 推荐(0)
摘要:MongoDB 的介绍 MongoDB 是一个开源的非关系型数据库系统,采用 C++ 编写,旨在处理大量数据存储和高吞吐量的应用程序。MongoDB 使用 JSON 风格的文档存储数据,具有高度的灵活性和性能。 主要特点: 非关系型数据库:不采用传统的关系型数据库表格模型,而是使用文档存储模型。 高 阅读全文
posted @ 2024-07-05 00:57 JJJhr 阅读(121) 评论(0) 推荐(0)
摘要:反爬原因 反爬(Anti-Scraping)机制是网站为防止自动化程序(爬虫)过度抓取或恶意访问而采取的保护措施。反爬的主要原因包括: 保护网站资源:大量的自动化访问会消耗服务器资源,影响正常用户的访问体验。 保护数据隐私:一些网站的数据具有商业价值,网站希望保护这些数据不被自动化程序大量获取。 防 阅读全文
posted @ 2024-07-05 00:45 JJJhr 阅读(1243) 评论(0) 推荐(0)
摘要:selenium介绍 开发使用有头浏览器,部署使用无界面浏览器 selenium工作原理 利用浏览器原生的API,封装成一套更加面向对象的Selenium WebDriver API,直接操作浏览器页面里的元素,甚至操作浏览器本身(截屏,窗口大小,启动,关闭,安装插件,配置证书之类的) seleni 阅读全文
posted @ 2024-07-05 00:09 JJJhr 阅读(139) 评论(0) 推荐(0)
摘要:在Python中,当我们谈论“loop对象”时,可能是在谈论asyncio库中的事件循环(Event Loop),它是处理异步I/O、延迟执行(asyncio.sleep())、任务(asyncio.Task)等的核心组件。 Python的asyncio库提供了一个高层次的接口来编写单线程并发代码, 阅读全文
posted @ 2024-06-18 22:08 JJJhr 阅读(42) 评论(0) 推荐(0)
摘要:在Python中,DETAIL_URL.format(id=id) 是一个字符串格式化的表达式。它通常用于根据一个已定义的字符串模板 DETAIL_URL 来生成一个新的字符串。在这个模板中,会包含一个或多个占位符,这些占位符会被提供的参数值所替换。 具体来说,DETAIL_URL 应该是一个包含占 阅读全文
posted @ 2024-06-17 01:48 JJJhr 阅读(46) 评论(0) 推荐(0)
摘要:onreadystatechange 属性是 XMLHttpRequest 对象的一个事件处理器,用于在 XMLHttpRequest 对象的 readyState 属性发生变化时触发。这个属性通常用于异步地获取和处理服务器的响应。以下是关于 onreadystatechange 属性的详细解释: 阅读全文
posted @ 2024-06-15 01:05 JJJhr 阅读(203) 评论(0) 推荐(0)
摘要:在 Python 中,load 和 loads 是用于处理 JSON 数据的两个函数,分别用于从文件和字符串中加载 JSON 数据。它们都属于 json 模块。以下是详细的说明和示例: json.load json.load 用于从一个文件对象中读取 JSON 数据并将其解析为一个 Python 对 阅读全文
posted @ 2024-06-12 16:42 JJJhr 阅读(192) 评论(0) 推荐(0)
摘要:在Python中,.join() 是一个字符串方法,用于将序列中的元素以指定的字符(或字符串)连接成一个新的字符串。这个方法需要两个主要的参数:分隔符(作为调用 .join() 方法的字符串本身)和要连接的序列(如列表、元组或字符串的迭代器)。 .join() 方法的基本语法如下: separato 阅读全文
posted @ 2024-06-10 00:47 JJJhr 阅读(271) 评论(0) 推荐(0)
摘要:iterrows() 是 Pandas 库中 DataFrame 对象的一个方法,它允许你迭代 DataFrame 的行。当你有一个 DataFrame 并且想要逐行访问数据(或者基于每一行的数据做一些操作)时,iterrows() 会非常有用。 这个方法返回一个迭代器,产生索引和行数据作为成对的值 阅读全文
posted @ 2024-06-09 21:54 JJJhr 阅读(189) 评论(0) 推荐(0)
摘要:logging.basicConfig() 是 Python 标准库 logging 模块中的一个函数,用于配置日志记录器(logger)的基本选项。这个函数允许你在不创建和配置多个 logger、handler 和 formatter 的情况下,快速地为你的应用程序设置日志记录。 以下是一些 ba 阅读全文
posted @ 2024-06-01 14:32 JJJhr 阅读(875) 评论(0) 推荐(0)
摘要:re.search() 是 Python 的正则表达式库 re 中的一个方法,用于在字符串中搜索与正则表达式模式匹配的第一个位置,并返回一个匹配对象。如果没有找到匹配项,则返回 None。 以下是 re.search() 的基本用法和详解: 基本语法 import re match = re.sea 阅读全文
posted @ 2024-05-19 01:38 JJJhr 阅读(4496) 评论(0) 推荐(0)
摘要:ERROR: THESE PACKAGES DO NOT MATCH THE HASHES FROM THE REQUIREMENTS FILE. If you have updated the package versions, please update the hashes. Otherwis 阅读全文
posted @ 2024-04-27 01:38 JJJhr 阅读(64) 评论(0) 推荐(0)