随笔分类 - Python
摘要:category_encoders是一个Python库,专门用于将分类变量(如文字、标签)转换为机器学习模型可以处理的数值形式。它是 scikit-learn-contrib 项目的一部分,完全兼容Scikit-learn的API,可以无缝集成到机器学习流程中。本文将围绕该库的核心用法展开详细讲解。
阅读全文
摘要:在Python编程中,类定义是组织数据与封装逻辑的核心范式。然而,当需要创建仅用于数据存储的简单类时,开发者往往需编写大量重复机械的样板代码。例如用于属性初始化的__init__方法、支持对象信息友好展示的__repr__方法、实现对象相等性比较的__eq__方法等。这类代码不仅耗费开发精力,还容易
阅读全文
摘要:代码分析能够评估各部分代码的时间消耗,即进行时间复杂度分析。通过这一过程,我们可以识别影响整体运行效率的关键部分,从而更高效地利用底层计算资源。此外,代码分析也可用于评估内存使用情况,即空间复杂度,以优化内存管理并提升其使用效率。本文主要关注时间复杂度分析的内容。 Python默认提供了两个实用的性
阅读全文
摘要:Unsloth是一个专注于加速大语言模型微调过程的开源项目。它通过一系列底层优化,显著提升了微调速度并大幅降低了内存消耗,同时能保持模型性能。无论是研究者还是开发者,都能借助Unsloth更高效地定制自己的大语言模型。本文将介绍Unsloth的使用,相关学习资源如下: 开源仓库:Unsloth 官方
阅读全文
摘要:锂离子电池是新能源汽车、储能系统及便携式电子设备的核心能源部件,其剩余使用寿命(Remaining Useful Life,RUL)的准确预测直接关系到设备运行安全、维护成本优化和能源效率提升。RUL预测算法能够提前量化电池剩余可用时间,是保障新能源汽车与储能系统安全稳定运行、降低突发故障风险、优化
阅读全文
摘要:在大语言模型基础知识一文中,检索增强生成(Retrieval-Augmented Generation,简称 RAG)技术作为构建大语言模型(Large Language Model,简称 LLM)应用的一种方式已被简要提及,本文将详细介绍RAG技术的实现流程及其演进趋势。 关于RAG技术更全面更系
阅读全文
摘要:在文章大语言模型基础知识里,模型训练与微调作为大语言模型(Large Language Model,LLM)应用构建的主要方式被简要提及,本系列文章将从技术原理、实施流程及应用场景等维度展开深度解析。相关知识的进一步参考见:LLM训练理论和实战。本文作为该系列的下半部分,包含第3章并聚焦于大语言模型
阅读全文
摘要:在Python中,抽象基类是一类特殊的类,它不能被实例化,主要用于作为基类被其他子类继承。抽象基类的核心作用是为一组相关的子类提供统一的蓝图或接口规范,明确规定子类必须实现的方法,从而增强代码的规范性和可维护性。Python通过abc(Abstract Base Classes)模块提供了对抽象基类
阅读全文
摘要:schedule是一款专为简化定时任务调度而设计的Python库,它通过直观的语法降低了周期性任务的实现门槛。作为进程内调度器,它无需额外守护进程,轻量且无外部依赖,适合快速搭建自动化任务。不过,该库在功能完整性上有所取舍,目前暂不支持断点续传、亚秒级精度控制以及多任务并行执行等复杂场景。 sche
阅读全文
摘要:Watchdog库是Python中一个用于监控文件系统变化的第三方库。它能够实时监测文件或目录的创建、修改、删除等操作,并在这些事件发生时触发相应的处理逻辑,因此也被称为文件看门狗。 Watchdog库的官方仓库见:watchdog,Watchdog库的官方文档见:watchdog-doc。Watc
阅读全文
摘要:本文主要介绍如何利用Python中的MarkItDown库将多种文件高效转换为Markdown文本,以及如何使用Python-Markdown库将Markdown文本转换为HTML(超文本标记语言)文本。 Markdown是一种轻量级的标记语言,用于以简洁易读的方式编写文本内容,同时能够方便地转换为
阅读全文
摘要:本文详细介绍了在使用asyncio库编写异步程序时常见的错误和问题,并进一步通过实践案例进行分析和讨论,以便在项目中更有效地应用asyncio库。有关asyncio库的详细介绍,可参考:Python 异步编程库 asyncio 使用指北。 目录1 asyncio程序的常见错误1.1 试图直接调用并运
阅读全文
摘要:Python的asyncio模块提供了基于协程(coroutines)的异步编程(asynchronous programming)模型。作为一种高效的编程范式,异步编程允许多个轻量级任务并发执行,且相比传统的多线程模型,具有更低的内存消耗。因此,asyncio在需要高并发处理的场景中,尤其是在We
阅读全文
摘要:CleanVision是一个开源的Python库,旨在帮助用户自动检测图像数据集中可能影响机器学习项目的常见问题。该库被设计为计算机视觉项目的初步工具,以便在应用机器学习之前发现并解决数据集中的问题。CleanVision的核心功能包括检测完全重复、近似重复、模糊、低信息量、过暗、过亮、灰度、不规则
阅读全文
摘要:PyOD是一个全面且易于使用的Python库,专门用于检测多变量数据中的异常点或离群点。异常点是指那些与大多数数据点显著不同的数据,它们可能表示错误、噪声或潜在的有趣现象。无论是处理小规模项目还是大型数据集,PyOD提供了50多种算法以满足用户的需求。PyOD的特点包括: 统一且用户友好的接口,适用
阅读全文
摘要:TSLiB是一个为深度学习时间序列分析量身打造的开源仓库。它提供了多种深度时间序列模型的统一实现,方便研究人员评估现有模型或开发定制模型。TSLiB涵盖了长时预测(Long-term forecasting)、短时预测(Short-term forecasting)、缺失值填补(Missing va
阅读全文
摘要:Joblib是用于高效并行计算的Python开源库,其提供了简单易用的内存映射和并行计算的工具,以将任务分发到多个工作进程中。Joblib库特别适合用于需要进行重复计算或大规模数据处理的任务。Joblib库的官方仓库见:joblib,官方文档见:joblib-doc。 Jolib库安装代码如下: p
阅读全文
摘要:scikit-opt是一个封装了多种启发式算法的Python代码库,可以用于解决优化问题。scikit-opt官方仓库见:scikit-opt,scikit-opt官网文档见:scikit-opt-doc。 scikit-opt安装代码如下: pip install scikit-opt # 调用s
阅读全文
摘要:Loguru是一个功能强大且易于使用的开源Python日志记录库。它建立在Python标准库中的logging模块之上,并提供了更加简洁直观、功能丰富的接口。Logging模块的使用见:Python日志记录库logging总结。Loguru官方仓库见:loguru,loguru官方文档见: logu
阅读全文
摘要:PyCaret是一个开源、低代码Python机器学习库,能够自动化机器学习工作流程。它是一个端到端的机器学习和模型管理工具,极大地加快了实验周期,提高了工作效率。PyCaret本质上是围绕几个机器学习库和框架(如scikit-learn、XGBoost、LightGBM、CatBoost、spaCy
阅读全文

浙公网安备 33010602011771号