wang_yb - 博客园

2024年2月8日

摘要：模型持久化（模型保存与加载）是机器学习完成的最后一步。因为，在实际情况中，训练一个模型可能会非常耗时，如果每次需要使用模型时都要重新训练，这无疑会浪费大量的计算资源和时间。通过将训练好的模型持久化到磁盘，我们可以在需要使用模型时直接从磁盘加载到内存，而无需重新训练。这样不仅可以节省时间，还可以提高阅读全文

posted @ 2024-02-08 15:48 wang_yb 阅读(162) 评论(0) 推荐(1) 编辑

2024年2月5日

Python Fire：更加灵活的命令行参数

摘要：之前介绍过Python的Fire库，一个用来生成命令行工具的的库。请参考：Python Fire：自动生成命令行接口今天，针对命令行参数，补充两种更加灵活的设置方式。 1. *args 型参数 *args型的参数可以接受任意长度的参数。比如，模拟一个学校发送通知的功能： import fire d 阅读全文

posted @ 2024-02-05 14:18 wang_yb 阅读(249) 评论(0) 推荐(2) 编辑

2024年2月4日

【scikit-learn基础】--『分类模型评估』之评估报告

摘要：分类模型评估时，scikit-learn提供了混淆矩阵和分类报告是两个非常实用且常用的工具。它们为我们提供了详细的信息，帮助我们了解模型的优缺点，从而进一步优化模型。这两个工具之所以单独出来介绍，是因为它们的输出内容特别适合用在模型的评估报告中。 1. 混淆矩阵混淆矩阵（Confusion Ma 阅读全文

posted @ 2024-02-04 09:33 wang_yb 阅读(151) 评论(0) 推荐(0) 编辑

2024年2月1日

Python Fire：自动生成命令行接口

摘要：命令行程序是平时写一些小工具时最常用的方式。为了让命令行程序更加灵活，我们常常会设置一些参数，根据参数让程序执行不同的功能。这样就不用频繁的修改代码来执行不同的功能。随着命令行程序功能的丰富，也就是参数多了以后，解析和管理参数之间的关系会变得越来越繁重。而本次介绍的 Fire 库，正好可以解决这阅读全文

posted @ 2024-02-01 10:15 wang_yb 阅读(262) 评论(0) 推荐(1) 编辑

2024年1月31日

【scikit-learn基础】--『分类模型评估』之系数分析

摘要：前面两篇介绍了分类模型评估的两类方法，准确率分析和损失分析，本篇介绍的杰卡德相似系数和马修斯相关系数为我们提供了不同的角度来观察模型的性能，尤其在不平衡数据场景中，它们更能体现出其独特的价值。接下来，让我们一起了解这两个评估指标的原理与特点。 1. 杰卡德相似系数杰卡德相似系数（Jaccard 阅读全文

posted @ 2024-01-31 14:20 wang_yb 阅读(131) 评论(0) 推荐(0) 编辑

2024年1月30日

【scikit-learn基础】--『回归模型评估』之损失分析

摘要：分类模型评估中，通过各类损失（loss）函数的分析，可以衡量模型预测结果与真实值之间的差异。不同的损失函数可用于不同类型的分类问题，以便更好地评估模型的性能。本篇将介绍分类模型评估中常用的几种损失计算方法。 1. 汉明损失 Hamming loss（汉明损失）是一种衡量分类模型预测错误率的指标。它阅读全文

posted @ 2024-01-30 16:08 wang_yb 阅读(225) 评论(0) 推荐(1) 编辑

2024年1月29日

pandas高效读取大文件的探索之路

摘要：使用 pandas 进行数据分析时，第一步就是读取文件。在平时学习和练习的过程中，用到的数据量不会太大，所以读取文件的步骤往往会被我们忽视。然而，在实际场景中，面对十万，百万级别的数据量是家常便饭，即使千万，上亿级别的数据，单机处理也问题不大。不过，当数据量和数据属性多了之后，读取文件的性能瓶颈就阅读全文

posted @ 2024-01-29 09:22 wang_yb 阅读(563) 评论(0) 推荐(2) 编辑

2024年1月28日

【scikit-learn基础】--『回归模型评估』之准确率分析

摘要：分类模型的评估和回归模型的评估侧重点不一样，回归模型一般针对连续型的数据，而分类模型一般针对的是离散的数据。所以，评估分类模型时，评估指标与回归模型也很不一样，比如，分类模型的评估指标通常包括准确率、精确率、召回率和F1分数等等。而回归模型的评估指标通常包括均方误差（MSE）、均方根误差（RMSE 阅读全文

posted @ 2024-01-28 09:33 wang_yb 阅读(162) 评论(0) 推荐(0) 编辑

2024年1月26日

【scikit-learn基础】--『回归模型评估』之可视化评估

摘要：在scikit-learn中，回归模型的可视化评估是一个重要环节。它帮助我们理解模型的性能，分析模型的预测能力，以及检查模型是否存在潜在的问题。通过可视化评估，我们可以更直观地了解回归模型的效果，而不仅仅依赖于传统的评估指标。 1. 残差图所谓残差，就是实际观测值与预测值之间的差值。残差图是指以阅读全文

posted @ 2024-01-26 12:58 wang_yb 阅读(405) 评论(0) 推荐(1) 编辑

2024年1月24日

【scikit-learn基础】--『回归模型评估』之偏差分析

摘要：模型评估在统计学和机器学习中具有至关重要，它帮助我们主要目标是量化模型预测新数据的能力。本篇主要介绍模型评估时，如何利用scikit-learn帮助我们快速进行各种偏差的分析。 1. **R² ** 分数 R² 分数（也叫决定系数），用于衡量模型预测的拟合优度，它表示模型中因变量的变异中，可由自变阅读全文

posted @ 2024-01-24 11:09 wang_yb 阅读(160) 评论(0) 推荐(0) 编辑

千里之行，始于足下

公告