随笔分类 -  databook

数据采集
摘要:数据的预处理是数据分析,或者机器学习训练前的重要步骤。通过数据预处理,可以 提高数据质量,处理数据的缺失值、异常值和重复值等问题,增加数据的准确性和可靠性 整合不同数据,数据的来源和结构可能多种多样,分析和训练前要整合成一个数据集 提高数据性能,对数据的值进行变换,规约等(比如无量纲化),让算法更加 阅读全文
posted @ 2023-12-21 09:59 wang_yb 阅读(640) 评论(0) 推荐(0)
摘要:数据的预处理是数据分析,或者机器学习训练前的重要步骤。通过数据预处理,可以 提高数据质量,处理数据的缺失值、异常值和重复值等问题,增加数据的准确性和可靠性 整合不同数据,数据的来源和结构可能多种多样,分析和训练前要整合成一个数据集 提高数据性能,对数据的值进行变换,规约等(比如无量纲化),让算法更加 阅读全文
posted @ 2023-12-20 09:28 wang_yb 阅读(612) 评论(0) 推荐(1)
摘要:数据的预处理是数据分析,或者机器学习训练前的重要步骤。通过数据预处理,可以 提高数据质量,处理数据的缺失值、异常值和重复值等问题,增加数据的准确性和可靠性 整合不同数据,数据的来源和结构可能多种多样,分析和训练前要整合成一个数据集 提高数据性能,对数据的值进行变换,规约等(比如无量纲化),让算法更加 阅读全文
posted @ 2023-12-18 09:49 wang_yb 阅读(748) 评论(0) 推荐(0)
摘要:数据的预处理是数据分析,或者机器学习训练前的重要步骤。通过数据预处理,可以 提高数据质量,处理数据的缺失值、异常值和重复值等问题,增加数据的准确性和可靠性 整合不同数据,数据的来源和结构可能多种多样,分析和训练前要整合成一个数据集 提高数据性能,对数据的值进行变换,规约等(比如无量纲化),让算法更加 阅读全文
posted @ 2023-12-15 08:50 wang_yb 阅读(710) 评论(0) 推荐(1)
摘要:数据的预处理是数据分析,或者机器学习训练前的重要步骤。通过数据预处理,可以 提高数据质量,处理数据的缺失值、异常值和重复值等问题,增加数据的准确性和可靠性 整合不同数据,数据的来源和结构可能多种多样,分析和训练前要整合成一个数据集 提高数据性能,对数据的值进行变换,规约等(比如无量纲化),让算法更加 阅读全文
posted @ 2023-12-13 14:22 wang_yb 阅读(865) 评论(0) 推荐(2)
摘要:这是scikit-learn数据加载系列的最后一篇,本篇介绍如何加载外部的数据集。 外部数据集不像之前介绍的几种类型的数据集那样,针对每种数据提供对应的接口,每个接口加载的数据都是固定的。而外部数据集加载之后,数据的字段和类型是不确定的。 简单来说,我们在实际的数据分析工作中,用到的是外部数据集加载 阅读全文
posted @ 2023-12-09 10:23 wang_yb 阅读(668) 评论(0) 推荐(0)
摘要:除了内置的数据集,scikit-learn还提供了随机样本的生成器。通过这些生成器函数,可以生成具有特定特性和分布的随机数据集,以帮助进行机器学习算法的研究、测试和比较。 目前,scikit-learn库(v1.3.0版)中有20个不同的生成样本的函数。本篇重点介绍其中几个具有代表性的函数。 1. 阅读全文
posted @ 2023-12-08 08:35 wang_yb 阅读(958) 评论(0) 推荐(3)
摘要:上一篇介绍了scikit-learn中的几个玩具数据集,本篇介绍scikit-learn提供的一些真实的数据集。玩具数据集:scikit-learn 基础(01)--『数据加载』之玩具数据集 1. 获取数据集 与玩具数据集不同,真实的数据集的数据不仅数据特征多,而且数据量也比较大,所以没有直接包含在 阅读全文
posted @ 2023-12-06 09:43 wang_yb 阅读(1087) 评论(3) 推荐(3)
摘要:机器学习的第一步是准备数据,好的数据能帮助我们加深对机器学习算法的理解。 不管是在学习还是实际工作中,准备数据永远是一个枯燥乏味的步骤。scikit-learn库显然看到了这个痛点,才在它的数据加载子模块中为我们准备了直接可用的数据集。 在它的数据加载子模块中,提供了6种直接可用来学习算法的经典数据 阅读全文
posted @ 2023-12-04 11:08 wang_yb 阅读(1422) 评论(5) 推荐(1)
摘要:Scikit-learn是一个基于Python的开源机器学习库,它提供了大量的机器学习算法和工具,方便用户进行数据挖掘、分析和预测。 Scikit-learn是基于另外两个知名的库 Scipy 和 Numpy的,关于 Scipy 和 Numpy 等库,之前的系列文章中有介绍: Scipy 基础系列 阅读全文
posted @ 2023-12-02 14:18 wang_yb 阅读(1670) 评论(0) 推荐(5)
摘要:scipy.stats子模块包含大量的概率分布、汇总和频率统计、相关函数和统计测试、掩蔽统计、核密度估计、准蒙特卡罗功能等等。 这个子模块可以帮助我们描述和分析数据,进行假设检验和拟合统计模型等。 1. 主要功能 具体来说,scipy.stats子模块包括以下主要功能: 类别 说明 连续统计分布 包 阅读全文
posted @ 2023-11-28 08:45 wang_yb 阅读(685) 评论(0) 推荐(0)
摘要:scipy.spatial子模块提供了一系列用于处理和计算空间数据和几何形状的算法和工具,在许多领域都有广泛的应用,例如计算机视觉、地理信息系统、机器人学、医学影像分析等。 下面,来具体看看scipy.spatial子模块为我们提供的主要功能分类。 1. 主要功能 scipy.spatial子模块中 阅读全文
posted @ 2023-11-27 08:30 wang_yb 阅读(622) 评论(0) 推荐(0)
摘要:稀疏矩阵是一种特殊的矩阵,其非零元素数目远远少于零元素数目,并且非零元素分布没有规律。这种矩阵在实际应用中经常出现,例如在物理学、图形学和网络通信等领域。 稀疏矩阵其实也可以和一般的矩阵一样处理,之所以要把它区分开来进行特殊处理,是因为:一方面稀疏矩阵的存储空间开销通常比稠密矩阵要小得多,可以节省存 阅读全文
posted @ 2023-11-23 08:28 wang_yb 阅读(774) 评论(0) 推荐(0)
摘要:scipy.signal模块主要用于处理和分析信号。它提供了大量的函数和方法,用于滤波、卷积、傅里叶变换、噪声生成、周期检测、谱分析等信号处理任务。 此模块的主要作用是提供一套完整的信号处理工具,从而帮助用户对各种连续或者离散的时间序列数据、音频信号、电信号或其他物理信号进行操作和分析。它支持许多标 阅读全文
posted @ 2023-11-21 09:28 wang_yb 阅读(1253) 评论(0) 推荐(2)
摘要:SciPy库的optimize模块主要用于执行各种优化任务。优化是寻找特定函数的最小值或最大值的过程,通常用于机器学习、数据分析、工程和其他领域。 scipy.optimize提供了多种优化算法,包括梯度下降法、牛顿法、最小二乘法等,可以解决各种复杂的优化问题。该模块还包含一些特定的函数,用于解决某 阅读全文
posted @ 2023-11-18 10:32 wang_yb 阅读(910) 评论(0) 推荐(2)
摘要:Scipy的ODR正交距离回归(ODR-Orthogonal Distance Regression)模块,适用于回归分析时,因变量和自变量之间存在非线性关系的情况。它提高了回归分析的准确性和稳健性。对于需要解决非线性回归问题的科研人员和工程师来说,它具有非常重要的意义。 ODR正交距离回归模块的作 阅读全文
posted @ 2023-11-16 09:41 wang_yb 阅读(1194) 评论(0) 推荐(0)
摘要:SciPy库本身是针对科学计算而不是图像处理的,只是图像处理也包含了很多数学计算,所以Scipy也提供了一个专门的模块ndimage用于图像处理。 ndimage模块提供的功能包括输入/输出图像、显示图像、基本操作(如裁剪、翻转、旋转等)、图像过滤(如去噪、锐化等)、图像分割、分类、特征提取以及注册 阅读全文
posted @ 2023-11-14 09:36 wang_yb 阅读(668) 评论(0) 推荐(0)
摘要:Python安装之后,其标准库中有的模块,不一定要通过代码来引用,还可以直接在命令行中使用的。 在命令行中直接使用Python标准库的模块,最大的好处就是就是不用写代码,就能使用其中的功能,当临时需要一些某些功能的时候,用这种方式会快捷,方便很多。 1. 命令行中使用模块 命令行中使用python标 阅读全文
posted @ 2023-11-12 09:44 wang_yb 阅读(665) 评论(1) 推荐(2)
摘要:SciPy的linalg模块是SciPy库中的一个子模块,它提供了许多用于线性代数运算的函数和工具,如矩阵求逆、特征值、行列式、线性方程组求解等。 相比于NumPy的linalg模块,SciPy的linalg模块包含更多的高级功能,并且在处理一些特定的数值计算问题时,可能会表现出更好的性能。 1. 阅读全文
posted @ 2023-11-10 09:54 wang_yb 阅读(680) 评论(0) 推荐(0)
摘要:Python中的 *号是一个特殊的符号,在其他编程语言中,它最广为人知的用途就是作为乘法运算的符号。而在Python中,它的用途远不止如此。 本文总结了Python中*号的所有用途,以供参考。 1. 算术运算 号用来做算术运算几乎是所有编程语言采用的方法,在Python中,号可作为乘法运算和指数运算 阅读全文
posted @ 2023-11-09 10:37 wang_yb 阅读(1676) 评论(0) 推荐(3)