文章分类 - 数据预处理
摘要:在第一级中,我们清理了表格,而没有注意到数据结构或记录的数值。在第二级中,我们的注意力是要有一个能支持我们分析目标的数据结构,但我们仍然没有太注意记录值的正确性或适当性。这就是第三层次的数据清理的目标。 在第三层次的数据清理中,我们将重点关注记录的数值,并将采取措施确保关于数据中记录的数值的三个事项
阅读全文
摘要:1 例子1--解压列并重新制定表格 在这个例子中,我们将使用经过一级清理的speech_df数据集来创建以下条形图。我们在第九章《数据清理第一级--清理表》的例1--不明智的数据收集一节中清理了这个数据框架。经过I级清理的speech_df数据库只有两列。文件名和内容。为了能够创建下面的视觉效果,我
阅读全文
摘要:我们终于到了! 在确保我们拥有必要的技术技能(本书第一部分)和分析技能(本书第二部分)之后,我们可以开始讨论有效的数据预处理。我们将通过研究数据清洗开始这一旅程。本章将数据清洗分为三个层次:第一、第二和第三层次。随着你在这些层次上的提升,对数据清洗概念的学习将变得更深入、更复杂。我们将谈论它们是什么
阅读全文
摘要:8.1 聚类模型 由于你已经学会了如何在数据分析中执行预测和分类任务,在本章中,你将学习聚类分析。在聚类中,我们努力对数据集中的数据对象进行有意义的分组。我们将通过一个例子来学习聚类分析。 8.1.1 使用二维数据集进行聚类的例子 在这个例子中,我们将使用WH Report_preprocessed
阅读全文
摘要:image.png 在上一章中,你学会了如何去预测数值,在本章中,我们将把注意力转向预测分类数值。从本质上讲,这就是分类的含义:预测未来的分类值。预测的重点是估计一些数值在未来会是什么,而分类则是预测事件在未来的发生或不发生。例如,在本章中,我们将看到分类是如何预测一个人是否会拖欠贷款的。在本章中,
阅读全文
摘要:能够利用数据来预测未来正变得越来越可能。不仅如此;很快,能够进行成功的预测性建模将不再是一种竞争优势--它将成为生存的必需品。为了提高预测性建模的有效性,许多人把注意力集中在用于预测的算法上;然而,你可以采取许多有意义的步骤,通过进行更有效的数据预处理来提高预测的成功率。这就是本书的最终目标:学习如
阅读全文
摘要:能够将数据可视化是数据分析的骨干。数据可视化的领域是非常令人兴奋的,因为在绘制可视化的过程中,有无限的可能性来实现新颖性和创造性,从而更好地讲述数据的故事。然而,即使是最具创新性的图形,其核心机制也是相似的。在本章中,我们将介绍这些可视化的基本机制,它们赋予数据以生命,使我们能够比较、分析和看到其中
阅读全文
摘要:数据库是有效和高效地记录和检索数据的技术解决方案。在本章中,我们将首先讨论数据库在有效分析和预处理中的技术作用。然后,我们将列举并了解不同类型的数据库。最后,我们将介绍连接到数据库并从数据库中提取数据的五种不同方法。本章将涉及以下主题。 • 什么是数据库? • 数据库的类型 • 连接到数据库并从数据
阅读全文
摘要:本章提出了对数据的概念性理解,并介绍了对有效数据预处理至关重要的数据概念、定义和理论。首先,本章揭开了 "数据 "这个词的神秘面纱,并提出了一个最有利于数据预处理的定义。接下来,它提出了通用的数据结构--表,以及大家用来描述它的通用语言。然后,我们将谈论四种类型的数据值以及它们对数据预处理的意义。最
阅读全文
摘要:Matplotlib是我们从数据中创建可视化的首选模块。这个模块不仅可以画出许多不同的图,而且还让我们有能力根据自己的需要设计和定制图。Matplotlib将为我们的数据分析和数据预处理之旅提供大量的功能,以实现有效的可视化。 在我们开始回顾这个有价值的模块之前,我想让你知道,这一章并不是要成为Ma
阅读全文
摘要:NumPy和Pandas模块能够满足你对大多数数据分析和数据预处理任务的需求。在我们开始回顾这两个有价值的模块之前,我想让你知道,本章并不是要成为这些模块的全面教学指南,而是要收集一些概念、功能和例子,这些概念、功能和例子将是非常宝贵的,因为我们将在接下来的章节中讨论数据分析和数据预处理。 在本章中
阅读全文
摘要:0 参考资料 https://docs.python.org/zh-cn/3/library/re.html https://bbs.huaweicloud.com/blogs/281158 https://cloud.tencent.com/developer/article/1769462 ht
阅读全文

浙公网安备 33010602011771号