pencil2001 - 博客园

第01章准备工作

摘要：第1章准备工作1.1 本书的内容本书讲的是利用Python进行数据控制、处理、整理、分析等方面的具体细节和基本要点。我的目标是介绍Python编程和用于数据处理的库和工具环境，掌握这些，可以让你成为一个数据分析专家。虽然本书的标题是“数据分析”，重点却是Python编程、库，以及用于数据分析的工具。这就是数据分析要用到的Python编程。什么样的数据？当书中出现“数据”时，究竟指的是什么呢？主要... 阅读全文

posted @ 2020-07-03 00:12 pencil2001 阅读(115) 评论(0) 推荐(0)

第02章 Python语法基础，IPython和Jupyter Notebooks

摘要：第2章 Python语法基础，IPython和Jupyter Notebooks当我在2011年和2012年写作本书的第一版时，可用的学习Python数据分析的资源很少。这部分上是一个鸡和蛋的问题：我们现在使用的库，比如pandas、scikit-learn和statsmodels，那时相对来说并不成熟。2017年，数据科学、数据分析和机器学习的资源已经很多，原来通用的科学计算拓展到了计算机科学家... 阅读全文

posted @ 2020-07-03 00:11 pencil2001 阅读(543) 评论(0) 推荐(0)

第03章 Python的数据结构、函数和文件

摘要：本章讨论Python的内置功能，这些功能本书会用到很多。虽然扩展库，比如pandas和Numpy，使处理大数据集很方便，但它们是和Python的内置数据处理工具一同使用的。我们会从Python最基础的数据结构开始：元组、列表、字典和集合。然后会讨论创建你自己的、可重复使用的Python函数。最后，会学习Python的文件对象，以及如何与本地硬盘交互。3.1 数据结构和序列Python的数据结构简单... 阅读全文

posted @ 2020-07-03 00:10 pencil2001 阅读(305) 评论(0) 推荐(0)

第04章 NumPy基础：数组和矢量计算

摘要： NumPy（Numerical Python的简称）是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。NumPy的部分功能如下：ndarray，一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。用于对整组数据进行快速运算的标准数学函数（无需编写循环）。用于读写磁盘数据的工具以及用于操作内存映射文件的工具。线性代数、随机数生成以及傅里叶变换功... 阅读全文

posted @ 2020-07-03 00:09 pencil2001 阅读(248) 评论(0) 推荐(0)

第05章 pandas入门

摘要： pandas是本书后续内容的首选库。它含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。pandas经常和其它工具一同使用，如数值计算工具NumPy和SciPy，分析库statsmodels和scikit-learn，和数据可视化库matplotlib。pandas是基于NumPy数组构建的，特别是基于数组的函数和不使用for循环的数据处理。虽然pandas采用了大量的NumPy编码风格... 阅读全文

posted @ 2020-07-03 00:08 pencil2001 阅读(227) 评论(0) 推荐(0)

第06章数据加载、存储与文件格式

摘要：访问数据是使用本书所介绍的这些工具的第一步。我会着重介绍pandas的数据输入与输出，虽然别的库中也有不少以此为目的的工具。输入输出通常可以划分为几个大类：读取文本文件和其他更高效的磁盘存储格式，加载数据库中的数据，利用Web API操作网络资源。6.1 读写文本格式的数据pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。表6-1对它们进行了总结，其中read_csv和re... 阅读全文

posted @ 2020-07-03 00:07 pencil2001 阅读(404) 评论(0) 推荐(0)

第07章数据清洗和准备

摘要：在数据分析和建模的过程中，相当多的时间要用在数据准备上：加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。有时，存储在文件和数据库中的数据的格式不适合某个特定的任务。许多研究者都选择使用通用编程语言（如Python、Perl、R或Java）或UNIX文本处理工具（如sed或awk）对数据格式进行专门处理。幸运的是，pandas和内置的Python标准库提供了一组高级的、灵活的、快速... 阅读全文

posted @ 2020-07-03 00:06 pencil2001 阅读(283) 评论(0) 推荐(0)

第08章数据规整：聚合、合并和重塑

摘要：在许多应用中，数据可能分散在许多文件或数据库中，存储的形式也不利于分析。本章关注可以聚合、合并、重塑数据的方法。首先，我会介绍pandas的层次化索引，它广泛用于以上操作。然后，我深入介绍了一些特殊的数据操作。在第14章，你可以看到这些工具的多种应用。8.1 层次化索引层次化索引（hierarchical indexing）是pandas的一项重要功能，它使你能在一个轴上拥有多个（两个以上）索引级... 阅读全文

posted @ 2020-07-03 00:05 pencil2001 阅读(237) 评论(0) 推荐(0)

第09章绘图和可视化

摘要：信息可视化（也叫绘图）是数据分析中最重要的工作之一。它可能是探索过程的一部分，例如，帮助我们找出异常值、必要的数据转换、得出有关模型的idea等。另外，做一个可交互的数据可视化也许是工作的最终目标。Python有许多库进行静态或动态的数据可视化，但我这里重要关注于matplotlib（http://matplotlib.org/）和基于它的库。matplotlib是一个用于创建出版质量图表的桌面绘... 阅读全文

posted @ 2020-07-03 00:04 pencil2001 阅读(195) 评论(0) 推荐(0)

第10章数据聚合与分组运算

摘要：对数据集进行分组并对各组应用一个函数（无论是聚合还是转换），通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后，通常就是计算分组统计或生成透视表。pandas提供了一个灵活高效的gruopby功能，它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。关系型数据库和SQL（Structured Query Language，结构化查询语言）能够如此流行的原因之一就是其能够方便地... 阅读全文

posted @ 2020-07-03 00:03 pencil2001 阅读(391) 评论(0) 推荐(0)