Pandas学习笔记(一):Pandas简介
Pandas是使用Python语言开发的用于数据处理和数据分析的第三方库。它擅长处理数字型数据和时间序列数据,也可轻松处理文本型数据。
Pandas的命名跟熊猫无关,而是来自计量经济学中的术语“面板数据”(Panel data)。面板数据是一种数据集的数据类型,具有横截面和时间序列两个维度。不过,我们不必了解它,它只是一种灵感、思想来源。Pandas目前已经更新到1.3.1版本.
基本功能
- 从Excel、csv、网页、SQL、剪贴板等文件或工具中读取数据;
- 合并多个文件或电子表格中的数据,将数据拆分为独立文件;
- 数据清洗,如去重、处理缺失值,填充默认值、补全格式、处理极端值等;
- 建立高效的索引;
- 支持大体量数据;
- 按一定业务逻辑插入计算后的列、删除列;
- 灵活方便的数据查询、筛选;
- 分组聚合数据,可独立指定分组后的各字段计算方式;
- 数据的转置,如行转列、列转行变更处理;
- 连接数据库,直接用SQL查询数据并进行处理;
- 对时序数据进行分组采样,如按季、按月、按工作小时,也可以自定义周期,如工作日;
- 窗口计算,移动窗口统计、日期移动等;
- 灵活的可视化图表输出,支持所有的统计图形;
- 为数据表格增加展示样式,提供数据识别率。

浙公网安备 33010602011771号