Pandas学习笔记(一):Pandas简介

Pandas是使用Python语言开发的用于数据处理和数据分析的第三方库。它擅长处理数字型数据和时间序列数据,也可轻松处理文本型数据。

Pandas的命名跟熊猫无关,而是来自计量经济学中的术语“面板数据”(Panel data)。面板数据是一种数据集的数据类型,具有横截面和时间序列两个维度。不过,我们不必了解它,它只是一种灵感、思想来源。Pandas目前已经更新到1.3.1版本.


基本功能

  • 从Excel、csv、网页、SQL、剪贴板等文件或工具中读取数据;
  • 合并多个文件或电子表格中的数据,将数据拆分为独立文件;
  • 数据清洗,如去重、处理缺失值,填充默认值、补全格式、处理极端值等;
  • 建立高效的索引;
  • 支持大体量数据;
  • 按一定业务逻辑插入计算后的列、删除列;
  • 灵活方便的数据查询、筛选;
  • 分组聚合数据,可独立指定分组后的各字段计算方式;
  • 数据的转置,如行转列、列转行变更处理;
  • 连接数据库,直接用SQL查询数据并进行处理;
  • 对时序数据进行分组采样,如按季、按月、按工作小时,也可以自定义周期,如工作日;
  • 窗口计算,移动窗口统计、日期移动等;
  • 灵活的可视化图表输出,支持所有的统计图形;
  • 为数据表格增加展示样式,提供数据识别率。
posted @ 2023-09-23 16:35  woxin_lab  阅读(21)  评论(0)    收藏  举报