2025/1/24
Pandas是Python中用于数据分析的强大库,提供了高效的数据结构和数据分析工具。
DataFrame:二维表格数据结构,类似于Excel表格。
Series:一维数组,类似于列表。
数据清洗:包括删除缺失值、填充缺失值、去除重复值等。
import pandas as pd # 创建DataFrame data = { 'Name': ['Alice', 'Bob', 'Charlie', None], 'Age': [25, 30, 35, 40], 'City': ['New York', 'Los Angeles', 'Chicago', 'New York'] } df = pd.DataFrame(data) print("Original DataFrame:") print(df) # 数据清洗 df.dropna(inplace=True) # 删除缺失值 df.drop_duplicates(inplace=True) # 删除重复值 print("\nCleaned DataFrame:") print(df)
运行步骤:
安装Pandas库(如果尚未安装):
pip install pandas
创建一个Python文件,例如data_processing.py。
将上述代码粘贴到文件中。
在终端中运行:
python data_processing.py
观察输出结果。
总结:
Pandas是Python中用于数据分析的强大工具。通过它可以轻松处理和清洗数据,为后续分析做好准备。