2025/1/24


Pandas是Python中用于数据分析的强大库,提供了高效的数据结构和数据分析工具。
DataFrame:二维表格数据结构,类似于Excel表格。
Series:一维数组,类似于列表。
数据清洗:包括删除缺失值、填充缺失值、去除重复值等。

import pandas as pd

# 创建DataFrame
data = {
'Name': ['Alice', 'Bob', 'Charlie', None],
'Age': [25, 30, 35, 40],
'City': ['New York', 'Los Angeles', 'Chicago', 'New York']
}
df = pd.DataFrame(data)

print("Original DataFrame:")
print(df)

# 数据清洗
df.dropna(inplace=True) # 删除缺失值
df.drop_duplicates(inplace=True) # 删除重复值

print("\nCleaned DataFrame:")
print(df)

运行步骤:
安装Pandas库(如果尚未安装):

pip install pandas
创建一个Python文件,例如data_processing.py。
将上述代码粘贴到文件中。
在终端中运行:

python data_processing.py
观察输出结果。
总结:
Pandas是Python中用于数据分析的强大工具。通过它可以轻松处理和清洗数据,为后续分析做好准备。

posted @ 2025-01-24 20:49  伐木工熊大  阅读(9)  评论(0)    收藏  举报