2025.1.29(周三)

在实际的大数据分析中,数据常常来自不同的源。整合多源数据时,我们常常遇到如何统一数据格式、如何处理重复数据的问题。

如何整合来自不同数据源的数据?

import pandas as pd

# 从不同文件加载数据
data1 = pd.read_csv('data_source_1.csv')
data2 = pd.read_csv('data_source_2.csv')

# 合并数据(假设两者有共同列)
merged_data = pd.merge(data1, data2, on='common_column', how='inner')

# 查看合并后的数据
print(merged_data.head())

 

posted @ 2025-02-13 19:36  记得关月亮  阅读(8)  评论(0)    收藏  举报