2025.1.29(周三)
在实际的大数据分析中,数据常常来自不同的源。整合多源数据时,我们常常遇到如何统一数据格式、如何处理重复数据的问题。
如何整合来自不同数据源的数据?
import pandas as pd # 从不同文件加载数据 data1 = pd.read_csv('data_source_1.csv') data2 = pd.read_csv('data_source_2.csv') # 合并数据(假设两者有共同列) merged_data = pd.merge(data1, data2, on='common_column', how='inner') # 查看合并后的数据 print(merged_data.head())