2025.1.13(周一)

选择Python学习大数据,因为它简单易学,并且有强大的数据分析库。最初的问题是,如何处理大型数据集,尤其是那些不能直接加载到内存中的数据。常见的处理方式是使用“批处理”,这时可以利用PandasDask等工具进行内存外计算。

import pandas as pd

# 使用chunk_size逐块加载大型CSV文件
chunk_size = 100000  # 每次读取10万行
chunks = pd.read_csv('large_data.csv', chunksize=chunk_size)

# 处理每个数据块
for chunk in chunks:
    print(chunk.head())  # 打印每块的前5行数据

 

posted @ 2025-02-13 19:24  记得关月亮  阅读(9)  评论(0)    收藏  举报