2025.1.13（周一）

选择Python学习大数据，因为它简单易学，并且有强大的数据分析库。最初的问题是，如何处理大型数据集，尤其是那些不能直接加载到内存中的数据。常见的处理方式是使用“批处理”，这时可以利用Pandas和Dask等工具进行内存外计算。

import pandas as pd

# 使用chunk_size逐块加载大型CSV文件
chunk_size = 100000  # 每次读取10万行
chunks = pd.read_csv('large_data.csv', chunksize=chunk_size)

# 处理每个数据块
for chunk in chunks:
    print(chunk.head())  # 打印每块的前5行数据

posted @ 2025-02-13 19:24 记得关月亮阅读(12) 评论(0) 收藏举报

刷新页面返回顶部

Sunyiran

2025.1.13（周一）

公告