2025.1.13(周一)
选择Python学习大数据,因为它简单易学,并且有强大的数据分析库。最初的问题是,如何处理大型数据集,尤其是那些不能直接加载到内存中的数据。常见的处理方式是使用“批处理”,这时可以利用Pandas
和Dask
等工具进行内存外计算。
import pandas as pd # 使用chunk_size逐块加载大型CSV文件 chunk_size = 100000 # 每次读取10万行 chunks = pd.read_csv('large_data.csv', chunksize=chunk_size) # 处理每个数据块 for chunk in chunks: print(chunk.head()) # 打印每块的前5行数据