摘要:
一、背景 日常数据分析工作中,难免碰到数据量特别大的情况,动不动就2、3千万行,如果直接读进 Python 内存中,且不说内存够不够,读取的时间和后续的处理操作都很费劲。 Pandas 的 read_csv 函数提供2个参数:chunksize、iterator ,可实现按行多次读取文件,避免内存不 阅读全文
posted @ 2021-09-13 17:48
Hider1214
阅读(23036)
评论(7)
推荐(4)
摘要:
一、os.stat().st_size os.stat(filePath) 返回读取指定文件的相关属性,然后利用 stat 模块进行处理。 import os os.stat('data_feather_ys.feather') # os.stat_result(st_mode=33206, st_ 阅读全文
posted @ 2021-09-13 11:45
Hider1214
阅读(4348)
评论(0)
推荐(0)
摘要:
一、背景 日常使用 Python 读取数据时一般都是 json、csv、txt、xlsx 等格式,或者直接从数据库读取。 针对大数据量一般存储为 csv 格式,但文件占用空间比较大,保存和加载速度也较慢。 而 feather 便是一种速度更快、更加轻量级(压缩后)的二进制保存格式。 二、feathe 阅读全文
posted @ 2021-09-13 11:31
Hider1214
阅读(15397)
评论(0)
推荐(0)

浙公网安备 33010602011771号