摘要: 一、背景 日常数据分析工作中,难免碰到数据量特别大的情况,动不动就2、3千万行,如果直接读进 Python 内存中,且不说内存够不够,读取的时间和后续的处理操作都很费劲。 Pandas 的 read_csv 函数提供2个参数:chunksize、iterator ,可实现按行多次读取文件,避免内存不 阅读全文
posted @ 2021-09-13 17:48 Hider1214 阅读(23036) 评论(7) 推荐(4)
摘要: 一、os.stat().st_size os.stat(filePath) 返回读取指定文件的相关属性,然后利用 stat 模块进行处理。 import os os.stat('data_feather_ys.feather') # os.stat_result(st_mode=33206, st_ 阅读全文
posted @ 2021-09-13 11:45 Hider1214 阅读(4348) 评论(0) 推荐(0)
摘要: 一、背景 日常使用 Python 读取数据时一般都是 json、csv、txt、xlsx 等格式,或者直接从数据库读取。 针对大数据量一般存储为 csv 格式,但文件占用空间比较大,保存和加载速度也较慢。 而 feather 便是一种速度更快、更加轻量级(压缩后)的二进制保存格式。 二、feathe 阅读全文
posted @ 2021-09-13 11:31 Hider1214 阅读(15397) 评论(0) 推荐(0)