2021 年 9月 13 日随笔档案 - Hider1214

2021年9月13日

Python学习笔记：pandas.read_csv分块读取大文件(chunksize、iterator=True)

摘要：一、背景日常数据分析工作中，难免碰到数据量特别大的情况，动不动就2、3千万行，如果直接读进 Python 内存中，且不说内存够不够，读取的时间和后续的处理操作都很费劲。 Pandas 的 read_csv 函数提供2个参数：chunksize、iterator ，可实现按行多次读取文件，避免内存不阅读全文

posted @ 2021-09-13 17:48 Hider1214 阅读(23205) 评论(7) 推荐(4)

Python学习笔记：os.stat().st_size、os.path.getsize()获取文件大小

摘要：一、os.stat().st_size os.stat(filePath) 返回读取指定文件的相关属性，然后利用 stat 模块进行处理。 import os os.stat('data_feather_ys.feather') # os.stat_result(st_mode=33206, st_ 阅读全文

posted @ 2021-09-13 11:45 Hider1214 阅读(4363) 评论(0) 推荐(0)

Python学习笔记：高效数据格式feather（鸿毛）

摘要：一、背景日常使用 Python 读取数据时一般都是 json、csv、txt、xlsx 等格式，或者直接从数据库读取。针对大数据量一般存储为 csv 格式，但文件占用空间比较大，保存和加载速度也较慢。而 feather 便是一种速度更快、更加轻量级（压缩后）的二进制保存格式。二、feathe 阅读全文

posted @ 2021-09-13 11:31 Hider1214 阅读(15707) 评论(0) 推荐(0)

Hider1214

公告