Python之如何读取数据

1.pandas直接读取数据

1 import pandas as pd
2 train = pd.read_csv('../input/train.csv')
3 train.head()

2.导入大量数据，datatable

import datatable as dt

train_datatable = dt.fread('../input/train.csv')
#convert to a pandas dataframe
train = train_datatable.to_pandas()
train.head()

5.7G的数据，pandas读取大约2min，datatable大约45sec。提升明显。

3.数据转存为parquet格式，6G数据加载大约在1秒

Parquet：面向分析型业务的列式存储

parquet优势

1.只读取需要的数据

2.更高效的压缩编码

3.支持向量运算

Parquet 是语言无关的，而且不与任何一种数据处理框架绑定在一起，

%%time
try:
    train = pd.read_parquet('dtrain.parquet')
except:
    train = pd.read_csv('../input/jane-street-market-prediction/train.csv', index_col='ts_id')
    train = train.astype({c: np.float32 for c, t in train.dtypes.items() if t == np.float64})
    train.to_parquet('train.parquet')

train.head()

4.使用python I/O写入csv

5.使用tensorflow读取csv

6.spark_dataframe

超大数据集（百G）

1.Vaex

Reference

1.晴天彩虹 https://www.cnblogs.com/panpanwelcome/p/10248990.html

2.WUST许志伟 https://www.cnblogs.com/cloud-ken/p/8432999.html

3.AI科技大本营 https://mp.weixin.qq.com/s/6bN1jv80xgczQLUF60tlRQ

posted @ 2021-01-31 14:52 立木读数阅读(343) 评论(0) 收藏举报

刷新页面返回顶部

Python之如何读取数据

1.pandas直接读取数据

2.导入大量数据，datatable

3.数据转存为parquet格式，6G数据加载大约在1秒

公告