Python之如何读取数据

1.pandas直接读取数据

1 import pandas as pd
2 train = pd.read_csv('../input/train.csv')
3 train.head()

 

2.导入大量数据,datatable

import datatable as dt
​
train_datatable = dt.fread('../input/train.csv')
#convert to a pandas dataframe
train = train_datatable.to_pandas()
train.head()

 

 

5.7G的数据,pandas读取大约2min,datatable大约45sec。提升明显。

 

3.数据转存为parquet格式,6G数据加载大约在1秒

Parquet:面向分析型业务的列式存储 

 

parquet优势

1.只读取需要的数据

2.更高效的压缩编码

3.支持向量运算

 

Parquet 是语言无关的,而且不与任何一种数据处理框架绑定在一起,

 

 

 

%%time
try:
    train = pd.read_parquet('dtrain.parquet')
except:
    train = pd.read_csv('../input/jane-street-market-prediction/train.csv', index_col='ts_id')
    train = train.astype({c: np.float32 for c, t in train.dtypes.items() if t == np.float64})
    train.to_parquet('train.parquet')
​
train.head()

 

 

 

 

4.使用python I/O写入csv

 

5.使用tensorflow读取csv

 

6.spark_dataframe

 

超大数据集(百G)

1.Vaex

 

 

Reference

1.晴天彩虹 https://www.cnblogs.com/panpanwelcome/p/10248990.html

2.WUST许志伟 https://www.cnblogs.com/cloud-ken/p/8432999.html

3.AI科技大本营 https://mp.weixin.qq.com/s/6bN1jv80xgczQLUF60tlRQ

 

 

 

posted @ 2021-01-31 14:52  立木读数  阅读(343)  评论(0)    收藏  举报