Python之如何读取数据
1 import pandas as pd 2 train = pd.read_csv('../input/train.csv') 3 train.head()
2.导入大量数据,datatable
import datatable as dt  train_datatable = dt.fread('../input/train.csv') #convert to a pandas dataframe train = train_datatable.to_pandas() train.head()
 
5.7G的数据,pandas读取大约2min,datatable大约45sec。提升明显。
3.数据转存为parquet格式,6G数据加载大约在1秒
Parquet:面向分析型业务的列式存储
parquet优势
1.只读取需要的数据
2.更高效的压缩编码
3.支持向量运算
Parquet 是语言无关的,而且不与任何一种数据处理框架绑定在一起,

%%time try: train = pd.read_parquet('dtrain.parquet') except: train = pd.read_csv('../input/jane-street-market-prediction/train.csv', index_col='ts_id') train = train.astype({c: np.float32 for c, t in train.dtypes.items() if t == np.float64}) train.to_parquet('train.parquet')  train.head()
4.使用python I/O写入csv
5.使用tensorflow读取csv
6.spark_dataframe
超大数据集(百G)
1.Vaex
Reference
1.晴天彩虹 https://www.cnblogs.com/panpanwelcome/p/10248990.html
2.WUST许志伟 https://www.cnblogs.com/cloud-ken/p/8432999.html
3.AI科技大本营
 
                    
                 
                
            
         浙公网安备 33010602011771号
浙公网安备 33010602011771号