摘要:
1.先说下常规思路: 写追加模式,第一次写入头header,第二次开始:header =None 2.后来想了下,还是不够灵敏:id列不够随意,就用生成器来yield,不断批量batch_size 内存生成就返回,避免Memory Error: d分两步: 第一步: 唯一id列:10w,sha256 阅读全文
posted @ 2020-03-10 22:25
不带R的墨菲特
阅读(1052)
评论(0)
推荐(0)
摘要:
a=np.random.choice(10,(3,4)) b=np.random.choice((100,500),(3,4)) df1=pd.DataFrame(a,columns=["x1","x2","x3","x4"],index=["a","b","c"]) df2=pd.DataFram 阅读全文
posted @ 2020-03-10 20:30
不带R的墨菲特
阅读(2162)
评论(0)
推荐(0)
摘要:
numpy中的random模块包含了很多方法可以用来产生随机数,这篇文章将对random中的一些常用方法做一个总结。 1、numpy.random.rand(d0, d1, ..., dn) 作用:产生一个给定形状的数组(其实应该是ndarray对象或者是一个单值),数组中的值服从[0, 1)之间的 阅读全文
posted @ 2020-03-10 20:10
不带R的墨菲特
阅读(284)
评论(0)
推荐(0)
摘要:
from numpy import random random.seed(1001) array=np.random.normal(0,1,(3,4)) # <class 'numpy.ndarray'> print(array) # [[-1.08644637 - 0.89606513 - 0.3 阅读全文
posted @ 2020-03-10 19:40
不带R的墨菲特
阅读(1059)
评论(0)
推荐(0)
摘要:
隐式定位:df.loc 获取前三行,第id,x0,x1列 获取索引0,3行,以及"x0"到 "x10" 之间所有列 显示定位:df.iloc 获取第一行第三行,索引1和索引3列(索引row,col都是0开始): 通过索引获取索引0到索引2的行,索引1到索引3的列:,左开右闭原则: 阅读全文
posted @ 2020-03-10 18:57
不带R的墨菲特
阅读(1007)
评论(0)
推荐(0)
摘要:
这么大数据量,小的内存,还一定要用python/pandas的话可以考虑使用迭代器,在读取csv时指定参数data_iter = pd.read_csv(file_path, iterator=True),然后指定df = data_iter.get_chunk(n)将指定的n行数据加载到内存进行处 阅读全文
posted @ 2020-03-10 18:35
不带R的墨菲特
阅读(2309)
评论(1)
推荐(0)
摘要:
阅读全文
posted @ 2020-03-10 18:10
不带R的墨菲特
阅读(514)
评论(0)
推荐(0)
摘要:
header=[collumn1,collumn2,.........] # usecols 读取某一列或者某几列: import numpy as npdf4=pd.read_csv("./100rowsX15cols_host.csv",usecols=["id","x0"])print(pd. 阅读全文
posted @ 2020-03-10 17:55
不带R的墨菲特
阅读(202)
评论(0)
推荐(0)