2020 年 3月 10 日随笔档案 - 不带R的墨菲特

2020年3月10日

摘要： 1.先说下常规思路：写追加模式，第一次写入头header,第二次开始：header =None 2.后来想了下，还是不够灵敏：id列不够随意，就用生成器来yield，不断批量batch_size 内存生成就返回，避免Memory Error: d分两步：第一步：唯一id列：10w，sha256 阅读全文

posted @ 2020-03-10 22:25 不带R的墨菲特阅读(1060) 评论(0) 推荐(0)

pd.contact,dataframe 拼接

摘要： a=np.random.choice(10,(3,4)) b=np.random.choice((100,500),(3,4)) df1=pd.DataFrame(a,columns=["x1","x2","x3","x4"],index=["a","b","c"]) df2=pd.DataFram 阅读全文

posted @ 2020-03-10 20:30 不带R的墨菲特阅读(2167) 评论(0) 推荐(0)

numpy 随机

摘要： numpy中的random模块包含了很多方法可以用来产生随机数，这篇文章将对random中的一些常用方法做一个总结。 1、numpy.random.rand(d0, d1, ..., dn) 作用：产生一个给定形状的数组（其实应该是ndarray对象或者是一个单值），数组中的值服从[0, 1)之间的阅读全文

posted @ 2020-03-10 20:10 不带R的墨菲特阅读(286) 评论(0) 推荐(0)

numpy 随机种子

摘要： from numpy import random random.seed(1001) array=np.random.normal(0,1,(3,4)) # <class 'numpy.ndarray'> print(array) # [[-1.08644637 - 0.89606513 - 0.3 阅读全文

posted @ 2020-03-10 19:40 不带R的墨菲特阅读(1061) 评论(0) 推荐(0)

pandas loc和iloc

摘要：隐式定位：df.loc 获取前三行，第id,x0,x1列获取索引0，3行，以及"x0"到 "x10" 之间所有列显示定位：df.iloc 获取第一行第三行，索引1和索引3列（索引row,col都是0开始）：通过索引获取索引0到索引2的行，索引1到索引3的列：，左开右闭原则：阅读全文

posted @ 2020-03-10 18:57 不带R的墨菲特阅读(1009) 评论(0) 推荐(0)

pandas chunsize 以及chunk使用

摘要：这么大数据量，小的内存，还一定要用python/pandas的话可以考虑使用迭代器，在读取csv时指定参数data_iter = pd.read_csv(file_path, iterator=True),然后指定df = data_iter.get_chunk(n)将指定的n行数据加载到内存进行处阅读全文

posted @ 2020-03-10 18:35 不带R的墨菲特阅读(2317) 评论(1) 推荐(0)

pandas 修改单个或者多列的dtype

摘要：阅读全文

posted @ 2020-03-10 18:10 不带R的墨菲特阅读(516) 评论(0) 推荐(0)

pandas read_csv

摘要： header=[collumn1,collumn2,.........] # usecols 读取某一列或者某几列： import numpy as npdf4=pd.read_csv("./100rowsX15cols_host.csv",usecols=["id","x0"])print(pd. 阅读全文

posted @ 2020-03-10 17:55 不带R的墨菲特阅读(203) 评论(0) 推荐(0)

不带R的墨菲特

交流群796245415

公告