随笔分类 - pandas
摘要:介绍 Dask本质上由两部分构成:动态计算调度、集群管理,高级Dataframe api模块;类似于spark与pandas。Dask内部实现了分布式调度,无需用户自行编写复杂的调度逻辑和程序,通过简单的方法实现了分布式计算,支持部分模型并行处理(例如分部署算法:xgboost、LR、sklearn
阅读全文
摘要:Pandas 在一张图中绘制多条线 实现 也可以 实现二,序列形式
阅读全文
摘要:1. 如何实现把一个属性(列)拆分成多列,产生pivot,形成向量信息,计算相关性? 例: 转为: class_ 1 2 3 4 10timestamp 2019-01-20 13:23:01 1.0 NaN NaN NaN NaN2019-01-20 13:24:02 NaN NaN 2.0 Na
阅读全文
摘要:条件过滤 通过loc进行行过滤,也可对过滤后的行进行赋值 获取 name 为 yang 的 score 值: 获取 name 为 yang 的 score 值: 0 100Name: sorce, dtype: object query method来进行过滤查询 query method来进行过滤
阅读全文
摘要:Pandas 和 sqlalchemy 配合实现分页查询 Mysql 并获取总条数
阅读全文
摘要:Python Pandas 空值 pandas 判断指定列是否(全部)为NaN(空值) 判断某列是否有NaN 判断某列是否有NaN 判断是否全部为 NAN 判断是否全部为 NAN NAN值替换: 不能使用,apply 去判断类型;DataFrame中np.nan 和 None 同为 isnull 不
阅读全文
摘要:基本内容 Series: Series 是有一组数据(numpy的数据类型 numpy.ndarray)以及一组数据标签(即索引)组成,可以看成一个一个定长的有序字典(索引值到数据值的一个映射) Series 是有一组数据(numpy的数据类型 numpy.ndarray)以及一组数据标签(即索引)
阅读全文
摘要:基本统计 pivot_table(数据透视表 ): 使用appfunc, 按不同index分类统计各特征values的值 注: index: Pclass 字段对应的值进行分类 values:str or list,分类统计的特征,为字符串(一个特征)或者数组(多个特征) aggfunc:统计特征的
阅读全文

浙公网安备 33010602011771号