上一页 1 2 3 4 5 6 7 ··· 12 下一页
摘要: 项目一: 数据库索引: 索引设计规则: 1. App上方提示 2. 数据实时数据:事务 事务的四个属性:ACID原子性,一致性,隔离性,持久性 原子性(Atomicity):事务作为一个整体被执行,包含在其中的对数据库的操作要么全部被执行,要么都不执行。 一致性(Consistency):事务应确保 阅读全文
posted @ 2019-11-13 20:40 oklizz_aliyun 阅读(305) 评论(0) 推荐(0)
摘要: df.sort_index() df.idxmax(0) 最大值的索引,参数有轴 df.cumsum() 累和 s.unique() 不重复的所有的值 s.nunique() 不重复的值得数量 s.drop_duplicates() 去重 df.groupby(["key1","key2"]).si 阅读全文
posted @ 2019-11-06 15:05 oklizz_aliyun 阅读(149) 评论(0) 推荐(0)
摘要: 它们的区别在于应用的对象不同。 1、map() map() 是一个Series的函数,DataFrame结构中没有map()。map()将一个自定义函数应用于Series结构中的每个元素(elements)。 例子: 我们现在用map来对列data1改成保留小数点后三位: 你也可以用map把key1 阅读全文
posted @ 2019-11-06 11:43 oklizz_aliyun 阅读(1591) 评论(0) 推荐(0)
摘要: 本文翻译自文章: "Pandas Cheat Sheet Python for Data Science" ,同时添加了部分注解。 "pandas官方文档" "十分钟入门Pandas" 关键缩写和包导入 在这个速查手册中,我们使用如下缩写: df:任意的Pandas DataFrame对象 s:任意 阅读全文
posted @ 2019-10-30 18:30 oklizz_aliyun 阅读(4238) 评论(0) 推荐(0)
摘要: 侧边栏 阅读全文
posted @ 2019-09-15 11:29 oklizz_aliyun 阅读(362) 评论(0) 推荐(0)
摘要: DataFrame.groupby(key, as_index=False) key:分组的列数据,可以多个 案例:不同颜色的不同笔的价格数据 阅读全文
posted @ 2019-09-10 16:24 oklizz_aliyun 阅读(1571) 评论(0) 推荐(0)
摘要: 12306 项目传送门: py12306 项目传送门 阅读全文
posted @ 2019-09-09 21:33 oklizz_aliyun 阅读(144) 评论(0) 推荐(0)
摘要: 交叉表与透视表什么作用 分析两个离散值值间得相关性 探究股票的涨跌与星期几有关? 以下图当中表示,week代表星期几,1,0代表这一天股票的涨跌幅是好还是坏,里面的数据代表比例 可以理解为所有时间为星期一等等的数据当中涨跌幅好坏的比例 使用crosstab(交叉表)实现上图 交叉表: 用于计算一列数 阅读全文
posted @ 2019-09-09 20:52 oklizz_aliyun 阅读(411) 评论(0) 推荐(0)
摘要: pd.concat实现数据合并 pd.concat([data1, data2], axis=1) 按照行或列进行合并axis=0为列索引,axis=1为行索引 pd.merge pd.merge(left, right, how='inner', on=None, left_on=None, ri 阅读全文
posted @ 2019-09-09 20:11 oklizz_aliyun 阅读(570) 评论(0) 推荐(0)
摘要: one hot编码 把每个类别生成一个布尔列,这些列中只有一列可以为这个样本取值为1.其又被称为独热编码。 把下图中左边的表格转化为使用右边形式进行表示: 要把类别变成可用于数值计算的值 加入非线性 距离信息得到很好的转换 距离相等 pandas.get_dummies(data, prefix=N 阅读全文
posted @ 2019-09-09 19:56 oklizz_aliyun 阅读(418) 评论(0) 推荐(0)
摘要: 为什么要离散化 连续属性离散化的目的是为了简化数据结构,数据离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据挖掘的工具 扔掉一些信息,可以让模型更健壮,泛化能力更强 什么是数据的离散化 连续属性的离散化就是在连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数 值 阅读全文
posted @ 2019-09-09 19:22 oklizz_aliyun 阅读(1055) 评论(0) 推荐(0)
摘要: 判断数据是否为NaN: 判断缺失值是否存在 处理方式: 存在缺失值nan,并且是np.nan: 1、删除缺失值:dropna(axis='rows') 注:不会修改原数据,需要接受返回值 2、替换缺失值:fillna(value, inplace=True) value:替换成的值 inplace: 阅读全文
posted @ 2019-09-09 18:44 oklizz_aliyun 阅读(357) 评论(0) 推荐(0)
摘要: pandas的API支持众多的文件格式,如CSV、SQL、XLS、JSON、HDF5。 CSV pandas.read_csv(filepath_or_buffer, sep =',' ) filepath_or_buffer:文件路径 usecols:指定读取的列名,列表形式 sep 分割字符 默 阅读全文
posted @ 2019-09-08 21:46 oklizz_aliyun 阅读(484) 评论(0) 推荐(0)
摘要: 算术运算 加法—series对象.add(值) 减法—series对象.sub(值/对象) 逻辑运算符号、|、 & 1. 逻辑运算符号、|、 &—等价于sql中的where语句 等价于numpy的逻辑运算 返回的是布尔类型的对象(series/df) 2. 逻辑运算函数 df.query()—相当于 阅读全文
posted @ 2019-09-08 21:43 oklizz_aliyun 阅读(1787) 评论(0) 推荐(0)
摘要: DataFrame结构 DataFrame对象既有行索引,又有列索引 行索引,表明不同行,横向索引,叫index,0轴,axis=0 列索引,表名不同列,纵向索引,叫columns,1轴,axis=1 DatatFrame的属性 shape df.shape—形状 df.index 行索引 df.c 阅读全文
posted @ 2019-09-08 20:22 oklizz_aliyun 阅读(452) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 ··· 12 下一页