oklizz_aliyun - 博客园

2019年11月13日

摘要：项目一: 数据库索引：索引设计规则： 1. App上方提示 2. 数据实时数据：事务事务的四个属性：ACID原子性，一致性，隔离性，持久性原子性（Atomicity）：事务作为一个整体被执行，包含在其中的对数据库的操作要么全部被执行，要么都不执行。一致性（Consistency）：事务应确保阅读全文

posted @ 2019-11-13 20:40 oklizz_aliyun 阅读(308) 评论(0) 推荐(0)

2019年11月6日

pandas一些其他函数

摘要： df.sort_index() df.idxmax(0) 最大值的索引，参数有轴 df.cumsum() 累和 s.unique() 不重复的所有的值 s.nunique() 不重复的值得数量 s.drop_duplicates() 去重 df.groupby(["key1","key2"]).si 阅读全文

posted @ 2019-11-06 15:05 oklizz_aliyun 阅读(150) 评论(0) 推荐(0)

Pandas中的map(), apply()和applymap()

摘要：它们的区别在于应用的对象不同。 1、map（） map() 是一个Series的函数，DataFrame结构中没有map()。map()将一个自定义函数应用于Series结构中的每个元素(elements)。例子：我们现在用map来对列data1改成保留小数点后三位: 你也可以用map把key1 阅读全文

posted @ 2019-11-06 11:43 oklizz_aliyun 阅读(1605) 评论(0) 推荐(0)

2019年10月30日

Pandas速查手册中文版

摘要：本文翻译自文章： "Pandas Cheat Sheet Python for Data Science" ，同时添加了部分注解。 "pandas官方文档" "十分钟入门Pandas" 关键缩写和包导入在这个速查手册中，我们使用如下缩写： df：任意的Pandas DataFrame对象 s：任意阅读全文

posted @ 2019-10-30 18:30 oklizz_aliyun 阅读(4269) 评论(0) 推荐(0)

2019年9月15日

点线

摘要：侧边栏阅读全文

posted @ 2019-09-15 11:29 oklizz_aliyun 阅读(365) 评论(0) 推荐(0)

2019年9月10日

Pandas分组与聚合·

摘要： DataFrame.groupby(key, as_index=False) key:分组的列数据，可以多个案例:不同颜色的不同笔的价格数据阅读全文

posted @ 2019-09-10 16:24 oklizz_aliyun 阅读(1574) 评论(0) 推荐(0)

2019年9月9日

12306抢票

摘要： 12306 项目传送门： py12306 项目传送门阅读全文

posted @ 2019-09-09 21:33 oklizz_aliyun 阅读(148) 评论(0) 推荐(0)

交叉表与透视变

摘要：交叉表与透视表什么作用分析两个离散值值间得相关性探究股票的涨跌与星期几有关？以下图当中表示，week代表星期几，1,0代表这一天股票的涨跌幅是好还是坏，里面的数据代表比例可以理解为所有时间为星期一等等的数据当中涨跌幅好坏的比例使用crosstab(交叉表)实现上图交叉表：用于计算一列数阅读全文

posted @ 2019-09-09 20:52 oklizz_aliyun 阅读(431) 评论(0) 推荐(0)

Pandas合并

摘要： pd.concat实现数据合并 pd.concat([data1, data2], axis=1) 按照行或列进行合并axis=0为列索引，axis=1为行索引 pd.merge pd.merge(left, right, how='inner', on=None, left_on=None, ri 阅读全文

posted @ 2019-09-09 20:11 oklizz_aliyun 阅读(573) 评论(0) 推荐(0)

one-hot编码/哑编码/独热编码

摘要： one hot编码把每个类别生成一个布尔列，这些列中只有一列可以为这个样本取值为1.其又被称为独热编码。把下图中左边的表格转化为使用右边形式进行表示：要把类别变成可用于数值计算的值加入非线性距离信息得到很好的转换距离相等 pandas.get_dummies(data, prefix=N 阅读全文

posted @ 2019-09-09 19:56 oklizz_aliyun 阅读(425) 评论(0) 推荐(0)

Pandas数据离散化

摘要：为什么要离散化连续属性离散化的目的是为了简化数据结构，数据离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据挖掘的工具扔掉一些信息,可以让模型更健壮,泛化能力更强什么是数据的离散化连续属性的离散化就是在连续属性的值域上，将值域划分为若干个离散的区间，最后用不同的符号或整数值阅读全文

posted @ 2019-09-09 19:22 oklizz_aliyun 阅读(1064) 评论(0) 推荐(0)

Pandas缺失值处理

摘要：判断数据是否为NaN：判断缺失值是否存在处理方式：存在缺失值nan,并且是np.nan: 1、删除缺失值:dropna(axis='rows') 注：不会修改原数据，需要接受返回值 2、替换缺失值:fillna(value, inplace=True) value:替换成的值 inplace: 阅读全文

posted @ 2019-09-09 18:44 oklizz_aliyun 阅读(362) 评论(0) 推荐(0)

2019年9月8日

文件读取与存储

摘要： pandas的API支持众多的文件格式，如CSV、SQL、XLS、JSON、HDF5。 CSV pandas.read_csv(filepath_or_buffer, sep =',' ) filepath_or_buffer:文件路径 usecols:指定读取的列名，列表形式 sep 分割字符默阅读全文

posted @ 2019-09-08 21:46 oklizz_aliyun 阅读(489) 评论(0) 推荐(0)

DataFrame运算

摘要：算术运算加法—series对象.add(值) 减法—series对象.sub(值/对象) 逻辑运算符号、|、 & 1. 逻辑运算符号、|、 &—等价于sql中的where语句等价于numpy的逻辑运算返回的是布尔类型的对象(series/df) 2. 逻辑运算函数 df.query()—相当于阅读全文

posted @ 2019-09-08 21:43 oklizz_aliyun 阅读(1791) 评论(0) 推荐(0)

Pandas结构

摘要： DataFrame结构 DataFrame对象既有行索引，又有列索引行索引，表明不同行，横向索引，叫index，0轴，axis=0 列索引，表名不同列，纵向索引，叫columns，1轴，axis=1 DatatFrame的属性 shape df.shape—形状 df.index 行索引 df.c 阅读全文

posted @ 2019-09-08 20:22 oklizz_aliyun 阅读(458) 评论(0) 推荐(0)

今天最重要的事做了多少？

人到这个世界上来不是为了工作，是为了生活，是为了体验，交一些朋友，做一些事情。

公告