python - 随笔分类 - 平淡才是真~~

图形中添加注释

摘要：数据和内容是《Python数据分析与挖掘实战》第3章中内容--贡献度分析讲解怎样在图形中添加注释关于pandas中plot命令总结可以参照这篇文章：https://blog.csdn.net/u013084616/article/details/79064408 阅读全文

posted @ 2018-10-11 10:57 平淡才是真~~ 阅读(1407) 评论(0) 推荐(0)

Python操作MySQL实战案例讲解

摘要：使用Python的pymysql库连接MySQL数据库在数据库中创建数据表，用于写入数据。这里具体分为2步，第一步创建出数据表的SQL 语句，第二步使用execute()执行语句。创建数据表后，开始写入数据查看数据库发现执行语句后，数据已经成功存入数据库中。阅读全文

posted @ 2018-09-12 18:12 平淡才是真~~ 阅读(1882) 评论(0) 推荐(0)

删除DataFrame中特定条件的行/列

摘要：在《Python进行数据分析与挖掘实战》一书中，第10章删除热水器不工作的数据（水流量为0并且开关机状态为“关”的数据。）删除特定的列数据阅读全文

posted @ 2018-08-16 15:52 平淡才是真~~ 阅读(24358) 评论(0) 推荐(0)

第4章数据预处理

摘要：目录 4.1 数据清洗 4.1.1 缺失值处理 4.1.2 异常值处理 4.2 数据集成 4.2.1 实体识别 4.2.2 冗余属性识别 4.3 数据变换 4.3.1 简单函数变换 4.3.2 规范化 4.3.3 连续属性离散化 4.3.4 属性构造 4.3.5 小波变换 4.4 数据规约 4..4 阅读全文

posted @ 2018-08-06 18:10 平淡才是真~~ 阅读(1648) 评论(0) 推荐(0)

处理缺失数据

摘要：pandas使用浮点值NaN表示浮点和非浮点数组中的缺失数据。它只是一个便于被检测出来的标记而已： Python内置的None值也会被当做NA处理： NA处理方法 dropna 根据各标签的值中是否存在缺失数据对轴标签进行过滤，可通过阈值调节对缺失值的容忍度 fillna 用指定值或插值方法（如ff 阅读全文

posted @ 2018-08-06 18:09 平淡才是真~~ 阅读(619) 评论(0) 推荐(0)

第7章航空公司客户价值分析

摘要：7.1 背景与挖掘目标客户分类，通过客户分类，区分无价值客户、高价值客户，将优先营销资源集中于高价值客户，实现企业利润最大化目标。现在通过建立合理的客户价值评估模型，对客户进行分群，分析比较不同客户群的客户价值，并制定相应的营销策略，对不同的客户群提供个性化的客户服务是必须和有效的。（市场细分）阅读全文

posted @ 2018-08-02 17:36 平淡才是真~~ 阅读(5418) 评论(0) 推荐(0)

第3章、数据探索之二

摘要：3.2 数据特征分析 3.2.1 分布分析分布分析能解释数据的分布特征和分布类型。定量数据，欲了解其分布形式是对称还是非对称的，发现某些特大或特小的可疑值，通过绘制频率分布表、绘制频率分布直方图、茎叶图进行直观分析；定性数据，用饼图和条形直方图直观地显示分布情况。 3.2.2 对比分析对比分阅读全文

posted @ 2018-07-30 18:17 平淡才是真~~ 阅读(539) 评论(0) 推荐(0)

第3章--数据探索之一

摘要：《Python数据分析与数据挖掘实战》第3章节目录 3.1 数据质量分析 3.1.1 缺失值分析 3.1.2 异常值分析 3.1.3 一致性分析 3.2数据特征分析 3.2.1 分布分析 3.2.2 对比分析 3.2.3 统计量分析 3.2.4 周期性分析 3.2.5 贡献度分析 3.2.6 相关阅读全文

posted @ 2018-07-30 18:17 平淡才是真~~ 阅读(436) 评论(0) 推荐(0)

透视表与交叉表

摘要：透视表（pivot table）数据汇总分析工具。根据一个或多个键对数据进行聚合，并根据行和列上的分组键将数据分配到各个矩形区域中。 1、在Python和pandas中，通过groupby功能以及重塑运算制作透视表 2、DataFrame有一个pivot_table 方法 3、顶级的pandas. 阅读全文

posted @ 2018-07-26 18:03 平淡才是真~~ 阅读(3437) 评论(0) 推荐(0)

！！！读取文件出错

摘要：在Python3环境下《利用Python进行数据分析》书中，在第9章节中，读取消费数据集，出现错误发现是因为文件路径中有中文的存在，可以将文件路径修改为英文：或者两种改法都可以正常运行数据。阅读全文

posted @ 2018-07-25 16:27 平淡才是真~~ 阅读(556) 评论(0) 推荐(0)

groupby 技术

摘要：分组键可以有很多形式，且类型不必相同： 1、列表或数组，其长度与待分组的轴一样 2、表示DataFrame某个列名的值 3、字典或Series，给出待分组轴上的值与分组名之间的对应关系 4、函数，用于处理轴索引或索引中的各个标签 1、分组键为Series 1 df=DataFrame({'key1' 阅读全文

posted @ 2018-07-24 15:19 平淡才是真~~ 阅读(2381) 评论(0) 推荐(0)

数据转换—删除重复数据

摘要：DataFrame中会出现重复行： 1、DataFrame的duplicated方法返回一个布尔型Series，表示各行是否是重复行 2、drop_duplicates方法，用于返回一个移除了重复行的DataFrame data=DataFrame({'k1':['one']*3+['two']*4 阅读全文

posted @ 2018-07-23 10:19 平淡才是真~~ 阅读(455) 评论(0) 推荐(0)

数据转换--替换值（replace函数）

摘要：替换值 replace函数 1 data=Series([1,-999,2,-999,-1000,3]) 2 3 data 4 Out[34]: 5 0 1 6 1 -999 7 2 2 8 3 -999 9 4 -1000 10 5 3 11 dtype: int64 假设-999这个值可能表示缺阅读全文

posted @ 2018-07-23 10:16 平淡才是真~~ 阅读(4176) 评论(0) 推荐(0)

pandas--层次化索引

摘要：层次化索引是pandas的一项重要功能，它使你能在一个轴上拥有多个（两个以上）索引级别。创建一个Series，并用一个由列表或数组组成的列表作为索引。 1 data=Series(np.random.randn(10), 2 index=[['a','a','a','b','b','b','c', 阅读全文

posted @ 2018-07-18 16:17 平淡才是真~~ 阅读(4255) 评论(0) 推荐(0)

pandas--带有重复值的轴索引

摘要：之前的所有范例都有着唯一的轴标签（索引值）。下面就看看带有重复索引值的Series： 1 obj=Series(range(5),index=['a','a','b','b','c']) 2 3 obj 4 Out[33]: 5 a 0 6 a 1 7 b 2 8 b 3 9 c 4 10 dty 阅读全文

posted @ 2018-07-18 16:02 平淡才是真~~ 阅读(2003) 评论(0) 推荐(0)

pandas--排序和排名

摘要：排序要对行或列索引进行排序，可使用sort_index方法，它将返回一个已排序的新对象： Series 1、对Series索引排序 1 obj=Series(range(4),index=['d','a','b','c']) 2 3 obj.sort_index() 4 Out[18]: 5 a 阅读全文

posted @ 2018-07-18 15:59 平淡才是真~~ 阅读(909) 评论(0) 推荐(0)

读书笔记五--numpy

摘要：数组转置和轴对换转置是重塑的一种特殊形式，返回的是源数据的视图（不会进行任何复制操作）。数组不仅有transpose方法，还有一个特殊的T属性：进行矩阵计算时，经常需要用到该操作，比如利用np.dot计算矩阵内积：对于高维数组，transpose需要得到一个由轴编号组成的元组才能对这些轴进行转阅读全文

posted @ 2018-07-13 16:57 平淡才是真~~ 阅读(209) 评论(0) 推荐(0)

读书笔记四、基本的索引和切片

摘要：一维数组的切片：将一个标量值赋给一个切片时，该值会自动传播到整个选区。跟列表最重要的区别在于，数组的切片是原始数组的视图。这意味着数据不会被复制，视图上的任何修改都会直接反映到源数组上。 arr_slice=arr[5:8] arr_slice Out[35]: array([12, 12, 1 阅读全文

posted @ 2018-07-13 16:36 平淡才是真~~ 阅读(439) 评论(0) 推荐(0)

读书笔记三、数组和标量之间的运算

摘要：数组很重要，不用编写循环就可对数据进行批量运算，这叫矢量化。大小相等的数组之间的任何算术运算都会讲运算应用到元素级： arr=np.array([[1.,2.,3.],[4.,5.,6.]]) arr Out[23]: array([[1., 2., 3.], [4., 5., 6.]]) arr 阅读全文

posted @ 2018-07-12 14:49 平淡才是真~~ 阅读(330) 评论(0) 推荐(0)

读书笔记二、ndarray的数据类型

摘要：dtype(数据类型)是一个特殊的对象，它含有ndarray将一块内存解释为特定数据类型所需的信息： import numpy as np arr1=np.array([1,2,3],dtype=np.float64) arr2=np.array([1,2,3],dtype=np.int32) ar 阅读全文

posted @ 2018-07-12 14:47 平淡才是真~~ 阅读(504) 评论(0) 推荐(0)

平淡才是真~~

随笔分类 - python

公告