随笔分类 - python
摘要:数据和内容是《Python数据分析与挖掘实战》第3章中内容--贡献度分析 讲解怎样在图形中添加注释 关于pandas中plot命令总结可以参照这篇文章:https://blog.csdn.net/u013084616/article/details/79064408
阅读全文
摘要:使用Python的pymysql库连接MySQL数据库 在数据库中创建数据表,用于写入数据。这里具体分为2步,第一步创建出数据表的SQL 语句,第二步使用execute()执行语句。 创建数据表后,开始写入数据 查看数据库 发现执行语句后,数据已经成功存入数据库中。
阅读全文
摘要:在《Python进行数据分析与挖掘实战》一书中,第10章 删除热水器不工作的数据(水流量为0并且开关机状态为“关”的数据。) 删除特定的列数据
阅读全文
摘要:目录 4.1 数据清洗 4.1.1 缺失值处理 4.1.2 异常值处理 4.2 数据集成 4.2.1 实体识别 4.2.2 冗余属性识别 4.3 数据变换 4.3.1 简单函数变换 4.3.2 规范化 4.3.3 连续属性离散化 4.3.4 属性构造 4.3.5 小波变换 4.4 数据规约 4..4
阅读全文
摘要:pandas使用浮点值NaN表示浮点和非浮点数组中的缺失数据。它只是一个便于被检测出来的标记而已: Python内置的None值也会被当做NA处理: NA处理方法 dropna 根据各标签的值中是否存在缺失数据对轴标签进行过滤,可通过阈值调节对缺失值的容忍度 fillna 用指定值或插值方法(如ff
阅读全文
摘要:7.1 背景与挖掘目标 客户分类,通过客户分类,区分无价值客户、高价值客户,将优先营销资源集中于高价值客户,实现企业利润最大化目标。 现在通过建立合理的客户价值评估模型,对客户进行分群,分析比较不同客户群的客户价值,并制定相应的营销策略,对不同的客户群提供个性化的客户服务是必须和有效的。(市场细分)
阅读全文
摘要:3.2 数据特征分析 3.2.1 分布分析 分布分析能解释数据的分布特征和分布类型。 定量数据,欲了解其分布形式是对称还是非对称的,发现某些特大或特小的可疑值,通过绘制频率分布表、绘制频率分布直方图、茎叶图进行直观分析; 定性数据,用饼图和条形直方图直观地显示分布情况。 3.2.2 对比分析 对比分
阅读全文
摘要:《Python数据分析与数据挖掘实战》 第3章节目录 3.1 数据质量分析 3.1.1 缺失值分析 3.1.2 异常值分析 3.1.3 一致性分析 3.2数据特征分析 3.2.1 分布分析 3.2.2 对比分析 3.2.3 统计量分析 3.2.4 周期性分析 3.2.5 贡献度分析 3.2.6 相关
阅读全文
摘要:透视表(pivot table)数据汇总分析工具。 根据一个或多个键对数据进行聚合,并根据行和列上的分组键将数据分配到各个矩形区域中。 1、在Python和pandas中,通过groupby功能以及重塑运算制作透视表 2、DataFrame有一个pivot_table 方法 3、顶级的pandas.
阅读全文
摘要:在Python3环境下 《利用Python进行数据分析》书中,在第9章节中,读取消费数据集,出现错误 发现是因为文件路径中有中文的存在,可以将文件路径修改为英文: 或者 两种改法都可以正常运行数据。
阅读全文
摘要:分组键可以有很多形式,且类型不必相同: 1、列表或数组,其长度与待分组的轴一样 2、表示DataFrame某个列名的值 3、字典或Series,给出待分组轴上的值与分组名之间的对应关系 4、函数,用于处理轴索引或索引中的各个标签 1、分组键为Series 1 df=DataFrame({'key1'
阅读全文
摘要:DataFrame中会出现重复行: 1、DataFrame的duplicated方法返回一个布尔型Series,表示各行是否是重复行 2、drop_duplicates方法,用于返回一个移除了重复行的DataFrame data=DataFrame({'k1':['one']*3+['two']*4
阅读全文
摘要:替换值 replace函数 1 data=Series([1,-999,2,-999,-1000,3]) 2 3 data 4 Out[34]: 5 0 1 6 1 -999 7 2 2 8 3 -999 9 4 -1000 10 5 3 11 dtype: int64 假设-999这个值可能表示缺
阅读全文
摘要:层次化索引是pandas的一项重要功能,它使你能在一个轴上拥有多个(两个以上)索引级别。 创建一个Series,并用一个由列表或数组组成的列表作为索引。 1 data=Series(np.random.randn(10), 2 index=[['a','a','a','b','b','b','c',
阅读全文
摘要:之前的所有范例都有着唯一的轴标签(索引值)。 下面就看看带有重复索引值的Series: 1 obj=Series(range(5),index=['a','a','b','b','c']) 2 3 obj 4 Out[33]: 5 a 0 6 a 1 7 b 2 8 b 3 9 c 4 10 dty
阅读全文
摘要:排序 要对行或列索引进行排序,可使用sort_index方法,它将返回一个已排序的新对象: Series 1、对Series索引排序 1 obj=Series(range(4),index=['d','a','b','c']) 2 3 obj.sort_index() 4 Out[18]: 5 a
阅读全文
摘要:数组转置和轴对换 转置是重塑的一种特殊形式,返回的是源数据的视图(不会进行任何复制操作)。数组不仅有transpose方法,还有一个特殊的T属性: 进行矩阵计算时,经常需要用到该操作,比如利用np.dot计算矩阵内积: 对于高维数组,transpose需要得到一个由轴编号组成的元组才能对这些轴进行转
阅读全文
摘要:一维数组的切片: 将一个标量值赋给一个切片时,该值会自动传播到整个选区。 跟列表最重要的区别在于,数组的切片是原始数组的视图。这意味着数据不会被复制,视图上的任何修改都会直接反映到源数组上。 arr_slice=arr[5:8] arr_slice Out[35]: array([12, 12, 1
阅读全文
摘要:数组很重要,不用编写循环就可对数据进行批量运算,这叫矢量化。 大小相等的数组之间的任何算术运算都会讲运算应用到元素级: arr=np.array([[1.,2.,3.],[4.,5.,6.]]) arr Out[23]: array([[1., 2., 3.], [4., 5., 6.]]) arr
阅读全文
摘要:dtype(数据类型)是一个特殊的对象,它含有ndarray将一块内存解释为特定数据类型所需的信息: import numpy as np arr1=np.array([1,2,3],dtype=np.float64) arr2=np.array([1,2,3],dtype=np.int32) ar
阅读全文

浙公网安备 33010602011771号