随笔档案「2018年7月」 - 平淡才是真~~

《统计学》第2章用图表展示数据

摘要：2.1 用图表表示定性数据 1、频数分布表对数据进行分类，列出所有的类别，然后统计每一类别的频数。频数：频数分布表中落在某一特定类别的数据个数叫做频数。有两个变量交叉分类的频数分布表称为列联表，也称交叉表。定性数据，除了用频数分布表，还可以使用比例、百分比、比率等统计量进行描述。比例：一个阅读全文

posted @ 2018-07-30 18:20 平淡才是真~~ 阅读(4826) 评论(0) 推荐(0)

《精益数据分析》笔记--第5章数据分析框架

摘要：1、戴夫.麦克卢尔的海盗指标说麦克卢尔将创业公司最需要关注的指标分为五大类： 1）获取用户Acquisition 2）提高活跃度 Activation 3）提高留存率 Retention 4）获取营收 Revenue 5）自传播 Referral 这一模型，描述了用户/客户/访客须经历的五个环节阅读全文

posted @ 2018-07-30 18:18 平淡才是真~~ 阅读(683) 评论(0) 推荐(0)

第3章、数据探索之二

摘要：3.2 数据特征分析 3.2.1 分布分析分布分析能解释数据的分布特征和分布类型。定量数据，欲了解其分布形式是对称还是非对称的，发现某些特大或特小的可疑值，通过绘制频率分布表、绘制频率分布直方图、茎叶图进行直观分析；定性数据，用饼图和条形直方图直观地显示分布情况。 3.2.2 对比分析对比分阅读全文

posted @ 2018-07-30 18:17 平淡才是真~~ 阅读(539) 评论(0) 推荐(0)

第3章--数据探索之一

摘要：《Python数据分析与数据挖掘实战》第3章节目录 3.1 数据质量分析 3.1.1 缺失值分析 3.1.2 异常值分析 3.1.3 一致性分析 3.2数据特征分析 3.2.1 分布分析 3.2.2 对比分析 3.2.3 统计量分析 3.2.4 周期性分析 3.2.5 贡献度分析 3.2.6 相关阅读全文

posted @ 2018-07-30 18:17 平淡才是真~~ 阅读(436) 评论(0) 推荐(0)

《精益数据分析》笔记--最小可行化产品

摘要：笔记--第1章 1、最小可行化产品指足以向市场传达你所主张的价值的最小化产品。但定义中并未对产品的真实程度做出要求。 2、专人接待式最小可行化产品如，正在考虑创建一种拼车服务，则可以试着用人工牵线搭桥这种原始方式将司机和乘客联系在一起，而并不是考虑是否能开发出一款配对司机与乘客的应用软件。这是阅读全文

posted @ 2018-07-26 18:14 平淡才是真~~ 阅读(739) 评论(0) 推荐(0)

透视表与交叉表

摘要：透视表（pivot table）数据汇总分析工具。根据一个或多个键对数据进行聚合，并根据行和列上的分组键将数据分配到各个矩形区域中。 1、在Python和pandas中，通过groupby功能以及重塑运算制作透视表 2、DataFrame有一个pivot_table 方法 3、顶级的pandas. 阅读全文

posted @ 2018-07-26 18:03 平淡才是真~~ 阅读(3437) 评论(0) 推荐(0)

！！！读取文件出错

摘要：在Python3环境下《利用Python进行数据分析》书中，在第9章节中，读取消费数据集，出现错误发现是因为文件路径中有中文的存在，可以将文件路径修改为英文：或者两种改法都可以正常运行数据。阅读全文

posted @ 2018-07-25 16:27 平淡才是真~~ 阅读(557) 评论(0) 推荐(0)

groupby 技术

摘要：分组键可以有很多形式，且类型不必相同： 1、列表或数组，其长度与待分组的轴一样 2、表示DataFrame某个列名的值 3、字典或Series，给出待分组轴上的值与分组名之间的对应关系 4、函数，用于处理轴索引或索引中的各个标签 1、分组键为Series 1 df=DataFrame({'key1' 阅读全文

posted @ 2018-07-24 15:19 平淡才是真~~ 阅读(2382) 评论(0) 推荐(0)

数据转换—删除重复数据

摘要：DataFrame中会出现重复行： 1、DataFrame的duplicated方法返回一个布尔型Series，表示各行是否是重复行 2、drop_duplicates方法，用于返回一个移除了重复行的DataFrame data=DataFrame({'k1':['one']*3+['two']*4 阅读全文

posted @ 2018-07-23 10:19 平淡才是真~~ 阅读(455) 评论(0) 推荐(0)

数据转换--替换值（replace函数）

摘要：替换值 replace函数 1 data=Series([1,-999,2,-999,-1000,3]) 2 3 data 4 Out[34]: 5 0 1 6 1 -999 7 2 2 8 3 -999 9 4 -1000 10 5 3 11 dtype: int64 假设-999这个值可能表示缺阅读全文

posted @ 2018-07-23 10:16 平淡才是真~~ 阅读(4176) 评论(0) 推荐(0)

pandas--层次化索引

摘要：层次化索引是pandas的一项重要功能，它使你能在一个轴上拥有多个（两个以上）索引级别。创建一个Series，并用一个由列表或数组组成的列表作为索引。 1 data=Series(np.random.randn(10), 2 index=[['a','a','a','b','b','b','c', 阅读全文

posted @ 2018-07-18 16:17 平淡才是真~~ 阅读(4255) 评论(0) 推荐(0)

pandas--带有重复值的轴索引

摘要：之前的所有范例都有着唯一的轴标签（索引值）。下面就看看带有重复索引值的Series： 1 obj=Series(range(5),index=['a','a','b','b','c']) 2 3 obj 4 Out[33]: 5 a 0 6 a 1 7 b 2 8 b 3 9 c 4 10 dty 阅读全文

posted @ 2018-07-18 16:02 平淡才是真~~ 阅读(2003) 评论(0) 推荐(0)

pandas--排序和排名

摘要：排序要对行或列索引进行排序，可使用sort_index方法，它将返回一个已排序的新对象： Series 1、对Series索引排序 1 obj=Series(range(4),index=['d','a','b','c']) 2 3 obj.sort_index() 4 Out[18]: 5 a 阅读全文

posted @ 2018-07-18 15:59 平淡才是真~~ 阅读(911) 评论(0) 推荐(0)

读书笔记五--numpy

摘要：数组转置和轴对换转置是重塑的一种特殊形式，返回的是源数据的视图（不会进行任何复制操作）。数组不仅有transpose方法，还有一个特殊的T属性：进行矩阵计算时，经常需要用到该操作，比如利用np.dot计算矩阵内积：对于高维数组，transpose需要得到一个由轴编号组成的元组才能对这些轴进行转阅读全文

posted @ 2018-07-13 16:57 平淡才是真~~ 阅读(210) 评论(0) 推荐(0)

读书笔记四、基本的索引和切片

摘要：一维数组的切片：将一个标量值赋给一个切片时，该值会自动传播到整个选区。跟列表最重要的区别在于，数组的切片是原始数组的视图。这意味着数据不会被复制，视图上的任何修改都会直接反映到源数组上。 arr_slice=arr[5:8] arr_slice Out[35]: array([12, 12, 1 阅读全文

posted @ 2018-07-13 16:36 平淡才是真~~ 阅读(439) 评论(0) 推荐(0)

读书笔记三、数组和标量之间的运算

摘要：数组很重要，不用编写循环就可对数据进行批量运算，这叫矢量化。大小相等的数组之间的任何算术运算都会讲运算应用到元素级： arr=np.array([[1.,2.,3.],[4.,5.,6.]]) arr Out[23]: array([[1., 2., 3.], [4., 5., 6.]]) arr 阅读全文

posted @ 2018-07-12 14:49 平淡才是真~~ 阅读(330) 评论(0) 推荐(0)

读书笔记二、ndarray的数据类型

摘要：dtype(数据类型)是一个特殊的对象，它含有ndarray将一块内存解释为特定数据类型所需的信息： import numpy as np arr1=np.array([1,2,3],dtype=np.float64) arr2=np.array([1,2,3],dtype=np.int32) ar 阅读全文

posted @ 2018-07-12 14:47 平淡才是真~~ 阅读(504) 评论(0) 推荐(0)

读书笔记一、numpy基础--创建数组

摘要：创建ndarray （1）使用array函数接受一切序列型的对象（包括其他数组），然后产生一个新的含有传入数据的numpy数组。 import numpy as np #将一个由数值组成列表作为参数调用'array' data=[6,7.5,8,0,1] arr=np.array(data) ar 阅读全文

posted @ 2018-07-12 14:44 平淡才是真~~ 阅读(282) 评论(0) 推荐(0)

pandas读书笔记算数运算和数据对齐

摘要：pandas最重要的一个功能是，它可以对不同索引的对象进行算数运算。在对象相加时，如果存在不同的索引对，则结果的索引就是该索引对的并集。 Series 它们相加就会产生：自动的数据对齐操作在不重叠的索引处引入了NA值。 DataFrame 对齐操作会同时发生在行和列上：把它们相加后会返回一个新的阅读全文

posted @ 2018-07-11 16:03 平淡才是真~~ 阅读(739) 评论(0) 推荐(0)

pandas 索引、选取和过滤

摘要：Series索引的工作方式类似于NumPy数组的索引，不过Series的索引值不只是整数，如： obj[obj<2]Out[17]: a 0b 1dtype: int32 DataFrame 进行索引其实就是获取一个或者多个列：获取列：指定列名称即可 data=DataFrame(np.arang 阅读全文

posted @ 2018-07-10 12:43 平淡才是真~~ 阅读(3367) 评论(0) 推荐(0)

pandas读书笔记、重新索引

摘要：重新索引 pandas对象的一个重要方法是 reindex ,其作用是创建一个适应新索引的新对象。 #reindex函数的参数 reindex(index,method,fill_value,limit,level,copy) #index:用作索引的新序列 #method:插值（填充）方式 #fi 阅读全文

posted @ 2018-07-10 11:10 平淡才是真~~ 阅读(3673) 评论(0) 推荐(0)

读书笔记一、pandas数据结构介绍

摘要：pandas数据结构介绍主要两种数据结构：Series和DataFrame. Series Series是一种类似于一维数组的对象，由一组数据（各种NumPy数据类型）+数据标签（即索引）组成。 #直接传入一组数据 from pandas import Series,DataFrame obj=S 阅读全文

posted @ 2018-07-10 10:28 平淡才是真~~ 阅读(524) 评论(0) 推荐(0)

平淡才是真~~

07 2018 档案

公告