平淡才是真~~

2019年3月20日

摘要：一、数据来源及说明来源：天池数据—淘宝用户的行为数据 https://tianchi.aliyun.com/dataset/dataDetail?dataId=46 该数据下载后包含12256906条数据，6个字段。数据列字段介绍： column description user_id 用户身份阅读全文

posted @ 2019-03-20 15:43 平淡才是真~~ 阅读(4716) 评论(0) 推荐(1) 编辑

2018年10月11日

图形中添加注释

摘要：数据和内容是《Python数据分析与挖掘实战》第3章中内容--贡献度分析讲解怎样在图形中添加注释关于pandas中plot命令总结可以参照这篇文章：https://blog.csdn.net/u013084616/article/details/79064408 阅读全文

posted @ 2018-10-11 10:57 平淡才是真~~ 阅读(1364) 评论(0) 推荐(0) 编辑

2018年9月12日

Python操作MySQL实战案例讲解

摘要：使用Python的pymysql库连接MySQL数据库在数据库中创建数据表，用于写入数据。这里具体分为2步，第一步创建出数据表的SQL 语句，第二步使用execute()执行语句。创建数据表后，开始写入数据查看数据库发现执行语句后，数据已经成功存入数据库中。阅读全文

posted @ 2018-09-12 18:12 平淡才是真~~ 阅读(1834) 评论(0) 推荐(0) 编辑

2018年9月7日

MySQL练习题--sqlzoo刷题2

摘要： SELECT from Nobel Tutorial 1、Change the query shown so that it displays Nobel prizes for 1950. 2、Show who won the 1962 prize for Literature. 3、Show th 阅读全文

posted @ 2018-09-07 13:00 平淡才是真~~ 阅读(2559) 评论(0) 推荐(0) 编辑

2018年9月5日

MySQL练习题--sqlzoo刷题

摘要：首先查看world表的字段： 2、显示人口至少为2亿的国家/地区的名称。2亿=200million 3、给出人口至少2亿的国家的名称和人均国内生产总值。 4、显示continent ='South America'的国家的名称和人口。将人口除以100万，以获得数百万人口,也就是population 阅读全文

posted @ 2018-09-05 18:03 平淡才是真~~ 阅读(2893) 评论(0) 推荐(2) 编辑

2018年9月4日

MySQL--分组数据

摘要： 1、数据分组 2、创建分组 **Group By 子句必须出现在where自居之后，order by 子句之前。 3、过滤分组所有类型的where子句都可以用having来替代。唯一差别师where过滤行，而having过滤分组。 having和where的差别：where在数据分组前进行过滤，h 阅读全文

posted @ 2018-09-04 23:09 平淡才是真~~ 阅读(1118) 评论(0) 推荐(0) 编辑

2018年8月16日

删除DataFrame中特定条件的行/列

摘要：在《Python进行数据分析与挖掘实战》一书中，第10章删除热水器不工作的数据（水流量为0并且开关机状态为“关”的数据。）删除特定的列数据阅读全文

posted @ 2018-08-16 15:52 平淡才是真~~ 阅读(24281) 评论(0) 推荐(0) 编辑

2018年8月6日

第4章数据预处理

摘要：目录 4.1 数据清洗 4.1.1 缺失值处理 4.1.2 异常值处理 4.2 数据集成 4.2.1 实体识别 4.2.2 冗余属性识别 4.3 数据变换 4.3.1 简单函数变换 4.3.2 规范化 4.3.3 连续属性离散化 4.3.4 属性构造 4.3.5 小波变换 4.4 数据规约 4..4 阅读全文

posted @ 2018-08-06 18:10 平淡才是真~~ 阅读(1484) 评论(0) 推荐(0) 编辑

处理缺失数据

摘要： pandas使用浮点值NaN表示浮点和非浮点数组中的缺失数据。它只是一个便于被检测出来的标记而已： Python内置的None值也会被当做NA处理： NA处理方法 dropna 根据各标签的值中是否存在缺失数据对轴标签进行过滤，可通过阈值调节对缺失值的容忍度 fillna 用指定值或插值方法（如ff 阅读全文

posted @ 2018-08-06 18:09 平淡才是真~~ 阅读(565) 评论(0) 推荐(0) 编辑

2018年8月2日

拉勾网数据分析师职位分析

摘要：项目背景： 2018年11月份开始学习数据分析相关课程，目前学到不少知识，准备开始找工作。在这之前想自己做一个实战，一是能够证明自己确实做了准备，初步具备数据分析师岗位的能力，二是通过实战复习自己所学知识，熟悉数据分析流程。三是，从自己想从事的数据分析职位入手分析，也能够借此了解数据分析师的收入情况阅读全文

posted @ 2018-08-02 17:47 平淡才是真~~ 阅读(1509) 评论(1) 推荐(0) 编辑

第7章航空公司客户价值分析

摘要： 7.1 背景与挖掘目标客户分类，通过客户分类，区分无价值客户、高价值客户，将优先营销资源集中于高价值客户，实现企业利润最大化目标。现在通过建立合理的客户价值评估模型，对客户进行分群，分析比较不同客户群的客户价值，并制定相应的营销策略，对不同的客户群提供个性化的客户服务是必须和有效的。（市场细分）阅读全文

posted @ 2018-08-02 17:36 平淡才是真~~ 阅读(4969) 评论(0) 推荐(0) 编辑

2018年8月1日

《精益数据分析》笔记--第2章

摘要： 1、什么是好的数据指标衡量好坏的一些重要准则：（1）好的数据指标是比较性的。如果能比较某数据指标在不同的时间段、用户群体、竞争产品之间的表现，就能更好的洞察产品的实际走向。（2）好的数据指标是简单易懂的如果人不能很容易记住或讨论指标，那么通过改变它来改变公司的作为很困难。（3）好的数据指阅读全文

posted @ 2018-08-01 18:00 平淡才是真~~ 阅读(417) 评论(0) 推荐(0) 编辑

2018年7月30日

《统计学》第2章用图表展示数据

摘要： 2.1 用图表表示定性数据 1、频数分布表对数据进行分类，列出所有的类别，然后统计每一类别的频数。频数：频数分布表中落在某一特定类别的数据个数叫做频数。有两个变量交叉分类的频数分布表称为列联表，也称交叉表。定性数据，除了用频数分布表，还可以使用比例、百分比、比率等统计量进行描述。比例：一个阅读全文

posted @ 2018-07-30 18:20 平淡才是真~~ 阅读(4348) 评论(0) 推荐(0) 编辑

《精益数据分析》笔记--第5章数据分析框架

摘要： 1、戴夫.麦克卢尔的海盗指标说麦克卢尔将创业公司最需要关注的指标分为五大类： 1）获取用户Acquisition 2）提高活跃度 Activation 3）提高留存率 Retention 4）获取营收 Revenue 5）自传播 Referral 这一模型，描述了用户/客户/访客须经历的五个环节阅读全文

posted @ 2018-07-30 18:18 平淡才是真~~ 阅读(613) 评论(0) 推荐(0) 编辑

第3章、数据探索之二

摘要： 3.2 数据特征分析 3.2.1 分布分析分布分析能解释数据的分布特征和分布类型。定量数据，欲了解其分布形式是对称还是非对称的，发现某些特大或特小的可疑值，通过绘制频率分布表、绘制频率分布直方图、茎叶图进行直观分析；定性数据，用饼图和条形直方图直观地显示分布情况。 3.2.2 对比分析对比分阅读全文

posted @ 2018-07-30 18:17 平淡才是真~~ 阅读(484) 评论(0) 推荐(0) 编辑

第3章--数据探索之一

摘要：《Python数据分析与数据挖掘实战》第3章节目录 3.1 数据质量分析 3.1.1 缺失值分析 3.1.2 异常值分析 3.1.3 一致性分析 3.2数据特征分析 3.2.1 分布分析 3.2.2 对比分析 3.2.3 统计量分析 3.2.4 周期性分析 3.2.5 贡献度分析 3.2.6 相关阅读全文

posted @ 2018-07-30 18:17 平淡才是真~~ 阅读(383) 评论(0) 推荐(0) 编辑

2018年7月26日

《精益数据分析》笔记--最小可行化产品

摘要：笔记--第1章 1、最小可行化产品指足以向市场传达你所主张的价值的最小化产品。但定义中并未对产品的真实程度做出要求。 2、专人接待式最小可行化产品如，正在考虑创建一种拼车服务，则可以试着用人工牵线搭桥这种原始方式将司机和乘客联系在一起，而并不是考虑是否能开发出一款配对司机与乘客的应用软件。这是阅读全文

posted @ 2018-07-26 18:14 平淡才是真~~ 阅读(678) 评论(0) 推荐(0) 编辑

透视表与交叉表

摘要：透视表（pivot table）数据汇总分析工具。根据一个或多个键对数据进行聚合，并根据行和列上的分组键将数据分配到各个矩形区域中。 1、在Python和pandas中，通过groupby功能以及重塑运算制作透视表 2、DataFrame有一个pivot_table 方法 3、顶级的pandas. 阅读全文

posted @ 2018-07-26 18:03 平淡才是真~~ 阅读(3323) 评论(0) 推荐(0) 编辑

2018年7月25日

！！！读取文件出错

摘要：在Python3环境下《利用Python进行数据分析》书中，在第9章节中，读取消费数据集，出现错误发现是因为文件路径中有中文的存在，可以将文件路径修改为英文：或者两种改法都可以正常运行数据。阅读全文

posted @ 2018-07-25 16:27 平淡才是真~~ 阅读(517) 评论(0) 推荐(0) 编辑

2018年7月24日

groupby 技术

摘要：分组键可以有很多形式，且类型不必相同： 1、列表或数组，其长度与待分组的轴一样 2、表示DataFrame某个列名的值 3、字典或Series，给出待分组轴上的值与分组名之间的对应关系 4、函数，用于处理轴索引或索引中的各个标签 1、分组键为Series 1 df=DataFrame({'key1' 阅读全文

posted @ 2018-07-24 15:19 平淡才是真~~ 阅读(2269) 评论(0) 推荐(0) 编辑

公告