摘要: 一、为什么要集成 我们在有限数据上训练模型,再用模型去预测新的数据,并期望在新数据上得到较低的预测损失,这里的预测损失可以指分类问题的错判率或回归问题的均方误差等各类评价指标。 对于实际问题中的数据,我们都可以认为它总是服从某一个分布,预测数据的平均损失主要来自三项: 第一项为数据真实值与模型平均预 阅读全文
posted @ 2021-10-20 17:53 herj-棒棒哒 阅读(119) 评论(0) 推荐(0) 编辑
摘要: 一、信息论基础 树具有天然的分支结构。对于分类问题而言,决策树的思想是用节点代表样本集合,通过某些判定条件来对节点内的样本进行分配,将它们划分到该节点下的子节点,并且要求各个子节点中类别的纯度之和应高于该节点中的类别纯度,从而起到分类效果。 节点纯度反映的是节点样本标签的不确定性。当一个节点的纯度较 阅读全文
posted @ 2021-10-14 18:08 herj-棒棒哒 阅读(789) 评论(0) 推荐(0) 编辑
摘要: 一、案例背景 用户价值细分是了解用户价值度的重要途径,而销售型公司中对于订单交易尤为关注,因此基于订单交易的价值度模型将更适合运营需求。针对交易数据分析的常用模型是RFM模型,该模型不仅简单、容易理解,且业务落地能力非常强。因此,本节将基于该模型做数据分析和应用。在RFM的结果中,业务部门希望不仅能 阅读全文
posted @ 2021-08-29 22:07 herj-棒棒哒 阅读(425) 评论(0) 推荐(0) 编辑
摘要: 一、会员数据化运营基本概述 会员数据化运营几乎是所有企业的必备运营工作,企业要生存必须要有会员(客户),无论企业处于发展周期的哪个阶段、企业规模如何、企业性质如何都是如此。会员数据化运营辅助于客户关系管理(CRM),可以用来解决以下几方面问题: 会员的生命周期状态是什么? 会员的核心诉求是什么? 会 阅读全文
posted @ 2021-08-22 18:01 herj-棒棒哒 阅读(727) 评论(0) 推荐(0) 编辑
摘要: 1. 导论 通过前面的课程,我们学习了一些简单而实用的分类和回归模型,同时也探讨了如何使用集成学习家族的bagging思想去优化最终的模型。bagging 思想的实质是:通过boostrap的方式对全样本进行抽样得到的抽样子集,对不同的子集使用同一种模型进行拟合,然后投票得到最终的预测。同时我们也知 阅读全文
posted @ 2021-07-25 23:14 herj-棒棒哒 阅读(272) 评论(0) 推荐(0) 编辑
摘要: 学习集成学习课程之前我们需要先回顾一下数学基础,这有助于我们对集成学习的理解和掌握。并且基于python 实现基本的数据计算与可视化。 1、基于梯度的优化方法--梯度下降法的python练习 首先导入相关模块: import numpy as npimport matplotlib.pyplot a 阅读全文
posted @ 2021-07-13 23:20 herj-棒棒哒 阅读(56) 评论(0) 推荐(0) 编辑
摘要: 第三章 模型搭建和评估 经过前面的探索性数据分析我们可以很清楚的了解到数据集的情况,那么我们就要使用数据了,我们做数据分析的目的也就是,运用我们的数据以及结合我的业务来得到某些我们需要知道的结果。那么分析的第一步就是建模,搭建一个预测模型或者其他模型;我们从这个模型的到结果之后,我们要分析我的模型是 阅读全文
posted @ 2021-06-23 17:44 herj-棒棒哒 阅读(422) 评论(0) 推荐(0) 编辑
摘要: 回顾学习完第一章,我们对泰坦尼克号数据有了基本的了解,也学到了一些基本的统计方法,第二章中我们学习了数据的清理和重构,使得数据更加的易于理解;今天我们要学习的是第二章第三节:数据可视化,主要给大家介绍一下Python数据可视化库Matplotlib。 第二章:数据可视化 开始之前,导入numpy、p 阅读全文
posted @ 2021-06-21 22:37 herj-棒棒哒 阅读(1334) 评论(0) 推荐(0) 编辑
摘要: 复习:在前面我们已经学习了Pandas基础,第二章我们开始进入数据分析的业务部分,在第二章第一节的内容中,我们学习了数据的清洗,这一部分十分重要,只有数据变得相对干净,我们之后对数据的分析才可以更有力。而这一节,我们要做的是数据重构,数据重构依旧属于数据理解(准备)的范围。 # 导入基本库impor 阅读全文
posted @ 2021-06-19 23:14 herj-棒棒哒 阅读(144) 评论(0) 推荐(0) 编辑
摘要: 2.1 缺失值观察与处理 (1)请查看每个特征缺失值个数 df[df.Age.isna()] (2)缺失值处理方法 填充方法: 思考: 2.2 重复值观察与处理 由于这样那样的原因,数据中会不会存在重复值呢,如果存在要怎样处理呢 2.3 特征观察与处理 我们对特征进行一下观察,可以把特征大概分为两大 阅读全文
posted @ 2021-06-17 23:00 herj-棒棒哒 阅读(162) 评论(0) 推荐(0) 编辑