Rosaany - 博客园

2021年11月12日

摘要： 1.AAARR分析方法：用户增长 2.漏斗分析方法：转化分析 3.RFM：量化用户价值 4.PEST：行业研究分析 5.逻辑树：将复杂问题变简单 6.多维度拆解分析方法：从多个角度分析问题 7.杜邦分析方法：财务分析 8.群组分析：留存和流失分析 9.相关分析：研究两个变量之间的关系 10.假设检验阅读全文

posted @ 2021-11-12 07:57 Rosaany 阅读(162) 评论(0) 推荐(0)

2021年11月8日

《野蛮时代》运营数据分析

摘要： 1. 游戏介绍游戏名称：野蛮时代开发商：Pocket Rage Ltd 游戏介绍：一款拥有皮克斯画风的MMO策略类经营战争游戏，在游戏中，建造城市据点，不断扩张领土，从原始到壮大的真实过程，通过不断的狩猎和围捕，和其他玩家一同竞争，打造一个强大的部落。游戏特色：自由扩张领土，在战斗中烧毁敌方阅读全文

posted @ 2021-11-08 18:57 Rosaany 阅读(634) 评论(0) 推荐(0)

2021年11月7日

pandas：日期时间拆分为日期+时间

摘要：如题，我想把日期与时间拆分，效果如下： leave['date'] = pd.to_datetime(leave['register_time'],format='%Y-%m-%d %H:%M:%S').dt.date leave['time'] = pd.to_datetime(leave['re 阅读全文

posted @ 2021-11-07 15:54 Rosaany 阅读(2893) 评论(0) 推荐(1)

2021年10月31日

ubuntu搭建hadoop+hive环境

摘要：步骤1：创建Hadoop用户创建一个Hadoop用户，具体步骤如下：安装openssh服务器和客户端 sudo apt install openssh-server openssh-client -y 创建 Hadoop 用户 sudo adduser hdoop 切换到新建的用户 su - h 阅读全文

posted @ 2021-10-31 08:32 Rosaany 阅读(856) 评论(0) 推荐(0)

2021年10月21日

超参数优化器 - GridSearchCV（网格搜索）

摘要：为了在数据集上训练不同的模型并且选择性能最佳的模型，有时候虽然仍有改进的余地，因为我们不会肯定地说这个特定模型最合适解决手头的问题。因此，我们的目标是以任何可能的方式改进模型，影响这些模型性能的一个重要因素是它们的超参数，一旦我们为这些超参数找到合适的值，模型的性能就会显著提高。在本文中，将了解学习阅读全文

posted @ 2021-10-21 20:51 Rosaany 阅读(6148) 评论(0) 推荐(1)

2021年10月20日

模型调优 - 删除异常值（箱线图）

摘要： 1.箱线图箱形图（Box plot），是一种用作显示一组数据分散情况资料的统计图。箱线图可以深入了解数据的分布特性，上图说明了箱线图的不同特征。其中非异常值最常见的定义是[Q1 - 1.5xIQR, Q3 + 1.5xIQR]，如果是区间外的值就被视为outlier并显示在图上。 Q1：第一四阅读全文

posted @ 2021-10-20 21:44 Rosaany 阅读(5807) 评论(0) 推荐(0)

回归指标 - MSE均方误差、RMSE均方根误差、MAE平均绝对误差、R²判别系数

摘要： 1.MSE - 均方误差 \[ MSE = \displaystyle\frac{1}{m}\sum_{i=1}^{m}(y_i - \hat{y_i})^2 \] MSE是用真实值 - 预测值然后平方后求和平均，常用线性回归的损失函数。在线性回归时我们希望损失函数最小，从而判断测试集的损失值阅读全文

posted @ 2021-10-20 11:52 Rosaany 阅读(2635) 评论(0) 推荐(0)

2021年10月19日

数据处理 - 标准化归一化处理

摘要： 1.数据标准化-StandardScaler 引用维基百科一句话，在统计学领域，标准化指的是向标准得分的转换在数据量大小差别很大，而且具有不同的量纲时，如果直接用原始数值进行分析，就会感觉数值较高的相对较低的作用更突出。所以，为了保证结果的可靠性，需要对原始数据进行标准化处理。数据标准化阅读全文

posted @ 2021-10-19 22:06 Rosaany 阅读(1011) 评论(0) 推荐(0)

数据预处理 - 处理缺失值

摘要： 1.处理缺失值方法在pandas中，将缺失值称为NA，意思是not available（不可用） pandas在处理缺失值时，我们先了解相关函数介绍。 NA处理方法：函数名描述 dropna 根据每个标签的值是否是缺失数据来筛选轴标签，并根据允许丢失的数据量来确定阈值 fillna 用某些值填阅读全文

posted @ 2021-10-19 19:11 Rosaany 阅读(727) 评论(0) 推荐(0)

LR - 解决分类问题

摘要： 1.原理逻辑回归（Logistic Regression，简称LR），它是一种评估事件发生概率的分类模型。线性回归与逻辑回归统称为广义线性模型，但普通的线性回归模型不能解决分类问题。逻辑回归模型是一种对数性模型，能够用于计算二分类问题。前提假设是样本符合伯努利分布。在逻辑回归模型里面，应阅读全文

posted @ 2021-10-19 11:19 Rosaany 阅读(397) 评论(0) 推荐(0)

朱雀

公告