会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
朱雀
管理
上一页
1
2
3
4
5
下一页
2021年11月12日
数据分析常用分析方法
摘要: 1.AAARR分析方法:用户增长 2.漏斗分析方法:转化分析 3.RFM:量化用户价值 4.PEST:行业研究分析 5.逻辑树:将复杂问题变简单 6.多维度拆解分析方法:从多个角度分析问题 7.杜邦分析方法:财务分析 8.群组分析:留存和流失分析 9.相关分析:研究两个变量之间的关系 10.假设检验
阅读全文
posted @ 2021-11-12 07:57 Rosaany
阅读(162)
评论(0)
推荐(0)
2021年11月8日
《野蛮时代》运营数据分析
摘要: 1. 游戏介绍 游戏名称:野蛮时代 开发商:Pocket Rage Ltd 游戏介绍:一款拥有皮克斯画风的MMO策略类经营战争游戏,在游戏中,建造城市据点,不断扩张领土,从原始到壮大的真实过程,通过不断的狩猎和围捕,和其他玩家一同竞争,打造一个强大的部落。 游戏特色: 自由扩张领土,在战斗中烧毁敌方
阅读全文
posted @ 2021-11-08 18:57 Rosaany
阅读(634)
评论(0)
推荐(0)
2021年11月7日
pandas:日期时间拆分为日期+时间
摘要: 如题,我想把日期与时间拆分,效果如下: leave['date'] = pd.to_datetime(leave['register_time'],format='%Y-%m-%d %H:%M:%S').dt.date leave['time'] = pd.to_datetime(leave['re
阅读全文
posted @ 2021-11-07 15:54 Rosaany
阅读(2893)
评论(0)
推荐(1)
2021年10月31日
ubuntu搭建hadoop+hive环境
摘要: 步骤1:创建Hadoop用户 创建一个Hadoop用户,具体步骤如下: 安装openssh服务器和客户端 sudo apt install openssh-server openssh-client -y 创建 Hadoop 用户 sudo adduser hdoop 切换到新建的用户 su - h
阅读全文
posted @ 2021-10-31 08:32 Rosaany
阅读(856)
评论(0)
推荐(0)
2021年10月21日
超参数优化器 - GridSearchCV(网格搜索)
摘要: 为了在数据集上训练不同的模型并且选择性能最佳的模型,有时候虽然仍有改进的余地,因为我们不会肯定地说这个特定模型最合适解决手头的问题。因此,我们的目标是以任何可能的方式改进模型,影响这些模型性能的一个重要因素是它们的超参数,一旦我们为这些超参数找到合适的值,模型的性能就会显著提高。在本文中,将了解学习
阅读全文
posted @ 2021-10-21 20:51 Rosaany
阅读(6148)
评论(0)
推荐(1)
2021年10月20日
模型调优 - 删除异常值(箱线图)
摘要: 1.箱线图 箱形图(Box plot),是一种用作显示一组数据分散情况资料的统计图。 箱线图可以深入了解数据的分布特性,上图说明了箱线图的不同特征。 其中非异常值最常见的定义是[Q1 - 1.5xIQR, Q3 + 1.5xIQR],如果是区间外的值就被视为outlier并显示在图上。 Q1:第一四
阅读全文
posted @ 2021-10-20 21:44 Rosaany
阅读(5807)
评论(0)
推荐(0)
回归指标 - MSE均方误差、RMSE均方根误差、MAE平均绝对误差、R²判别系数
摘要: 1.MSE - 均方误差 \[ MSE = \displaystyle\frac{1}{m}\sum_{i=1}^{m}(y_i - \hat{y_i})^2 \] MSE是用 真实值 - 预测值 然后平方后求和平均,常用线性回归的损失函数。 在线性回归时我们希望损失函数最小,从而判断测试集的损失值
阅读全文
posted @ 2021-10-20 11:52 Rosaany
阅读(2635)
评论(0)
推荐(0)
2021年10月19日
数据处理 - 标准化归一化处理
摘要: 1.数据标准化-StandardScaler 引用维基百科一句话,在统计学领域,标准化指的是向标准得分的转换 在数据量大小差别很大,而且具有不同的量纲时,如果直接用原始数值进行分析,就会感觉数值较高的相对较低的作用更突出。所以,为了保证结果的可靠性,需要对原始数据进行标准化处理。 数据标准化
阅读全文
posted @ 2021-10-19 22:06 Rosaany
阅读(1011)
评论(0)
推荐(0)
数据预处理 - 处理缺失值
摘要: 1.处理缺失值方法 在pandas中,将缺失值称为NA,意思是not available(不可用) pandas在处理缺失值时,我们先了解相关函数介绍。 NA处理方法: 函数名 描述 dropna 根据每个标签的值是否是缺失数据来筛选轴标签,并根据允许丢失的数据量来确定阈值 fillna 用某些值填
阅读全文
posted @ 2021-10-19 19:11 Rosaany
阅读(727)
评论(0)
推荐(0)
LR - 解决分类问题
摘要: 1.原理 逻辑回归(Logistic Regression,简称LR),它是一种评估事件发生概率的分类模型。线性回归与逻辑回归统称为广义线性模型,但普通的线性回归模型不能解决分类问题。逻辑回归模型是一种对数性模型,能够用于计算二分类问题。 前提假设是样本符合伯努利分布。在逻辑回归模型里面,应
阅读全文
posted @ 2021-10-19 11:19 Rosaany
阅读(397)
评论(0)
推荐(0)
上一页
1
2
3
4
5
下一页
公告