上一页 1 ··· 12 13 14 15 16 17 18 19 20 ··· 24 下一页
  2021年6月25日
摘要: 在进行数据分析过程中,我们通常需要使用各种模型来证明自己的分析观点,使自己的结论更具备说服力,同时也让自己的论证思路更具备逻辑性和条理性。 今天老李就给罗列了6个常用的数据分析模型,并附上实际的案例讲解以及分析模板,希望能让大家快速掌握这些模型和方法! 话不多说,上干货! 1、RFM模型 RFM 分 阅读全文
posted @ 2021-06-25 17:20 BabyGo000 阅读(948) 评论(0) 推荐(0)
摘要: (注:以下题目主要来自牛客网等论坛,解答由个人解答,可能会出现错误,并非标准答案,欢迎大家进行讨论) 请说明随机森林较一般决策树稳定的几点原因 1)bagging的方法,多个树投票提高泛化能力 2)bagging中引入随机(参数、样本、特征、空间映射),避免单棵树的过拟合,提高整体泛化能力 什么是聚 阅读全文
posted @ 2021-06-25 17:18 BabyGo000 阅读(408) 评论(0) 推荐(0)
摘要: 数据来源:https://www.kaggle.com/c/bike-sharing-demand 第一步:读取数据 并对数据进行分析 import numpy as np import pandas as pd df_train = pd.read_csv('data/kaggle_bike_co 阅读全文
posted @ 2021-06-25 17:17 BabyGo000 阅读(260) 评论(0) 推荐(0)
摘要: 简单介绍 聚类算法属于无监督学习的一种,而其中KMeans算法是比较常用的聚类算法。 主要思想是: 1、在给定K值和K个初始类簇中心点的情况下,把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中。 2、 所有点分配完毕之后,根据一个类簇内的所有点重新计算该类簇的中心点(取平均值)。 3、 阅读全文
posted @ 2021-06-25 17:16 BabyGo000 阅读(1933) 评论(0) 推荐(0)
摘要: 英雄联盟美服10000条排位数据分析 英雄联盟是2009年美国拳头游戏开发一款红蓝双方互相对抗的MOBA游戏,每队有5名队员,通过击杀敌方小兵、推塔、击杀敌方英雄,以最终摧毁敌方主堡作为胜利的游戏。 一、数据来源 本次的数据来源是kaggle。 链接地址: https://www.kaggle.co 阅读全文
posted @ 2021-06-25 17:15 BabyGo000 阅读(628) 评论(1) 推荐(0)
摘要: 文章来源:公众号-智能化IT系统。 回归模型有多种,一般在数据分析中用的比较常用的有线性回归和逻辑回归。其描述的是一组因变量和自变量之间的关系,通过特定的方程来模拟。这么做的目的也是为了预测,但有时也不是全部为了预测,只是为了解释一种现象,因果关系。 还是按照老风格,不说空泛的概念,以实际的案例出发 阅读全文
posted @ 2021-06-25 17:01 BabyGo000 阅读(575) 评论(0) 推荐(0)
摘要: 此次数据分析实践是在这篇论文《基于数据挖掘的图书馆书目推荐服务的研究》的基础上进行实施的,将论文中提到的相关技术及相关知识点进行实践操作,并对相关业务进行逻辑上的分析。 【数据分析】图书馆数据-01建表 【数据分析】图书馆数据-02重命名、索书号、分组 【数据分析】图书馆数据-03直方图展示借书数量 阅读全文
posted @ 2021-06-25 17:00 BabyGo000 阅读(186) 评论(0) 推荐(0)
摘要: 时间序列预测 目录 时间序列预测 1.时间序列介绍 2.原始数据集 3.导入数据 4.检测时间序列的平稳性 5.如何使时间序列平稳 5.1 估计和消除趋势 5.1.1 对数转换 5.1.2 移动平均 5.2 消除趋势和季节性 5.2.1 差异化 5.2.2 分解 6.预测时间序列 6.1 AR Mo 阅读全文
posted @ 2021-06-25 16:57 BabyGo000 阅读(1441) 评论(0) 推荐(0)
摘要: 目录 案例简介 第一步:确认数据真实性 第二步:明确定义,并拆解指标,进一步定位原异常部分 第三步:根据几个常见维度初步拆分数据 第四步:进一步做假设并细分深入,得出结论 案例分析 例题 GMV下降了20%怎么分析?(GMV=访客数(uv)订单转化率(cr)单均价) 总结 例题部分转载自公众号《阿狸 阅读全文
posted @ 2021-06-25 16:56 BabyGo000 阅读(1337) 评论(0) 推荐(0)
摘要: spark用过吗?那你觉得和MR这两个计算框架中间产生的数据倾斜怎么处理 1)数据倾斜指的是key的分布严重不均,如wordCount中,有80%的数据都是('aaa',1),这样大部分数据交给一个reduce,剩下的20%数据分散到不同的reduce处理 2)造成数据倾斜的原因: a. group 阅读全文
posted @ 2021-06-25 16:55 BabyGo000 阅读(226) 评论(0) 推荐(0)
上一页 1 ··· 12 13 14 15 16 17 18 19 20 ··· 24 下一页