摘要:
在进行数据分析过程中,我们通常需要使用各种模型来证明自己的分析观点,使自己的结论更具备说服力,同时也让自己的论证思路更具备逻辑性和条理性。 今天老李就给罗列了6个常用的数据分析模型,并附上实际的案例讲解以及分析模板,希望能让大家快速掌握这些模型和方法! 话不多说,上干货! 1、RFM模型 RFM 分 阅读全文
posted @ 2021-06-25 17:20
BabyGo000
阅读(948)
评论(0)
推荐(0)
摘要:
(注:以下题目主要来自牛客网等论坛,解答由个人解答,可能会出现错误,并非标准答案,欢迎大家进行讨论) 请说明随机森林较一般决策树稳定的几点原因 1)bagging的方法,多个树投票提高泛化能力 2)bagging中引入随机(参数、样本、特征、空间映射),避免单棵树的过拟合,提高整体泛化能力 什么是聚 阅读全文
posted @ 2021-06-25 17:18
BabyGo000
阅读(408)
评论(0)
推荐(0)
摘要:
数据来源:https://www.kaggle.com/c/bike-sharing-demand 第一步:读取数据 并对数据进行分析 import numpy as np import pandas as pd df_train = pd.read_csv('data/kaggle_bike_co 阅读全文
posted @ 2021-06-25 17:17
BabyGo000
阅读(260)
评论(0)
推荐(0)
摘要:
简单介绍 聚类算法属于无监督学习的一种,而其中KMeans算法是比较常用的聚类算法。 主要思想是: 1、在给定K值和K个初始类簇中心点的情况下,把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中。 2、 所有点分配完毕之后,根据一个类簇内的所有点重新计算该类簇的中心点(取平均值)。 3、 阅读全文
posted @ 2021-06-25 17:16
BabyGo000
阅读(1933)
评论(0)
推荐(0)
摘要:
英雄联盟美服10000条排位数据分析 英雄联盟是2009年美国拳头游戏开发一款红蓝双方互相对抗的MOBA游戏,每队有5名队员,通过击杀敌方小兵、推塔、击杀敌方英雄,以最终摧毁敌方主堡作为胜利的游戏。 一、数据来源 本次的数据来源是kaggle。 链接地址: https://www.kaggle.co 阅读全文
posted @ 2021-06-25 17:15
BabyGo000
阅读(628)
评论(1)
推荐(0)
摘要:
文章来源:公众号-智能化IT系统。 回归模型有多种,一般在数据分析中用的比较常用的有线性回归和逻辑回归。其描述的是一组因变量和自变量之间的关系,通过特定的方程来模拟。这么做的目的也是为了预测,但有时也不是全部为了预测,只是为了解释一种现象,因果关系。 还是按照老风格,不说空泛的概念,以实际的案例出发 阅读全文
posted @ 2021-06-25 17:01
BabyGo000
阅读(575)
评论(0)
推荐(0)
摘要:
此次数据分析实践是在这篇论文《基于数据挖掘的图书馆书目推荐服务的研究》的基础上进行实施的,将论文中提到的相关技术及相关知识点进行实践操作,并对相关业务进行逻辑上的分析。 【数据分析】图书馆数据-01建表 【数据分析】图书馆数据-02重命名、索书号、分组 【数据分析】图书馆数据-03直方图展示借书数量 阅读全文
posted @ 2021-06-25 17:00
BabyGo000
阅读(186)
评论(0)
推荐(0)
摘要:
时间序列预测 目录 时间序列预测 1.时间序列介绍 2.原始数据集 3.导入数据 4.检测时间序列的平稳性 5.如何使时间序列平稳 5.1 估计和消除趋势 5.1.1 对数转换 5.1.2 移动平均 5.2 消除趋势和季节性 5.2.1 差异化 5.2.2 分解 6.预测时间序列 6.1 AR Mo 阅读全文
posted @ 2021-06-25 16:57
BabyGo000
阅读(1441)
评论(0)
推荐(0)
摘要:
目录 案例简介 第一步:确认数据真实性 第二步:明确定义,并拆解指标,进一步定位原异常部分 第三步:根据几个常见维度初步拆分数据 第四步:进一步做假设并细分深入,得出结论 案例分析 例题 GMV下降了20%怎么分析?(GMV=访客数(uv)订单转化率(cr)单均价) 总结 例题部分转载自公众号《阿狸 阅读全文
posted @ 2021-06-25 16:56
BabyGo000
阅读(1337)
评论(0)
推荐(0)
摘要:
spark用过吗?那你觉得和MR这两个计算框架中间产生的数据倾斜怎么处理 1)数据倾斜指的是key的分布严重不均,如wordCount中,有80%的数据都是('aaa',1),这样大部分数据交给一个reduce,剩下的20%数据分散到不同的reduce处理 2)造成数据倾斜的原因: a. group 阅读全文
posted @ 2021-06-25 16:55
BabyGo000
阅读(226)
评论(0)
推荐(0)
浙公网安备 33010602011771号