随笔分类 -  大数据,数据挖掘技术及应用

大数据学习过程中的相关问题
摘要:参考链接:https://www.zhihu.com/question/20852004 方差: 度量单个随机变量的离散程度,公式如下: 方差表示一位数据数据的离散程度,数值越大说明离均值的差距越大,越离散 协方差: 度量两个随机变量(变化趋势)的相似程度,定义如下: 协方差表示二维数据,表示两个变 阅读全文
posted @ 2020-03-23 23:21 lonelyshy 阅读(5424) 评论(0) 推荐(0)
摘要:原文链接:https://blog.csdn.net/xidiancoder/article/details/71341345 对于一维数据的分析,最常见的就是计算平均值(Mean)、方差(Variance)和标准差(Standard Deviation)。在做【特征工程】的时候,会出现缺失值,那么 阅读全文
posted @ 2020-03-23 21:36 lonelyshy 阅读(17460) 评论(0) 推荐(0)
摘要:数据的相关性 相关性用相关系数来度量,相关系数种类如下图所示。相关系数绝对值越大表是相关性越大,相关系数取值在-1–1之间,0表示不相关。 数据的相似性 相似度用距离来度量,相似度度量指标种类如下图所示。相似度通常是非负的,取值在0-1之间。距离越大,相似性越小,在应用过程中要注意计算的是相似度还是 阅读全文
posted @ 2020-03-22 23:03 lonelyshy 阅读(7232) 评论(0) 推荐(0)
摘要:使用numpy可以做很多事情,在这篇文章中简单介绍一下如何使用numpy进行方差/标准方差/样本标准方差/协方差的计算。 variance: 方差 方差(Variance)是概率论中最基础的概念之一,它是由统计学天才罗纳德·费雪1918年最早所提出。用于衡量数据离散程度,因为它能体现变量与其数学期望 阅读全文
posted @ 2020-03-20 14:28 lonelyshy 阅读(25537) 评论(0) 推荐(2)
摘要:原文链接:https://blog.csdn.net/fjssharpsword/article/details/74911180 知识点:数据分布特征的描述1、变量集中趋势的测定 变量在不同个体或不同时间条件下具体表现出来的数据是不同的,不过众多个体的数据常常会呈现出在一定范围内围绕某个中心而波动 阅读全文
posted @ 2020-03-20 14:11 lonelyshy 阅读(7344) 评论(0) 推荐(0)
摘要:原文链接:https://www.cnblogs.com/chaosimple/p/4153167.html 感谢作者,解决了我的疑惑 一、标准化(Z-Score),或者去除均值和方差缩放 公式为:(X-mean)/std 计算时对每个属性/每列分别进行。 将数据按期属性(按列进行)减去其均值,并处 阅读全文
posted @ 2020-03-20 14:06 lonelyshy 阅读(742) 评论(0) 推荐(0)
摘要:原文链接:https://blog.csdn.net/pipisorry/article/details/72820982 考察评估数值数据散布或发散的度量。这些度量包括极差、分位数、四分位数、百分位数和四分位数极差。五数概括可以用盒图显示,它对于识别离群点是有用的。方差和标准差也可以指出数据分布的 阅读全文
posted @ 2020-03-20 13:48 lonelyshy 阅读(2375) 评论(0) 推荐(0)
摘要:原文链接:https://blog.csdn.net/hqh131360239/article/details/79061535 1、linalg=linear(线性)+algebra(代数),norm则表示范数。 2、函数参数 x_norm=np.linalg.norm(x, ord=None, 阅读全文
posted @ 2020-03-20 13:26 lonelyshy 阅读(614) 评论(0) 推荐(0)
摘要:转载:https://blog.csdn.net/liukuan73/article/details/80494779 详细: 1.闵可夫斯基距离(Minkowski Distance) 2.欧氏距离(Euclidean Distance) 3.曼哈顿距离(Manhattan Distance) 4 阅读全文
posted @ 2020-03-20 13:21 lonelyshy 阅读(6889) 评论(0) 推荐(0)
摘要:大数据分析处理评测方法 效果与效率 (以分类模型为例) 效果 准确率 模型对未标注数据做作出的判断中,正确的比例 例子: 准确率看行,召回率看列 召回率 它是对于某个类别,模型正确判断的该样本个数占该类样本总数的比例 F值 效率 时间复杂度 空间复杂度 吞吐率 加速比 阅读全文
posted @ 2020-03-07 01:42 lonelyshy 阅读(579) 评论(0) 推荐(0)
摘要:大数据分析处理基本流程 数据准备 数据获取(爬虫,统计) 数据清洗(获得想要的数据,去除无用的相关数据) 特征工程 特征提取 比如我爬下网页,网页中有图片,视频,文本信息,url等等之类的特征消息 特征选择 网页保存这学生的信息,我想要计算每个学生的BMI(身体质量指数),而这类信息是在网页中的文本 阅读全文
posted @ 2020-03-07 01:16 lonelyshy 阅读(2063) 评论(0) 推荐(0)
摘要:Hadoop- 用于大数据的分布式存储及处理计算平台 开源 java语言 低成本 Hadoop架构 Hadoop Common Package 提供系统交互及支撑 Hadoop是一个软件 Hadoop Distributed File System(HDFS) 提供分布式文件管理能力 实现文件分块存 阅读全文
posted @ 2020-03-07 00:59 lonelyshy 阅读(1368) 评论(0) 推荐(0)