随笔分类 -  数据分析

数据分析
bagging集成与boosting集成的区别
摘要: 阅读全文

posted @ 2020-07-10 06:46 为主而活 阅读(130) 评论(0) 推荐(0)

什么是NP完全问题
摘要:在学习决策树的时候,我们知道,其一大特点是:寻找最佳的决策树是NP完成问题。什么是NP完全问题,决策树的这一特点又是什么意思? 什么是NP完全问题 这里的NP其实是Non-deterministic Polynomial的缩写,即多项式复杂程度的非确定性问题,NP完全问题有时也会简称为NP-C问题。 阅读全文

posted @ 2020-07-10 05:55 为主而活 阅读(5010) 评论(0) 推荐(1)

分类效果评价指标二-ROC曲线与AUC面积
摘要:1.简介 ROC曲线与AUC面积均是用来衡量分类型模型准确度的工具。通俗点说,ROC与AUC是用来回答这样的问题的: 分类模型的预测到底准不准确? 我们建出模型的错误率有多大?正确率有多高? 两个不同的分类模型中,哪个更好用?哪个更准确? 一句话概括版本: ROC是一条线,如果我们选择用ROC曲线评 阅读全文

posted @ 2020-07-09 07:38 为主而活 阅读(1670) 评论(0) 推荐(0)

聚类效果评价指标
摘要:1. ARI(Adjusted Rand Index) 兰德系数:聚类效果有一个评价指标。 这个指标不考虑你使用的聚类方法,把你的方法当做一个黑箱,只注重结果。可以说,是一个十分“功利”的指标。 在讲ARI之前呢,先讲述一下RI,也就是rand index,从两者的名字也可以看出来,这是ARI的祖宗 阅读全文

posted @ 2020-07-09 07:17 为主而活 阅读(3496) 评论(0) 推荐(0)

分类效果评价指标一混淆矩阵
摘要:1.混淆矩阵:判断分类模型好坏 (摘自:版权声明:本文为CSDN博主「Orange_Spotty_Cat」的原创文章.原文链接:https://blog.csdn.net/Orange_Spotty_Cat/article/details/80520839) 混淆矩阵是ROC曲线绘制的基础,同时它也 阅读全文

posted @ 2020-07-09 07:15 为主而活 阅读(1463) 评论(0) 推荐(0)

关联规则与Apriori算法
摘要:摘自:我是康小小 当我们去商店购物时,我们通常有一个标准的购物清单,每个购物的人都有一个独特的清单,取决于他们的需求和喜好,家庭主妇可能会为家庭晚餐购买健康的食材,而单身汉可能会购买啤酒和薯条。了解这些购物模式有助于通过多种方式提高销售额,如果有一对物品,X和Y经常被购买: X和Y都可以放在同一个架 阅读全文

posted @ 2020-07-08 06:47 为主而活 阅读(481) 评论(0) 推荐(0)

简单比较k-means和k-medoids
摘要:简单对比一下这两者的区别。两者的主要区别主要在质心的选择中,k-means是样本点均值,k-medoids则是从样本点中选取。 首先给出两者的算法实现步骤: K-means 1、随机选取K个质心的值 2、计算各个点到质心的距离 3、将点的类划分为离他最近的质心,形成K个cluster 4、根据分类好 阅读全文

posted @ 2020-07-06 07:15 为主而活 阅读(2262) 评论(0) 推荐(0)

集成方法
摘要:集成算法 1.是通过聚合多个分类器的预测来提高分类准确率。集成算法由训练数据构建一组基分类器,然后通过每个基分类器的预测进行投票来进行分类。 2.集成分类器的性能优于单个分类器必须满足两个条件: (1)基分类器必须是相互独立的。 (2)基分类器应当好于随机猜测分类器。 3.构建集成分离器的方法 (1 阅读全文

posted @ 2020-07-05 18:52 为主而活 阅读(619) 评论(0) 推荐(0)

BP神经网络模型
摘要:1. BP神经网络模型(Backpropagation Neural Networks) 采用非线性激活函数,Sigmoid函数。 三个层次:输入层(Input Layer),隐藏层(Hidden Layer) 和输出层(Output layer),就好比神经网络的各个神经元具有不同功能一样。 输入 阅读全文

posted @ 2020-07-05 15:38 为主而活 阅读(6584) 评论(0) 推荐(0)

支持向量机-分类器之王
摘要:1. 支持向量机(Support Vector Machine, SVM): 一种知名的二元线性/非线性分类方法,由俄罗斯的统计学家Vapnik等人所提出。它使用一个非线性转换(Nonlinear Transformation)将原始数据映像(Mapping)至较高维度的特征空间 (Feature 阅读全文

posted @ 2020-07-05 14:18 为主而活 阅读(584) 评论(0) 推荐(0)

逻辑回归
摘要:1. 线性回归: 是预测模型,关键是要建立回归方程(自变量和因变量的函数关系)。这样就可以通过回归方程,每输入一个X的值,就能预测Y的值是多少。 2.逻辑回归(Logistic Regression): 是分类模型,是用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性。是建立 阅读全文

posted @ 2020-07-05 08:25 为主而活 阅读(340) 评论(0) 推荐(0)

决策树算法之CART
摘要:CART(Classification and Regression Tree),中文名为分类回归树,顾名思义,这种算法既可以完成分类任务,又可以完成回归模型。是1984年由Breiman等四英国人提出的。 一、 特点: 1.该算法是构建二元(Binary)分类回归树的算法,也即,,决策树在每次分叉 阅读全文

posted @ 2020-07-04 17:18 为主而活 阅读(818) 评论(0) 推荐(0)

决策树算法之C5.0
摘要:C5.0是对ID3算法的改进。 1.引入了分支度Information Value的概念。 C5.0是用哪个信息增益率作为判断优先划分属性的。 信息增益率其实就是在信息增益 除了 分支度。分支度的计算公式如上,就是指,若某划分属性S将样本T划分成n个子集T1,T2,...Tn,则此属性S的分支度就等 阅读全文

posted @ 2020-07-04 16:00 为主而活 阅读(5226) 评论(0) 推荐(0)

决策树算法之ID3
摘要:ID3算法 ID3使用信息增益(information Gain)作为属性选择方法。信息增益基于信息论中熵(Entropy)的概念。熵是衡量一个节点不纯度的指标。 熵越大,节点越不纯,当熵=0时,节点最纯。 假设一个训练样本集T是含有t个数据的样本集合,假设T在类属性C上有n个不同的值,且在类属性C 阅读全文

posted @ 2020-07-04 15:26 为主而活 阅读(687) 评论(0) 推荐(0)

MSE与MAE的区别与选择
摘要:MSE与MAE的区别与选择 (摘自简书请不要问我是谁) 1.均方误差(也称L2损失) 均方误差(MSE)是最常用的回归损失函数,计算方法是求预测值与真实值之间距离的平方和,公式如图。 2.平均绝对值误差(也称L1损失) 平均绝对误差(MAE)是另一种用于回归模型的损失函数。MAE是目标值和预测值之差 阅读全文

posted @ 2020-07-02 07:37 为主而活 阅读(2886) 评论(0) 推荐(0)

(九)关键变量发掘技术
摘要:一、关键变量发掘技术(key attribute discovery techniques) 关键变量发掘技术,其实,就是从数据集中的所有数据变量中找到那些影响分类模型最大的那些关键变量。 1.两种变量是必须需要剔除的。 相关变量(redundant):如果一个变量和另一个变量高度相关,这个时候,此 阅读全文

posted @ 2020-06-29 07:02 为主而活 阅读(394) 评论(0) 推荐(0)

(八)数据集切割
摘要:一、数据集切割 我们通常将数据及切割成两部分:训练数据集(Training Dataset);测试数据集(Testing Dataset). 注意:可采用分层抽样的方式进行,以保持数据在目标字段上分布的一致性。 1.数据分割 • 80%训练数据→在训练数据上可以做任何的分析• 20%测试数据→在测试 阅读全文

posted @ 2020-06-29 06:33 为主而活 阅读(414) 评论(0) 推荐(0)

(七)数据精简之(数据值精简和字段的精简)
摘要:一、数据精简之数值精简 •1. 数据值精简的需求 • 原始数据中存在太细、过于底层的数据数值,对于许多数据挖掘方法而言,将无法从中找出层次较高、趋势导向的知识• 2.类别型数据数值精简 • 数据一般化(Data Generalization)• 3.连续型数据数值精简 • 数据离散化(Data Di 阅读全文

posted @ 2020-06-29 06:20 为主而活 阅读(408) 评论(0) 推荐(0)

(六)数据精简之(数据记录精简)
摘要:数据精简之数据记录精简方法 1.数据记录精简的需求 • 随着数据表中的数据记录愈来愈多,有两个问题会浮现出来 • 整个数据挖掘所需的时间将跟着拉长 • 所有统计的方法通通失效2.数据记录精简对所获得的知识影响 • 求得之知识可能多少有些误差 • 然而当数据集合中存在无关、偏差的数据记录时,将数据记录 阅读全文

posted @ 2020-06-28 07:30 为主而活 阅读(534) 评论(0) 推荐(0)

(五)数据编码是干什么
摘要:一、数据编码主要三个 数据正规化(Data Normalization) • 将数据重新分布在一个特定的范围内(0~1) • 年龄 VS. 年薪• 数据正规化的方法 • 极值正规化(Min-Max Normalization) • Z-分数正规化(Z-Score Normalization) 2.数 阅读全文

posted @ 2020-06-28 07:04 为主而活 阅读(1076) 评论(0) 推荐(0)

导航