随笔分类 -  机器学习

摘要:聚类K-means算法 问题:给你一张这样的图,也没给其他信息,让你去给他们分类?怎么分类 那么,我们可能会以帽子或头发等为特征对他们进行分类,物以类聚,人以群分 聚类的原理: 1. 随机在数据当中抽取三个样本,当做三个类别的中心点(k1,k2,k3). ##图一,颜色实心标记## 2. 计算其余的 阅读全文
posted @ 2020-04-06 01:18 逍遥大帝 阅读(374) 评论(0) 推荐(0)
摘要:逻辑回归 逻辑回归,虽然有回归二字,但其实是个分类算法,主要用于二分类. 逻辑回归是吧线性回归得到的值,进行一个转换,来解决分类问题 sigmoid函数 输入范围-∞到+∞, 输出的值在[0,1] 公式是这样的 e为常数,如果z趋近于+∞,e的负z次就越接近于0,g(z)=1.如果z趋近于-∞,e的 阅读全文
posted @ 2020-04-04 23:34 逍遥大帝 阅读(376) 评论(0) 推荐(0)
摘要:随机森林 - RandomForestClassifier 在了解随机森林之前,得先了解一下:集成学习方法 集成学习是通过建立几个模型组合来解决单一问题的预测。 它的工作原理是生成多个分类器/模型 , 各自独立的学习和作出预测。 这些预测最后结合成单一的预测,因此优于任何一个单一分类器作出的预测。 阅读全文
posted @ 2020-04-04 22:56 逍遥大帝 阅读(344) 评论(0) 推荐(0)
摘要:线性回归 Linear_model.LinearRegression,SGDRegressor ## 分类问题是离散型数据,回归问题是连续型数据 ## 线性关系模型: 一个通过属性的线性组合来进行预测的函数: f(x) = w1x1 + w2x2 + ... + wdxd + b w为权重,b成为偏 阅读全文
posted @ 2020-04-01 16:50 逍遥大帝 阅读(1691) 评论(0) 推荐(0)
摘要:决策树的原理 决策树的思想的来源非常朴素。在程序设计中的条件分支结构就是 if-then 结构。 最早的决策树就是利用这类结构分割数据的一种分类学习方法。 来看2个案列: 可以看到,如果男方的年龄如果大于30,那就直接over了。但是小于30,是吧,又继续往下。 长的怎么样,如果是一般或者不好看。那 阅读全文
posted @ 2020-03-12 21:52 逍遥大帝 阅读(998) 评论(0) 推荐(3)
摘要:模型的评估标准 准确率 estimator.score() 最常见,预测结果的正确百分比 混淆矩阵 在分类任务下,预测结果与正确标记之间存在四种不同的组合,构成了混淆矩阵(适用于多分类) 精确率 预测结果为正例样本中真实为正例的比例,也就是查得准 召回率 真实为正例的样本中预测结果为正例的比例,查的 阅读全文
posted @ 2019-12-27 21:50 逍遥大帝 阅读(1002) 评论(0) 推荐(0)
摘要:朴素贝叶斯算法 👉 naive_bayes.MultinomialNB 朴素贝叶斯算法,主要用于分类. 例如:需要对垃圾邮件进行分类 分类思想 , 如何分类 , 分类的评判标准??? 预测文章的类别概率, 预测某个样本属于 N个目标分类的相应概率,找出最大的可能性.也就是找出准确率最高的. 概率基 阅读全文
posted @ 2019-12-22 21:43 逍遥大帝 阅读(827) 评论(0) 推荐(0)
摘要:K-近邻算法 👉 KNeighborsClassifier 原理 : 如果一个样本在 特征空间中的 k个值 (即特征空间中邻近)的 样本中的 大多数 属于某一个类别 , 则该样本也属于这个类别。也理解为:离谁最近,与谁一样。找K个最近的点 , 看这k个点中 , 类别最多的那个类别。 特别需要注意的 阅读全文
posted @ 2019-12-06 00:02 逍遥大帝 阅读(925) 评论(0) 推荐(0)
摘要:机器学习算法分类 监督学习(预测,有目标) 分类 K-近邻算法 贝叶斯算法 决策树与随机森林 逻辑回归 回归 线性回归 岭回归 分类的概念 分类是监督学习的一个核心问题,在监督学习中,当输入变量取有限个离散值时,预测问题变成分类问题. 基础的便是二分类问题即判断是非,从两个类别中选择一个作为预测结果 阅读全文
posted @ 2019-12-01 00:09 逍遥大帝 阅读(605) 评论(0) 推荐(1)
摘要:标准化和缺失值的处理 标准化 : 特点 : 通过对原始数据进行变换把数据变换到均值为0, 标准差为1的范围内. ## 对于归一化来说:如果出现异常点,影响了大值和小值,那么结果显然会发生改变 对于标准化来说:如果出现异常点,由于具有一定数据量,少量的异常点对于平均值的影响并不大,从 而方差改变较小。 阅读全文
posted @ 2019-11-30 23:37 逍遥大帝 阅读(1951) 评论(0) 推荐(0)
摘要:机器学习介绍和数据集介绍 机器学习: 机器学习是一门多学科交叉专业,涵盖概率论知识,统计学知识,近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实实时的模拟人类学习方式,并将现有内容进行知识结构划分来有效提高学习效率。 很难明确的定义,简单的来说,机器学习就是利用数学方法和计算机技术通过对历 阅读全文
posted @ 2019-11-28 01:23 逍遥大帝 阅读(10466) 评论(0) 推荐(1)