随笔分类 - 机器学习
摘要:前言 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。特征工程的目的是最大限度地从原始数据中提取特征以供算法和模型使用。本文主要关注于常用的特征选择方法 过采样(Over sampling) 针对不平衡数据, 最简单的一种方法就是生成少数类的样本, 这其中最基本的一种方法就是: 从
阅读全文
摘要:背景 聚类属于无监督学习,我们前面所讲的逻辑回归,决策树都是有类别标签y的,也就是说样本中给出了样本的类别y。而聚类的样本却没有给样本的类别y,只有样本的特征x。聚类的目的是找到每个样本x潜在的类别y,并将相同类别y的样本x放在一起。 kmeans kmeans中聚类算法中使用的最广泛的算法之一。我
阅读全文
摘要:背景 决策树是数据挖掘中一种最基本的分类与回归方法,与其他算法相比,决策树的原理浅显易懂,计算复杂度较小,而且输出结果易于理解,因此在实际工作中有着广泛的应用 基本算法 决策树分类算法的流程如下: 1. 初始化根结点,此时所有的观测样本均属于根结点 2. 根据下文中介绍的划分选择,选择当前最优的划分
阅读全文
摘要:背景 本文是我在学习 Andrew Ng 的机器学习课程的总结 简介 作为本系列的第一讲,线性模型形式简单,易于建模,但是蕴含着机器学习中一些重要的基本思想。许多功能更为强大的非线性模型可在线性模型的基础上引入层级结构或高维映射而得。此外,线性模型也有比较好的可解释性 例子 让我们从一个经典的例子开
阅读全文
摘要:前言 最近在工作中需要拟合高斯曲线,在python中可以使用 scipy,相关代码如下: 生成的结果如下图所示: java ? 由于线上用的java,所以需要使用java实现,需要使用到 apache 的 commons math3 jar包 代码 最开始测试的时候非常完美,可是马上就悲剧了,在我运
阅读全文

浙公网安备 33010602011771号