导航

随笔分类 -  机器学习

分享一些简单的机器学习算法以及实现的源码
摘要:Adaboost分类器 2019-08-31 非集成的机器学习算法就像古代皇帝一样,一个人说了算;集成学习算法类似于现在的国会,需要听取在会所有人的意见。 Adaboost是一个集成学习算法,下面将会对算法进行拆解,以使我们明白Adaboost的内部原理。 Adboost算法核心内容可以划分为两个问 阅读全文

posted @ 2019-09-11 12:35 司恩波 阅读(602) 评论(0) 推荐(0)

摘要:模型性能评估 模型性能评估是为了评价模型的泛化能力,模型性能评估主要有两个问题要解决: 1)用什么数据来评估? 2)用什么标准来评估? 下面的第一节内容主要解答用什么数据来评估模型的性能,第二节解答用什么标准来评估。 1.用什么数据来评估模型性能 常用的有3中,按照复杂程度程度排序分别为: 1)训练 阅读全文

posted @ 2019-09-11 11:12 司恩波 阅读(1413) 评论(0) 推荐(0)

摘要:特征提取(机器学习数据预处理) 特征提取与特征选择都是数据降维的技术,不过二者有着本质上的区别;特征选择能够保持数据的原始特征,最终得到的降维数据其实是原数据集的一个子集;而特征提取会通过数据转换或数据映射得到一个新的特征空间,尽管新的特征空间是在原特征基础上得来的,但是凭借人眼观察可能看不出新数据 阅读全文

posted @ 2019-09-11 10:50 司恩波 阅读(18092) 评论(0) 推荐(1)

摘要:决策树(DecisionTree) 决策树所属类别:监督学习,分类 优点:直观易懂,算法简单 缺点:容易过拟合,对连续型数据不太容易实现 实现方案:ID3,CART,C4.5 详细的资料见连接:别人写的很详细的决策树 这篇博客主要把重点放在决策树程序的实现上,也仅实现了ID3算法,对其他两个算法仅作 阅读全文

posted @ 2019-09-11 10:16 司恩波 阅读(1454) 评论(0) 推荐(0)

摘要:支持向量机(SVM) 算法分类:监督算法,分类算法 1.SVM算法简介 SVM是分类算法中比较特殊的一种,它并不像LR算法那样使用到所有数据进行模型训练,SVM虽然也使用了全部数据,但是绝大部分数据只参与约束条件的限制,不参与最终模型参数的训练。SVM的目标是分类最大化分类间隔,何为最大化分类间隔, 阅读全文

posted @ 2019-09-11 09:09 司恩波 阅读(487) 评论(0) 推荐(0)

摘要:LogisticRegression(逻辑回归) 逻辑回归虽然名称上带回归,但实际上它属于监督学习中的分类算法。 1.算法基础 LogisticRegression基本架构源自于Adline算法,只是在激励函数的选择上有所不同,Adline算法使用恒等函数作为激励函数,而Logistic选用sigm 阅读全文

posted @ 2019-09-10 20:19 司恩波 阅读(2134) 评论(0) 推荐(0)

摘要:机器学习大致流程 2019-08-25 1.机器学习分类 机器学习主要分3大类,分别是:监督学习,强化学习,无监督学习,其中主要的区别如下所示。 1.1 监督学习 训练数据的标签(即样本的输出)已知,通过训练数据的标签作为反馈,对模型训练的学习方法称为监督学习;常见的子类有分类和回归两项; 1.2 阅读全文

posted @ 2019-09-10 16:41 司恩波 阅读(7625) 评论(0) 推荐(1)

摘要:机器学习的数据预处理 数据预处理是在机器学习算法开始训练之前对原始数据进行筛选,填充,去抖,类别处理,降维等操作;有的方法可以防止由于数据的原因导致的算法无法工作,有的方法可以加速机器学习算法的训练,提高算法的精度。 1.缺失数据的处理 1.1查看数据确缺失情况 举个例子说明如何查看数据缺失的情况: 阅读全文

posted @ 2019-09-08 14:30 司恩波 阅读(2616) 评论(0) 推荐(0)

摘要:自适应线性神经元(Adline) 2019-08-26 Adline算法属性:监督算法,分类算法 1.算法框架 1.1净输入函数 净输入函数: $z = w_{0}x_{0} + w_{1}x_{1} + ··· +w_{n}x_{n}={\sum_{j=0}^{n}}w_{j}x_{j}=w^{T 阅读全文

posted @ 2019-08-26 16:23 司恩波 阅读(1915) 评论(0) 推荐(0)

摘要:LinearRegression(线性回归) 1.线性回归简介 线性回归定义: 百科中解释 我个人的理解就是:线性回归算法就是一个使用线性函数作为模型框架($y = w*x + b$)、并通过优化算法对训练数据进行训练、最终得出最优(全局最优解或局部最优)参数的过程。 y:我们需要预测的数值; w: 阅读全文

posted @ 2019-02-23 14:23 司恩波 阅读(5916) 评论(0) 推荐(0)