第一章 机器学习概览
什么是机器学习( Machine Learning )
使用编程的方式,让机器从数据中具备学习的能力。
为什么要使用机器学习
机器学习的一个亮点在于会自动适应改变,另一个亮点是善于处理对于传统算法而言过于复杂或没有已知算法的问题。
机器学习适用范围;
存在解决方案但方案需要遵守大量规则或者需要大量人工微调的问题。
传统方法难以解决的问题,机器学习算法或许能够找到解决方案。
需要不断调整数据的环境。
洞察大量数据和复杂问题。
机器学习的系统类型
是否在人类监督下学习
有监督学习: 有监督学习的训练数据都是经过标记的。在有监督学习中,提供给算法的包含所需解决方案的训练集称为标签。典型的有监督学习任务主要包括分类任务和回归任务。分类任务是指通过大量的数据和现有的所属类别进行训练,然后学习如何对新数据进行分类。回归任务是指给定一组预测器的特征来预测一个目标数值。常见的有监督学习算法主要有:K - 近邻算法,线性回归,逻辑回归,支持向量机,决策树和随机森林,神经网络。
无监督学习:无监督学习的训练数据都是没有经过标记的。系统会自发的进行学习。常见的无监督学习算法主要有聚类算法,异常检测和新颖性检测,可视化和降维以及关联规则学习。
半监督学习:由于给数据进行标注通常是十分具有代价的,所以通过处理部分已标记的数据来完成对于整个数据的训练,称为半监督学习。大多数的半监督学习算法都是无监督算法和有监督算法的结合。
强化学习:强化学习的学习系统(智能体)能够观察环境,做出选择,执行动作,获得反馈(奖励/惩罚)。所以她必须自行学习什么是最好的策略。
是否可以动态的进行增量学习
在线学习:在线学习中,可以循序渐进给系统提供训练数据,逐步积累学习成果。算法通过加载部分数据,并针对这部分的数据进行训练,然后不断重复这个过程,直到完成所有数据的训练。
批量学习:系统无法进行增量学习。即在训练时使用所有的数据进行训练,并且离线完成。离线学习指先训练系统,然后投入生产环境,停止训练。若要重新训练,则需要在包含新旧数据集的基础上重新训练,然后用新系统代替旧系统。
基于实例的学习和基于模型的学习
基于实例的学习:系统通过学习旧实例,然后使用相似度来度量新旧实例之间的差别,从而泛化新实例。
基于模型的学习:对旧实例构建一个模型从而实现实例的泛化,然后通过模型来预测。这称为基于模型的学习。
典型的机器学习项目的流程:研究数据 -> 选择模型 -> 使用训练数据进行训练 -> 应用模型对新实例进行预测。
机器学习的挑战
训练数据的不足。
训练数据不具有代表性。
低质量是数据。
无关特征。
过拟合数据。
· 欠拟合数据。
测试验证
通常将 80% 的数据用于验证,20% 的数据用于测试。
测试集和验证集的作用:训练集,验证集,测试集(以及为什么要使用验证集?)(Training Set, Validation Set, Test Set) - HuZihu - 博客园 (cnblogs.com)

浙公网安备 33010602011771号