《机器学习实战》-第1章机器学习基础

       为了测试机器学习算法的效果,通常使用两套独立的样本集:训练数据和测试数据,当机器学习程序开始运行时,使用训练样本集作为算法的输入,训练完成之后输入测试样本。输入测试样本时并不提供测试样本的目标变量,由程序决定样本属于哪个类别。比较测试样本预测的目标变量值与实际样本类别之间的差别,就可以得出算法的实际精确度。

1.1 如何选择算法

       首先要考虑使用机器学习算法的目的。如果想要预测目标变量的值,则可以选择监督学习算法,否则可以选择无监督学习算法。确定选择监督学习算法之后,需要进一步确定目标变量类型,如果目标变量是离散型,如是/否、1/2/3、A/B/C或者红/黄/黑等,则可以选择分类器算法;如果目标变量是连续型的数值,如0.0~100.00、-999~999等,则需要选择回归算法。

       其次需要考虑的是数据问题,应该充分了解数据,对实际数据了解得越充分,越容易创建符合实际需求的应用程序。主要应该了解数据的以下特征:特征值是离散型变量还是连续型变量,特征值是否存在缺失值,何种原因造成缺失值,数据中是否存在异常值,某个特征发生的频率如何等,充分了解上面提到的数据特征可以缩短选择机器学习算法的时间。

1.2 开发机器学习应用程序的步骤

(1)收集数据

(2)准备输入数据

(3)分析输入数据

(4)训练算法

(5)测试算法

(6)使用算法

1.3 Python语言的优势

(1)Python的语法清晰

(2)易于操作纯文本文件

(3)使用广泛,存在大量的开发文档

      学习机器学习算法,必须了解数据实例,每个数据实例由多个特征值组成。分类是基本的机器学习任务,它分析未分类数据,以确定如何将其放入已知群组中。为了构建和训练分类器,必须首先输入大量已知分类的数据,将这些数据称为训练样本集。

posted @ 2020-08-05 16:45  SunHoney  阅读(24)  评论(0)    收藏  举报