《机器学习实战》-第1章机器学习基础

为了测试机器学习算法的效果，通常使用两套独立的样本集：训练数据和测试数据，当机器学习程序开始运行时，使用训练样本集作为算法的输入，训练完成之后输入测试样本。输入测试样本时并不提供测试样本的目标变量，由程序决定样本属于哪个类别。比较测试样本预测的目标变量值与实际样本类别之间的差别，就可以得出算法的实际精确度。

1.1 如何选择算法

首先要考虑使用机器学习算法的目的。如果想要预测目标变量的值，则可以选择监督学习算法，否则可以选择无监督学习算法。确定选择监督学习算法之后，需要进一步确定目标变量类型，如果目标变量是离散型，如是/否、1/2/3、A/B/C或者红/黄/黑等，则可以选择分类器算法；如果目标变量是连续型的数值，如0.0~100.00、-999~999等，则需要选择回归算法。

其次需要考虑的是数据问题，应该充分了解数据，对实际数据了解得越充分，越容易创建符合实际需求的应用程序。主要应该了解数据的以下特征：特征值是离散型变量还是连续型变量，特征值是否存在缺失值，何种原因造成缺失值，数据中是否存在异常值，某个特征发生的频率如何等，充分了解上面提到的数据特征可以缩短选择机器学习算法的时间。

1.2 开发机器学习应用程序的步骤

（1）收集数据

（2）准备输入数据

（3）分析输入数据

（4）训练算法

（5）测试算法

（6）使用算法

1.3 Python语言的优势

（1）Python的语法清晰

（2）易于操作纯文本文件

（3）使用广泛，存在大量的开发文档

学习机器学习算法，必须了解数据实例，每个数据实例由多个特征值组成。分类是基本的机器学习任务，它分析未分类数据，以确定如何将其放入已知群组中。为了构建和训练分类器，必须首先输入大量已知分类的数据，将这些数据称为训练样本集。

posted @ 2020-08-05 16:45 SunHoney 阅读(24) 评论(0) 收藏举报

刷新页面返回顶部

SunHeney

《机器学习实战》-第1章机器学习基础

公告