机器学习实战笔记(1)
1.1 一个例子
在基于四种特征(体重、翼展、脚蹼、后背颜色)鸟类物种分类这个例子中,数据包含6个训练样本,每个样本有4种特征,1个目标变量。目标变量是机器学习算法的预测结果,在分类算法中目标变量的类型通常是离散型,而在回归算法中通常是连续型的。训练样本集必须确定知道目标变量的值,以便机器学习算法可以发现特征和目标变量之间的关系。
1.2 如何选择合适的算法
从众多算法中选择实际可用的算法,必须考虑一下两个问题:一、使用机器学习算法的目的,想要算法完成何种任务;二、需要分析或收集的数据是什么。
主要应该了解数据的一下特征:特征值是离散型变量还是连续型变量,特征值中是否存在缺失的值,何种原因造成缺失值,数据中是否存在异常值,某个特征发生的频率如何,等等。对于所选的算法,都可以使用其他的机器学习技术来改进其性能。
总结:机器学习的方法可以说是无处不在╮(╯_╰)╭,从邮件过滤系统到预测天气、疾病,人类利用这些方法来处理繁杂冗余的数据,想想,节省了多少人力和脑力。YY了一下,会不会有机器智慧接近人类智慧的那一天呢?
浙公网安备 33010602011771号