白话机器学习的数学
第一章 机器学习概述
什么是机器学习
-
无论是过去还是现在,计算机都特别擅长处理重复的任务。所以 计算机能够比人类更高效地读取大量的数据、学习数据的特征并 从中找出数据的模式。这样的任务也被称为机器学习或者模式识别,以前人们就有用计算机处理这种任务的想法,并为此进行了大量的研究,也开发了很多代码。
-
当我们打算用机器学习做什么事情的时候, 首先需要的就是数据。因为机器学习就是从数据中找出特征和模式的技术。
-
虽然不可否认这受益于计算机理论的发展,不过主要还是归功于以下两点。
-
具备了能够收集大量数据的环境
-
具备了能够处理大量数据的环境
-
什么是“具备了能够收集大量数据的环境”
-
由于互联网的发展,个人行为和生活的一部分已经被数字化,规 模大到无法想象的数据也随之而生。 而且,不仅是数据量变多了,数据的种类也增加了。其中包括 Web 网站的访问记录、博客上发布的博文和照片、邮件的发送记 录、电商网站的购买记录等,数不胜数。多亏有了互联网,我们 才可以轻松获取大量这样的数据。
-
而且现在计算机的性能也越来越高,处理同样多的数据所需的时 间变得越来越短,硬盘和 SSD 这样的存储设备也越来越便宜。
回归
-
是在处理连续数据如时间序列数据时使用的技术。
-
时间学列数据--就是那些连续观测到的因时而异的数据,股价就是时间序列数据 的一个例子。
-
身高和体重本身就是连续的数据,假如记录下 每天的身高和体重,那么得到的数据就是类似于股价的时间序列数据了。
对这样的连续数据使用机器学习,又是什么意思呢?
例如,我们从刚才的图中,选出几个过去某个时间点的股价数据
从这样的数据中学习它的趋势,求出“明天的股价会变为多 少”“今后的趋势会怎样”的方法就是回归,它就是一种机器学习算法。
分类
-
分类没那么难。比如刚才你提到的鉴别垃圾邮件就可以归类为分类问题。
-
也就是说检查邮件的内容,然后判断它是不是垃圾邮件。
-
根据邮件的内容,以及这封邮件是否属于垃圾邮件这 些数据来进行学习
-
只有两个类别的问题称为二分类, 有三个及以上的问题称为多分类,比如数字的识别就属于多分类问题。
聚类
聚类与分类相似,却又有些不同。聚类考虑的问题是:假设在有 100 名学生的学校进行摸底考试,然后根据考试成绩把 100 名学生 分为几组,根据分组结果,我们能得出某组偏重理科、某组偏重 文科这样有意义的结论。这里用来学习的数据就是每个学生的考 试分数,比如下面这张表
-
聚类与分类的区别在于数据带不带标签。也有人把标签称为正确答案数据。比如刚才的垃圾邮件鉴别问题,除了邮件内容以外,数 据集中是不是还包含了标记邮件是否为垃圾邮件的数据?
-
-

浙公网安备 33010602011771号