白话机器学习的数学

第一章 机器学习概述

什么是机器学习

  • 无论是过去还是现在,计算机都特别擅长处理重复的任务。所以 计算机能够比人类更高效地读取大量的数据、学习数据的特征并 从中找出数据的模式。这样的任务也被称为机器学习或者模式识别,以前人们就有用计算机处理这种任务的想法,并为此进行了大量的研究,也开发了很多代码。

  • 当我们打算用机器学习做什么事情的时候, 首先需要的就是数据。因为机器学习就是从数据中找出特征和模式的技术。

  • 虽然不可否认这受益于计算机理论的发展,不过主要还是归功于以下两点。

    • 具备了能够收集大量数据的环境

    • 具备了能够处理大量数据的环境

什么是“具备了能够收集大量数据的环境”

  • 由于互联网的发展,个人行为和生活的一部分已经被数字化,规 模大到无法想象的数据也随之而生。 而且,不仅是数据量变多了,数据的种类也增加了。其中包括 Web 网站的访问记录、博客上发布的博文和照片、邮件的发送记 录、电商网站的购买记录等,数不胜数。多亏有了互联网,我们 才可以轻松获取大量这样的数据。

  • 而且现在计算机的性能也越来越高,处理同样多的数据所需的时 间变得越来越短,硬盘和 SSD 这样的存储设备也越来越便宜。

回归

  • 是在处理连续数据如时间序列数据时使用的技术

  • 时间学列数据--就是那些连续观测到的因时而异的数据,股价就是时间序列数据 的一个例子。

image-20221125161341335

 

  • 身高和体重本身就是连续的数据,假如记录下 每天的身高和体重,那么得到的数据就是类似于股价的时间序列数据了。

对这样的连续数据使用机器学习,又是什么意思呢?

例如,我们从刚才的图中,选出几个过去某个时间点的股价数据

image-20221125161854634

从这样的数据中学习它的趋势,求出“明天的股价会变为多 少”“今后的趋势会怎样”的方法就是回归,它就是一种机器学习算法。

分类

  • 分类没那么难。比如刚才你提到的鉴别垃圾邮件就可以归类为分类问题。

  • 也就是说检查邮件的内容,然后判断它是不是垃圾邮件。

  • 根据邮件的内容,以及这封邮件是否属于垃圾邮件这 些数据来进行学习

  • 只有两个类别的问题称为二分类, 有三个及以上的问题称为多分类,比如数字的识别就属于多分类问题。

聚类

聚类与分类相似,却又有些不同。聚类考虑的问题是:假设在有 100 名学生的学校进行摸底考试,然后根据考试成绩把 100 名学生 分为几组,根据分组结果,我们能得出某组偏重理科、某组偏重 文科这样有意义的结论。这里用来学习的数据就是每个学生的考 试分数,比如下面这张表

image-20221125162452359

  • 聚类与分类的区别在于数据带不带标签。也有人把标签称为正确答案数据。比如刚才的垃圾邮件鉴别问题,除了邮件内容以外,数 据集中是不是还包含了标记邮件是否为垃圾邮件的数据?

  • 使用有标签的数据进行的学习称为有监督学习,与之相反,使用 没有标签的数据进行的学习称为无监督学习。回归和分类是有监 督学习,而聚类是无监督学习,这样对比记忆效果可能会更好。

  •  
posted @ 2022-11-25 15:55  Lgq_Sir  阅读(393)  评论(0)    收藏  举报