Machine Learning – 第1周 - 课程材料

课前问题：

思考我们日常生活中的ML是如何运作的，如Google page ranking、苹果相册里如何识别出人脸、邮件里的垃圾邮件识别、NLP、推荐系统
原理层面上，ML与传统编程的最大区别是什么？学*的哲学意义是什么？data/knowledge、train/punish、model/predict
如何让机器人学*，打扫房间、下围棋等等
为什么任何科目的学*都需要考试？有什么启发？

引言问题：

各类大数据的积累，极大的促进了ML和DL的发展【只要有高质量数据不断积累，ML和DL就有用武之地，无论什么领域】
如何利用ML和DL来解决LI的问题？
机器学*ML的定义，非显性编程，performance on task T, as measured by performance P, improves with exprerience E.
ML的分类，监督学*、非监督学*、强化学*、推荐系统
什么是监督学*？如何根据size预测housing price？狭义：data已有label；回归；分类
什么是非监督学*？狭义：data无label；聚类（google新闻分类），语音或bulk基因表达的deconvolution
如何评估一个ML或DL model？

单变量线性回归

模型表示是什么？就是h的数学表示
训练集、学*算法、x、y、hypothesis是什么？函数映射
什么是参数？什么是代价函数？（一种CF：平方差函数）数学形式上如何用统一的形式来获取h函数？目标：最小化J函数
学会计算某个参数组合情况下的J函数的具体值，学会画出基本的J函数
复*：假设hypothesis、参数parameters、代价函数cost function、目标goal
举例：代价函数的可视化，如何求最小值？轮廓图
参数学*是什么？如何获取参数【以下山为例】
什么是梯度下降算法？基本原理是什么？如何求min J？如何防止求得局部最优解？什么是学*速率？（决定步长）微分项是什么？（决定方向）什么是参数的同步更新？
以一个参数为例，理解梯度下降算法的工作原理；某一点的斜率，或偏导；
第一个正式实例：线性回归的代价函数和梯度下降算法；
另一个用线性代数求代价函数最小值的方法

线性代数知识回顾：【讲得非常基础】

什么是矩阵？rows x columns，A_ij，什么是向量？n row x 1 column，y_i。矩阵大写字母，向量小写字母。
矩阵的加法，矩阵和标量的乘法，dim相同才能做加法
矩阵的乘法，基本要求，可直接应用于线性回归
矩阵的乘法的性质，不满足交换律（除了单位矩阵外），满足结合律；
矩阵的逆运算和转置，矩阵与其逆矩阵相乘等于单位矩阵，

This week, we introduce the core idea of teaching a computer to learn concepts using data（用数据教电脑学*概念）—without being explicitly programmed（不显性的编程）.

Linear regression（线性回归） predicts a real-valued output based on an input value. We discuss the application of linear regression to housing price prediction, present the notion of a cost function（代价函数）, and introduce the gradient descent method（梯度下降方法） for learning.

Basic understanding of linear algebra（线性代数） is necessary for the rest of the course, especially as we begin to cover models with multiple variables（多变量回归问题）.

课程信息

机器学*是一门研究在非特定编程条件下让计算机采取行动的学科。最*二十年，机器学*为我们带来了自动驾驶汽车、实用的语音识别、高效的网络搜索，让我们对人类基因的解读能力大大提高。当今机器学*技术已经非常普遍，您很可能在毫无察觉情况下每天使用几十次。许多研究者还认为机器学*是人工智能（AI）取得进展的最有效途径。在本课程中，您将学*最高效的机器学*技术，了解如何使用这些技术，并自己动手实践这些技术。更重要的是，您将不仅将学*理论知识，还将学*如何实践，如何快速使用强大的技术来解决新问题。最后，您将了解在硅谷企业如何在机器学*和AI领域进行创新。

本课程将广泛介绍机器学*、数据挖掘和统计模式识别（Pattern Recognition）。相关主题包括：

(i) 监督式学*（参数和非参数算法、支持向量机、核函数和神经网络）。
(ii) 无监督学*（集群、降维、推荐系统和深度学*）。
(iii) 机器学*实例（偏见/方差理论；机器学*和AI领域的创新）。

课程将引用很多案例和应用，您还需要学*如何在不同领域应用学*算法，例如智能机器人（感知和控制）、文本理解（网络搜索和垃圾邮件过滤）、计算机视觉、医学信息学、音频、数据库挖掘等领域。

附注：什么是模式识别？ 模式识别-百科

随着计算机技术的发展，人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。对人类来说，特别重要的是对光学信息（通过视觉器官来获得）和声学信息（通过听觉器官来获得）的识别。

授课大纲

第 1 周
Introduction 简介
Linear Regression with One Variable 单变量线性回归
Linear Algebra Review 线性代数复*

第 2 周
Linear Regression with Multiple Variables 多变量线性回归
Octave/Matlab Tutorial

第 3 周
Logistic Regression 逻辑回归
Regularization 正则化

第 4 周
Neural Networks: Representation 神经网络表示

第 5 周
Neural Networks: Learning 神经网络学*

第 6 周
Advice for Applying Machine Learning
Machine Learning System Design 机器学*系统设计

第 7 周
Support Vector Machines 支持向量机

第 8 周
Unsupervised Learning 无监督学*
Dimensionality Reduction 降维

第 9 周
Anomaly Detection 异常检测
Recommender Systems 推荐系统

第 10 周
Large Scale Machine Learning 大规模机器学*

第 11 周
Application Example: Photo OCR 应用实例

Introduction

Welcome

欢迎来到这门关于机器学*的免费网络课程

机器学*是*年来最激动人心的技术之一在这门课中你不仅可以了解机器学*的原理更有机会进行实践操作并且亲自运用所学的算法

在生活中每天你都可能在不知不觉中使用了各种各样的机器学*算法 比如当你每一次使用像诸如谷歌 (Google)或必应 (Bing) 的搜索引擎时它们运作得如此之好的原因之一便是由Google或微软实现的一种学*算法可以“学会”如何对网页进行排名每当你使用脸书 (Facebook)或苹果 (Apple) 的照片处理应用时它们都能自动识别出你朋友的照片这也是机器学*的一种每当你阅读电子邮件时你的垃圾邮件过滤器帮你免受大量垃圾邮件的困扰这也是通过一种学*算法实现的

还有一个让我兴奋的理由是一个关于人工智能的梦想 有朝一日我们能创造出像你我一样聪明的机器尽管我们离这个目标仍有很长的距离但许多的人工智能专家相信实现这一目标最好的途径是通过学*算法 来模拟人类大脑的学*方式 关于这点我也会在这门课程中有所提及

在这门课中你将会掌握机器学*的前沿原理 但是仅仅了解其中的算法和数学是不够的尤其是如果你并不知道如何将所学的理论知识用到你的实际问题上时因此我们也将花费大量时间来让大家进行编程练* 帮助你实现所学的算法并体验到它们究竟是怎么运作的

话说为什么机器学*在当今如此流行呢？

机器学*发源于人工智能领域我们希望能够创造出具有智慧的机器我们通过编程来让机器完成一些基础的工作比如如何找到从A到B的最短路径
但在大多数情况下我们并不知道如何显式地编写人工智能程序 来做一些更有趣的任务比如网页搜索标记照片和拦截垃圾邮件等人们意识到唯一能够达成这些目标的方法就是让机器自己学会如何去做 因而机器学*已经发展成为计算机的一项新能力 并且与工业界和基础科学界有着紧密的联系

身处机器学*领域我常常会在短短一周中与形形色色的人打交道如直升机飞行员、生物学家、还有许多计算机系统专家比如我在斯坦福的同事们同时平均每周我还会数次收到来自硅谷的业界人士的email 咨询我是否有兴趣将机器学*算法应用到他们所遇到的实际问题中 以上的例子都彰显了机器学*所能处理的问题范围之广

在硅谷机器学*引导着大量的课题如自主机器人、计算生物学等机器学*的实例还有很多

1.比如数据库挖掘 机器学*变得如此流行的原因之一便是网络和自动化算法的爆炸性增长 这意味着我们掌握了比以往多得多的数据集举例来说

当今有数不胜数的硅谷企业在收集有关网络点击的数据 (Clickstream Data) 并试图在这些数据上运用机器学*的算法来更好的理解和服务用户这在硅谷已经成为了一项巨大的产业
随着电子自动化的发展我们现在拥有了电子医疗记录 如果我们能够将这些记录转变为医学知识那我们就能对各种疾病了解的更深入
同时计算生物学也在电子自动化的辅助下快速发展生物学家收集了大量有关基因序列以及DNA序列的数据通过对其应用机器学*的算法来帮助我们跟深入地理解人类基因组 及其对我们人类的意义
几乎工程界的所有领域都在使用机器学*算法来分析日益增长的海量数据集

2.有些机器应用我们并不能够通过手工编程来实现

比如说我个人对自动直升机有着许多年的研究想要写出一个能让直升机自主飞行的程序几乎是不可能的任务唯一可行的解决方案就是让一台计算机能够自主地学会如何让直升机飞行
再比如手写识别 如今将大量的邮件按地址分类寄送到全美甚至全球的代价大大降低其中重要的理由之一便是每当你写下这样一封信时一个机器学*的算法已经学会如何读懂你的笔迹并自动地将你的信件发往它的目的地所以邮寄跨越上万里的信件的费用也很低
你也许曾经接触过自然语言处理和计算机视觉 事实上这些领域都是试图通过人工智能来理解人类的语言和图像如今大多数的自然语言处理和计算机视觉都是对机器学*的一种应用

3.机器学*算法也在用户自定制化程序(self-customizing program)中有着广泛的应用

每当你使用亚马逊 Netflix或iTunes Genius的服务时都会收到它们为你量身推荐的电影或产品这就是通过学*算法来实现的可以相信这些应用都有着上千万的用户而针对这些海量的用户编写千万个不同的程序显然是不可能的唯一有效的解决方案就是开发出能够自我学* 定制出符合你喜好的并据此进行推荐的软件

4.最后机器学*算法已经被应用于探究人类的学*方式 并试图理解人类的大脑我们也将会了解到研究者是如何运用机器学*的工具来一步步实现人工智能的梦想

就在几个月前我的一位学生给我看了一篇文章文中列举了当今12个最主要的IT技能 这些技术可以让信息技术行业的招聘官无法拒绝你虽然这是一篇略显老旧的文章但所有技能中最重要的便是机器学* 在斯坦福向我咨询有没有即将毕业的研究机器学*学生的雇主远远多于我们这儿每年毕业的机器学*的学生因而我觉得对机器学*这一技能的需求仍有着巨大的缺口 而现在正是学*它的绝佳机会我希望你们能在这门课中收获良多

在接下来的视频中我将更正式地定义什么是机器学* 也会讨论机器学*主要面对的几类问题和相关算法 你也会学*一些主要的机器学*术语并对不同的算法和其适用的场景有初步的了解

Supervised Learning（监督式学*）

在本视频中，我将介绍一种也许是最常见的机器学*问题。即监督学*。后面将给出监督学*更正式的定义，现在最好以示例来说明什么是监督学*。之后再给出正式的定义。

回归问题

假设你想预测房价（无比需要啊！），之前，某学生已经从某地收集了数据集（不是中国的，囧）其中一个数据集是这样的。这是横坐标，即不同房子的面积，单位平方脚（^-^）纵轴上是房价，单位千美元。根据给定数据，假设你朋友有栋房子，750平尺（70平米）想知道这房子能卖多少，好卖掉。

那么，学*算法怎么帮你呢？学*算法可以：绘出一条直线，让直线尽可能匹配到所有数据。基于此，看上去，那个房子应该、可能、也许、大概卖到15万美元（一平米两千刀！）。但这不是唯一的学*算法。可能还有更好的。比如不用直线了，可能平方函数会更好，即二次多项式更符合数据集。如果你这样做，预测结果就应该是20万刀（一平三千刀，涨价好快）。后面我们会介绍到如何选择是选择直线还是平方函数来拟合。没有明确的选择，就不知哪个能给你的朋友更好的卖房建议。只是这些每个都是很好的学*算法例子。也是监督学*的例子。

术语：监督学*，意指给出一个算法，需要部分数据集已经有正确答案。比如给定房价数据集，对于里面每个数据，算法都知道对应的正确房价，即这房子实际卖出的价格。算法的结果就是 算出更多的正确价格，比如那个新房子，你朋友想卖的那个。

用更术语的方式来定义，监督学*又叫回归问题，（应该是回归属于监督中的一种）意指要预测一个连续值的输出，比如房价。虽然从技术上，一般把房价记到美分单位。所以实际还是个离散值，但通常把它看作实际数字，是一个标量值，一个连续值的数，而术语回归，意味着要预测这类连续值属性的种类。

分类问题

另一个监督学*的例子，我和一些朋友之前研究的领域。让我们来看医学记录，并预测胸部肿瘤是恶性良性。如果某人发现有胸部肿瘤，恶性肿瘤有害又危险，良性肿瘤则是少害。显然人们很关注这个。让我们看一个收集好的数据集，假设在数据集中，横轴表示肿瘤的大小，纵轴我打算圈上0或1，是或否，即肿瘤是恶性的还是良性的。

所以如图所示，可以看到这个大小的肿瘤块是良性的，还有这些大小的都是良性的。不幸地是也看到一些恶性肿瘤，比如这些大小的肿瘤。所以，有5个良性块，在这一块，还有5个恶性的，它们纵轴值为1. 现在假设某人杯具地得胸部肿瘤了，大小大概是这么大。对应的机器学*问题就是，你能否估算出一个概率，即肿瘤为恶或为良的概率？

专业地说，这是个分类问题。分类是要预测一个离散值输出。这里是0或1，恶性或良性。事实证明，在分类问题中，有时会有超过两个的值，输出的值可能超过两种。举个具体例子，胸部肿瘤可能有三种类型，所以要预测离散值0，1，2，3 0就是良性肿瘤，没有癌症。 1 表示1号癌症，假设总共有三种癌症。 2 是2号癌症，3 就是3号癌症。这同样是个分类问题，因为它的输出的离散值集合分别对应于无癌，1号，2号，3号癌症

我再露一小手，在分类问题中，还有另一种作图方式来描述数据。我画你猜。要用到些许不同的符号集合来描绘数据。如果肿瘤大小作为唯一属性，被用于预测恶性良性，可以把数据作图成这样。使用不同的符号来表示良性和恶性，即阴性和阳性。所以，不再统一画叉叉了，改用圈圈来代表良性肿瘤，就像这样。仍沿用X（叉叉）代表恶性肿瘤。希望你能明白。我所做的就是，把在上面的数据，映射下来。再用不同的符号，圈和叉来分别代表良性和恶性。

在上例中，只使用了一个特征属性，即肿瘤块大小，来预测肿瘤是恶性良性。在其它机器学*问题里，有着不只一个的特征和属性。

例子，现在不只是知道肿瘤大小，病人年龄和肿瘤大小都知道了。这种情况下，数据集如表图所示，有些病人，年龄、肿瘤已知，不同的病人，会有一点不一样，肿瘤恶性，则用叉来代表。所以，假设有一朋友得了肿瘤。肿瘤大小和年龄落在此处。那么依据这个给定的数据集，学*算法所做的就是画一条直线，分开恶性肿瘤和良性肿瘤，所以学*算法会画条直线，像这样，把两类肿瘤分开。然后你就能判断你朋友的肿瘤是...了如果它在那边，学*算法就说你朋友的肿瘤在良性一边，因此更可能是良性的。好，本例中，总共有两个特征，即病人年龄和肿瘤大小。在别的ML问题中，经常会用到更多特征，我朋友研究这个问题时，通常使用这些特征：比如块的厚度，即胸部肿瘤的厚度肿瘤细胞大小和形状的一致性，等等。

它表明，最有趣的学*算法（本课中将学到）能够处理，无穷多个特征。不是3到5个这么少。在这张幻灯片中，我已经列举了总共5个不同的特征。但对于一些学*问题，真要用到的不只是三五个特征，要用到无数多个特征，非常多的属性，所以，你的学*算法要使用很多的属性或特征、线索来进行预测。那么，你如何处理无限多特征呢？甚至你如何存储无数的东西进电脑里，又要避免内存不足？

事实上，等我们介绍一种叫支持向量机的算法时，就知道存在一个简洁的数学方法，能让电脑处理无限多的特征。想像下，我不是这边写两个特征，右边写三个特征。而是，写一个无限长的特征表，不停地写特征，似乎是个无限长的特征的表。但是，我们也有能力设计一个算法来处理这个问题。

所以再从头复述一遍。本课中，我们介绍监督学*。其基本思想是，监督学*中，对于数据集中的每个数据， 都有相应的正确答案，（训练集）算法就是基于这些来做出预测。（就我理解，就是需要先输入正确的数据进行练*（模型拟合），然后输入新的数据进行预测。）

就像那个房价，或肿瘤的性质。后面介绍了回归问题。即通过回归来预测一个连续值输出。我们还谈到了分类问题，目标是预测离散值输出。

下面是个小测验题目：假设你有家公司，希望研究相应的学*算法去解决两个问题。第一个问题，你有一堆货物的清单。假设一些货物有几千件可卖，你想预测出，你能在未来三个月卖出多少货物。第二个问题，你有很多用户，你打算写程序来检查每个用户的帐目。对每个用户的帐目，判断这个帐目是否被黑过（hacked or compromised）。请问，这两个问题是分类问题，还是回归问题？当视频暂停时，请用你的鼠标进行选择，四选一，选择你认为正确的答案。好，希望你刚才答对了。问题一是个回归问题因为如果我有几千件货物，可能只好把它当作一个实际的值，一个连续的值。也把卖出的数量当作连续值。第二个问题，则是分类问题，因为可以把我想预测的一个值设为0，来表示账目没有被hacked 另一个设为1，表示已经被hacked。就像乳癌例子中，0表示良性，1表示恶性。所以这个值为0或1，取决于是否被hacked，有算法能预测出是这两个离散值中的哪个。因为只有少量的离散值，所以这个就是个分类问题。

这就是监督学*，下个视频将会介绍无监督学*，学*算法的另一主要类型。

Unsupervised Learning（无监督学*）

在这段视频中我们要讲第二种主要的机器学*问题叫做无监督学* 在上一节视频中我们已经讲过了监督学*

回想起上次的数据集每个样本都已经被标明为 正样本或者负样本 即良性或恶性肿瘤因此对于监督学*中的每一个样本我们已经被清楚地告知了什么是所谓的正确答案（数据已经被标记） 即它们是良性还是恶性

在无监督学*中我们用的数据会和监督学*里的看起来有些不一样在无监督学*中没有属性或标签这一概念也就是说所有的数据都是一样的没有区别 所以在无监督学*中我们只有一个数据集 没人告诉我们该怎么做我们也不知道每个数据点究竟是什么意思相反它只告诉我们现在有一个数据集你能在其中找到某种结构吗？

聚类问题

对于给定的数据集无监督学*算法可能判定该数据集包含两个不同的聚类你看这是第一个聚类然后这是另一个聚类你猜对了无监督学*算法会把这些数据分成两个不同的聚类 所以这就是所谓的聚类算法

实际上它被用在许多地方我们来举一个聚类算法的栗子

Google 新闻的例子如果你还没见过这个页面的话你可以到这个URL news.google.com 去看看谷歌新闻每天都在干什么呢？他们每天会去收集成千上万的网络上的新闻然后将他们分组组成一个个新闻专题比如让我们来看看这里这里的URL链接连接着不同的有关BP油井事故的报道所以让我们点击这些URL中的一个恩让我们点一个然后我们会来到这样一个网页这是一篇来自华尔街日报的有关……你懂的有关BP油井泄漏事故的报道标题为《BP杀死了Macondo》 Macondo 是个地名就是那个漏油事故的地方如果你从这个组里点击一个不同的URL 那么你可能会得到不同的新闻这里是一则CNN的新闻是一个有关BP石油泄漏的视频如果你再点击第三个链接又会出现不同的新闻这边是英国卫报的报道也是关于BP石油泄漏所以谷歌新闻所做的就是去搜索成千上万条新闻然后自动的将他们聚合在一起 因此有关同一主题的新闻被显示在一起

实际上 聚类算法和无监督学*算法 也可以被用于许多其他的问题这里我们举个它在基因组学中的应用下面是一个关于基因芯片的例子基本的思想是给定一组不同的个体对于每个个体检测它们是否拥有某个特定的基因也就是说，你要去分析有多少基因显现出来了因此这些颜色红绿灰等等它们展示了这些不同的个体是否拥有一个特定基因的不同程度然后你能做的就是 运行一个聚类算法把不同的个体归入不同的类或归为不同类型的人 这就是无监督学* 我们没有提前告知这个算法这些是第一类的人这些是第二类的人这些是第三类的人等等相反我们只是告诉算法你看这儿有一堆数据我不知道这个数据是什么东东我不知道里面都有些什么类型叫什么名字我甚至不知道都有哪些类型但是请问你可以自动的找到这些数据中的类型吗？然后自动的按得到的类型把这些个体分类虽然事先我并不知道哪些类型因为对于这些数据样本来说我们没有给算法一个正确答案所以这就是无监督学*

无监督学*或聚类算法在其他领域也有着大量的应用

它被用来组织大型的计算机集群 我有一些朋友在管理大型数据中心也就是大型计算机集群并试图找出哪些机器趋向于协同工作如果你把这些机器放在一起你就可以让你的数据中心更高效地工作
第二种应用是用于社交网络的分析 所以如果可以得知哪些朋友你用email联系的最多或者知道你的Facebook好友或者你Google+里的朋友知道了这些之后我们是否可以自动识别哪些是很要好的朋友组哪些仅仅是互相认识的朋友组
还有在市场分割中的应用 许多公司拥有庞大的客户信息数据库那么给你一个客户数据集你能否自动找出不同的市场分割并自动将你的客户分到不同的细分市场中从而有助于我在不同的细分市场中进行更有效的销售这也是无监督学* 我们现在有这些客户数据但我们预先并不知道有哪些细分市场而且对于我们数据集的某个客户我们也不能预先知道谁属于细分市场一谁又属于细分市场二等等但我们必须让这个算法自己去从数据中发现这一切
最后事实上无监督学*也被用于 天文数据分析 通过这些聚类算法我们发现了许多惊人的、有趣的以及实用的关于星系是如何诞生的理论所有这些都是聚类算法的例子而聚类只是无监督学*的一种

鸡尾酒宴问题

现在让我来告诉你另一种我先来介绍一下鸡尾酒宴问题 恩我想你参加过鸡尾酒会的是吧？嗯想象一下有一个宴会有一屋子的人大家都坐在一起而且在同时说话有许多声音混杂在一起因为每个人都是在同一时间说话的在这种情况下你很难听清楚你面前的人说的话因此比如有这样一个场景宴会上只有两个人两个人同时说话恩这是个很小的鸡尾酒宴会

我们准备好了两个麦克风 把它们放在房间里然后因为这两个麦克风距离这两个人的距离是不同的每个麦克风都记录下了来自两个人的声音的不同组合也许A的声音在第一个麦克风里的声音会响一点也许B的声音在第二个麦克风里会比较响一些因为2个麦克风的位置相对于 2个说话者的位置是不同的但每个麦克风都会录到来自两个说话者的重叠部分的声音这里有一个来自一个研究员录下的两个说话者的声音让我先放给你听第一个这是第一个麦克风录到的录音：一 (UNO) 二 (DOS) 三 (TRES) 四 (CUATRO) 五 (CINCO) 六 (SEIS) 七 (SIETE) 八 (ocho) 九 (NUEVE) 十 (Y DIEZ) 好吧这大概不是什么有趣的酒会…… ……在这个酒会上有两个人各自从1数到10 但用的是两种不同语言你刚才听到的是第一个麦克风的录音这里是第二个的：一 (UNO) 二 (DOS) 三 (TRES) 四 (CUATRO) 五 (CINCO) 六 (SEIS) 七 (SIETE) 八 (ocho) 九 (NUEVE) 十 (Y DIEZ)

所以我们能做的就是把这两个录音输入一种无监督学*算法中称为“鸡尾酒会算法” 让这个算法 帮你找出其中蕴含的分类 然后这个算法就会去听这些录音并且你知道这听起来像两个音频录音被叠加在一起所以我们才能听到这样的效果此外这个算法还会分离出这两个被叠加到一起的音频源事实上这是我们的鸡尾酒会算法的第一个输出一二三四五六七八九十所以我在一个录音中分离出了英文声音这是第二个输出 Uno dos tres quatro cinco seis siete ocho nueve y diez 听起来不错嘛再举一个例子这是另一个录音也是在一个类似的场景下这是第一个麦克风的录音：一二三四五六七八九十 OK 这个可怜的家伙从鸡尾酒会回家了他现在独自一人坐在屋里对着录音机自言自语这是第二个麦克风的录音一二三四五六七八九十当你把这两个麦克风录音送给与刚刚相同的算法处理它所做的还是告诉你这听起来有两种音频源并且算法说这里是我找到的第一个音频源一二三四五六七八九十恩不是太完美提取到了人声但还有一点音乐没有剔除掉这是算法的第二个输出还好在第二个输出中它设法剔除掉了整个人声只是清理了下音乐剔除了从一到十的计数

所以你可以看到像这样的无监督学*算法也许你想问要实现这样的算法很复杂吧？看起来为了构建这个应用程序做这个音频处理似乎需要写好多代码啊或者需要链接到一堆处理音频的Java库貌似需要一个非常复杂的程序分离出音频等

实际上要实现你刚刚听到的效果 只需要一行代码就可以了写在这里呢当然研究人员花了很长时间才想出这行代码的 ^-^ 我不是说这是一个简单的问题

但事实上如果你使用正确的编程环境 许多学* 算法是用很短的代码写出来的所以这也是为什么在这门课中我们要使用Octave的编程环境 Octave是一个免费的开放源码的软件使用Octave或Matlab这类的工具许多学*算法都可以用几行代码就可以实现在后续课程中我会教你如何使用Octave 你会学到如何在Octave中实现这些算法或者如果你有Matlab 你可以用它事实上在硅谷很多的机器学*算法我们都是先用Octave 写一个程序原型因为在Octave中实现这些学*算法的速度快得让你无法想象在这里每一个函数例如 SVD 意思是奇异值分解 但这其实是解线性方程 的一个惯例它被内置在Octave软件中了如果你试图在C + +或Java中做这个将需要写N多代码并且还要连接复杂的C + +或Java库所以你可以在C++或 Java或Python中实现这个算法只是会更加复杂而已

在教授机器学* 将*10年后我得出的一个经验就是如果你使用Octave的话会学的更快并且如果你用 Octave作为你的学*工具和开发原型的工具你的学*和开发过程会变得更快而事实上在硅谷很多人会这样做他们会先用Octave 来实现这样一个学*算法原型 只有在确定这个算法可以工作后才开始迁移到 C++ Java或其它编译环境 事实证明这样做实现的算法比你一开始就用C++ 实现的算法要快多了所以我知道作为一个老师我不能老是念叨： “在这个问题上相信我“ 但对于那些从来没有用过这种类似Octave的编程环境的童鞋我还是要请你相信我这一次我认为 你的时间研发时间是你最宝贵的资源之一 当见过很多的人这样做以后我觉得如果你也这样做作为一个机器学*的研究者和开发者你会更有效率如果你学会先用Octave开发原型而不是先用其他的编程语言来开发

最后总结一下我们谈到了无监督学* 它是一种学*机制 你给算法大量的数据 要求它找出数据中蕴含的类型结构

以下的四个例子中哪一个您认为是无监督学*算法而不是监督学*问题对于每一个选项在左边的复选框选中你认为属于无监督学*的选项然后按一下右下角的按钮提交你的答案所以当视频暂停时请回答幻灯片上的这个问题恩没忘记垃圾邮件文件夹问题吧？如果你已经标记过数据那么就有垃圾邮件和非垃圾邮件的区别我们会将此视为一个监督学*问题新闻故事的例子正是我们在本课中讲到的谷歌新闻的例子我们介绍了你可以如何使用聚类算法这些文章聚合在一起所以这是无监督学*问题市场细分的例子我之前有说过这也是一个无监督学*问题因为我是要拿到数据然后要求它自动发现细分市场最后一个例子糖尿病这实际上就像我们上节课讲到的乳腺癌的例子只不过这里不是好的或坏的癌细胞良性或恶性肿瘤我们现在是有糖尿病或没有糖尿病所以这是有监督的学*问题像处理那个乳腺癌的问题一样我们会把它作为一个有监督的学*问题来处理

好了关于无监督学*问题就讲这么多了下一节课中我们会涉及到更具体的学*算法 并开始讨论这些算法是如何工作的以及我们如何来实现它们。

Linear Regression with One Variable单变量线性回归

Model and Cost Function模型和代价函数

Model Representation模型表示

监督学*中回归和分类的区别
一些基本的符号
模型是什么？假设函数是什么？线性回归的假设函数怎么写？

我们的第一个学*算法是线性回归算法 在这段视频中你会看到这个算法的概况更重要的是你将会了解 监督学*过程完整的流程

让我们通过一个例子来开始这个例子是预测住房价格的我们要使用一个数据集 数据集包含俄勒冈州波特兰市的住房价格在这里我要根据不同房屋尺寸所售出的价格画出我的数据集比方说我们来看这个数据集你有一个朋友正想出售自己的房子如果你朋友的房子是1250平方尺大小你要告诉他们这房子能卖多少钱那么你可以做的一件事就是 构建一个模型 也许是条直线从这个数据模型上来看也许你可以告诉你的朋友他能以大约220000(美元)左右的价格卖掉这个房子

那么这就是监督学*算法的一个例子它被称作监督学*是因为对于每个数据来说我们给出了 “正确的答案” 即告诉我们根据我们的数据来说房子实际的价格是多少

而且更具体来说这是一个回归问题 回归一词指的是我们根据之前的数据预测出一个准确的输出值 对于这个例子就是价格

同时还有另一种最常见的监督学*方式叫做分类问题 当我们想要预测离散的输出值 例如如果我们正在寻找癌症肿瘤并想要确定肿瘤是良性的还是恶性的这就是0/1离散输出的问题

更进一步来说在监督学*中我们有一个数据集 这个数据集被称训练集 因此对于房价的例子我们有一个训练集包含不同的房屋价格我们的任务就是从这个数据中学*预测房屋价格

现在我们给出这门课中经常使用的一些符号定义 我们要定义颇多符号不过没关系现在你记不住所有的符号也没关系随着课程的进展你会发现记住这些符号会很有用

（请牢记以下公式和符号，不然后面的课程完全不知所云）

我将在整个课程中用小写的m 来表示训练样本的数目 因此在这个数据集中如果表中有47行 那么我们就有47组训练样本 m就等于47

让我用小写字母x来表示输入变量 往往也被称为特征量 这就是用x表示输入的特征
并且我们将用y来表示输出变量或者目标变量 也就是我的预测结果 那么这就是第二列
在这里我要使用(x, y)来表示一个训练样本 所以在这个表格中的单独的一行对应于一个训练样本
为了表示某个训练样本我将使用x上标(i)与y上标(i)来表示并且用这个表示第i个训练样本 所以这个上标 i 看这里这不是求幂运算这个(x(i), y(i)) 括号里的上标i 只是一个索引表示我的训练集里的第i行这里不是x的i和y的i次方仅仅是指(x(i), y(i))是在此表中的第 i 行

m #训练集样本的数目
x #输入变量的特征值
y #输出变量或目标变量

(x, y) #一个训练样本

举个例子 x(1) 指的是第一个训练集里值为2104的输入值这个就是第一行里的x x(2) 等于1416吧? 这是第二个x y(1) 等于460 这是我第一个训练集样本的y值这就是(1)所代表的含义像之前一样我会问你一个问题需要几秒的时间检查一下你的理解程度在这个视频片段中有时会有视频选择题弹出当它弹出的时候请使用鼠标来选择你认为正确的答案

这就是一个监督学*算法的工作方式

我们可以看到这里有我们的训练集里房屋价格我们把它喂给我们的学*算法 这就是学*算法的工作了然后输出一个函数 按照惯例通常表示为小写h h代表hypothesis(假设)， h表示一个函数 输入是房屋尺寸大小就像你朋友想出售的房屋因此 h 根据输入的 x 值来得出 y 值 y值对应房子的价格

因此 h是一个从x到y的函数映射 人们经常问我为什么这个函数被称作假设(hypothesis) 你们中有些人可能知道hypothesis的意思从字典或者其它什么方式可以查到其实在机器学*中这是一个在早期被用于机器学*的名称它有点绕口对这类函数来说这可能不是一个很恰当的名字对表示从房屋的大小到价格的函数映射我认为这个词"hypothesis" 可能不是最好的名称但是这是人们在机器学*中使用的标准术语所以不用太纠结人们为什么这么叫它

当设计学*算法的时候我们接下来需要去思考的是 怎样得到这个假设h 对于这一点在接下来的几个视频中我将选择最初的使用规则 h代表hypothesis 我们将会这么写 hθ(x)=θ0+θ1*x 为了方便有时非书面形式也可以这么写 hθ(x) 我就写成h(x) 这是缩写方式但一般来说我会保留这个下标θ 从这个图片中所有这一切意味着我们要预测一个关于x的线性函数 y 对吧? 所以这就是数据集和函数的作用用来预测这里是y关于x的线性函数 hθ(x)=θ0+θ1*x 那么为什么是一个线性函数呢? 有时候我们会有更复杂的函数也许是非线性函数但是由于线性方程是简单的形式我们将先从线性方程的例子入手

hθ(x)=θ0+θ1*x

当然最终我们将会建立更复杂的模型 以及更复杂的学*算法 （讲出了机器学*的核心思路）

好吧让我们也给这模型起一个名字这个模型被称为线性回归(linear regression)模型 另外这实际上是关于单个变量的线性回归 这个变量就是x 根据x来预测所有的价格函数同时对于这种模型有另外一个名称称作单变量线性回归 单变量是对一个变量的一种特别的表述方式

总而言之这就是线性回归在接下来的视频中我们将开始讨论如何去实现这种模型

Cost Function代价函数

模型参数是什么？
如何引出的代价函数J(θ0,θ1)？得到最优的模型参数
什么是代价函数？代价函数作用？（策略，即如何选择假设空间中的函数）

在这段视频中我们将定义代价函数的概念这有助于我们弄清楚如何把最有可能的直线与我们的数据相拟合（如何选出唯一模型）

在线性回归中我们有一个像这样的训练集 记住 M代表了训练样本的数量 所以比如 M = 47 而我们的假设函数 也就是用来进行预测的函数是这样的线性函数形式

接下来我们会引入一些术语这些θ0和θ1 这些θi我把它们称为模型参数 在这个视频中我们要做的就是谈谈如何选择这两个参数值θ0和θ1 选择不同的参数θ0和θ1 我们会得到不同的假设不同的假设函数我知道你们中的有些人可能已经知道我在这张幻灯片上要讲的

θi   #模型参数

但我们还是用这几个例子来复*回顾一下如果θ0是1.5 θ1是0 那么假设函数会看起来是这样是吧因为你的假设函数是h(x)=1.5+0*x 是这样一个常数函数 恒等于1.5 如果θ0=0并且θ1=0.5 那么假设会看起来像这样它会通过点(2,1) 这样你又得到了h(x) 或者hθ(x) 但是有时我们为了简洁会省略θ 因此 h(x)将等于0.5倍的x 就像这样最后如果θ0=1并且θ1=0.5 我们最后得到的假设会看起来像这样让我们来看看它应该通过点(2,2) 这是我的新的h(x)或者写作hθ(x) 对吧？你还记得之前我们提到过hθ(x)的但作为简写我们通常只把它写作h(x)

在线性回归中我们有一个训练集 可能就像我在这里绘制的 我们要做的就是 得出θ0 θ1这两个参数的值来让假设函数表示的直线 尽量地与这些数据点很好的拟合 也许就像这里的这条线一样

那么我们如何得出θ0 θ1的值来使它很好地拟合数据的呢？我们的想法是 我们要选择能使h(x) 也就是输入x时我们预测的值最接*该样本对应的y值的参数θ0 θ1 所以在我们的训练集中我们会得到一定数量的样本我们知道x表示卖出哪所房子并且知道这所房子的实际价格所以我们要尽量选择参数值使得在训练集中给出训练集中的x值我们能合理准确地预测y的值

让我们给出标准的定义 在线性回归中我们要解决的是一个最小化问题 所以我要写出关于θ0 θ1的最小化而且我希望这个式子极其小是吧我想要h(x)和y之间的差异要小 我要做的事情是尽量减少假设的输出与房子真实价格之间的差的平方明白吗？

接下来我会详细的阐述别忘了我用符号( x(i),y(i) )代表第i个样本所以我想要做的是对所有训练样本进行一个求和对i=1到i=M的样本将对假设进行预测得到的结果此时的输入是第i号房子的面积对吧将第i号对应的预测结果减去第i号房子的实际价格所得的差的平方相加得到总和而我希望尽量减小这个值也就是预测值和实际值的差的平方误差和或者说预测价格和实际卖出价格的差的平方我说了这里的m指的是训练集的样本容量对吧这个井号是训练样本“个数”的缩写对吧而为了让表达式的数学意义变得容易理解一点 我们实际上考虑的是这个数的1/m 因此我们要尝试尽量减少我们的平均误差 也就是尽量减少其1/2m（why？） 通常是这个数的一半前面的这些只是为了使数学更直白一点因此对这个求和值的二分之一求最小值应该得出相同的θ0值和相同的θ1值来请大家一定弄清楚这个道理没问题吧？在这里hθ(x)的这种表达这是我们的假设它等于θ0加上θ1与x(i)的乘积而这个表达 表示关于θ0和θ1的最小化过程 这意味着我们要找到θ0和θ1 的值来使这个表达式的值最小 这个表达式因θ0和θ1的变化而变化对吧？

因此简单地说我们正在把这个问题变成 找到能使我的训练集中预测值和真实值的差的平方的和的1/2M最小的θ0和θ1的值

公式

因此这将是我的线性回归的整体目标函数 为了使它更明确一点我们要改写这个函数按照惯例我要定义一个代价函数 正如屏幕中所示这里的这个公式我们想要做的就是关于θ0和θ1 对函数J(θ0,θ1)求最小值 这就是我的代价函数 代价函数也被称作平方误差函数 有时也被称为 平方误差代价函数 事实上我们之所以要求出误差的平方和是因为误差平方代价函数对于大多数问题特别是回归问题都是一个合理的选择

还有其他的代价函数也能很好地发挥作用但是平方误差代价函数可能是解决回归问题最常用的手段了

在后续课程中我们还会谈论其他的代价函数但我们刚刚讲的选择是对于大多数线性回归问题非常合理的好吧所以这是代价函数到目前为止我们已经介绍了代价函数的数学定义也许这个函数J(θ0,θ1)有点抽象可能你仍然不知道它的内涵在接下来的几个视频里我们要更进一步解释代价函数J的工作原理并尝试更直观地解释它在计算什么以及我们使用它的目的

Cost Function - Intuition I 直观感受I

直观理解假设函数和代价函数的运作机理（简化的代价函数）

在上一个视频中我们给了代价函数一个数学上的定义 在这个视频里让我们通过一些例子来获取一些直观的感受 看看代价函数到底是在干什么

回顾一下这是我们上次所讲过的内容我们想找一条直线来拟合我们的数据 所以我们用 θ0 θ1 等参数得到了这个假设而且通过选择不同的参数我们会得到不同的直线拟合所以拟合出的数据就像这样然后我们还有一个代价函数 这就是我们的优化目标

在这个视频里为了更好地将代价函数可视化 我将使用一个简化的假设函数就是右边这个函数然后我将会用这个简化的假设 也就是 θ1*x 我们可以将这个函数看成是把 θ0 设为0 所以我只有一个参数也就是 θ1 代价函数看起来与之前的很像唯一的区别是现在 h(x) 等于 θ1*x 只有一个参数 θ1 所以我的 优化目标是将 J(θ1) 最小化 用图形来表示就是如果 θ0 等于零也就意味这我们选择的假设函数会经过原点也就是经过坐标 (0,0)

直观的理解假设函数与代价函数的运作机理

通过利用简化的假设得到的代价函数我们可以试着更好地理解代价函数这个概念我们要理解的是这两个重要的函数

第一个是假设函数
第二个是代价函数

（随机选定一个参数，就可以计算出代价函数值，可以通过作图找到最小的代价函数值，此时的参数就是模型的最优参数）

（以后会通过梯度下降法来正式确定模型参数）

注意这个假设函数 h(x) 对于一个固定的 θ1 这是一个关于 x 的函数 所以这个假设函数就是一个关于 x 这个房子大小的函数与此不同的是代价函数 J 是一个关于参数 θ1 的函数 而 θ1 控制着这条直线的斜率

现在我们把这写函数都画出来试着更好地理解它们我们从假设函数开始比如说这里是我的训练样本 它包含了三个点 (1,1) (2,2) 和 (3,3) 现在我们选择一个值 θ1 所以当 θ1 等于1 如果这是我选择的 θ1 那么我的假设函数看起来就会像是这条直线我将要指出的是当我描绘出我的假设函数 X轴我的横轴被标定为X轴 X轴是表示房子大小的量现在暂时把 θ1 定为1 我想要做的就是算出在 θ1 等于 1 的时候 J(θ1) 等于多少所以我们按照这个思路来计算代价函数的大小和之前一样

代价函数定义如下是吧对这个误差平方项进行求和这就等于这样一个形式简化以后就等于三个0的平方和当然还是0 现在在代价函数里我们发现所有这些值都等于0 因为对于我所选定的这三个训练样本 ( 1 ,1 ) (2,2) 和 (3,3) 如果 θ1 等于 1 那么 h(x(i)) 就会正好等于 y(i) 让我把这个写得好一点对吧所以 h(x) - y 所有的这些值都会等于零这也就是为什么 J(1) 等于零所以我们现在知道了 J(1) 是0 让我把这个画出来我将要在屏幕右边画出我的代价函数 J 要注意的是因为我的代价函数是关于参数 θ1 的函数当我描绘我的代价函数时 X轴就是 θ1 现在我有 J(1) 等于零让我们继续把函数画出来结果我们会得到这样一个点现在我们来看其它一些样本 θ1 可以被设定为某个范围内各种可能的取值所以 θ1 可以取负数 0 或者正数所以如果 θ1 等于0.5会发生什么呢继续把它画出来现在要把 θ1 设为0.5 在这个条件下我的假设函数看起来就是这样这条线的斜率等于0.5 现在让我们计算 J(0.5) 所以这将会等于1除以2m 乘以那一块其实我们不难发现后面的求和就是这条线段的高度的平方加上这条线段高度的平方再加上这条线段高度的平方三者求和对吗？就是 y(i) 与预测值 h(x(i)) 的差对吗所以第一个样本将会是0.5减去1的平方因为我的假设函数预测的值是0.5 而实际值则是1 第二个样本我得到的是1减去2的平方因为我的假设函数预测的值是1 但是实际房价是2 最后加上 1.5减去3的平方那么这就等于1除以2乘以3 因为训练样本有三个点所以 m 等于3 对吧然后乘以括号里的内容简化后就是3.5 所以这就等于3.5除以6 也就约等于0.68 让我们把这个点画出来不好意思有一个计算错误这实际上该是0.58 所以我们把点画出来大约会是在这里对吗现在让我们再多做一个点让我们试试θ1等于0 J(0) 会等于多少呢如果θ1等于0 那么 h(x) 就会等于一条水平的线对了就会像这样是水平的所以测出这些误差我们将会得到 J(0) 等于 1除以 2m 乘以1的平方加上2的平方加上3的平方也就是 1除以6乘以14 也就是2.3左右所以让我们接着把这个点也画出来所以这个点最后是2.3 当然我们可以接着设定 θ1 等于别的值进行计算你也可以把 θ1 设定成一个负数所以如果 θ1 是负数那么 h(x) 将会等于打个比方说－0.5 乘以x 然后 θ1 就是 -0.5 那么这将会对应着一个斜率为-0.5的假设函数而且你可以继续计算这些误差结果你会发现对于0.5 结果会是非常大的误差最后会得到一个较大的数值类似于5.25 等等对于不同的 θ1 你可以计算出这些对应的值对吗结果你会发现你算出来的这些值你得到一条这样的曲线通过计算这些值你可以慢慢地得到这条线这就是 J(θ) 的样子了

我们来回顾一下 任何一个 θ1 的取值对应着一个不同的假设函数 或者说对应着左边一条不同的拟合直线对于任意的θ1 你可以算出一个不同的 J(θ1) 的取值举个例子你知道的 θ1 等于1时对应着穿过这些数据的这条直线当 θ1 等于0.5 也就是这个玫红色的点也许对应着这条线然后 θ1 等于0 也就是蓝色的这个点对应着这条水平的线对吧所以对于任意一个 θ1 的取值我们会得到一个不同的 J(θ1) 而且我们可以利用这些来描出右边的这条曲线现在你还记得学*算法的优化目标 是我们想找到一个 θ1 的值来将 J(θ1) 最小化对吗这是我们线性回归的目标函数嗯看这条曲线让 J(θ1) 最小化的值是 θ1 等于1 然后你看这个确实就对应着最佳的通过了数据点的拟合直线这条直线就是由 θ1=1 的设定而得到的然后对于这个特定的训练样本我们最后能够完美地拟合这就是为什么最小化 J(θ1) 对应着寻找一个最佳拟合直线的目标

总结一下在这个视频里我们看到了一些图形来理解代价函数 要做到这个我们简化了算法 让这个函数只有一个参数 θ1 也就是说我们把 θ0 设定为0

在下一个视频里我们将回到原来的问题的公式然后看一些 带有 θ0 和 θ1 的图形 也就是说不把 θ0 设置为0了希望这会让你更好地理解在原来的线性回归公式里代价函数 J 的意义

Cost Function - Intuition II 直观感受II

轮廓图是什么？

这节课中我们将更深入地学*代价函数的作用这段视频的内容假设你已经认识轮廓图 如果你对轮廓图不太熟悉的话这段视频中的某些内容你可能会听不懂但不要紧如果你跳过这段视频的话也没什么关系不听这节课对后续课程理解影响不大

和之前一样这是我们的几个重要公式包括了

假设h
参数θ
代价函数J
优化目标

跟前一节视频不同的是我还是把θ写成θ0、θ1的形式（两个自变量，一个因变量，图形必然是三维的）便于这里我们要对代价函数进行的可视化和上次一样首先来理解假设h和代价函数J 这是房价数据组成的训练集数据

让我们来构建某种假设就像这条线一样很显然这不是一个很好的假设但不管怎样如果我假设θ0等于50 θ1等于0.06的话那么我将得到这样一个假设函数 对应于这条直线给出θ0和θ1的值我们要在右边画出代价函数的图像上一次我们是只有一个θ1 也就是说画出的代价函数是关于θ1的函数但现在我们有两个参数 θ0和θ1 因此图像就会复杂一些了当只有一个参数θ1的时候我们画出来是这样一个弓形函数 而现在我们有了两个参数 那么代价函数仍然呈现类似的某种弓形实际上这取决于训练样本你可能会得到这样的图形因此这是一个三维曲面图 两个轴分别表示θ0和θ1 随着你改变θ0和θ1的大小你便会得到不同的代价函数 J(θ0,θ1) 对于某个特定的点 (θ0,θ1) 这个曲面的高度 也就是竖直方向的高度就表示代价函数 J(θ0,θ1) 的值 不难发现这是一个弓形曲面

我们来看看三维图 这是这个曲面的三维图水平轴是θ0、θ1 竖直方向表示 J(θ0,θ1) 旋转一下这个图你就更能理解这个弓形曲面所表示的代价函数了

在这段视频的后半部分为了描述方便 我将不再像这样给你用三维曲面图的方式解释代价函数J 而还是用轮廓图来表示 contour plot 或 contour figure 意思一样右边就是一个轮廓图 两个轴分别表示 θ0 和 θ1 而这些一圈一圈的椭圆形 每一个圈就表示 J(θ0,θ1) 相同的所有点的集合 具体举例来说我们选三个点出来这三个桃红色的点都表示相同的 J(θ0,θ1) 的值对吧横纵坐标分别是θ0 θ1 这三个点的 J(θ0,θ1) 值是相同的如果你之前没怎么接触轮廓图的话你就这么想你就想象一个弓形的函数从屏幕里冒出来因此最小值也就是这个弓形的最低点就是这个点对吧也就是这一系列同心椭圆的中心点想象一下这个弓形从屏幕里冒出来

所以这些椭圆形都从我的屏幕上冒出相同的高度 弓形的最小值点是这个位置因此轮廓图是一种很方便的方法能够直观地观察 代价函数J

接下来让我们看几个例子在这里有一点这个点表示θ0等于800 θ1大概等于-0.15 那么这个红色的点代表了某个 (θ0,θ1) 组成的数值组而这个点也对应于左边这样一条线对吧 θ0等于800 也就是跟纵轴相交于大约800 斜率大概是-0.15 当然这条线并不能很好地拟合数据对吧以这组 θ0 θ1 为参数的这个假设 h(x) 并不是数据的较好拟合并且你也发现了这个代价值就是这里的这个值距离最小值点还很远也就是说这个代价值还是算比较大的因此不能很好拟合数据

让我们再来看几个例子这是另一个假设你不难发现这依然不是一个好的拟合但比刚才稍微好一点这是我的 θ0 θ1 点这是 θ0 的值大约为360 θ1 的值为0 我们把它写下来 θ0=360 θ1=0 因此这组θ值对应的假设是这条水平的直线也就是h(x) = 360 + 0 × x 这就是假设这个假设同样也有某个代价值而这个代价值就对应于这个代价函数在这一点的高度让我们再来看一些例子这是另一个例子这个点这组 θ0 和 θ1 对应这样一条假设h(x) 同样地还是对数据拟合不好离最小值更远了

最后一个例子这个点其实不是最小值但已经非常靠*最小值点了这个点对数据的拟合就很不错它对应这样两个θ0 和 θ1 的值同时也对应这样一个 h(x) 这个点虽然不在最小值点但非常接*了因此误差平方和或者说训练样本和假设的距离的平方和这个距离值的平方和非常接*于最小值尽管它还不是最小值好的通过这些图形我希望你能更好地理解这些代价函数 J 所表达的值它们是什么样的它们对应的假设是什么样的以及什么样的假设对应的点更接*于代价函数J的最小值

当然我们真正需要的是一种有效的算法 能够自动地找出这些使代价函数J取最小值的参数θ0和θ1（就是后面的梯度下降法） 对吧我想我们也不希望编个程序把这些点画出来然后人工的方法来读出这些点的数值这很明显不是一个好办法事实上我们后面就会学到我们会遇到更复杂、更高维度、更多参数的情况这在我们在后面的视频中很快就会遇到而这些情况是很难画出图的因此更无法将其可视化（维数高于3就无法可视化） 因此我们真正需要的是编写程序来找出这些最小化代价函数的θ0和θ1的值

在下一节视频中我们将介绍一种算法能够自动地找出能使代价函数 J 最小化的参数θ0和θ1的值

我的总结：

方法=模型+策略+算法（来自李航的统计学*方法）（前面讲了模型和策略，下面就要开始讲算法）

这里，我们的模型是单变量线性回归模型，为了引入学*算法，我们学*了代价函数，学*算法的目标就是找出最优的参数，使得代价函数最小化。下面，就是我们的学*算法：梯度下降算法。

Parameter Learning参数学*

Gradient Descent梯度下降法

算法层次
如何将代价函数J最小化？
梯度下降法的核心思想？设置初始值，同步改变参数使得代价函数减小，直至找到局部最优解

我们已经定义了代价函数J（就是差的平方和）（要达到看一眼就能立马想到并写出公式的程度） 而在这段视频中我想向你们介绍梯度下降这种算法（其实也很简单：连续改变 和 学*速率 * 偏微分斜率）

这种算法可以将代价函数J最小化 梯度下降是很常用的算法它不仅被用在线性回归上它实际上被广泛的应用于机器学*领域中的众多领域在后面课程中为了解决其他线性回归问题我们也将使用梯度下降法 最小化其他函数 而不仅仅是只用在本节课的代价函数J

因此在这个视频中我将讲解用梯度下降算法最小化函数 J 在后面的视频中我们还会将此算法应用于具体的代价函数J中来解决线性回归问题

下面是问题概述 在这里我们有一个函数J(θ0, θ1) （来源的模型可能有很多）也许这是一个线性回归的代价函数也许是一些其他函数要使其最小化我们需要用一个算法来最小化函数J(θ0, θ1) 就像刚才说的事实证明梯度下降算法可应用于多种多样的函数求解所以想象一下如果你有一个函数 J(θ0, θ1, θ2, ...,θn ) （可以推广到更多）你希望可以通过最小化 θ0到θn 来最小化此代价函数J(θ0 到θn) 用n个θ是为了证明梯度下降算法可以解决更一般的问题但为了简洁起见为了简化符号 在接下来的视频中我只用两个参数

下面就是关于梯度下降的构想

我们要做的是我们要开始对θ0和θ1 进行一些初步猜测 它们到底是什么其实并不重要但通常的选择是将 θ0设为0 将θ1也设为0 将它们都初始化为0 我们在梯度下降算法中要做的就是不停地一点点地改变 θ0和θ1 试图通过这种改变使得J(θ0, θ1)变小 直到我们找到 J 的最小值或许是局部最小值

让我们通过一些图片来看看梯度下降法是如何工作的我在试图让这个函数值最小 注意坐标轴 θ0和θ1在水平轴上而函数 J在垂直坐标轴上图形表面高度则是 J的值我们希望最小化这个函数所以我们从 θ0和θ1的某个值出发所以想象一下对 θ0和θ1赋以某个初值也就是对应于从这个函数表面上的某个起始点出发对吧所以不管 θ0和θ1的取值是多少我将它们初始化为0 但有时你也可把它初始化为其他值

现在我希望大家把这个图像想象为一座山 想像类似这样的景色公园中有两座山想象一下你正站立在山的这一点上站立在你想象的公园这座红色山上在梯度下降算法中我们要做的就是旋转360度 看看我们的周围并问自己我要在某个方向上用小碎步尽快下山如果我想要下山如果我想尽快走下山这些小碎步需要朝什么方向? 如果我们站在山坡上的这一点你看一下周围你会发现最佳的下山方向大约是那个方向好的现在你在山上的新起点上你再看看周围然后再一次想想我应该从什么方向迈着小碎步下山? 然后你按照自己的判断又迈出一步往那个方向走了一步然后重复上面的步骤从这个新的点你环顾四周并决定从什么方向将会最快下山然后又迈进了一小步又是一小步并依此类推直到你接*这里直到局部最低点的位置

此外这种下降有一个有趣的特点 第一次我们是从这个点开始进行梯度下降算法的是吧在这一点上从这里开始现在想象一下我们在刚才的右边一些的位置对梯度下降进行初始化想象我们在右边高一些的这个点开始使用梯度下降如果你重复上述步骤停留在该点并环顾四周往下降最快的方向迈出一小步然后环顾四周又迈出一步然后如此往复如果你从右边不远处开始梯度下降算法将会带你来到这个右边的第二个局部最优处如果从刚才的第一个点出发你会得到这个局部最优解 但如果你的起始点偏移了一些起始点的位置略有不同你会得到一个非常不同的局部最优解这就是梯度下降算法的一个特点我们会在之后继续探讨这个问题好的这是我们从图中得到的直观感受

看看这个图这是梯度下降算法的定义我们将会反复做这些直到收敛我们要更新参数 θj 方法是用 θj 减去 α乘以这一部分

:=   #表示赋值

让我们来看看这个公式有很多细节问题我来详细讲解一下首先注意这个符号:= 我们使用 := 表示赋值 这是一个赋值运算符具体地说如果我写 a:= b 在计算机专业内这意味着不管 a的值是什么取 b的值并将其赋给a 这意味着我们让 a等于b的值这就是赋值我也可以做 a:= a+1 这意味着取出a值并将其增加1 与此不同的是如果我使用等号 = 并且写出a=b 那么这是一个判断为真的声明如果我写 a=b 就是在断言 a的值是等于 b的值的在左边这里这是计算机运算将一个值赋给 a 而在右边这里这是声明声明 a的值与b的值相同因此我可以写 a:=a+1 这意味着将 a的值再加上1 但我不会写 a=a+1 因为这本来就是错误的 a 和 a+1 永远不会是同一个值这是这个定义的第一个部分

这里的α 是一个数字被称为学*速率 什么是α呢? 在梯度下降算法中它控制了我们下山时会迈出多大的步子 因此如果 α值很大那么相应的梯度下降过程中我们会试图用大步子下山如果α值很小那么我们会迈着很小的小碎步下山关于如何设置 α的值等内容在之后的课程中我会回到这里并且详细说明

最后是公式的这一部分这是一个微分项 我现在不想谈论它但我会推导出这个微分项并告诉你到底这要如何计算你们中有人大概比较熟悉微积分 但即使你不熟悉微积分也不用担心我会告诉你对这一项你最后需要做什么现在在梯度下降算法中还有一个更微妙的问题在梯度下降中我们要更新 θ0和θ1 当 j=0 和 j=1 时会产生更新所以你将更新 J θ0还有θ1

实现梯度下降算法的微妙之处是在这个表达式中 如果你要更新这个等式你需要同时更新 θ0和θ1 我的意思是在这个等式中我们要这样更新 θ0:=θ0 - 一些东西并更新 θ1:=θ1 - 一些东西实现方法是你应该计算公式右边的部分通过那一部分计算出θ0和θ1的值然后同时更新 θ0和θ1 让我进一步阐述这个过程在梯度下降算法中这是正确实现同时更新的方法我要设 temp0等于这些设temp1等于那些所以首先计算出公式右边这一部分然后将计算出的结果一起存入 temp0和 temp1 之中然后同时更新 θ0和θ1（一起更新）因为这才是正确的实现方法

与此相反下面是不正确的实现方法 因为它没有做到同步更新在这种不正确的实现方法中我们计算 temp0 然后我们更新θ0 然后我们计算 temp1 然后我们将 temp1 赋给θ1 右边的方法和左边的区别是让我们看这里就是这一步如果这个时候你已经更新了θ0 那么你会使用 θ0的新的值来计算这个微分项所以由于你已经在这个公式中使用了新的 θ0的值那么这会产生一个与左边不同的 temp1的值所以右边并不是正确地实现梯度下降的做法我不打算解释为什么你需要同时更新

同时更新是梯度下降中的一种常用方法 我们之后会讲到实际上同步更新是更自然的实现方法当人们谈到梯度下降时他们的意思就是同步更新 如果用非同步更新去实现算法代码可能也会正确工作但是右边的方法并不是人们所指的那个梯度下降算法而是具有不同性质的其他算法由于各种原因这其中会表现出微小的差别你应该做的是在梯度下降中真正实现同时更新这些就是梯度下降算法的梗概

在接下来的视频中我们要进入这个微分项的细节之中 我已经写了出来但没有真正定义如果你已经修过微积分课程 如果你熟悉偏导数和导数这其实就是这个微分项如果你不熟悉微积分不用担心即使你之前没有看过微积分或者没有接触过偏导数

在接下来的视频中你会得到一切你需要知道的 如何计算这个微分项的知识下一个视频中希望我们能够给出 实现梯度下降算法的所有知识

Gradient Descent Intuition 梯度下降法直观感受

直观理解梯度下降算法
学*速率
偏导数项

在之前的视频中我们给出了一个数学上关于梯度下降的定义 本次视频我们更深入研究一下更直观地感受一下这个算法是做什么的以及梯度下降算法的更新过程有什么意义

这是我们上次视频中看到的梯度下降算法提醒一下这个参数 α 术语称为学*速率 它控制我们以多大的幅度更新这个参数θj. 第二部分是导数项 而我在这个视频中要做的就是给你一个更直观的认识这两部分有什么用以及为什么当把这两部分放一起时整个更新过程是有意义的

为了更好地让你明白我要做是用一个稍微简单的例子 比如我们想最小化的那个函数只有一个参数的情形 所以假如我们有一个代价函数J 只有一个参数 θ1 就像我们前几次视频中讲的 θ1是一个实数对吧？那么我们可以画出一维的曲线 看起来很简单让我们试着去理解为什么梯度下降法会在这个函数上起作用

所以假如这是我的函数关于θ1的函数J θ1是一个实数对吧？现在我们已经对这个点上用于梯度下降法的θ1 进行了初始化想象一下在我的函数图像上从那个点出发那么梯度下降要做的事情是不断更新 θ1等于θ1减α倍的 d/dθ1J(θ1)这个项对吧？

哦顺便插一句你知道这个微分项是吧？可能你想问为什么我改变了符号之前用的是偏导数的符号如果你不知道偏导数的符号和d/dθ之间的区别是什么不用担心从技术上讲在数学中我们称这是一个偏导数 这是一个导数这取决于函数J的参数数量但是这是一个数学上的区别就本课的目标而言可以默认为这些偏导数符号和d/dθ1是完全一样的东西不用担心是否存在任何差异我会尽量使用数学上的精确的符号但就我们的目的而言这些符号是没有区别的好的那么我们来看这个方程我们要计算这个导数我不确定之前你是否在微积分中学过导数但对于这个问题 求导的目的 基本上可以说取这一点的切线就是这样一条红色的直线刚好与函数相切于这一点让我们看看这条红色直线的斜率其实这就是导数也就是说直线的斜率也就是这条刚好与函数曲线相切的这条直线这条直线的斜率正好是这个高度除以这个水平长度现在这条线有一个正斜率 也就是说它有正导数 因此我得到的新的θ θ1更新后等于θ1减去一个正数乘以α. α 也就是学*速率也是一个正数所以我要使θ1减去一个东西所以相当于我将θ1向左移使θ1变小了我们可以看到这么做是对的因为实际上我往这个方向移动确实让我更接*那边的最低点所以 梯度下降到目前为止似乎是在做正确的事

让我们来看看另一个例子让我们用同样的函数J 同样再画出函数J(θ1)的图像而这次我们把参数初始化到左边这点所以θ1在这里同样把这点对应到曲线上现在导数项d/dθ1 J(θ1) 在这点上计算时看上去会是这样这条线的斜率这个导数是这条线的斜率但是这条线向下倾斜所以这条线具有负斜率 对吧？或者说这个函数有负导数也就意味着在那一点上有负斜率因此这个导数项小于等于零所以当我更新θ时 θ被更新为θ减去α乘以一个负数因此我是在用 θ1减去一个负数这意味着我实际上是在增加θ1 对不对？因为这是减去一个负数意味着给θ加上一个数这就意味着最后我实际上增加了θ的值因此我们将从这里开始增加θ 似乎这也是我希望得到的也就是让我更接*最小值了所以我希望这样很直观地给你解释了导数项的意义

让我们接下来再看一看学*速率α 我们来研究一下它有什么用这就是我梯度下降法的更新规则就是这个等式让我们来看看如果α 太小或 α 太大会出现什么情况

这第一个例子 α太小会发生什么呢这是我的函数J(θ) 就从这里开始如果α太小了那么我要做的是要去用一个比较小的数乘以更新的值所以最终它就像一个小宝宝的步伐 这是一步然后从这个新的起点开始迈出另一步但是由于α 太小因此只能迈出另一个小碎步所以如果我的学*速率太小结果就是只能这样像小宝宝一样一点点地挪动去努力接*最低点这样就需要很多步才能到达最低点所以如果α 太小的话可能会很慢因为它会一点点挪动它会需要很多步才能到达全局最低点

那么如果α 太大又会怎样呢这是我的函数J(θ) 如果α 太大那么梯度下降法可能会越过最低点甚至可能无法收敛我的意思是比如我们从这个点开始实际上这个点已经接*最低点因此导数指向右侧但如果α 太大的话我会迈出很大一步也许像这样巨大的一步对吧？所以我最终迈出了一大步现在我的代价函数变得更糟因为离这个最低点越来越远现在我的导数指向左侧实际上在减小θ 但是你看如果我的学*速率过大我会移动一大步从这点一下子又到那点了对吗？如果我的学*率太大下一次迭代又移动了一大步越过一次又越过一次一次次越过最低点直到你发现实际上离最低点越来越远所以如果α太大它会导致无法收敛 甚至发散

现在我还有一个问题这问题挺狡猾的当我第一次学*这个地方时我花了很长一段时间才理解这个问题如果我们预先把θ1 放在一个局部的最低点 你认为下一步梯度下降法会怎样工作？所以假设你将θ1初始化在局部最低点假设这是你的θ1的初始值在这儿它已经在一个局部的最优处或局部最低点 结果是局部最优点的导数 将等于零因为它是那条切线的斜率而这条线的斜率将等于零因此此导数项等于0 因此在你的梯度下降更新过程中你有一个θ1 然后用θ1 减α 乘以0来更新θ1 所以这意味着什么这意味着你已经在局部最优点它使得θ1不再改变也就是新的θ1等于原来的θ1 因此如果你的参数已经处于局部最低点那么梯度下降法更新其实什么都没做它不会改变参数的值这也正是你想要的因为它使你的解始终保持在局部最优点这也解释了为什么即使学*速率α 保持不变时梯度下降也可以收敛到局部最低点我想说的是这个意思

我们来看一个例子这是代价函数J(θ) 我想找到它的最小值首先初始化我的梯度下降算法在那个品红色的点初始化如果我更新一步梯度下降也许它会带我到这个点因为这个点的导数是相当陡的现在在这个绿色的点如果我再更新一步你会发现我的导数也即斜率是没那么陡的相比于在品红点对吧？因为随着我接*最低点我的导数越来越接*零 所以梯度下降一步后新的导数会变小一点点然后我想再梯度下降一步在这个绿点我自然会用一个稍微跟刚才在那个品红点时比再小一点的一步现在到了新的点红色点更接*全局最低点了因此这点的导数会比在绿点时更小所以我再进行一步梯度下降时我的导数项是更小的 θ1更新的幅度就会更小所以你会移动更小的一步像这样随着梯度下降法的运行你移动的幅度会自动变得越来越小直到最终移动幅度非常小你会发现已经收敛到局部极小值

所以回顾一下在梯度下降法中当我们接*局部最低点时梯度下降法会自动采取 更小的幅度 这是因为当我们接*局部最低点时很显然在局部最低时导数等于零所以当我们接*局部最低时导数值会自动变得越来越小所以梯度下降将自动采取较小的幅度这就是梯度下降的做法所以实际上没有必要再另外减小α 这就是梯度下降算法你可以用它来最小化最小化任何代价函数J 不只是线性回归中的代价函数J

在接下来的视频中我们要用代价函数J 回到它的本质线性回归中的代价函数也就是我们前面得出的平方误差函数 结合梯度下降法 以及平方代价函数 我们会得出第一个机器学*算法 即线性回归算法

Gradient Descent For Linear Regression 线性回归的梯度下降模型

专属于线性回归的梯度下降函数

在以前的视频中我们谈到关于梯度下降算法 梯度下降是很常用的算法它不仅被用在线性回归上和线性回归模型、平方误差代价函数

在这段视频中我们要将梯度下降 和代价函数结合在后面的视频中我们将用到此算法并将其应用于具体的拟合直线的线性回归算法里

这就是我们在之前的课程里所做的工作这是梯度下降法（连续赋值学*速率偏微分）这个算法你应该很熟悉这是线性回归模型（最简单的函数）还有线性假设和平方误差代价函数（差的平方之和）

我们将要做的就是用梯度下降的方法来最小化平方误差代价函数为了使梯度下降

具体计算线性回归模型下的偏导数项

为了写这段代码我们需要的关键项 是这里这个微分项 （需要代入才能求解）

所以.我们需要弄清楚这个偏导数项是什么并结合这里的代价函数J 的定义就是这样一个求和项代价函数就是这个误差平方项我这样做只是把定义好的代价函数 插入了这个微分式

再简化一下这等于是这一个求和项 θ0 + θ1x(1) - y(i) θ0 + θ1x(1) - y(i) 这一项其实就是我的假设的定义然后把这一项放进去实际上我们需要弄清楚这两个偏导数项是什么这两项分别是 j=0 和j=1的情况因此我们要弄清楚 θ0 和 θ1 对应的偏导数项是什么我只把答案写出来 事实上第一项可简化为 1 / m 乘以求和式对所有训练样本求和求和项是 h(x(i))-y(i) 而这一项对θ(1)的微分项得到的是这样一项对吧计算出这些偏导数项从这个等式到下面的等式 计算这些偏导数项需要一些多元微积分 如果你掌握了微积分你可以随便自己推导这些然后你检查你的微分你实际上会得到我给出的答案但如果你不太熟悉微积分别担心你可以直接用这些已经算出来的结果 你不需要掌握微积分或者别的东西来完成作业你只需要会用梯度下降就可以

（牢记偏微分的求导结果，其实很简单，平方消失了，2没了，θ1多了x(i)）

在定义这些以后在我们算出这些微分项以后这些微分项实际上就是代价函数J的斜率 现在可以将它们放回我们的梯度下降算法所以这就是专用于线性回归的梯度下降 反复执行括号中的式子直到收敛 θ0和θ1不断被更新都是加上一个-α/m 乘上后面的求和项所以这里这一项所以这就是我们的线性回归算法 这里的第一项当然这一项就是关于θ0的偏导数在上一张幻灯片中推出的而第二项这一项是刚刚的推导出的关于θ1的偏导数项提醒一下执行梯度下降时有一个细节要注意就是必须要 同时更新θ0和θ1

（要会自动脑补梯度下降法工作机理：一个二维的山地图、一个拟合图和轮廓图）

所以让我们来看看梯度下降是如何工作的我们用梯度下降解决问题的一个原因是它更容易得到局部最优值 当我第一次解释梯度下降时我展示过这幅图在表面上不断下降并且我们知道了根据你的初始化 你会得到不同的局部最优解 你知道.你可以结束了.在这里或这里。

但是事实证明 用于线性回归的代价函数 总是这样一个弓形的样子这个函数的专业术语是这是一个凸函数 我不打算在这门课中给出凸函数的定义 凸函数(convex function) 但不正式的说法是它就是一个弓形的函数因此这个函数 没有任何局部最优解 只有一个全局最优解 并且无论什么时候你对这种代价函数使用线性回归梯度下降法得到的结果总是收敛到全局最优值因为没有全局最优以外的其他局部最优点

现在让我们来看看这个算法的执行过程 像往常一样这是假设函数的图还有代价函数J的图让我们来看看如何初始化参数的值通常来说初始化参数为零 θ0和θ1都在零但为了展示需要在这个梯度下降的实现中我把θ0初始化为-900 θ1初始化为-0.1 这对应的假设就应该是这样 h(x)是等于-900减0.1x 这对应我们的代价函数现在如果我们进行一次梯度下降从这个点开始在这里.一点点向左下方移动了一小步这就得到了第二个点而且你注意到这条线改变了一点点然后我再进行一步梯度下降左边这条线又变一点对吧同样地我又移到代价函数上的另一个点再进行一步梯度下降我觉得我的代价项应该开始下降了所以我的参数是跟随着这个轨迹再看左边这个图这个表示的是假设函数h(x) 它变得好像越来越拟合数据直到它渐渐地收敛到全局最小值这个全局最小值对应的假设函数给出了最拟合数据的解这就是梯度下降法我们刚刚运行了一遍并且最终得到了房价数据的最好拟合结果现在你可以用它来预测比如说假如你有个朋友他有一套房子面积1250平方英尺(约116平米) 现在你可以通过这个数据然后告诉他们也许他的房子可以卖到35万美元

最后我想再给出另一个名字实际上我们刚刚使用的算法有时也称为批量梯度下降 实际上在机器学*中我们这些搞机器学*的人通常不太会给算法起名字但这个名字"批量梯度下降" 指的是在梯度下降的每一步中我们都用到了所有的训练样本 在梯度下降中在计算微分求导项时我们需要进行求和运算所以在每一个单独的梯度下降中我们最终都要计算这样一个东西这个项需要对所有m个训练样本求和因此批量梯度下降法这个名字说明了我们需要考虑所有这一"批"训练样本这确实不是一个很好听的名字但是搞机器学*的人就是这么称呼的

而事实上有时也有其他类型的梯度下降法 不是这种"批量"型的不考虑整个的训练集而是每次只关注训练集中的一些小的子集 在后面的课程中我们也将介绍这些方法但就目前而言应用刚刚学到的算法你应该已经掌握了批量梯度算法 并且能把它应用到线性回归中了

这就是用于线性回归的梯度下降法如果你之前学过线性代数有些同学之前可能已经学过高等线性代数你应该知道有一种计算代价函数J最小值的数值解法不需要梯度下降这种迭代算法在后面的课程中我们也会谈到这个方法它可以在不需要多步梯度下降的情况下也能解出代价函数J的最小值这是另一种称为正规方程(normal equations)的方法可能你之前已经听说过这种方法实际上在数据量较大的情况下梯度下降法比正规方程要更适用一些现在我们已经掌握了梯度下降我们可以在不同的环境中使用梯度下降法我们还将在不同的机器学*问题中大量地使用它

所以祝贺大家成功学会你的第一个机器学*算法 我们稍后将有一些练* 这些练*会要求你实现梯度下降希望大家能让这些算法真正地为你工作但在此之前我还想先在下一组视频中告诉你 泛化的梯度下降 算法这将使梯度下降更加强大在下一段视频中我将介绍这一问题。

Linear Algebra Review线性代数知识回顾

Matrices and Vectors矩阵和向量

我们先复*一下线性代数的知识在这段视频中我会向大家介绍矩阵和向量的概念

矩阵是指 由数字组成的矩形阵列 并写在方括号中间

例如屏幕中所示的一个矩阵先写一个左括号然后是一些数字这些数字可能是机器学*问题的特征值也可能表示其他意思不过现在不用管具体的数字然后我用右方括号将其括起来这样就得到了一个矩阵接下来看一下其他矩阵的例子依次写下1 2 3 4 5 6 因此实际上矩阵可以说是二维数组的另一个名字另外我们还需要知道的是 矩阵的维度 应该写作矩阵的行数乘以列数

具体到这个例子看左边包括1 2 3 4共4行以及2列因此这个例子是一个 4 × 2的矩阵 即行数乘以列数 4行乘2列

右边的矩阵有两行这是第一行这是第二行此外包括三列这是第一列第二列第三列因此我们把这个矩阵称为一个 2 × 3维的矩阵 所以我们说这个矩阵的维度是2 × 3维

有时候大家会发现书写有些不同比如左边的矩阵写成了R4 × 2 具体而言大家会将该矩阵称作是集合R4×2的元素因此也就是说这个矩阵 R4×2代表所有4×2的矩阵的集合

而右边的这个矩阵有时候也写作一个R2×3的矩阵 因此如果你看到2×3 如果你看到有些地方表达为 4×2的或者2×3的一般都是指 一个特定维度的矩阵

接下来让我们来谈谈如何 表达矩阵的某个特定元素 这里我说矩阵元素 而不是矩阵我的意思是矩阵的条目数也就是矩阵内部的某个数所以标准的表达是如果A是这个矩阵那么A下标 ij 表示的是 i j对应的那个数字 意思是矩阵的第i行和第j列 对应的那个数因此例如 A11 表示的是第1行第1列所对应的那个元素所以这是第一行和第一列因此A11 就等于 1402 另一个例子 A12 表示的是第一行第二列对应的那个数所以A12 将等于191 再看一个简单的例子让我们来看看比如说A32 表达的是第3行第2列对应的那个数是吧因为这是3 2 所以这等于1437 最后 A41 应该等于第四行第一列对应的数所以是等于 147 我希望你不会犯下面的错误但如果你这么写的话如果你写出了A43 这应该表示的是第四行第三列而你知道这个矩阵没有第三列因此这是未定义的或者你可以认为这是一个错误根本就没有什么A43 对应的元素所以你不能写A43

因此矩阵提供了一种很好的方式让你快速整理索引和访问大量数据

可能你觉得我似乎是介绍了很多概念很多新的符号我讲得很快你不需要把这些都记住但在课程网站上我们已经发布了讲义所有这些定义都写在讲义里所以你可以随时参考包括这些幻灯片你可以随时回来观看视频如果你忘了A41到底是表示什么？哪一行哪一列是什么？所以现在不要担心记忆问题你可以随时回来参考课程网站上的材料所以这就是矩阵的定义

接下来让我们来谈谈什么是向量

一个向量是一种特殊的矩阵 向量是只有一列的矩阵所以你有一个 n×1 矩阵还记得吗 N是行数而这里的1 表示的是列数所以只有一列的矩阵就是我们所说的向量

因此这里是一个向量的例子比如说我有 n = 4 个元素所以我们也把这个称为另一个术语是这是一个四维的向量也就意味着这是一个含有 4个元素的向量而且前面我们讲矩阵的时候提到过这个符号R3×2 表示的是一个3行2列的矩阵而对于这个向量我们也同样可以表示为集合R4 因此这个R4是指一个四维向量的集合

接下来让我们来谈谈如何引用向量的元素 我们将使用符号 yi来代表向量y的第i个元素所以如果这个向量是y 那么y下标i 则表示它的第i个元素所以y1表示第一个元素 460 y2表示第二个元素 232 这是第二个元素还有y3等于 315 等等只有y1至y4是有意义的因为这定义的是一个四维向量

此外事实上有两种方法来表达某个向量中某个索引是这两种有时候人们会使用 1-索引 有时候用0-索引 因此左边这个例子是一个1-索引向量它的元素写作 y1 y2 y3 y4 而右边这个向量是0-索引的一个例子我们的索引从下标0开始因此元素从y0至y3 这有点像一些初级语言中的数组数组是从1开始排序的数组的第一个元素一般时从y1开始这是表示序列的符号有时是从0开始排序这取决于你用什么编程语言

所以事实上在数学中 1-索引的情况比较多而对于很多机器学*的应用问题来说 0-索引向量为我们提供了一个更方便的符号表达所以你通常应该做的是除非特别指定你应该默认我们使用的是1-索引法表示向量

在本课程的后面所有关于线性代数的视频中我都将使用1-索引法表示向量 但你要明白当我们谈论到机器学*的应用问题时如果我们需要使用0-索引向量的话我会明确地告诉你我们什么时候换成使用0-索引表达

最后按照惯例通常在书写矩阵和向量时大多数人会使用大写字母 来表示矩阵 因此我们要使用大写字母如 A B C X 来表示矩阵而通常我们会使用小写字母像a b x y 来表示数字 或是原始的数字或标量或向量这是实际的使用*惯我们也经常看到使用小写字母y 来表示向量但我们平时是用大写字母来表示矩阵所以你现在知道了什么是矩阵和向量接下来我们将继续讨论关于它们一些内容

Addition and Scalar Multiplication加法和标量乘法

Matrix Vector Multiplication矩阵与向量的乘法

Matrix Matrix Multiplication矩阵与矩阵的乘法

Matrix Multiplication Properties矩阵乘法性质

Inverse and Transpose矩阵的逆运算和转置运算

接下来运用这些所学的工具在接下来的几段视频中我们将介绍非常重要的线性回归我们会看到更多的数据更多的特征以及更多的训练样本再往后在介绍线性回归之后我们还将继续使用这些线代工具来推导一些更加强大的学*算法

posted @ 2016-06-27 13:33 Life·Intelligence 阅读(1053) 评论(0) 收藏举报

刷新页面返回顶部

Digital-LI