深入浅出的图神经网络——读书笔记

day 4

第四章：表示学习

4.1 表示学习的意义、离散表示与分布式表示、端到端学习的表示学习方法。

表示学习：自动的从数据中学习有用的特征，并可以直接用于后续的学习任务。可以利用表示学习减少机器学习算法对特征工程的依赖。表示学习的任务通常是将输入映射到一个稠密的低维的向量空间中。
机器学习中对象的表示方法有两种：离散表示和分布式表示。
- 离散表示：one-hot编码，它是假设所有对象都是相互独立的，编码的维度非常高并且非常稀疏。
- 分布式表示：通过某种方式得到一个低维稠密的向量表示研究对象。编码的结果包含了寓意信息，可以计算语义相似度。
端到端学习：直接用原始数据作为网络的输入而不是提取的特征。是表示学习和任务学习的联合优化。
- 优势：1、可以自动提取与任务相关的特征。2、学习到数据的层次化表达。3、可以方便进行迁移学习。

两种典型的表示学习方法：

4.2 基于重构损失的方法-自编码器：自编码器、正则自编码器、变分自编码器。

自编码器
- 将输入映射到某个特征空间，再从这个特征空间映射回输入空间进行重构。训练完成后使用编码器进行特征提取。
- 自编码器不需要额外标签信息进行监督学习，通过不断最小化输入和输出之间的重构误差进行训练的。基于损失函数，通过反向传播计算梯度，利用梯度下降法优化参数。
正则自编码器：对于编码器的维度大于或者等于输入维度的郭皖北自编码器，为了防止编码器不会从数据中提取到有价值的特征的问题，对模型进行正则化约束。
- 去噪自编码器：在原始自编码器的输入的基础上加入一些噪声作为编码器的输入，编码器需要重构出不加噪声的原始输入。
- 稀疏自编码器：以限制神经元的活跃度来限制约束模型的，尽可能使大多数神经元都处于不活跃的状态。
变分自编码器：用于生成新的样本数据，其本质是生成模型，它假设我们得到的样本都是服从某个复杂分布，生成模型的目的就是要建模，这样我们就可以从分布中进行采样得到新的样本数据。

4.3 基于对比损失的方法-Word2vec

Word2vec模型将词嵌入到一个向量空间中，用一个低维的向量来表达每个词，语义相关的词距离更近，解决了传统方法存在的高维度和数据稀疏等问题。其核心思想是由一个词的上下文去刻画这个词。

posted @ 2020-08-24 21:28 下一百斤就改名字~园阅读(278) 评论(0) 收藏举报

刷新页面返回顶部