深入浅出的图神经网络——读书笔记

day 4

第四章:表示学习

4.1 表示学习的意义、离散表示与分布式表示、端到端学习的表示学习方法。

  • 表示学习:自动的从数据中学习有用的特征,并可以直接用于后续的学习任务。可以利用表示学习减少机器学习算法对特征工程的依赖。表示学习的任务通常是将输入映射到一个稠密的低维的向量空间中。
  • 机器学习中对象的表示方法有两种:离散表示和分布式表示。
    • 离散表示:one-hot编码,它是假设所有对象都是相互独立的,编码的维度非常高并且非常稀疏。
    • 分布式表示:通过某种方式得到一个低维稠密的向量表示研究对象。编码的结果包含了寓意信息,可以计算语义相似度。
  • 端到端学习:直接用原始数据作为网络的输入而不是提取的特征。是表示学习和任务学习的联合优化。
    • 优势:1、可以自动提取与任务相关的特征。2、学习到数据的层次化表达。3、可以方便进行迁移学习。

两种典型的表示学习方法:

4.2 基于重构损失的方法-自编码器:自编码器、正则自编码器、变分自编码器。

  • 自编码器
    • 将输入映射到某个特征空间,再从这个特征空间映射回输入空间进行重构。 训练完成后使用编码器进行特征提取。
    • 自编码器不需要额外标签信息进行监督学习,通过不断最小化输入和输出之间的重构误差进行训练的。基于损失函数,通过反向传播计算梯度,利用梯度下降法优化参数。
  • 正则自编码器:对于编码器的维度大于或者等于输入维度的郭皖北自编码器,为了防止编码器不会从数据中提取到有价值的特征的问题,对模型进行正则化约束。
    • 去噪自编码器:在原始自编码器的输入的基础上加入一些噪声作为编码器的输入,编码器需要重构出不加噪声的原始输入。
    • 稀疏自编码器:以限制神经元的活跃度来限制约束模型的,尽可能使大多数神经元都处于不活跃的状态。
  • 变分自编码器:用于生成新的样本数据,其本质是生成模型,它假设我们得到的样本都是服从某个复杂分布,生成模型的目的就是要建模,这样我们就可以从分布中进行采样得到新的样本数据。

4.3 基于对比损失的方法-Word2vec

  • Word2vec模型将词嵌入到一个向量空间中,用一个低维的向量来表达每个词,语义相关的词距离更近,解决了传统方法存在的高维度和数据稀疏等问题。其核心思想是由一个词的上下文去刻画这个词。
posted @ 2020-08-24 21:28  下一百斤就改名字~园  阅读(179)  评论(0编辑  收藏