《深度学习原理与Pytorch实战》(第二版)(三)11-15章

第11章 神经机器翻译器——端到端机器翻译

  1. 神经机器翻译,google旗下的NMT
  2. 编码-解码模型:用编码器和解码器组成一个翻译机,先用编码器将源信息编码为内部状态,再通过解码器将内部状态解码为目标语言。编码过程对应了阅读源语言句子的过程,解码过程对应了将其重组为目标语言的过程——对应“翻译”的过程:先把大意看懂,再重新组织翻译出的新语言——书P260

embedding层的用法:
在机器学习和深度学习中,嵌入层(embedding layer)是一种常见的技术,用于将高维离散数据映射到低维连续向量空间中。它通常用于处理文本、图像、音频等数据,将它们转换成模型可以处理的形式。
在自然语言处理(NLP)中,嵌入层经常用于将词汇表中的每个单词映射到一个固定长度的实数向量。这些向量在嵌入空间中的位置被设计为捕捉单词之间的语义关系。例如,具有相似含义的单词在嵌入空间中可能会更接近。
啊
softmax函数

  1. 编码器工作流程——书P262
  2. 编码-解码模型归纳——书P269
  3. 注意力机制——书P270
    注意力网络首先是一个神经网络,包含了两个部分:一是解码器下一个时刻的输入单词,二是解码器当前的隐含层节点状态——书P271
    注意力网络的输出是一组正实数,加起来等于1,是加到编码器各时间步隐含状态上的权重
  4. 使用GRU(门控循环单元)来替换普通的LSTM——书P275
    GRU也是没有输出门的LSTM

第12章 更强的机器翻译模型——Transformer

  1. 为了克服RNN系列对长序列建模的困难,提出了Transformer,完全使用注意力机制代替RNN复杂的网络结构——书P300
  2. Transformer以注意力为核心构建整个编码-解码模型,解决了长序列问题,完全抛弃了RNN
    RNN、LSTM为核心的机器翻译使用token,但是token都是通过cell states和其他token产生联系,而一般直接产生联系的是距离最近的token,但是这样,针对长序列就不方便
    Transformer的多头自注意力模块中,每一个token需要分裂为若干个头,每个头内部又分为查询向量query、关键字向量key、值向量value三个向量,每个token的query向量都可以与句子中其他token的key向量直接交互。query与key的计算结果与value相结合,产生新的token表示——书P302
    query可以看做token之间有向边的起点,边的终点是token的key向量
    3.采用Atoken的故事来方便理解——书P304
  3. 编码——解码模型回顾:英文句子被切分成以词为基本单位的序列,在词嵌入层(embedding层),将词转换为对应的向量,向量输入编码器,编码器输出一个向量,作为对原文本的理解,然后解码器根据编码器的理解,从前向后逐词输出正确的翻译——书P300
  4. 在Transformer中的特殊层——多头自注意力层——书P300
  5. 残差连接与层归一化——书P310
    将自注意力层的输出与输入相加,这条路径通常被称为残差连接
    层归一化通过两个可学习的参数对输入进行规范化,让输入分布更稳定——书P310
  6. 逐点计算的前向网络层——书P311

第13章 学习跨任务的语言知识——预训练语言模型

  1. 应用在计算机视觉方面的一种预训练方式:使用ImageNet数据集进行分类任务的训练,旨在学习通用知识,然后在目标任务上进行微调——书P320
  2. BERT提出带掩码的语言模型(mask language model,MLM)
  3. GPT使用的是自回归语言模型(autoregressive language model)
    自回归语言模型好像背课文,从前到后,逐个记忆;带掩码的语言模型更像是做完形填空,从句子中随机挖去若干个词,凭借对上下文的理解填写正确答案——书P321
  4. GPT将任务分为了四类:单句分类任务、文本蕴含任务、文本相似度任务、问答任务——书P323
  5. GPT和Transformer模型中的解码器部分很相似;BERT和Transformer模型中的编码器部分很相似
  6. BERT将任务分为了四类:句对分类任务、单句蕴含任务、问答任务、单句序列标注任务——书P323

第14章 人体姿态识别——图网络模型

  1. 图是一种由节点和连边组成的结构,图网络实际上是一种运行在图上的深度学习模型——书P335
  2. 首先要处理的是如何将图表示为向量形式,而关键的就是节点信息和连边信息
  3. 图网络可以查看不同节点之间的关系,而词袋模型只能关注自身信息
  4. 图卷积网络(graph convolutional network,GCN)是图神经网络的一个代表——书P338
    GCN的输入即表示节点信息和节点连边关系的矩阵,例如NxM矩阵,N表示节点数量,M表示类别数量,数值代表概率
  5. GCN的核心模块在于聚合邻居信息——书P340
    因此自然得出,对于不同距离(阶、层)的数据,有不同的处理方式
    层数越高,越能聚合远处的像素信息

第15章 AI游戏高手——深度强化学习

  1. 强化学习不仅关心一个独立的、被动的主体如何学习,还强调一个完整的智能主体要与环境不停地互动
  2. 深度Q学习算法:深度学习与经典Q学习算法的结合——书P355
  3. 哥德尔机——书P379
  4. 经典强化学习和深度学习没有任何关系,后来人们将其联合在一起
  5. Q函数可以视作效能函数或评估函数,是一种价值判断
  6. Q-learning=DQN吗?
    不是,Q-learning是一个经典的强化学习算法,而DQN是由DeepMind提出的,是使用深度神经网络实现的Q-learning算法,而经典的Q-learning并不使用深度神经网络。
posted @ 2024-05-06 16:01  江左子固  阅读(5)  评论(0编辑  收藏  举报