摘要: Tokenization Transformer模型中最基础的一步,它包含一个巨大的tokens的数据集,包含所有词、标点符号等,这一步将每个词、前缀、后缀和标点符号转换为数据集中的已知token,例如”write a paper.”转换为四个相应的tokens是、、、<.>。 Embedding 阅读全文
posted @ 2025-06-10 19:04 Jenny43473 阅读(53) 评论(0) 推荐(0)
摘要: 2010 阅读全文
posted @ 2025-05-12 19:02 Jenny43473 阅读(12) 评论(0) 推荐(0)
摘要: Q1: 手写数字识别为什么不用二进制而用向量表示结果? A:图形的形状要素与二进制数值最高位很难建立联系。当然如果要求输出结果为二进制,只需要再加一层神经元即可,将向量表转换成二进制。 Q2:泛化? A:机器学习的核心指标,表示模型对未见过的数据的适应与预测能力,可以类比人类的学习过程。 提升泛化能 阅读全文
posted @ 2025-05-12 18:35 Jenny43473 阅读(34) 评论(0) 推荐(0)
摘要: RNN 首先看一个简单的循环神经网络如,它由输入层、一个隐藏层和一个输出层组成: 如果把上面有W的那个带箭头的圈去掉,它就变成了最普通的全连接神经网络。x是一个向量,它表示输入层的值(这里面没有画出来表示神经元节点的圆圈);s是一个向量,它表示隐藏层的值(这里隐藏层面画了一个节点,你也可以想象这一层 阅读全文
posted @ 2025-05-12 18:28 Jenny43473 阅读(24) 评论(0) 推荐(0)
摘要: 输入层->卷积层(特征提取) 将输入与N个filter进行卷积计算,得到N个feature_map 〖net〗_o11= conv(input,filter) 神经元的输出采用relu激活函数 〖out〗_o11= activation(〖net〗_o11 )= max⁡(0,〖net〗_o11 ) 阅读全文
posted @ 2025-04-20 16:19 Jenny43473 阅读(33) 评论(0) 推荐(0)