上一页 1 2 3 4 5 6 7 ··· 80 下一页
摘要: #!/usr/bin/env python # -*- coding:utf-8 -*- # Datatime:2022/7/28 15:01 # Filename:016 Python 中的基本运算符.py # Toolby: PyCharm # https://www.cnblogs.com/n 阅读全文
posted @ 2022-07-28 19:56 B站-水论文的程序猿 阅读(196) 评论(0) 推荐(0) 编辑
摘要: 1:10 点赞 16:00 我爱你 你爱我 1401 class PositionalEncoding(nn.Module): def __init__(self, dim, dropout, max_len=5000): super(PositionalEncoding, self).__init 阅读全文
posted @ 2022-07-28 19:55 B站-水论文的程序猿 阅读(1465) 评论(0) 推荐(0) 编辑
摘要: 3:20 来个赞 24:43 弹幕,是否懂了 QKV 相乘(QKV 同源),QK 相乘得到相似度A,AV 相乘得到注意力值 Z 第一步实现一个自注意力机制 自注意力计算 def self_attention(query, key, value, dropout=None, mask=None): d 阅读全文
posted @ 2022-07-27 20:00 B站-水论文的程序猿 阅读(4434) 评论(0) 推荐(1) 编辑
摘要: #!/usr/bin/env python # -*- coding:utf-8 -*- # Datatime:2022/7/26 20:11 # Filename:015 Python 的输入输出和字符串格式化(终于可以和计算机交流了).py # Toolby: PyCharm # 00:12,需 阅读全文
posted @ 2022-07-26 20:38 B站-水论文的程序猿 阅读(169) 评论(0) 推荐(0) 编辑
摘要: #!/usr/bin/env python # -*- coding:utf-8 -*- # Datatime:2022/7/24 20:31 # Filename:014 Python 的数据类型(数字、字符串、列表、字典).py # Toolby: PyCharm # 定义变量就会开辟内存空间 阅读全文
posted @ 2022-07-26 20:38 B站-水论文的程序猿 阅读(234) 评论(0) 推荐(0) 编辑
摘要: https://www.bilibili.com/video/BV1GB4y1H7hq?spm_id_from=333.999.0.0&vd_source=b1ce52b6eb3a9e6c2360a4b7172edf5a class LayerNorm(nn.Module): def __init_ 阅读全文
posted @ 2022-07-26 20:10 B站-水论文的程序猿 阅读(1288) 评论(0) 推荐(1) 编辑
摘要: 博客配套视频链接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看 配套 github 链接:https://github.com/nickchen121/Pre-training-language-model 阅读全文
posted @ 2022-07-25 19:53 B站-水论文的程序猿 阅读(12251) 评论(2) 推荐(5) 编辑
摘要: 博客配套视频链接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看 配套 github 链接:https://github.com/nickchen121/Pre-training-language-model 阅读全文
posted @ 2022-07-25 19:51 B站-水论文的程序猿 阅读(6829) 评论(0) 推荐(3) 编辑
摘要: python/pytorch 基础 https://www.cnblogs.com/nickchen121 培训机构(Django 类似于 Transformers) 首先由一个 norm 函数 norm 里面做残差,会输入( x 和 淡粉色z1,残差值),输出一个值紫粉色的 z1 标准化 $$ y 阅读全文
posted @ 2022-07-25 19:50 B站-水论文的程序猿 阅读(3038) 评论(0) 推荐(1) 编辑
摘要: 通过 pytorch 去构建一个 transformer 的框架 不是导包,不是调包侠 注意力机制是一个很宽泛(宏大)的一个概念,QKV 相乘就是注意力,但是他没有规定 QKV是怎么来的 通过一个查询变量 Q,去找到 V 里面比较重要的东西 假设 K==V,然后 QK 相乘求相似度A,然后 AV 相 阅读全文
posted @ 2022-07-24 10:42 B站-水论文的程序猿 阅读(4170) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 80 下一页