摘要:
前言 本篇笔记是分析transformer模型的参数量、计算量、中间激活、KV cache - 知乎 (zhihu.com)的学习记录。大部分内容都是来自那篇文字。 符号表 本文的示例模型是decoder-only模型,即若干个相同的层,有的人称之为block,每个block包含:self-atte 阅读全文
前言 本篇笔记是分析transformer模型的参数量、计算量、中间激活、KV cache - 知乎 (zhihu.com)的学习记录。大部分内容都是来自那篇文字。 符号表 本文的示例模型是decoder-only模型,即若干个相同的层,有的人称之为block,每个block包含:self-atte 阅读全文
posted @ 2023-09-19 20:03
Luison_Liu
阅读(2266)
评论(0)
推荐(0)
摘要:
前言 在17年,自然语言处理领域还在被RNN统治,当时的seq2seq任务还是用带encoder-decoder结构的RNN。然而RNN天然具有一个缺点:计算效率低。 随后的transformer也是encoder-decoder结构,但是其中信息关联采用了attention机制,而不是RNN的循环 阅读全文
前言 在17年,自然语言处理领域还在被RNN统治,当时的seq2seq任务还是用带encoder-decoder结构的RNN。然而RNN天然具有一个缺点:计算效率低。 随后的transformer也是encoder-decoder结构,但是其中信息关联采用了attention机制,而不是RNN的循环 阅读全文
posted @ 2023-09-19 00:32
Luison_Liu
阅读(420)
评论(0)
推荐(0)

最近组里安排了新内网,又要配环境。 众所周知,内网安装python库需要先到www.pypi.org找到对应版本的包,然后再下载whl文件,上传到内网,再用pip install "文件地址"去安装。 这样就会出现一个问题,鬼知道这个包需要的前置依赖是什么,pip会自动检查前置依赖,然后自动从源下载
记录一下,从下午四点到晚上九点,配置好了博客园的界面,博客园里申请博客和申请JS非常迅速。主要时间用于熟悉博客园后台以及github上查看各皮肤。 首先非常感谢各位大佬的无私付出,分享自己的技术与知识,供社区的大家交流学习。我也会努力分享自己微不足道的经验,为开源社区尽一份力。 最后采用不忘编码大佬
目前,不挂梯子git总是连接不到github,因而需要代理。 查看当前全局配置: > git config --global -l 取消当前的代理端口: > git config --global --unset http.proxy > git config --global --unset ht
浙公网安备 33010602011771号