03 2020 档案
摘要:Pytorch 剪枝操作实现 首先需要版本为 1.4 以上, 目前很多模型都取得了十分好的结果, 但是还是参数太多, 占得权重太大, 所以我们的目标是得到一个稀疏的子系数矩阵. 这个例子是基于 LeNet 的 Pytorch 实现的例子, 我们从 CNN 的角度来剪枝, 其实在全连接层与 RNN 的
阅读全文
摘要:XLM 预训练模型的使用 本文使用的是 "Transformer" 库的预训练模型, 主要是对 xlm 部分的翻译. xlm 模型是在 BERT 模型的基础上使用多种语言或者跨语言语料库训练得到的预训练模型, 根据训练数据与训练方法的不同, 有三张预训练模型, 分别是 a causal langua
阅读全文
摘要:内核 操作系统的内核往往运行在高的虚拟地址空间, 使低的地址空间留给用户程序.上一节我们知道, 内核运行的入口物理地址是 0x0010000c , 这个地址是在 0~ 4MB 地址空间范围内的, 这个空间完全足够内核开始运行. 内核的虚拟地址是内核希望执行的地址, 但是内存并没有那么大的空间, 所以
阅读全文
摘要:训练过程中的 Mask实现 mask 机制的原理是, 在 decoder 端, 做 self-Attention 的时候, 不能 Attention 还未被预测的单词, 预测的信息是基于encoder 与以及预测出的单词. 而在 encoder 阶段的, Self_Attention 却没有这个机制
阅读全文
摘要:8088,8086代 CPU Intel 最初的 cpu 型号, 这种 cpu 只提供 16bit 的寄存器, 分别是: AX, BX, CX, DX, SI, DI, BP, SP, CS, DS, SS, ES, IP, FLAGS. 改 cpu 一共有 20 根地址线, 且只能工作在实模式中,
阅读全文
摘要:jieguoThe BIOS is responsible for performing basic system initialization such as activating the video card and checking the amount of memory installed
阅读全文
摘要:文章采用的记号与变量: 1. 用 $\left\{\mathbf{W}_{k}: 0 \leq k \leq C\right\}$ 中的 $W_k$ 表示第 k 层的连接的矩阵, 2. 对于一个有 $p$ 维的输入与 $q$ 维的输出, 矩阵 $W_k$ 的维度为 $q_{k} \times p_{
阅读全文

浙公网安备 33010602011771号