摘要: Self attention考虑了整个sequence的资讯【transfermer中重要的架构是self-attention】 解决sequence2sequence的问题,考虑前后文 I saw a saw 第一个saw对应输出动词 第二个输出名词 如何计算相关性【attention score 阅读全文
posted @ 2023-07-19 21:54 AKA铁柱 阅读(14) 评论(0) 推荐(0)
摘要: 反向传播的过程 定义向量的方法, out = self.w.mm(x) # mm表示向量相乘metrix multiple 1*2 与 2*1 相乘 item()方法更安全和推荐,因为它可以确保计算图的正确性,并且可以提供与Python标量类型的兼容性。而data属性已经被废弃,并且可能会导致错误, 阅读全文
posted @ 2023-04-12 14:34 AKA铁柱 阅读(31) 评论(0) 推荐(0)
摘要: 局部变量和全局变量的作用域问题 变量在函数内外; 变量在代码块内外 另外上面std::cout的意思是:使用std命名空间下的成员函数/变量 作用域解析运算符 :: 总结:前,后 int * const p //指针常量 址不可修改 (p是地址 const int *p = &a; //常量指针 值 阅读全文
posted @ 2023-04-01 19:05 AKA铁柱 阅读(20) 评论(0) 推荐(0)
摘要: 函数本身正在打印输出,作为被调用的副作用。 阅读全文
posted @ 2023-03-16 21:40 AKA铁柱 阅读(26) 评论(0) 推荐(0)