2025 年 12月 2 日随笔档案 - ylxn

2025年12月2日

attention、self-attention、attention is all you need

摘要： 1 一些概念 Query, 当前元素 Key，序列中的其他元素 Value，求的加权结果和 2 Attention $$\displaystyle{\displaylines{Attention(Q,K,V)=Softmax(\frac{QK}{\sqrt{d}})V}}$$ relevance i 阅读全文

posted @ 2025-12-02 18:53 ylxn 阅读(6) 评论(0) 推荐(0)

利用梯度下降求一个凸函数的最小值

摘要：一、流程求函数的导数更新x，x_new = x - learning_rate * gradient 检查收敛性： |gradient| < tolerance 二、为什么沿着梯度方向就一定能达到最值？需要用泰勒展开式进行推导。过程省略 import numpy as np import ma 阅读全文

posted @ 2025-12-02 15:14 ylxn 阅读(6) 评论(0) 推荐(0)

ylxn

时光旅客～

公告