摘要:
1 一些概念 Query, 当前元素 Key,序列中的其他元素 Value,求的加权结果和 2 Attention $$\displaystyle{\displaylines{Attention(Q,K,V)=Softmax(\frac{QK}{\sqrt{d}})V}}$$ relevance i 阅读全文
posted @ 2025-12-02 18:53
ylxn
阅读(6)
评论(0)
推荐(0)
摘要:
一、流程 求函数的导数 更新x,x_new = x - learning_rate * gradient 检查收敛性: |gradient| < tolerance 二、为什么沿着梯度方向就一定能达到最值? 需要用泰勒展开式进行推导。过程省略 import numpy as np import ma 阅读全文
posted @ 2025-12-02 15:14
ylxn
阅读(6)
评论(0)
推荐(0)

浙公网安备 33010602011771号