已知大模型常用的 Attention 模块定义如下:
Y=softmax(QKTh)VY = \text{softmax}\left(\frac{QK^T}{\sqrt{h}}\right)VY=softmax