如何解决一堆向量的问题？Self-attention

接CNN

一个单词一个编码，一句话是一堆向量

声音信号是一堆向量

一个图也是一堆向量

self-attention 会考虑所有的上下文，得到特定的向量

FC 是 fully connected

self-attention 可以叠加很多次

\(w^q和W^k\)是两个矩阵，输入分别和\(w^q和W^k\)相乘得到矩阵q和k，q和k相乘得到\(\alpha\)

计算完之后知道哪个和a1是最有关联性的，然后根据这个关联性抽取资讯

假如a1和a2关联性最大，最后得到的b1可能和a2比较接近

如果把\(Self-attention\)加上一些限制就是CNN

RNN 会考虑前一个的输出，把前一个的输出当作下一个输入的一部分，而Self-attention是考虑全体

但是内存等有限，不可能全部一次性放入内存，则分批次

只考虑有联系的，互相之间有路径可走的

posted @ 2025-10-27 15:40 -一叶知秋- 阅读(9) 评论(0) 收藏举报

刷新页面返回顶部