摘要: Transformer中query、key和value的状态为什么要是 contiguousd值? 在阅读Transformer模型的相关代码时,会发现query、key和value都会有contiguous()化操作,如下所示: ... query_states = query_states.co 阅读全文
posted @ 2024-09-26 13:48 wuhaoliu 阅读(28) 评论(0) 推荐(0)