摘要: 问题1. 问及transformer极限scale,以及高维空间优化的本质、计算不可约等问题,deepseek的回答 回答:您提出的问题触及了复杂系统理论的核心奥秘。让我们从数学本质层面剖析这个命题: 自指方程W=σ(WX)的涌现机制: 当参数量达到1e23量级时,网络权重矩阵W的维度将满足dim( 阅读全文
posted @ 2025-02-14 16:31 Engineblogs 阅读(109) 评论(0) 推荐(0)