Fork me on GitHub
摘要: 要把 S4(Structured State Space Sequence model) 放进深度神经网络里,本质上是把一个经典的 状态空间模型(State Space Model, SSM) 变成一个“可训练的序列层(layer)”。但很多人一开始容易误解:一层 ≠ 一个时间步,而是一层实现整个时 阅读全文
posted @ 2026-04-20 16:10 stardsd 阅读(127) 评论(0) 推荐(0)
摘要: 神经符号集成(Neuro-Symbolic Integration)是近年来人工智能领域最具突破性的研究方向之一,它通过巧妙融合神经网络与符号系统的优势,为解决传统AI方法面临的诸多挑战提供了创新思路。作为连接数据驱动与知识驱动两大范式的桥梁,这种集成方法正在重新定义机器智能的边界,为构建兼具学习能 阅读全文
posted @ 2026-04-20 15:37 stardsd 阅读(65) 评论(0) 推荐(0)
摘要: 在语言建模中,并非所有的tokens和序列都需要相同的时间或努力来准确地进行预测。然而transformer在前向传递(forward pass)中对每个token消耗相同数量的计算资源。理想情况下,transformer应通过不必要地消耗计算资源来使用更小的总计算预算。 条件计算(Conditio 阅读全文
posted @ 2026-04-20 15:21 stardsd 阅读(26) 评论(0) 推荐(0)
摘要: 什么是小型语言模型? 小型语言模型 (SLM) 是能够处理、理解和生成自然语言内容的人工智能 (AI) 模型。顾名思义,SLM 的规模和范围比大型语言模型 (LLM) 小。 就规模而言,SLM 的参数范围从几百万到几十亿不等,而 LLM 则具有数千亿甚至数万亿参数。参数是模型在训练期间要学习的内部变 阅读全文
posted @ 2026-04-20 15:09 stardsd 阅读(52) 评论(0) 推荐(0)