上一页 1 ··· 4 5 6 7 8
摘要: 摘要 2020年发表的《Language Models are Few-Shot Learners》(GPT-3论文)开创了AI新时代。该论文突破性地证明:当Transformer模型参数规模扩大到1750亿时,仅通过文本交互即可实现任务无关的少样本学习。GPT-3采用"预训练+提示词"的新范式,无需微调就能在翻译、问答等40+任务上展现强大性能。论文系统验证了模型在语言建模、闭卷问答等9类任务中的表现,其中在LAMBADA长文本任务上准确率达86.4%,较此前最优提升18.4%。这一研 阅读全文
posted @ 2025-11-17 14:42 TTGF 阅读(478) 评论(0) 推荐(1)
摘要: 摘要 《Attention Is All You Need》论文开创性地提出Transformer架构,彻底改变了自然语言处理领域的技术路径。该论文解决了传统RNN/CNN模型的三大痛点:通过自注意力机制实现全局语义捕捉,摆脱了序列处理的低效性;多头注意力设计支持并行计算,大幅提升训练效率;缩放点积注意力有效解决长距离依赖问题。Transformer的核心创新包括:1)完全基于注意力机制取代循环结构;2)编码器-解码器堆叠架构;3)残差连接和层归一化优化训练稳定性。这一架构为GPT、BERT等大模型奠定了基 阅读全文
posted @ 2025-11-14 16:19 TTGF 阅读(835) 评论(0) 推荐(1)
摘要: 当GPT生成流畅文案、SORA渲染超写实视频,当AI在国际数学奥林匹克竞赛中摘金,整个世界都在为大语言模型(LLM)的“震撼性突破”欢呼时,刚拿下图灵奖的强化学习之父 理查德·沙顿,却抛出了一句足以颠覆行业认知的话:“大语言模型可能是一条死胡同。” 这位奠定了强化学习理论基石的学者,并非随口唱衰—— 阅读全文
posted @ 2025-11-07 10:06 TTGF 阅读(139) 评论(0) 推荐(0)
上一页 1 ··· 4 5 6 7 8