TTGF - 博客园

2025年11月28日

摘要：前言当AI编程从“代码编写”变成“对话创作”，技术创新的门槛正在被彻底打破。Google Gemini 3.0的发布，用颠覆性的Canvas功能重新定义了AI工具的使用场景——无需一行代码，仅凭自然语言描述就能在浏览器里“聊”出可用的应用程序。无论是产品经理快速验证原型，还是普通用户实现创意想法，阅读全文

posted @ 2025-11-28 19:55 TTGF 阅读(7642) 评论(0) 推荐(1)

2025年11月24日

AI 十大论文精讲（七）：Switch Routing 如何破解 MoE 的路由、通信与稳定性三大痛点

摘要：《Switch Transformers：用简单高效的稀疏化实现万亿参数模型》论文解读本文深入解析了Google提出的Switch Transformers架构，该论文通过创新的稀疏化设计解决传统MoE模型的路由复杂性和训练不稳定性问题。核心创新在于简化路由机制（单专家选择）、优化负载均衡策略（辅助损失函数+专家容量设计）和开发三重并行架构（数据+模型+专家并行）。实验表明，稀疏模型在相同计算预算下，预训练速度提升4-7倍，下游任务性能显著优于密集模型，如1.6万亿参数的Switch-C在TriviaQA 阅读全文

posted @ 2025-11-24 17:09 TTGF 阅读(83) 评论(0) 推荐(0)

AI 十大论文精讲（六）：拆解 LLM 智能体的 “通用密码”

摘要：复旦NLP团队2023年发表的综述《The Rise and Potential of Large Language Model Based Agents》系统构建了LLM智能体的通用框架，提出以"大脑（LLM决策）-感知（多模态理解）-行动（工具调用）"为核心的技术范式，突破传统智能体的任务局限性。文章涵盖单智能体、多智能体协作、人机交互及智能体社群四大应用场景，并指出工具SKMA体系、安全护栏、结果检查三大落地关键。通过效用、社交性、价值观、进化能力四维评估体系，以及AGI 阅读全文

posted @ 2025-11-24 17:09 TTGF 阅读(913) 评论(0) 推荐(0)

2025年11月18日

AI 十大论文精讲（五）：RAG——让大模型 “告别幻觉、实时更新” 的检索增强生成秘籍

摘要：摘要：《检索增强生成(RAG)在知识密集型NLP任务中的应用》这篇论文提出了一种创新方法，通过结合检索与生成技术，解决了传统语言模型在知识密集型任务中的四大痛点：知识更新成本高、缺乏可解释性、容易产生幻觉以及知识存储效率低。RAG框架将预训练检索器（基于DPR）与生成器（基于BART）结合，并利用外部知识库（如维基百科），实现了端到端的“先检索后生成”流程。论文提出的两种变体——RAG-Sequence（固定文档生成）和RAG-Token（动态切换文档）——分别适用于不同任务场景。实验证明，RAG在开放域阅读全文

posted @ 2025-11-18 14:04 TTGF 阅读(249) 评论(0) 推荐(0)

AI 十大论文精讲（三）：RLHF 范式奠基 ——InstructGPT 如何让大模型 “听懂人话”

摘要：本文解读OpenAI关键论文《Training Language Models to Follow Instructions with Human Feedback》，该研究提出了人类反馈强化学习(RLHF)框架，解决大模型与人类意图对齐的问题。论文通过三步法：有监督微调、奖励模型训练和强化学习优化，使1.3B的InstructGPT在人类评估中胜过175B的GPT-3，输出偏好率达85%。模型在真实性、安全性和指令遵循方面显著提升，幻觉率从41%降至21%，毒性输出减少25%。阅读全文

posted @ 2025-11-18 14:03 TTGF 阅读(265) 评论(0) 推荐(0)

2025年11月17日

AI 十大论文精讲（四）：0.01% 参数实现全量大模型微调效果？LoRA 的低秩适配之谜

摘要：摘要：论文《LoRA: Low-Rank Adaptation of Large Language Models》提出了一种高效的大模型微调方法，通过冻结预训练权重并插入可训练的低秩矩阵（$\Delta W = B \cdot A$），显著降低参数规模（仅为原模型的0.01%-0.2%）。实验表明，LoRA在GLUE和生成任务上性能媲美甚至超越全量微调，同时实现无推理延迟、显存占用降低2/3等优势。该技术解决了传统微调资源消耗大的问题，成为大模型适配的主流方案，兼容多种Transformer架构，推动了大阅读全文

posted @ 2025-11-17 14:43 TTGF 阅读(99) 评论(0) 推荐(0)

AI 十大论文精讲（二）：GPT-3 论文全景解析——大模型 + 提示词如何解锁 “举一反三” 能力？

摘要：摘要 2020年发表的《Language Models are Few-Shot Learners》(GPT-3论文)开创了AI新时代。该论文突破性地证明：当Transformer模型参数规模扩大到1750亿时，仅通过文本交互即可实现任务无关的少样本学习。GPT-3采用"预训练+提示词"的新范式，无需微调就能在翻译、问答等40+任务上展现强大性能。论文系统验证了模型在语言建模、闭卷问答等9类任务中的表现，其中在LAMBADA长文本任务上准确率达86.4%，较此前最优提升18.4%。这一研阅读全文

posted @ 2025-11-17 14:42 TTGF 阅读(459) 评论(0) 推荐(1)

2025年11月14日

不懂 Attention 不算懂 AI？十大奠基论文（一）：一文读懂《Attention Is All You Need》

摘要：摘要《Attention Is All You Need》论文开创性地提出Transformer架构，彻底改变了自然语言处理领域的技术路径。该论文解决了传统RNN/CNN模型的三大痛点：通过自注意力机制实现全局语义捕捉，摆脱了序列处理的低效性；多头注意力设计支持并行计算，大幅提升训练效率；缩放点积注意力有效解决长距离依赖问题。Transformer的核心创新包括：1）完全基于注意力机制取代循环结构；2）编码器-解码器堆叠架构；3）残差连接和层归一化优化训练稳定性。这一架构为GPT、BERT等大模型奠定了基阅读全文

posted @ 2025-11-14 16:19 TTGF 阅读(818) 评论(0) 推荐(1)

2025年11月7日

人工智能：大语言模型或为死胡同？拆解AI发展的底层逻辑、争议与未来方向

摘要：当GPT生成流畅文案、SORA渲染超写实视频，当AI在国际数学奥林匹克竞赛中摘金，整个世界都在为大语言模型（LLM）的“震撼性突破”欢呼时，刚拿下图灵奖的强化学习之父理查德·沙顿，却抛出了一句足以颠覆行业认知的话：“大语言模型可能是一条死胡同。” 这位奠定了强化学习理论基石的学者，并非随口唱衰—— 阅读全文

posted @ 2025-11-07 10:06 TTGF 阅读(132) 评论(0) 推荐(0)

ChenAI-TGF

公告