上一页 1 ··· 3 4 5 6 7
摘要: 前言 当AI编程从“代码编写”变成“对话创作”,技术创新的门槛正在被彻底打破。Google Gemini 3.0的发布,用颠覆性的Canvas功能重新定义了AI工具的使用场景——无需一行代码,仅凭自然语言描述就能在浏览器里“聊”出可用的应用程序。无论是产品经理快速验证原型,还是普通用户实现创意想法, 阅读全文
posted @ 2025-11-28 19:55 TTGF 阅读(7642) 评论(0) 推荐(1)
摘要: 《Switch Transformers:用简单高效的稀疏化实现万亿参数模型》论文解读 本文深入解析了Google提出的Switch Transformers架构,该论文通过创新的稀疏化设计解决传统MoE模型的路由复杂性和训练不稳定性问题。核心创新在于简化路由机制(单专家选择)、优化负载均衡策略(辅助损失函数+专家容量设计)和开发三重并行架构(数据+模型+专家并行)。实验表明,稀疏模型在相同计算预算下,预训练速度提升4-7倍,下游任务性能显著优于密集模型,如1.6万亿参数的Switch-C在TriviaQA 阅读全文
posted @ 2025-11-24 17:09 TTGF 阅读(83) 评论(0) 推荐(0)
摘要: 复旦NLP团队2023年发表的综述《The Rise and Potential of Large Language Model Based Agents》系统构建了LLM智能体的通用框架,提出以"大脑(LLM决策)-感知(多模态理解)-行动(工具调用)"为核心的技术范式,突破传统智能体的任务局限性。文章涵盖单智能体、多智能体协作、人机交互及智能体社群四大应用场景,并指出工具SKMA体系、安全护栏、结果检查三大落地关键。通过效用、社交性、价值观、进化能力四维评估体系,以及AGI 阅读全文
posted @ 2025-11-24 17:09 TTGF 阅读(913) 评论(0) 推荐(0)
摘要: 摘要: 《检索增强生成(RAG)在知识密集型NLP任务中的应用》这篇论文提出了一种创新方法,通过结合检索与生成技术,解决了传统语言模型在知识密集型任务中的四大痛点:知识更新成本高、缺乏可解释性、容易产生幻觉以及知识存储效率低。RAG框架将预训练检索器(基于DPR)与生成器(基于BART)结合,并利用外部知识库(如维基百科),实现了端到端的“先检索后生成”流程。论文提出的两种变体——RAG-Sequence(固定文档生成)和RAG-Token(动态切换文档)——分别适用于不同任务场景。实验证明,RAG在开放域 阅读全文
posted @ 2025-11-18 14:04 TTGF 阅读(249) 评论(0) 推荐(0)
摘要: 本文解读OpenAI关键论文《Training Language Models to Follow Instructions with Human Feedback》,该研究提出了人类反馈强化学习(RLHF)框架,解决大模型与人类意图对齐的问题。论文通过三步法:有监督微调、奖励模型训练和强化学习优化,使1.3B的InstructGPT在人类评估中胜过175B的GPT-3,输出偏好率达85%。模型在真实性、安全性和指令遵循方面显著提升,幻觉率从41%降至21%,毒性输出减少25%。 阅读全文
posted @ 2025-11-18 14:03 TTGF 阅读(265) 评论(0) 推荐(0)
摘要: 摘要: 论文《LoRA: Low-Rank Adaptation of Large Language Models》提出了一种高效的大模型微调方法,通过冻结预训练权重并插入可训练的低秩矩阵($\Delta W = B \cdot A$),显著降低参数规模(仅为原模型的0.01%-0.2%)。实验表明,LoRA在GLUE和生成任务上性能媲美甚至超越全量微调,同时实现无推理延迟、显存占用降低2/3等优势。该技术解决了传统微调资源消耗大的问题,成为大模型适配的主流方案,兼容多种Transformer架构,推动了大 阅读全文
posted @ 2025-11-17 14:43 TTGF 阅读(99) 评论(0) 推荐(0)
摘要: 摘要 2020年发表的《Language Models are Few-Shot Learners》(GPT-3论文)开创了AI新时代。该论文突破性地证明:当Transformer模型参数规模扩大到1750亿时,仅通过文本交互即可实现任务无关的少样本学习。GPT-3采用"预训练+提示词"的新范式,无需微调就能在翻译、问答等40+任务上展现强大性能。论文系统验证了模型在语言建模、闭卷问答等9类任务中的表现,其中在LAMBADA长文本任务上准确率达86.4%,较此前最优提升18.4%。这一研 阅读全文
posted @ 2025-11-17 14:42 TTGF 阅读(459) 评论(0) 推荐(1)
摘要: 摘要 《Attention Is All You Need》论文开创性地提出Transformer架构,彻底改变了自然语言处理领域的技术路径。该论文解决了传统RNN/CNN模型的三大痛点:通过自注意力机制实现全局语义捕捉,摆脱了序列处理的低效性;多头注意力设计支持并行计算,大幅提升训练效率;缩放点积注意力有效解决长距离依赖问题。Transformer的核心创新包括:1)完全基于注意力机制取代循环结构;2)编码器-解码器堆叠架构;3)残差连接和层归一化优化训练稳定性。这一架构为GPT、BERT等大模型奠定了基 阅读全文
posted @ 2025-11-14 16:19 TTGF 阅读(818) 评论(0) 推荐(1)
摘要: 当GPT生成流畅文案、SORA渲染超写实视频,当AI在国际数学奥林匹克竞赛中摘金,整个世界都在为大语言模型(LLM)的“震撼性突破”欢呼时,刚拿下图灵奖的强化学习之父 理查德·沙顿,却抛出了一句足以颠覆行业认知的话:“大语言模型可能是一条死胡同。” 这位奠定了强化学习理论基石的学者,并非随口唱衰—— 阅读全文
posted @ 2025-11-07 10:06 TTGF 阅读(132) 评论(0) 推荐(0)
上一页 1 ··· 3 4 5 6 7