随笔分类 - 深度学习
摘要:这篇论文核心是解决大语言模型(LLM)在“多轮交互任务”(比如AI助手自动执行代码、连续对话)中的性能瓶颈,提出了一个叫DualPath的系统方案: 1. 先搞懂背景:现在的AI模型遇到了什么麻烦? 现在的AI不只是简单聊天了,还能当“自主代理人”——比如连续几十上百轮调用工具(像浏览器、Pytho
阅读全文
摘要:1️⃣ 什么是 Test Time Scaling? Test Time Scaling (TTS) 指的是: 在不改变模型参数的前提下, 通过增加推理时的计算量,提高模型输出质量。 它的本质是: Train-time scaling = 增大模型参数/数据/训练步数 Test-time scali
阅读全文
摘要:在人工智能浪潮席卷全球、大模型竞争日趋白热化的当下,人类尤其需要理性思考。 在近日中欧国际工商学院与上海市工商业联合会共同主办的“工商联·经济大家讲坛暨第十一期中欧话未来”上,北京大学教授、中国计算机学会前理事长、中国科学院院士梅宏对当前人工智能热潮作了冷思考。 尽管以深度学习为代表的AI技术取得了
阅读全文
摘要:一、什么是“训-推误差”(Training-Inference Mismatch) 在强化学习(包括 RLHF、PPO、GRPO 等)用于大语言模型(LLM)微调时,会存在一个核心问题:模型在训练阶段与推理阶段使用的策略概率分布不完全一致。 核心描述 训练过程中通常包含两个不同的计算环节: Roll
阅读全文
摘要:总览表 维度 CIDEr CLIPScore GPT-based Eval 核心思想 人类共识 n-gram 跨模态语义对齐 大模型当裁判 是否需要参考文本 ✅ 需要(多条) ❌ 不需要 可选 是否看图像 ❌ 不直接 ✅ 是 ✅ 是 是否理解语义 ⚠️ 局部 ✅ 全局 ✅ 最强 是否理解事实 ❌ ⚠
阅读全文
摘要:CIDEr 公式 CIDEr(Consensus-based Image Description Evaluation)是图像描述/自然语言生成领域常用的自动评估指标,尤其在 image captioning 任務中。 📌 核心原理 CIDEr 衡量 候选描述与多条参考描述 之间的相似度: 将句子
阅读全文
摘要:从“直觉 → 结构 → 训练 → 推理 → 新 item 挂载”一步步来,用通俗语言 + 必要公式把 TDM(Tree-based Deep Model,树模型)彻底讲透。 一、结论 TDM 是一种把“海量 item 的多分类问题”,变成“在一棵树上逐层二分类/多分类”的算法,用树结构把计算复杂度从
阅读全文
摘要:这个点正好卡在 VLM 的“视觉→语言”接口层。 一、先给结论:什么是「CLIP 视觉词汇表」 一句话版: CLIP 的“视觉词汇表”不是显式的 token 表,而是一个“隐式的、由语言监督塑形的视觉概念空间”。 它本质上是: 一组 被语言对齐过的视觉 embedding 原型 每一个视觉 patc
阅读全文
摘要:https://arxiv.org/abs/2503.19551 模型塌缩(Model Collapse): 当新模型越来越多地使用由旧模型生成的数据进行训练,导致数据分布逐步偏离真实世界,从而引发模型能力退化、多样性下降和错误放大的现象。 这篇论文核心是解决大语言模型(比如ChatGPT这类)训练
阅读全文
摘要:Deepseek这篇论文核心是给深度学习模型的“残差连接”做了个优化升级,解决了原有方案的稳定性和效率问题: 先搞懂背景:什么是“残差连接”? 深度学习模型(比如大语言模型、图像识别模型)里,“残差连接”是个基础操作——就像给信号开了条“绿色通道”,让浅层的信息能直接传到深层,不用绕远路。这样能避免
阅读全文
摘要:RLVR(Reinforcement Learning with Verifiable Rewards)是什么? RLVR 是一种新型的强化学习训练范式,其核心思想是 使用可程序化、自动验证的奖励信号来指导模型学习,不再依赖主观的人工打分或偏好模型,而是通过明确可验证的“对/错”结果来优化策略。这种
阅读全文
摘要:2025年第四季度人工智能行业季度报告 一、行业整体发展态势 2025年第四季度,人工智能行业进入"收入兑现"与"算力竞赛"双轮驱动的关键阶段。尽管2025Q4全球AI整体市场规模的直接数据尚未完全披露,但从头部企业动态与区域数据可看出,行业已从"技术演示"转向"商业闭环"与"算力深化"并行发展模式
阅读全文
摘要:Program Description计划说明 Generating Electricity Managed by Intelligent Nuclear Assets (GEMINA) aims to develop digital twin technology for advanced nuc
阅读全文
摘要:人工智能代理会随着每次任务的完成而变得更加智能🧠 Agentic Context Engine 会从代理的成功和失败中学习。只需接入系统,即可见证代理的改进。 如果你觉得这个仓库有用,请给它点个星⭐️! 🤖 LLM快速入门 将您最喜欢的编码代理(Cursor、Claude Code、Codex
阅读全文
摘要:概览 — 什么是 Spec(或 Spec-Driven)编程? 简单说,Spec-Driven Programming / Spec-Driven Development(SDD) 是把“规格(spec)”从传统的需求文档升级为可执行、机器可理解的首要输入,由 AI/代码生成器直接把规格转换成实现、
阅读全文
摘要:DeepSeek-V3.2-Exp 是一个基于稀疏注意力机制(DSA,DeepSeek Sparse Attention)优化的长上下文处理模型,其核心创新在于高效地处理长序列输入,同时保持模型性能。 🧠 什么是 DSA(DeepSeek Sparse Attention)? DSA 是 Deep
阅读全文
摘要:深度学习编译器 TVM 在深度学习的训练和推理过程中,性能优化是一个永恒的主题。不同的硬件(CPU、GPU、NPU、FPGA 等)有不同的计算特性,如果每次都手写 CUDA 内核或 ARM 汇编,不仅耗时,而且难以维护。 这时,一个跨平台的深度学习编译器——Apache TVM (Tensor Vi
阅读全文
摘要:本文先讲清楚 NL2SQL 与 NL2DSL 的本质差异,再用一个从中文到 DSL、再到 SQL 的完整闭环示例,展示 LLM 是如何生成 DSL 的。 一、NL2SQL vs NL2DSL:核心差异 维度 NL2SQL(自然语言→SQL) NL2DSL(自然语言→领域专用语言,再编译到SQL/其他
阅读全文
摘要:大型语言模型算法前沿:当前AI格局下的架构、方法与评估 1. 架构的基石:从Transformer到专业化专家 本节解构了驱动现代大型语言模型(LLM)的核心架构范式。我们将从基础的Transformer模型入手,分析其固有的局限性,然后系统地探索为应对这些挑战而涌现的创新解决方案,即专家混合模型(
阅读全文
摘要:摘要 本报告旨在全面深入地探讨大型语言模型(LLM)的前沿技术和发展趋势,并结合最新的国际AI前沿进展进行更新。报告涵盖了LLM的主流技术路线、数据集、预训练、微调、部署与优化,以及多模态模型和性能评估等多个关键方面。我们特别关注国际AI前沿的最新进展,兼顾通用模型和开源模型,并对多模态LLM和性能
阅读全文

浙公网安备 33010602011771号