Fork me on GitHub

随笔分类 -  深度学习

1 2 3 4 5 ··· 7 下一页
摘要:要把 S4(Structured State Space Sequence model) 放进深度神经网络里,本质上是把一个经典的 状态空间模型(State Space Model, SSM) 变成一个“可训练的序列层(layer)”。但很多人一开始容易误解:一层 ≠ 一个时间步,而是一层实现整个时 阅读全文
posted @ 2026-04-20 16:10 stardsd 阅读(37) 评论(0) 推荐(0)
摘要:神经符号集成(Neuro-Symbolic Integration)是近年来人工智能领域最具突破性的研究方向之一,它通过巧妙融合神经网络与符号系统的优势,为解决传统AI方法面临的诸多挑战提供了创新思路。作为连接数据驱动与知识驱动两大范式的桥梁,这种集成方法正在重新定义机器智能的边界,为构建兼具学习能 阅读全文
posted @ 2026-04-20 15:37 stardsd 阅读(21) 评论(0) 推荐(0)
摘要:什么是小型语言模型? 小型语言模型 (SLM) 是能够处理、理解和生成自然语言内容的人工智能 (AI) 模型。顾名思义,SLM 的规模和范围比大型语言模型 (LLM) 小。 就规模而言,SLM 的参数范围从几百万到几十亿不等,而 LLM 则具有数千亿甚至数万亿参数。参数是模型在训练期间要学习的内部变 阅读全文
posted @ 2026-04-20 15:09 stardsd 阅读(25) 评论(0) 推荐(0)
摘要:这篇论文核心是解决大语言模型(LLM)在“多轮交互任务”(比如AI助手自动执行代码、连续对话)中的性能瓶颈,提出了一个叫DualPath的系统方案: 1. 先搞懂背景:现在的AI模型遇到了什么麻烦? 现在的AI不只是简单聊天了,还能当“自主代理人”——比如连续几十上百轮调用工具(像浏览器、Pytho 阅读全文
posted @ 2026-02-27 16:50 stardsd 阅读(218) 评论(0) 推荐(0)
摘要:1️⃣ 什么是 Test Time Scaling? Test Time Scaling (TTS) 指的是: 在不改变模型参数的前提下, 通过增加推理时的计算量,提高模型输出质量。 它的本质是: Train-time scaling = 增大模型参数/数据/训练步数 Test-time scali 阅读全文
posted @ 2026-02-27 15:41 stardsd 阅读(107) 评论(0) 推荐(0)
摘要:在人工智能浪潮席卷全球、大模型竞争日趋白热化的当下,人类尤其需要理性思考。 在近日中欧国际工商学院与上海市工商业联合会共同主办的“工商联·经济大家讲坛暨第十一期中欧话未来”上,北京大学教授、中国计算机学会前理事长、中国科学院院士梅宏对当前人工智能热潮作了冷思考。 尽管以深度学习为代表的AI技术取得了 阅读全文
posted @ 2026-02-04 15:38 stardsd 阅读(47) 评论(0) 推荐(0)
摘要:一、什么是“训-推误差”(Training-Inference Mismatch) 在强化学习(包括 RLHF、PPO、GRPO 等)用于大语言模型(LLM)微调时,会存在一个核心问题:模型在训练阶段与推理阶段使用的策略概率分布不完全一致。 核心描述 训练过程中通常包含两个不同的计算环节: Roll 阅读全文
posted @ 2026-02-04 10:12 stardsd 阅读(250) 评论(0) 推荐(0)
摘要:总览表 维度 CIDEr CLIPScore GPT-based Eval 核心思想 人类共识 n-gram 跨模态语义对齐 大模型当裁判 是否需要参考文本 ✅ 需要(多条) ❌ 不需要 可选 是否看图像 ❌ 不直接 ✅ 是 ✅ 是 是否理解语义 ⚠️ 局部 ✅ 全局 ✅ 最强 是否理解事实 ❌ ⚠ 阅读全文
posted @ 2026-02-03 10:20 stardsd 阅读(115) 评论(0) 推荐(0)
摘要:CIDEr 公式 CIDEr(Consensus-based Image Description Evaluation)是图像描述/自然语言生成领域常用的自动评估指标,尤其在 image captioning 任務中。 📌 核心原理 CIDEr 衡量 候选描述与多条参考描述 之间的相似度: 将句子 阅读全文
posted @ 2026-02-03 10:14 stardsd 阅读(97) 评论(0) 推荐(0)
摘要:从“直觉 → 结构 → 训练 → 推理 → 新 item 挂载”一步步来,用通俗语言 + 必要公式把 TDM(Tree-based Deep Model,树模型)彻底讲透。 一、结论 TDM 是一种把“海量 item 的多分类问题”,变成“在一棵树上逐层二分类/多分类”的算法,用树结构把计算复杂度从 阅读全文
posted @ 2026-02-03 09:59 stardsd 阅读(18) 评论(0) 推荐(0)
摘要:这个点正好卡在 VLM 的“视觉→语言”接口层。 一、先给结论:什么是「CLIP 视觉词汇表」 一句话版: CLIP 的“视觉词汇表”不是显式的 token 表,而是一个“隐式的、由语言监督塑形的视觉概念空间”。 它本质上是: 一组 被语言对齐过的视觉 embedding 原型 每一个视觉 patc 阅读全文
posted @ 2026-02-02 10:16 stardsd 阅读(56) 评论(0) 推荐(0)
摘要:https://arxiv.org/abs/2503.19551 模型塌缩(Model Collapse): 当新模型越来越多地使用由旧模型生成的数据进行训练,导致数据分布逐步偏离真实世界,从而引发模型能力退化、多样性下降和错误放大的现象。 这篇论文核心是解决大语言模型(比如ChatGPT这类)训练 阅读全文
posted @ 2026-01-08 16:10 stardsd 阅读(166) 评论(0) 推荐(0)
摘要:Deepseek这篇论文核心是给深度学习模型的“残差连接”做了个优化升级,解决了原有方案的稳定性和效率问题: 先搞懂背景:什么是“残差连接”? 深度学习模型(比如大语言模型、图像识别模型)里,“残差连接”是个基础操作——就像给信号开了条“绿色通道”,让浅层的信息能直接传到深层,不用绕远路。这样能避免 阅读全文
posted @ 2026-01-04 10:30 stardsd 阅读(724) 评论(0) 推荐(0)
摘要:RLVR(Reinforcement Learning with Verifiable Rewards)是什么? RLVR 是一种新型的强化学习训练范式,其核心思想是 使用可程序化、自动验证的奖励信号来指导模型学习,不再依赖主观的人工打分或偏好模型,而是通过明确可验证的“对/错”结果来优化策略。这种 阅读全文
posted @ 2025-12-29 16:18 stardsd 阅读(512) 评论(0) 推荐(0)
摘要:2025年第四季度人工智能行业季度报告 一、行业整体发展态势 2025年第四季度,人工智能行业进入"收入兑现"与"算力竞赛"双轮驱动的关键阶段。尽管2025Q4全球AI整体市场规模的直接数据尚未完全披露,但从头部企业动态与区域数据可看出,行业已从"技术演示"转向"商业闭环"与"算力深化"并行发展模式 阅读全文
posted @ 2025-12-05 16:11 stardsd 阅读(157) 评论(0) 推荐(0)
摘要:Program Description计划说明 Generating Electricity Managed by Intelligent Nuclear Assets (GEMINA) aims to develop digital twin technology for advanced nuc 阅读全文
posted @ 2025-12-05 15:33 stardsd 阅读(43) 评论(0) 推荐(0)
摘要:人工智能代理会随着每次任务的完成而变得更加智能🧠 Agentic Context Engine 会从代理的成功和失败中学习。只需接入系统,即可见证代理的改进。 如果你觉得这个仓库有用,请给它点个星⭐️! 🤖 LLM快速入门 将您最喜欢的编码代理(Cursor、Claude Code、Codex 阅读全文
posted @ 2025-11-05 15:06 stardsd 阅读(289) 评论(0) 推荐(0)
摘要:概览 — 什么是 Spec(或 Spec-Driven)编程? 简单说,Spec-Driven Programming / Spec-Driven Development(SDD) 是把“规格(spec)”从传统的需求文档升级为可执行、机器可理解的首要输入,由 AI/代码生成器直接把规格转换成实现、 阅读全文
posted @ 2025-10-28 15:30 stardsd 阅读(3343) 评论(0) 推荐(0)
摘要:DeepSeek-V3.2-Exp 是一个基于稀疏注意力机制(DSA,DeepSeek Sparse Attention)优化的长上下文处理模型,其核心创新在于高效地处理长序列输入,同时保持模型性能。 🧠 什么是 DSA(DeepSeek Sparse Attention)? DSA 是 Deep 阅读全文
posted @ 2025-09-30 10:59 stardsd 阅读(548) 评论(0) 推荐(0)
摘要:深度学习编译器 TVM 在深度学习的训练和推理过程中,性能优化是一个永恒的主题。不同的硬件(CPU、GPU、NPU、FPGA 等)有不同的计算特性,如果每次都手写 CUDA 内核或 ARM 汇编,不仅耗时,而且难以维护。 这时,一个跨平台的深度学习编译器——Apache TVM (Tensor Vi 阅读全文
posted @ 2025-09-30 09:24 stardsd 阅读(1444) 评论(0) 推荐(1)

1 2 3 4 5 ··· 7 下一页