摘要:
原文链接:https://arxiv.org/pdf/2602.03587 这篇文档核心是提出了一个叫“CL-bench”的评估基准,专门测试大语言模型的“语境学习能力”——简单说就是模型能不能从新给的复杂信息里学知识,再用这些知识解决实际问题。 为什么要做这个基准? 现在的大语言模型(比如GPT、
阅读全文
posted @ 2026-02-05 10:58
stardsd
阅读(16)
推荐(0)
摘要:
在人工智能浪潮席卷全球、大模型竞争日趋白热化的当下,人类尤其需要理性思考。 在近日中欧国际工商学院与上海市工商业联合会共同主办的“工商联·经济大家讲坛暨第十一期中欧话未来”上,北京大学教授、中国计算机学会前理事长、中国科学院院士梅宏对当前人工智能热潮作了冷思考。 尽管以深度学习为代表的AI技术取得了
阅读全文
posted @ 2026-02-04 15:38
stardsd
阅读(10)
推荐(0)
摘要:
一、什么是“训-推误差”(Training-Inference Mismatch) 在强化学习(包括 RLHF、PPO、GRPO 等)用于大语言模型(LLM)微调时,会存在一个核心问题:模型在训练阶段与推理阶段使用的策略概率分布不完全一致。 核心描述 训练过程中通常包含两个不同的计算环节: Roll
阅读全文
posted @ 2026-02-04 10:12
stardsd
阅读(14)
推荐(0)
摘要:
下面进入 「能不能把 RL 真正用在 reasoning 上」的核心工程区 reward 设计 + pair 采样策略——为什么这是 GFPO 真正赢的地方。 下面内容默认背景: 任务是 reasoning / 数学 / 代码 / 多步推理 backbone 是 LLM(policy) 用的是 GR
阅读全文
posted @ 2026-02-03 15:11
stardsd
阅读(14)
推荐(0)
摘要:
“GRPO 家族算法操作手册” 一、所有算法的共同起点 不管哪种变体,前 3 步是完全一样的。 Step 0:准备三样东西 一个 当前策略模型 \( \pi_\theta(y \mid x) \) 一个 reward 计算方式 rule / verifier RM GPT-judge correct
阅读全文
posted @ 2026-02-03 14:54
stardsd
阅读(16)
推荐(0)
摘要:
总览表 维度 CIDEr CLIPScore GPT-based Eval 核心思想 人类共识 n-gram 跨模态语义对齐 大模型当裁判 是否需要参考文本 ✅ 需要(多条) ❌ 不需要 可选 是否看图像 ❌ 不直接 ✅ 是 ✅ 是 是否理解语义 ⚠️ 局部 ✅ 全局 ✅ 最强 是否理解事实 ❌ ⚠
阅读全文
posted @ 2026-02-03 10:20
stardsd
阅读(4)
推荐(0)
摘要:
CIDEr 公式 CIDEr(Consensus-based Image Description Evaluation)是图像描述/自然语言生成领域常用的自动评估指标,尤其在 image captioning 任務中。 📌 核心原理 CIDEr 衡量 候选描述与多条参考描述 之间的相似度: 将句子
阅读全文
posted @ 2026-02-03 10:14
stardsd
阅读(6)
推荐(0)
摘要:
从“直觉 → 结构 → 训练 → 推理 → 新 item 挂载”一步步来,用通俗语言 + 必要公式把 TDM(Tree-based Deep Model,树模型)彻底讲透。 一、结论 TDM 是一种把“海量 item 的多分类问题”,变成“在一棵树上逐层二分类/多分类”的算法,用树结构把计算复杂度从
阅读全文
posted @ 2026-02-03 09:59
stardsd
阅读(5)
推荐(0)
摘要:
下面从“论文结构 → 算法核心 → 关键公式/机制 → 和现有 VLM 的关系”四个层次,把 Vary(Vision Vocabulary Augmentation) 的算法部分彻底拆解。 一、论文整体结构速览 Vary 这篇论文的逻辑其实非常“干净”,核心只有一件事: CLIP 的视觉词汇不够 →
阅读全文
posted @ 2026-02-02 10:38
stardsd
阅读(12)
推荐(0)
摘要:
这个点正好卡在 VLM 的“视觉→语言”接口层。 一、先给结论:什么是「CLIP 视觉词汇表」 一句话版: CLIP 的“视觉词汇表”不是显式的 token 表,而是一个“隐式的、由语言监督塑形的视觉概念空间”。 它本质上是: 一组 被语言对齐过的视觉 embedding 原型 每一个视觉 patc
阅读全文
posted @ 2026-02-02 10:16
stardsd
阅读(3)
推荐(0)
摘要:
PPT分享: 分析: 一、什么是 Agent Skill(一句话定义) Agent Skill 是一种“可复用、可调度、可验证的能力单元”,它把 做一件事 从一次性 prompt,提升为系统级能力。 换句话说: Skill = 行为 + 约束 + 接口 + 状态 而不只是“怎么问模型”。 二、先用一
阅读全文
posted @ 2026-01-14 16:44
stardsd
阅读(190)
推荐(0)
摘要:
这是一个在集体智慧、群体决策、AI ensemble、专家系统中都非常重要的理论。 一、一句话版结论(先给直觉) “群体预测的准确性 = 个体平均准确性 + 群体多样性” 也就是说: 即使个体并不特别聪明,只要他们的错误是“不一样的”,群体预测就可以非常准。 这直接反驳了“必须找最聪明的人”的直觉,
阅读全文
posted @ 2026-01-14 11:00
stardsd
阅读(21)
推荐(0)
摘要:
https://arxiv.org/abs/2503.19551 模型塌缩(Model Collapse): 当新模型越来越多地使用由旧模型生成的数据进行训练,导致数据分布逐步偏离真实世界,从而引发模型能力退化、多样性下降和错误放大的现象。 这篇论文核心是解决大语言模型(比如ChatGPT这类)训练
阅读全文
posted @ 2026-01-08 16:10
stardsd
阅读(125)
推荐(0)
摘要:
论文链接: https://arxiv.org/abs/2506.15253 这篇文档核心是介绍了一个叫 RAS-Eval 的“安全测评工具”,专门用来检测大语言模型代理(比如能帮你查日历、做财务咨询、操作数据库的AI助手)在真实场景下的安全漏洞,还通过实验证明了这个工具的有效性。 用大白话拆解重点
阅读全文
posted @ 2026-01-07 14:56
stardsd
阅读(30)
推荐(0)
摘要:
LLM Agents:从“会说话的模型”到“可行动的系统” 本文面向已有一定研究或工程基础的读者,尝试在 2024–2025 年最新工作的基础上,对 LLM+Agents 的研究版图进行系统综述,并给出我对未来方向的判断与建议。整体结构如下: 概念与范式转变:从 LLM 到 Agentic LLM
阅读全文
posted @ 2026-01-07 11:02
stardsd
阅读(157)
推荐(0)
摘要:
论文链接:https://arxiv.org/abs/2512.24601 我们从推理时扩展的角度出发,研究如何让大型语言模型(LLMs)能够处理任意长度的提示词。为此,我们提出了递归语言模型(RLMs)—— 这是一种通用的推理策略,它将长提示词视为外部环境的一部分,允许大型语言模型通过编程方式检查
阅读全文
posted @ 2026-01-06 16:14
stardsd
阅读(319)
推荐(0)
摘要:
LaTeX 数学公式速查与实用指南 一、四则运算 \[a + b - c \times d \div e \]a + b - c \times d \div e 二、幂运算与根式 \[a^x,\quad a^{xyz} \]a^x,\quad a^{xyz} \[\sqrt{x},\quad \sq
阅读全文
posted @ 2026-01-05 15:04
stardsd
阅读(22)
推荐(0)
摘要:
Deepseek这篇论文核心是给深度学习模型的“残差连接”做了个优化升级,解决了原有方案的稳定性和效率问题: 先搞懂背景:什么是“残差连接”? 深度学习模型(比如大语言模型、图像识别模型)里,“残差连接”是个基础操作——就像给信号开了条“绿色通道”,让浅层的信息能直接传到深层,不用绕远路。这样能避免
阅读全文
posted @ 2026-01-04 10:30
stardsd
阅读(502)
推荐(0)
摘要:
RLVR(Reinforcement Learning with Verifiable Rewards)是什么? RLVR 是一种新型的强化学习训练范式,其核心思想是 使用可程序化、自动验证的奖励信号来指导模型学习,不再依赖主观的人工打分或偏好模型,而是通过明确可验证的“对/错”结果来优化策略。这种
阅读全文
posted @ 2025-12-29 16:18
stardsd
阅读(203)
推荐(0)
摘要:
下面说明: 量子计算是如何“理论上”破解 RSA 和椭圆曲线加密(ECC)的 你不需要量子物理背景,只要跟着“问题 → 数学 → 量子加速点”走。 一、先给结论(避免迷路) RSA 和 ECC 之所以会被量子计算威胁,根本原因只有一个: 它们都可以被转化为“周期/隐藏结构查找问题”,而量子计算在这类
阅读全文
posted @ 2025-12-15 14:48
stardsd
阅读(58)
推荐(0)
摘要:
2025年第四季度人工智能行业季度报告 一、行业整体发展态势 2025年第四季度,人工智能行业进入"收入兑现"与"算力竞赛"双轮驱动的关键阶段。尽管2025Q4全球AI整体市场规模的直接数据尚未完全披露,但从头部企业动态与区域数据可看出,行业已从"技术演示"转向"商业闭环"与"算力深化"并行发展模式
阅读全文
posted @ 2025-12-05 16:11
stardsd
阅读(131)
推荐(0)
摘要:
Program Description计划说明 Generating Electricity Managed by Intelligent Nuclear Assets (GEMINA) aims to develop digital twin technology for advanced nuc
阅读全文
posted @ 2025-12-05 15:33
stardsd
阅读(36)
推荐(0)
摘要:
人工智能代理会随着每次任务的完成而变得更加智能🧠 Agentic Context Engine 会从代理的成功和失败中学习。只需接入系统,即可见证代理的改进。 如果你觉得这个仓库有用,请给它点个星⭐️! 🤖 LLM快速入门 将您最喜欢的编码代理(Cursor、Claude Code、Codex
阅读全文
posted @ 2025-11-05 15:06
stardsd
阅读(185)
推荐(0)
摘要:
概览 — 什么是 Spec(或 Spec-Driven)编程? 简单说,Spec-Driven Programming / Spec-Driven Development(SDD) 是把“规格(spec)”从传统的需求文档升级为可执行、机器可理解的首要输入,由 AI/代码生成器直接把规格转换成实现、
阅读全文
posted @ 2025-10-28 15:30
stardsd
阅读(1793)
推荐(0)
摘要:
面向6G的多站多智能超表面(Multi-RIS for 6G)的 原理机制 和 系统架构。 🧩 一、基础概念:RIS 是什么? RIS(Reconfigurable Intelligent Surface,可重构智能超表面)是一种由大量可调单元(Meta-atoms)组成的超薄电磁表面。 这些单元
阅读全文
posted @ 2025-10-09 15:13
stardsd
阅读(333)
推荐(0)
摘要:
DeepSeek-V3.2-Exp 是一个基于稀疏注意力机制(DSA,DeepSeek Sparse Attention)优化的长上下文处理模型,其核心创新在于高效地处理长序列输入,同时保持模型性能。 🧠 什么是 DSA(DeepSeek Sparse Attention)? DSA 是 Deep
阅读全文
posted @ 2025-09-30 10:59
stardsd
阅读(343)
推荐(0)
摘要:
深度学习编译器 TVM 在深度学习的训练和推理过程中,性能优化是一个永恒的主题。不同的硬件(CPU、GPU、NPU、FPGA 等)有不同的计算特性,如果每次都手写 CUDA 内核或 ARM 汇编,不仅耗时,而且难以维护。 这时,一个跨平台的深度学习编译器——Apache TVM (Tensor Vi
阅读全文
posted @ 2025-09-30 09:24
stardsd
阅读(1108)
推荐(1)
摘要:
本文是一份面向工程师的 Apache SeaTunnel 上手文档,内容覆盖: SeaTunnel 的定位与原理 架构组成 安装与快速上手 配置文件说明(含示例) 典型应用场景(如日志采集、数据库同步、湖仓一体场景) Apache SeaTunnel 上手文档 1. SeaTunnel 简介与定位
阅读全文
posted @ 2025-08-29 14:31
stardsd
阅读(802)
推荐(0)
摘要:
RDMA (Remote Direct Memory Access) 和 RoCE (RDMA over Converged Ethernet)。 1. 背景:为什么需要 RDMA? 在传统网络通信(TCP/IP 协议栈)中: 内核协议栈开销大:每次传输都要在用户态和内核态之间切换,涉及拷贝、上下文
阅读全文
posted @ 2025-08-28 16:03
stardsd
阅读(384)
推荐(0)
摘要:
本文先讲清楚 NL2SQL 与 NL2DSL 的本质差异,再用一个从中文到 DSL、再到 SQL 的完整闭环示例,展示 LLM 是如何生成 DSL 的。 一、NL2SQL vs NL2DSL:核心差异 维度 NL2SQL(自然语言→SQL) NL2DSL(自然语言→领域专用语言,再编译到SQL/其他
阅读全文
posted @ 2025-08-28 15:22
stardsd
阅读(941)
推荐(0)
摘要:
电动垂直起降 (eVTOL) 飞机市场有望在未来几年实现显著增长,这将彻底改变城市空中交通,并彻底改变我们现有的交通方式。本报告深入探讨了 eVTOL 制造的现状,探索了塑造这一新兴行业的关键趋势、挑战和机遇。报告还探讨了复合材料等先进材料以及增材制造等尖端制造技术在推动创新和实现此类革命性飞机量产
阅读全文
posted @ 2025-08-13 15:49
stardsd
阅读(163)
推荐(0)
摘要:
开源实现: 1. Apache Superset 官网:https://superset.apache.org/ 介绍:Apache Superset 是 Apache 基金会维护的现代数据可视化和数据探索平台,支持实时数据连接和大屏仪表盘展示。 特点: 丰富的图表类型(折线、柱状、饼图、地图等)
阅读全文
posted @ 2025-08-08 15:42
stardsd
阅读(144)
推荐(0)
摘要:
执行摘要 概要 低空经济正在迅速崛起,成为一个由技术融合和战略政策共同驱动的、价值万亿美元的全球性机遇。它不仅仅是一个新兴行业,更是一种综合性的经济形态,旨在将经济活动从传统的二维地面延伸至三维的低空空域。本报告深入剖析了低空经济的技术基础、市场动态、产业格局和监管环境,旨在为战略投资者、企业高管和
阅读全文
posted @ 2025-08-08 09:29
stardsd
阅读(344)
推荐(0)
摘要:
技术维度 无人机和电动垂直起降飞行器(eVTOL)是低空经济的核心技术支撑。无人机技术已进入相对成熟阶段,被广泛应用于农业植保、物流配送、基础设施巡检等领域。eVTOL结合航空复合材料、高性能电池和智能飞行控制等尖端技术,目前多处于试飞和认证阶段。与此同时,5G/6G通信导航定位、AI自主飞行算法、
阅读全文
posted @ 2025-08-08 09:20
stardsd
阅读(316)
推荐(0)
摘要:
低空经济发展全景分析报告(基于Wind数据及行业动态) 一、产业定义与政策环境 低空经济指距地1000米以下空域的经济活动,涵盖eVTOL(电动垂直起降飞行器)、无人机、低空服务等。政策层面,国家将其纳入战略性新兴产业,30余省份出台专项规划(如安徽、湖南空域改革试点),推动空域开放、适航认证和场景
阅读全文
posted @ 2025-08-07 16:31
stardsd
阅读(204)
推荐(0)
摘要:
一、使用 PyInstaller 打包 PyQt 程序 PyInstaller 是最简单高效的打包工具之一,支持大部分主流库(如 PyQt5/PyQt6、requests、numpy 等),适合快速封装桌面 GUI 应用。 安装 PyInstaller pip install pyinstaller
阅读全文
posted @ 2025-07-18 19:15
stardsd
阅读(1396)
推荐(0)
摘要:
Table 4: Levels of agent automation 表4:智能体自动化级别 Level 等级 Description 描述 Key characteristics 关键特征 Examples 示例 Level 0: Manual (no automation) 0级:手动(无自动
阅读全文
posted @ 2025-07-08 15:53
stardsd
阅读(617)
推荐(0)
摘要:
一段话总结:6G预计于2027-2030年部署,2037年成为主导技术,行业对10年迭代周期存在争议(欧美倾向打破,亚洲加速创新)。Omdia预测,2030年6G RAN投资达$40亿,订阅量2.89亿;2035年RAN投资增至$250亿,订阅量达35亿(占全球22.3%)。6G将实现更高容量、速率
阅读全文
posted @ 2025-07-08 15:23
stardsd
阅读(176)
推荐(0)
摘要:
大型语言模型算法前沿:当前AI格局下的架构、方法与评估 1. 架构的基石:从Transformer到专业化专家 本节解构了驱动现代大型语言模型(LLM)的核心架构范式。我们将从基础的Transformer模型入手,分析其固有的局限性,然后系统地探索为应对这些挑战而涌现的创新解决方案,即专家混合模型(
阅读全文
posted @ 2025-07-01 16:03
stardsd
阅读(658)
推荐(0)
摘要:
摘要 本报告旨在全面深入地探讨大型语言模型(LLM)的前沿技术和发展趋势,并结合最新的国际AI前沿进展进行更新。报告涵盖了LLM的主流技术路线、数据集、预训练、微调、部署与优化,以及多模态模型和性能评估等多个关键方面。我们特别关注国际AI前沿的最新进展,兼顾通用模型和开源模型,并对多模态LLM和性能
阅读全文
posted @ 2025-07-01 15:23
stardsd
阅读(1343)
推荐(0)