随笔分类 - 1 技术思考
摘要:目录人形机器人基于动力学方法盲人行走法传感器+世界模型更多动作的训练?更难动作的训练?VLA模型数据Open X-Embodiment (OXE)仿真环境数据集大规模人类视频数据集评测核心指标:任务成功率 (Success Rate, SR)评测场景:仿真 vs. 真实世界泛化能力基准测试 (Gen
阅读全文
摘要:引爆推理革命:从PPO到GRPO,强化学习如何重塑大语言模型 引言:当强化学习遇上大型语言模型 近年来,大型语言模型(LLM)以前所未有的速度席卷了人工智能领域。然而,预训练的LLM虽然知识渊博,但其输出往往难以完全符合人类的价值观和特定任务的需求。 为了解决这一“对齐”难题,一种新的技术范式——基
阅读全文
摘要:背景 大语言模型(LLM)参数量已突破万亿,单次训练计算量达千亿亿次浮点运算(ExaFLOPs)。单卡GPU显存上限仅80GB(A100),算力峰值312 TFLOPS,显存墙与通信墙成为千卡/万卡分布式训练的核心瓶颈。 前置知识 1. DDP训练过程 数据切片:全局Batch拆分为子Bat
阅读全文
摘要:时间线 以下是一些重要的里程碑,它们代表了基于Diffusion的图像生成方法的发展: 时间&机构 名称 简述 - VAE Variational AutoEncoder,变分自编码器用于图像生成 2020.12 VQ-VAE Vector Quantized-Variational AutoEnc
阅读全文