1 技术思考 - 随笔分类 - fariver

[思考] 具身智能

摘要：目录人形机器人基于动力学方法盲人行走法传感器+世界模型更多动作的训练？更难动作的训练？VLA模型数据Open X-Embodiment (OXE)仿真环境数据集大规模人类视频数据集评测核心指标：任务成功率 (Success Rate, SR)评测场景：仿真 vs. 真实世界泛化能力基准测试 (Gen 阅读全文

posted @ 2025-08-20 17:50 fariver 阅读(149) 评论(0) 推荐(0)

[思考] Reinforcement Learning on LLM

摘要：引爆推理革命：从PPO到GRPO，强化学习如何重塑大语言模型引言：当强化学习遇上大型语言模型近年来，大型语言模型（LLM）以前所未有的速度席卷了人工智能领域。然而，预训练的LLM虽然知识渊博，但其输出往往难以完全符合人类的价值观和特定任务的需求。为了解决这一“对齐”难题，一种新的技术范式——基阅读全文

posted @ 2025-07-22 21:44 fariver 阅读(611) 评论(0) 推荐(0)

[思考] LLM训练工程优化

摘要：背景大语言模型（LLM）参数量已突破万亿，单次训练计算量达千亿亿次浮点运算（ExaFLOPs）。单卡GPU显存上限仅80GB（A100），算力峰值312 TFLOPS，显存墙与通信墙成为千卡/万卡分布式训练的核心瓶颈。前置知识 1. DDP训练过程数据切片：全局Batch拆分为子Bat 阅读全文

posted @ 2025-07-02 20:19 fariver 阅读(227) 评论(0) 推荐(0)

[思考] Diffusion Model

摘要：时间线以下是一些重要的里程碑，它们代表了基于Diffusion的图像生成方法的发展：时间&机构名称简述 - VAE Variational AutoEncoder，变分自编码器用于图像生成 2020.12 VQ-VAE Vector Quantized-Variational AutoEnc 阅读全文

posted @ 2024-08-23 20:24 fariver 阅读(199) 评论(0) 推荐(0)

fariver

随笔分类 - 1 技术思考

公告