摘要: 0.官方文档 https://docs.conda.org.cn/projects/conda/en/stable/user-guide/getting-started.html 1. 配置管理 https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/ 阅读全文
posted @ 2025-07-07 10:14 asandstar 阅读(1787) 评论(0) 推荐(0)
摘要: 《视觉SLAM十四讲》 simultaneous localization and mapping 视觉SLAM的基础知识-高翔_bilibili Def.of SLAM Sensors:The methods and difficulty of SLAM depend heavily on the 阅读全文
posted @ 2024-05-06 19:13 asandstar 阅读(274) 评论(0) 推荐(0)
摘要: 复旦机器人学院的实验室 Fudan Magic Lab Fudan Vision and Learning Laboratory Yixin Cao https://taominer.github.io/ Jingjing Chen https://jingjing1.github.io/ Zhin 阅读全文
posted @ 2024-04-28 19:58 asandstar 阅读(1288) 评论(0) 推荐(0)
摘要: Mark一些大佬 收集一些供仰望的大佬主页及采访,摘录一些采访句子 Jiayuan Mao 啊啊啊啊茅姐姐的主页也太厉害了(她居然还愿意每周和学生聊职业规划!!!她真的,我哭死) To junior PhD/master/undergraduate students: if you would li 阅读全文
posted @ 2023-08-17 19:47 asandstar 阅读(3173) 评论(0) 推荐(0)
摘要: 太长不看版 【上交复旦x72h极限游戏开发挑战赛作品《Colorful》宣传短片】 【腾讯×上交复旦 72h gamejam极限游戏开发挑战赛作品《Colorful》全流程演示】 试玩demo下载链接: https://pan.baidu.com/s/1Xdksy97qF8Qac31H6nUGww 阅读全文
posted @ 2023-08-06 15:30 asandstar 阅读(715) 评论(0) 推荐(1)
摘要: 04-具身场景的计算机视觉、3D重建/02-抓取注意力热图.md Grad-CAM 到底在解释什么 Grad-CAM,全称是 Gradient-weighted Class Activation Mapping,中文可以理解为: 基于梯度加权的类别激活图。 它要解决的问题是: 对于一个已经训练好的 阅读全文
posted @ 2026-04-24 10:10 asandstar 阅读(9) 评论(0) 推荐(0)
摘要: 04-具身场景的计算机视觉、3D重建/01-sam和深度估计 Segment Anything Model (SAM) 图像编码器 (Image Encoder): 基于 ViT-H (Vision Transformer Huge),负责对图像进行深度特征提取。这是最耗时的部分,但一张图只需要运行 阅读全文
posted @ 2026-04-23 13:53 asandstar 阅读(15) 评论(0) 推荐(0)
摘要: 具身智能概述 01具身智能概述.md https://github.com/datawhalechina/every-embodied/blob/main/01-具身智能概述/01具身智能概述.md module1_1_机器人发展历史与背景 https://github.com/datawhalec 阅读全文
posted @ 2026-04-16 22:34 asandstar 阅读(57) 评论(0) 推荐(0)
摘要: 到 2026 再重读 2007 的 MonoSLAM,意义不在于“它今天还能不能当最强 baseline”,而在于visual SLAM 这整个领域最初到底解决了什么根问题。 MonoSLAM 的原始贡献非常明确:它把移动机器人里的 SLAM 思想,第一次成功带进了“单个、非受控相机”这个纯视觉场景 阅读全文
posted @ 2026-03-31 19:49 asandstar 阅读(28) 评论(0) 推荐(0)
摘要: https://arxiv.org/pdf/2602.10101 Robo3R 通过结合 机器人状态信息 和 视觉数据,采用了多种创新技术(如交替注意机制、专门的解码头和外参估计模块),有效地解决了传统 3D 重建模型中的一些问题,如过度平滑和精度不足。同时,它利用 机器人先验 和高质量的训练数据集 阅读全文
posted @ 2026-03-27 16:56 asandstar 阅读(14) 评论(0) 推荐(0)
摘要: 背景知识地图 1 大模型训练主线 Goal: 模型为什么会学进去某些东西,以及后来为什么还要继续改它。 模型一般怎么来? pretraining 是什么? 用海量文本让模型做下一个 token 预测 大模型绝大多数知识和语言能力都是这一步学来的,很多后面的问题都从这里开始 1 模型为什么会记住数据 阅读全文
posted @ 2026-03-26 16:18 asandstar 阅读(7) 评论(0) 推荐(0)
摘要: 前沿感知 / world model / state estimation 做得很深,但机器人学“本体论”底子不一定完整。会建模和学习,却容易在 state definition、可观测性、约束、接触、坐标选择、动力学先验、控制接口 这些最机器人学的问题上吃亏。 补 “能和动力学、控制、规划、机构学 阅读全文
posted @ 2026-03-23 19:03 asandstar 阅读(11) 评论(0) 推荐(1)
摘要: 如果π³ 在问:“为什么一定要选参考帧?” 那 MapAnything 在问的是:“为什么 3D 重建要分成这么多彼此割裂的专用任务和专用模型?” 所以它的核心不是先去挑战 reference frame,而是去挑战任务割裂和输入模态割裂。它想做的是一个通用的 feed-forward metric 阅读全文
posted @ 2026-03-22 21:47 asandstar 阅读(47) 评论(0) 推荐(0)
摘要: 把“多视图 3D 重建”从“选一个参考帧来定义世界”改成“不给任何帧特权、每帧只预测自己的局部几何和相对相机”,从而做成一个真正对输入顺序不敏感的 feed-forward 几何模型。 1. 在反对什么 作者批评的是现有很多方法都默认: 先选一张参考图; 把整套 3D 结果都定义在这张图的坐标系里; 阅读全文
posted @ 2026-03-22 20:49 asandstar 阅读(33) 评论(0) 推荐(0)
摘要: VGGT到底在解决什么、输入输出是什么、网络怎么设计、为什么这么设计、训练怎么做、它的方法论意义是什么 一个大一统的多视图 3D transformer:输入一组同一场景的图片,直接输出每张图对应的相机、深度、3D 点图,以及可用于点跟踪的特征。 尽量少写死 3D 几何结构,用一个大 transfo 阅读全文
posted @ 2026-03-22 18:24 asandstar 阅读(159) 评论(0) 推荐(0)