从像素到三维：nerf-pytorch中的相机到世界变换矩阵(c2w)完全解析

从像素到三维：nerf-pytorch中的相机到世界变换矩阵(c2w)完全解析 - 实践

2025-11-26 17:36 tlnshuju 阅读(54) 评论(0) 收藏举报

【免费下载链接】nerf-pytorchA PyTorch implementation of NeRF (Neural Radiance Fields) that reproduces the results. 项目地址: https://gitcode.com/gh_mirrors/ne/nerf-pytorch

引言：当相机"看见"世界时发生了什么？

你是否曾疑惑，神经网络辐射场(Neural Radiance Field, NeRF)如何将二维图像重建成栩栩如生的三维场景？在gh_mirrors/ne/nerf-pytorch这个PyTorch实现的NeRF项目中，隐藏着一个关键的数学桥梁——相机到世界变换矩阵(Camera-to-World Matrix, c2w矩阵)。这个4x4的矩阵看似简单，却承载着将二维像素坐标转换为三维世界坐标的核心功能，是连接观测视角与场景结构的"翻译官"。

本文将深入剖析c2w矩阵的数学原理、在nerf-pytorch中的实现细节以及在场景坐标系转换中的关键作用。通过阅读本文，你将能够：

理解c2w矩阵的数学构成及其每一个元素的几何意义
掌握nerf-pytorch中相机坐标与世界坐标的转换流程
学会解析和构建自己的相机姿态矩阵
解决实际应用中常见的坐标系转换问题

坐标系变换基础：从相机视角到世界舞台

三维图形学中的坐标变换体系

在计算机视觉和图形学中，我们通常需要处理多个坐标系：

mermaid

图像坐标系：以像素为单位，原点通常位于图像左上角，(u,v)表示像素位置
相机坐标系：以相机光心为原点，X轴向右，Y轴向下，Z轴沿光轴向前(右手坐标系)
世界坐标系：场景的全局坐标系，所有物体和相机都在这个坐标系中表示

c2w矩阵属于外参矩阵(Extrinsic Parameters)，它描述了相机在世界坐标系中的位置和朝向，实现从相机坐标系到世界坐标系的转换。

c2w矩阵的数学构成

c2w矩阵是一个4x4的齐次变换矩阵，在nerf-pytorch中通常表示为3x4矩阵(省略最后一行[0,0,0,1])：

c2w = [ [R11, R12, R13, Tx],
        [R21, R22, R23, Ty],
        [R31, R32, R33, Tz] ]

其中：

旋转矩阵R(3x3)：描述相机坐标系相对于世界坐标系的朝向
平移向量T(3x1)：表示相机光心在世界坐标系中的位置

在nerf-pytorch的实现中，我们可以在run_nerf_helpers_torch.py中找到关键的转换函数：

def get_rays(H, W, focal, c2w):
    # 生成图像平面上的像素坐标
    i, j = torch.meshgrid(torch.linspace(0, W-1, W), torch.linspace(0, H-1, H))  # pytorch's meshgrid has indexing='ij'
    i = i.t()
    j = j.t()
    # 将像素坐标转换为相机坐标系下的方向向量
    dirs = torch.stack([(i-W*.5)/focal, -(j-H*.5)/focal, -torch.ones_like(i)], -1)
    # 旋转：将相机坐标系下的方向向量转换到世界坐标系
    rays_d = torch.sum(dirs[..., np.newaxis, :] * c2w[:3,:3], -1)  # 点积操作
    # 平移：将相机原点(光心)的位置作为射线起点
    rays_o = c2w[:3,-1].expand(rays_d.shape)
    return rays_o, rays_d  # 射线起点和方向

这段代码清晰地展示了c2w矩阵的两个主要功能：

通过旋转矩阵c2w[:3,:3]将相机坐标系下的射线方向转换到世界坐标系
通过平移向量c2w[:3,-1]确定射线在世界坐标系中的起点位置

c2w矩阵的数学原理：旋转与平移的融合

旋转矩阵的几何意义

旋转矩阵R是一个正交矩阵(orthogonal matrix)，满足$R^T R = I$且$det(R) = 1$，它由三个相互正交的单位向量组成，分别表示相机坐标系的X、Y、Z轴在世界坐标系中的方向：

R = [ [r1_x, r2_x, r3_x],  # 相机X轴在世界坐标系中的方向向量
      [r1_y, r2_y, r3_y],  # 相机Y轴在世界坐标系中的方向向量
      [r1_z, r2_z, r3_z] ] # 相机Z轴在世界坐标系中的方向向量

在nerf-pytorch的load_llff.py中，我们可以找到从相机姿态计算旋转矩阵的代码：

def viewmatrix(z, up, pos):
    # 构建相机姿态矩阵
    vec2 = normalize(z)
    vec1_avg = up
    vec0 = normalize(np.cross(vec1_avg, vec2))
    vec1 = normalize(np.cross(vec2, vec0))
    m = np.stack([vec0, vec1, vec2, pos], 1)
    return m

这个函数通过相机的观察方向(z)、上方向(up)和位置(pos)构建了旋转矩阵的列向量，从而形成完整的变换矩阵。

平移向量的物理意义

平移向量T表示相机光心在世界坐标系中的位置。在相机坐标系中，光心位于原点(0,0,0)，通过c2w矩阵变换到世界坐标系就是：

$$P_{world} = R \cdot P_{camera} + T$$

当$P_{camera} = (0,0,0)$时，$P_{world} = T$，即平移向量T就是相机光心在世界坐标系中的位置。

在load_blender.py中，我们可以看到如何从欧拉角构建c2w矩阵：

def pose_spherical(theta, phi, radius):
    # 从球面坐标构建相机姿态
    c2w = trans_t(radius)  # 平移
    c2w = rot_phi(phi/180.*np.pi) @ c2w  # 俯仰角旋转
    c2w = rot_theta(theta/180.*np.pi) @ c2w  # 方位角旋转
    c2w = np.array([[-1,0,0,0],[0,0,1,0],[0,1,0,0],[0,0,0,1]]) @ c2w  # 坐标系调整
    return c2w

这个函数先通过trans_t(radius)设置相机到原点的距离(平移)，然后通过rot_phi和rot_theta应用旋转，最后进行坐标系调整，得到完整的c2w矩阵。

齐次坐标下的变换统一

使用4x4齐次矩阵的优势在于可以将旋转和平移变换统一表示为矩阵乘法：

$$ \begin{bmatrix} X_w \ Y_w \ Z_w \ 1 \end{bmatrix}

\begin{bmatrix} R & T \ 0^T & 1 \end{bmatrix} \begin{bmatrix} X_c \ Y_c \ Z_c \ 1 \end{bmatrix} $$

在nerf-pytorch中，为了提高计算效率，通常会省略齐次坐标的最后一行，直接使用3x4矩阵进行计算，如run_nerf.py中所示：

# 在渲染过程中使用c2w矩阵
for i, c2w in enumerate(render_poses):
    # 只使用c2w矩阵的前3行4列
    rgb, disp, acc, _ = render(H, W, focal, chunk=chunk, c2w=c2w[:3,:4], **render_kwargs)

nerf-pytorch中的坐标系约定：右手还是左手？

相机坐标系的约定

NeRF及其PyTorch实现使用右手坐标系，但需要注意相机的朝向约定：

相机的Z轴(视线方向)指向场景内部，即相机看向-Z方向(这与传统图形学中相机看向+Z方向的约定不同)
图像的u轴(水平方向)对应相机X轴正方向
图像的v轴(垂直方向)对应相机Y轴负方向(因为图像坐标系通常原点在左上角，向下为正)

这种约定在get_rays函数中体现得很清楚：

dirs = torch.stack([(i-W*.5)/focal, -(j-H*.5)/focal, -torch.ones_like(i)], -1)

注意这里的Y分量使用了负号-(j-H*.5)/focal，这是因为图像坐标系的Y轴向下，而相机坐标系的Y轴向上，需要取反。

世界坐标系的构建

在nerf-pytorch中，世界坐标系的构建因数据集而异：

LLFF数据集：在load_llff.py中，通过多张图像的相对姿态计算出平均姿态作为世界坐标系原点

c2w = poses_avg(poses)  # 计算平均姿态作为世界坐标系参考
poses = np.linalg.inv(c2w) @ poses  # 将所有姿态相对于平均姿态进行转换

Blender数据集：在load_blender.py中，使用球面坐标系统生成相机轨迹

def render_path_spiral(c2w, up, rads, focal, zdelta, zrate, rots, N):
    # 生成螺旋形的相机路径
    render_poses = []
    rads = np.array(list(rads) + [1.])
    for theta in np.linspace(0., 2. * np.pi * rots, N+1)[:-1]:
        # 计算当前theta角对应的相机位置
        c = np.dot(c2w[:3,:4], np.array([np.cos(theta), -np.sin(theta), -np.sin(theta*zrate), 1.]) * rads)
        z = normalize(c - np.dot(c2w[:3,:4], np.array([0,0,-focal, 1.])))
        render_poses.append(viewmatrix(z, up, c))
    return render_poses

DeepVoxels数据集：在load_deepvoxels.py中，使用预定义的相机内参和外参

理解不同数据集的坐标系约定对于正确解析c2w矩阵至关重要，这也是很多初学者在使用自己的数据训练NeRF时遇到的常见陷阱。

c2w矩阵在NeRF渲染流程中的应用

射线生成流程

c2w矩阵在NeRF渲染管线中处于核心位置，是连接图像观测与三维场景的桥梁：

mermaid

在run_nerf_torch.py的渲染函数中，c2w矩阵是必不可少的参数：

def render(H, W, focal, chunk=1024*32, rays=None, c2w=None, ndc=True,
           near=1., far=6., use_viewdirs=False, c2w_staticcam=None,
           **kwargs):
    # 如果提供了c2w矩阵，则生成射线
    if c2w is not None:
        rays_o, rays_d = get_rays(H, W, focal, c2w)
    # ...后续渲染过程

从单视角到多视角

NeRF的核心能力在于从多张不同视角的图像重建三维场景，这需要精确的相机姿态估计，即每张图像对应的c2w矩阵：

mermaid

在训练过程中，nerf-pytorch会遍历所有训练图像的c2w矩阵：

# 在run_nerf.py的训练循环中
for i in range(start, N_iters):
    # 随机选择一个训练图像的索引
    img_idx = np.random.randint(0, len(images))
    target = images[img_idx]
    pose = poses[img_idx]  # 获取该图像对应的c2w矩阵
    # 使用该姿态进行渲染和损失计算
    rgb, disp, acc, extras = render(H, W, focal, chunk=args.chunk, c2w=pose, **render_kwargs_train)
    loss = img2mse(rgb, target)
    # ...反向传播和参数更新

实践指南：处理c2w矩阵的关键技巧

解析c2w矩阵

当你需要从已有的c2w矩阵中提取相机位置和朝向时，可以使用以下方法：

def parse_c2w_matrix(c2w):
    """解析c2w矩阵，提取相机位置和朝向"""
    # 相机位置(平移向量)
    camera_position = c2w[:3, 3]
    # 相机朝向(相机Z轴方向)
    camera_direction = c2w[:3, 2]  # 第三列是相机Z轴
    # 相机上方向(相机Y轴方向)
    camera_up = c2w[:3, 1]  # 第二列是相机Y轴
    return {
        'position': camera_position,
        'direction': camera_direction,
        'up': camera_up
    }

构建自定义c2w矩阵

当你需要生成特定视角的c2w矩阵时，可以使用欧拉角或轴角表示来构建旋转矩阵：

def build_c2w_matrix(theta, phi, radius):
    """
    从球面坐标构建c2w矩阵
    theta: 方位角(绕Y轴旋转)，单位：度
    phi: 俯仰角(绕X轴旋转)，单位：度
    radius: 相机到原点的距离
    """
    # 将角度转换为弧度
    theta_rad = np.radians(theta)
    phi_rad = np.radians(phi)
    # 计算相机位置(球面坐标到笛卡尔坐标)
    x = radius * np.sin(phi_rad) * np.cos(theta_rad)
    y = radius * np.cos(phi_rad)
    z = radius * np.sin(phi_rad) * np.sin(theta_rad)
    position = np.array([x, y, z])
    # 计算相机朝向(指向原点)
    z_axis = -position / np.linalg.norm(position)  # 相机Z轴指向原点
    x_axis = np.cross([0, 1, 0], z_axis)           # 相机X轴
    x_axis = x_axis / np.linalg.norm(x_axis)
    y_axis = np.cross(z_axis, x_axis)              # 相机Y轴
    # 构建c2w矩阵
    c2w = np.eye(4)
    c2w[:3, :3] = np.array([x_axis, y_axis, z_axis]).T  # 旋转矩阵
    c2w[:3, 3] = position                               # 平移向量
    return c2w

常见问题排查

场景上下颠倒：检查Y轴方向是否正确，可能需要翻转c2w矩阵的第二列
场景左右镜像：检查X轴方向是否正确，可能需要翻转c2w矩阵的第一列
相机位置异常：检查平移向量是否正确提取，c2w[:3,3]是相机在世界坐标系中的位置
视角不连贯：多视角渲染时确保所有c2w矩阵使用相同的世界坐标系

应用案例：c2w矩阵的实际应用

视角插值与平滑动画

通过对c2w矩阵进行插值，可以生成平滑的相机路径，实现场景的3D漫游效果：

def interpolate_c2w(c2w_start, c2w_end, t):
    """
    插值两个c2w矩阵
    c2w_start: 起始相机姿态
    c2w_end: 结束相机姿态
    t: 插值参数，0~1
    """
    # 提取旋转矩阵和平移向量
    R_start, T_start = c2w_start[:3,:3], c2w_start[:3,3]
    R_end, T_end = c2w_end[:3,:3], c2w_end[:3,3]
    # 旋转矩阵插值(使用四元数插值)
    q_start = R.from_matrix(R_start).as_quat()
    q_end = R.from_matrix(R_end).as_quat()
    q_interp = R.from_quat(slerp(q_start, q_end, t)).as_matrix()
    # 平移向量插值(线性插值)
    T_interp = T_start + t * (T_end - T_start)
    # 构建插值后的c2w矩阵
    c2w_interp = np.eye(4)
    c2w_interp[:3,:3] = q_interp
    c2w_interp[:3,3] = T_interp
    return c2w_interp

在nerf-pytorch的load_llff.py中，render_path_spiral函数就是通过生成一系列c2w矩阵来创建螺旋形的相机路径，用于生成场景的360度漫游视频。

外部相机姿态的导入与使用

如果你有自己的相机姿态数据(如COLMAP输出的相机参数)，可以通过以下步骤导入到nerf-pytorch中：

将COLMAP的相机外参转换为nerf-pytorch的c2w矩阵格式

def colmap_extrinsics_to_c2w(extrinsics):
    """
    将COLMAP的外参矩阵转换为nerf-pytorch的c2w矩阵
    COLMAP外参: [R | t], 其中R是世界到相机的旋转，t是平移
    """
    # COLMAP使用世界到相机的变换，而NeRF使用相机到世界的变换
    R = extrinsics[:3, :3]
    t = extrinsics[:3, 3]
    # COLMAP使用右手坐标系，但相机看向+Z方向，需要转换为NeRF的看向-Z方向
    R_nerf = np.array([[1, 0, 0], [0, -1, 0], [0, 0, -1]]) @ R
    # 计算相机到世界的旋转矩阵和平移向量
    R_c2w = R_nerf.T
    T_c2w = -R_c2w @ t
    # 构建c2w矩阵
    c2w = np.eye(4)
    c2w[:3, :3] = R_c2w
    c2w[:3, 3] = T_c2w
    return c2w

在配置文件中指定自定义的相机姿态文件
修改数据加载代码，读取并解析自定义的c2w矩阵

总结与展望：c2w矩阵的扩展应用

c2w矩阵作为连接二维观测与三维场景的关键桥梁，在NeRF及相关技术中扮演着不可或缺的角色。通过深入理解c2w矩阵的数学原理和实现细节，我们不仅能够更好地使用nerf-pytorch进行三维重建，还能扩展其应用范围：

动态场景重建：通过引入时间维度，将c2w矩阵扩展为c2w(t)，实现动态场景的建模
相机姿态优化：将c2w矩阵作为可学习参数，在训练过程中优化相机姿态
多传感器融合：结合IMU等传感器数据，构建更鲁棒的相机姿态估计系统

随着神经辐射场技术的不断发展，坐标系变换和相机姿态估计将继续发挥重要作用。掌握c2w矩阵这一基础工具，将为深入探索三维视觉和神经渲染的前沿领域打下坚实基础。

附录：nerf-pytorch中c2w矩阵相关API速查表

函数名	位置	功能
`get_rays`	`run_nerf_helpers.py`/`run_nerf_helpers_torch.py`	将c2w矩阵转换为世界坐标系中的射线
`render`	`run_nerf.py`/`run_nerf_torch.py`	渲染函数，接受c2w矩阵作为输入
`pose_spherical`	`load_blender.py`	从球面坐标生成c2w矩阵
`viewmatrix`	`load_llff.py`	从方向向量和位置构建视图矩阵
`render_path_spiral`	`load_llff.py`	生成螺旋形相机路径的c2w矩阵序列
`poses_avg`	`load_llff.py`	计算多个c2w矩阵的平均姿态
`ptstocam`	`load_llff.py`	将世界坐标系点转换到相机坐标系

通过这些API，你可以在nerf-pytorch中灵活地处理相机姿态和坐标系变换，实现自定义的三维场景重建和渲染应用。

【免费下载链接】nerf-pytorchA PyTorch implementation of NeRF (Neural Radiance Fields) that reproduces the results. 项目地址: https://gitcode.com/gh_mirrors/ne/nerf-pytorch

刷新页面返回顶部

tlnshuju