（原）人体姿态识别alphapose

转载请注明出处：

https://www.cnblogs.com/darkknightzh/p/12150171.html

论文

RMPE: Regional Multi-Person Pose Estimation

https://arxiv.org/abs/1612.00137

官方代码：

https://github.com/MVIG-SJTU/AlphaPose

官方pytorch代码：

https://github.com/MVIG-SJTU/AlphaPose/tree/pytorch

1. 简介

该论文指出，定位和识别中不可避免的会出现错误，这些错误会引起单人姿态估计（single-person pose estimator，SPPE）的错误，特别是完全依赖人体检测的姿态估计算法。因而该论文提出了区域姿态估计（Regional Multi-Person Pose Estimation，RMPE）框架。主要包括symmetric spatial transformer network (SSTN)、Parametric Pose Non- Maximum-Suppression (NMS), 和Pose-Guided Proposals Generator (PGPG)。并且使用symmetric spatial transformer network (SSTN)、deep proposals generator (DPG) 、parametric pose nonmaximum suppression (p-NMS) 三个技术来解决野外场景下多人姿态估计问题。

2. 之前算法的问题

2.1检测框定位错误

如下图所示。红框为真实框，黄框为检测到的框（IoU>0.5）。由于定位错误，黄框得到的热图无法检测到关节点

解决方法：增大训练时的框(框增大0.2-0.3倍)

2.2 检测框冗余

如下图所示。同一个人可能检测到多个框。

解决方法：使用p-NMS来解决人体检测框不准确时的姿态估计问题。

3. 网络结构

3.1 总体结构

总体网络结构如下图：

Symmetric STN=STN+SPPE+SDTN

STN：空间变换网络，对于不准确的输入，得到准确的人的框。输入候选区域，用于获取高质量的候选区域。

SPPE：得到估计的姿态。

SDTN：空间逆变换网络，将估计的姿态映射回原始的图像坐标。

Pose-NMS：消除额外的估计到的姿态

Parallel SPPE：训练阶段作为额外的正则项，避免陷入局部最优，并进一步提升SSTN的效果。包含相同的STN及SPPE（所有参数均被冻结），无SDTN。测试阶段无此模块。

PGPG（Pose-guided Proposals Generator）：通过PGPG网络得到训练图像，用来训练SSTN+SPPE模块。

3.2 SSTN

SSTN如下图所示。不准确的输入（下图左侧input）经过STN+SPPE+SDTN，先姿态估计，把估计结果映射到原图，以此来调整原本的框，使框变的精准。其中中间黑色虚线的框认为是准确的输入（即中心化的输入，将姿态对齐到图像中心）。

3.3 STN和SDTN

STN为2D的仿射变换，定义如下：

SDTN定义如下：

其中为变换后坐标，为变换前坐标。${{\theta }_{1}}$，${{\theta }_{2}}$，${{\theta }_{3}}$，${{\gamma }_{1}}$，${{\gamma }_{2}}$，${{\gamma }_{3}}$为变换参数关系如下：

（使用SDTN进行反向传播的公式请见论文）

3.4 Parallel SPPE（PSPPE）

PSPPE模块和原始的SPPE共享相同的STN参数，但是无SDTN模块。此分支的人体姿态已经中心化，和中心化后的真知标签直接比较。训练阶段，PSPPE所有层的参数均被冻结，目的是反传中心化的姿态误差到STN模块。因而若STN得到的姿态未中心化，会产生较大的误差，使得STN集中于正确的区域。

可以讲PSPPE作为训练阶段额外的正则项。

3.5 P-NMS

定义：令第i个姿态由m个关节点组成，定义为$\left\{ \left\langle k_{i}^{1},c_{i}^{1} \right\rangle ,\cdots ,\left\langle k_{i}^{m},c_{i}^{m} \right\rangle \right\}$，其中k为location，c为socre。

消除过程：score最高的姿态作为基准，重复消除接近基准姿态的姿态，直到剩下单一的姿态。

消除准则：消除标准用于重复消除剩余姿态，为：

$f({{P}_{i}},{{P}_{j}}|\Lambda ,\eta )=\mathbf{1}(d({{P}_{i}},{{P}_{j}}|\Lambda ,\lambda )\le \eta )$

其中，距离函数$d(\centerdot )$包括姿态距离和空间距离，若$d(\centerdot )$不大于$\eta $，则上面$f(\centerdot )$的输出为1，表明由于${{P}_{i}}$和基准姿态${{P}_{j}}$过于相似，因而${{P}_{i}}$需要被消除。其定义如下：

$d({{P}_{i}},{{P}_{j}}|\Lambda )\text{=}{{K}_{Sim}}({{P}_{i}},{{P}_{j}}|{{\sigma }_{1}})+\lambda {{H}_{sim}}({{P}_{i}},{{P}_{j}}|{{\sigma }_{2}})$

其中，$\Lambda =\{{{\sigma }_{1}},{{\sigma }_{2}},\lambda \}$。

姿态距离用于消除和其他姿态太近且太相似的姿态，假定${{P}_{i}}$的bbox是${{B}_{i}}$，其定义为如下的soft matching公式（不同特征之间score的相似度）：

其中$B(k_{i}^{n})$为中心在$k_{i}^{n}$的box，并且每个坐标$B(k_{i}^{n})$为原始坐标${{B}_{i}}$的1/10。

如下图所示。其中蓝框为关节点${{P}_{i}}$的框，各黑点为蓝框${{P}_{i}}$各个关节点位置$k_{i}^{n}$（为了方便，只显示了4个），各红框为宽高为蓝框1/10的子框，其中心为相应的关节点$k_{i}^{n}$，三角为姿态${{P}_{j}}$在红框内的关节点$k_{j}^{n}$，五星为姿态${{P}_{j}}$在红框外关节点$k_{j}^{n}$。进行消除时，对三角使用上式的if进行消除，因该点在子框内；对五星使用otherwise，因该点在子框外（左上角既有三角，又有五星。实际上对于一个检测到的姿态${{P}_{j}}$，是不会出现这种情况的，因为一个姿态的某个特定关节点只有一个，不会出现三角和五星两个关节点。此处只是显示使用）。

空间距离用于衡量不同特征之间空间距离的相似度，令$k_{i}^{n}$和$k_{j}^{n}$为不同特征中心，其定义如下：

${{H}_{sim}}({{P}_{i}},{{P}_{j}}|{{\sigma }_{2}})=\sum\limits_{n}{\exp [-\frac{{{(k_{i}^{n}-k_{j}^{n})}^{2}}}{{{\sigma }_{2}}}]}$

$\lambda $为平衡姿态距离和空间距离的权重。$\eta $为阈值。上式共四个参数${{\sigma }_{1}}$，${{\sigma }_{2}}$，$\lambda $，$\eta $，论文中说交替固定2个，训练另外两个。但是pytorch代码中全部固定了。

3.6 PGPG

步骤：

1 归一化姿态，使得所有躯干有归一化长度。

2 使用kmeans聚类对齐的姿态，并且聚类得到的中心形成atomic poses。

3 对有相同atomic poses的人，计算gt bbox和detected bbox的偏移。

4 偏移使用gt bbox进行归一化。

5 此时，偏移作为频率的分布，且固定数据为高斯混合分布。对于不同的atomic poses，有不同的高斯混合分布的参数。

注：没看此部分对应的代码

4. 代码

4.1 前向推断

网络前向推断使用InferenNet_fast函数，其中输入图像x为通过yolo V3检测到的单张人体。

输出为热图。out.narrow原因是，训练时使用了COCO和MPII，因而特征维数维33，前17层为COCO特征。代码中只测试COCO上性能，因而只取前17层热图。

 1 class InferenNet_fast(nn.Module):
 2     def __init__(self, kernel_size, dataset):
 3         super(InferenNet_fast, self).__init__()
 4 
 5         model = createModel().cuda()
 6         print('Loading pose model from {}'.format('./models/sppe/duc_se.pth'))
 7         model.load_state_dict(torch.load('./models/sppe/duc_se.pth'))
 8         model.eval()
 9         self.pyranet = model   # 图像得到33维热图
10         self.dataset = dataset
11 
12     def forward(self, x):
13         out = self.pyranet(x)   # 得到b*33*h*w的矩阵
14         # https://github.com/MVIG-SJTU/AlphaPose/issues/187#issuecomment-441416429 指出，代码联合训练COCO和MPII，前17个为COCO，后16个为MPII，故此处取前17层
15         out = out.narrow(1, 0, 17)  # data = tensor:narrow(dim, index, size)取出tensor中第dim维上索引从index开始到index+size-1的所有元素存放在data中
16 
17         return out   # 图像得到33维热图，取出channel上0—16维特征
18 
19 
20 def createModel():
21     return FastPose()
22 
23 
24 class FastPose(nn.Module):
25     DIM = 128
26 
27     def __init__(self):
28         super(FastPose, self).__init__()
29         self.preact = SEResnet('resnet101')   # 101层SE_ResNet
30         self.suffle1 = nn.PixelShuffle(2) #将Input: (N, C∗upscale_factor * upscale_factor2, H, W)转换成输出Output: (N, C, H∗upscale_factor, W∗upscale_factor)，此处upscale_factor=2
31         self.duc1 = DUC(512, 1024, upscale_factor=2)   # conv+BN+ReLU+PixelShuffle, PixelShuffle将1024维降低到256维
32         self.duc2 = DUC(256, 512, upscale_factor=2)    # conv+BN+ReLU+PixelShuffle, PixelShuffle将512维降低到128维
33         self.conv_out = nn.Conv2d(self.DIM, opt.nClasses, kernel_size=3, stride=1, padding=1) # 128维降低到33维
34 
35     def forward(self, x: Variable):
36         out = self.preact(x)
37         out = self.suffle1(out)
38         out = self.duc1(out)
39         out = self.duc2(out)
40 
41         out = self.conv_out(out)
42         return out
43 
44 
45 class DUC(nn.Module):
46     '''
47     INPUT: inplanes, planes, upscale_factor
48     OUTPUT: (planes // 4)* ht * wd
49     '''
50     def __init__(self, inplanes, planes, upscale_factor=2):
51         super(DUC, self).__init__()
52         self.conv = nn.Conv2d(inplanes, planes, kernel_size=3, padding=1, bias=False)
53         self.bn = nn.BatchNorm2d(planes)
54         self.relu = nn.ReLU()
55 
56         self.pixel_shuffle = nn.PixelShuffle(upscale_factor)  #将Input: (N, C∗upscale_factor * upscale_factor2, H, W)转换成输出Output: (N, C, H∗upscale_factor, W∗upscale_factor)
57 
58     def forward(self, x):
59         x = self.conv(x)
60         x = self.bn(x)
61         x = self.relu(x)
62         x = self.pixel_shuffle(x)
63         return x

View Code

4.2 预测

预测代码如下：

 1 def getPrediction(hms, pt1, pt2, inpH, inpW, resH, resW):  # 由于对人体检测后裁剪的图像进行预测，后6个参数为裁剪图像的相关信息
 2     '''Get keypoint location from heatmaps'''
 3     assert hms.dim() == 4, 'Score maps should be 4-dim'
 4     # 每个通道最大值作为关节点，因为是自顶向下，前提就是每张图只有一个人，因而每个通道只有一个关节点
 5     maxval, idx = torch.max(hms.view(hms.size(0), hms.size(1), -1), 2)  # hms.size(0)为batchsize，hms.size(1)为channels，热图中h*w变成一维后的最大值及索引
 6 
 7     maxval = maxval.view(hms.size(0), hms.size(1), 1)  # b*c*1的矩阵
 8     idx = idx.view(hms.size(0), hms.size(1), 1) + 1    # b*c*1的矩阵，+1是用于防止计算xy坐标时错误
 9 
10     preds = idx.repeat(1, 1, 2).float()  # b*c*2的矩阵，将第2维重复一遍
11 
12     preds[:, :, 0] = (preds[:, :, 0] - 1) % hms.size(3)                 # 得到x坐标
13     preds[:, :, 1] = torch.floor((preds[:, :, 1] - 1) / hms.size(3))    # 得到y坐标
14 
15     pred_mask = maxval.gt(0).repeat(1, 1, 2).float()   # 最大值中大于0的第2维重复一遍
16     preds *= pred_mask   # 去掉maxval小于0对应的坐标
17 
18     # Very simple post-processing step to improve performance at tight PCK thresholds
19     for i in range(preds.size(0)):        # 遍历batchsize中每个输入的预测
20         for j in range(preds.size(1)):    # 遍历每个channels
21             hm = hms[i][j]                # 当前热图
22             pX, pY = int(round(float(preds[i][j][0]))), int(round(float(preds[i][j][1])))    # 当前坐标
23             # 得到热图每个关节点的坐标后，进一步结合上下左右四个点，优化坐标（论文中没有提到）
24             if 0 < pX < opt.outputResW - 1 and 0 < pY < opt.outputResH - 1:                  # 当前坐标在特征图内
25                 diff = torch.Tensor((hm[pY][pX + 1] - hm[pY][pX - 1], hm[pY + 1][pX] - hm[pY - 1][pX]))  # 当前热图点右侧减左侧值，当前点热图下边减上边值
26                 preds[i][j] += diff.sign() * 0.25  # diff.sign()得到diff每个元素的正负；此处将preds进行偏移
27     preds += 0.2   # preds进一步偏移？？
28 
29     preds_tf = torch.zeros(preds.size())
30     preds_tf = transformBoxInvert_batch(preds, pt1, pt2, inpH, inpW, resH, resW)  # 热图中关节点坐标映射回原始图像上的坐标
31 
32     return preds, preds_tf, maxval   # 返回关节点在原始图像裁剪后图像上的坐标，在原始图像上的坐标，热图最大值

View Code

4.3 P-NMS

p _poseNMS.py配置参数如下（固定的参数，并未体现出通过训练得到）：

  1 delta1 = 1
  2 mu = 1.7
  3 delta2 = 2.65
  4 gamma = 22.48
  5 scoreThreds = 0.3
  6 matchThreds = 5
  7 areaThres = 0#40 * 40.5
  8 alpha = 0.1
  9 
 10 pose_nms如下：
 11 def pose_nms(bboxes, bbox_scores, pose_preds, pose_scores):
 12     '''
 13     Parametric Pose NMS algorithm
 14     bboxes:         bbox locations list (n, 4)
 15     bbox_scores:    bbox scores list (n,)    #       各个框为人的score
 16     pose_preds:     pose locations list (n, 17, 2)   各关节点的坐标
 17     pose_scores:    pose scores list    (n, 17, 1)   各个关节点的score
 18     '''
 19     #global ori_pose_preds, ori_pose_scores, ref_dists
 20 
 21     pose_scores[pose_scores == 0] = 1e-5
 22     final_result = []
 23 
 24     ori_bbox_scores = bbox_scores.clone()   # 各个框为人的score，下面要删除，此处先备份
 25     ori_pose_preds = pose_preds.clone()     # 各关节点的坐标，下面要删除，此处先备份
 26     ori_pose_scores = pose_scores.clone()   # 各个关节点的score，下面要删除，此处先备份 [n, 17, 1]
 27 
 28     xmax = bboxes[:, 2]   # 检测到的人在原始图像上的坐标
 29     xmin = bboxes[:, 0]
 30     ymax = bboxes[:, 3]
 31     ymin = bboxes[:, 1]
 32 
 33     widths = xmax - xmin   # 检测到的人的宽高
 34     heights = ymax - ymin
 35     ref_dists = alpha * np.maximum(widths, heights)   # alpha=0.1，为论文中的1/10，此处为NMS中当前batch各个人子框的阈值[n,]
 36 
 37     nsamples = bboxes.shape[0]
 38     human_scores = pose_scores.mean(dim=1)  # 当前batch各个人姿态的均值 [n, 1]
 39     human_ids = np.arange(nsamples)
 40     pick = []            # Do pPose-NMS
 41     merge_ids = []
 42     while(human_scores.shape[0] != 0):
 43         pick_id = torch.argmax(human_scores)     # Pick the one with highest score   找出分值最高的姿态的索引
 44         pick.append(human_ids[pick_id])          # 由于后面要delete array的部分值，因而此处保存索引
 45         # num_visPart = torch.sum(pose_scores[pick_id] > 0.2)
 46 
 47         ref_dist = ref_dists[human_ids[pick_id]]  # Get numbers of match keypoints by calling PCK_match  当前人NMS子框的阈值
 48         simi = get_parametric_distance(pick_id, pose_preds, pose_scores, ref_dist)   # 公式（10）的距离，[n]，由于每次均会删除id，因而n递减
 49         num_match_keypoints = PCK_match(pose_preds[pick_id], pose_preds, ref_dist)   # 返回满足条件的点的数量，[n]，由于每次均会删除id，因而n递减
 50 
 51         # Delete humans who have more than matchThreds keypoints overlap and high similarity   # gamma = 22.48，matchThreds = 5，
 52         delete_ids = torch.from_numpy(np.arange(human_scores.shape[0]))[(simi > gamma) | (num_match_keypoints >= matchThreds)]  # 迭代删除的索引
 53 
 54         if delete_ids.shape[0] == 0:
 55             delete_ids = pick_id
 56         #else:
 57         #    delete_ids = torch.from_numpy(delete_ids)
 58 
 59         merge_ids.append(human_ids[delete_ids])    # 每次筛选出来的人的索引，如果没有近距离的人，merge_ids==pick
 60         pose_preds = np.delete(pose_preds, delete_ids, axis=0)
 61         pose_scores = np.delete(pose_scores, delete_ids, axis=0)
 62         human_ids = np.delete(human_ids, delete_ids)
 63         human_scores = np.delete(human_scores, delete_ids, axis=0)
 64         bbox_scores = np.delete(bbox_scores, delete_ids, axis=0)
 65 
 66     assert len(merge_ids) == len(pick)
 67     preds_pick = ori_pose_preds[pick]            # 根据pick重新映射后的不同人各关节点的坐标
 68     scores_pick = ori_pose_scores[pick]
 69     bbox_scores_pick = ori_bbox_scores[pick]
 70     #final_result = pool.map(filter_result, zip(scores_pick, merge_ids, preds_pick, pick, bbox_scores_pick))
 71     #final_result = [item for item in final_result if item is not None]
 72 
 73     for j in range(len(pick)):   # 人的数量。此处是当人体检测器检测的不好，同一个人检测到了2个以上的框，这些框比较接近的情况
 74         ids = np.arange(17)
 75         max_score = torch.max(scores_pick[j, ids, 0])
 76 
 77         if max_score < scoreThreds:
 78             continue
 79 
 80         merge_id = merge_ids[j]  # Merge poses
 81         # 返回冗余关节点位置和这些关节点对应的score。无冗余姿态的情况下，merge_pose==preds_pick[j]==ori_pose_preds[merge_id]，merge_score==ori_pose_scores[merge_id]
 82         merge_pose, merge_score = p_merge_fast(preds_pick[j], ori_pose_preds[merge_id], ori_pose_scores[merge_id], ref_dists[pick[j]])
 83 
 84         max_score = torch.max(merge_score[ids])
 85         if max_score < scoreThreds:
 86             continue
 87 
 88         xmax = max(merge_pose[:, 0])
 89         xmin = min(merge_pose[:, 0])
 90         ymax = max(merge_pose[:, 1])
 91         ymin = min(merge_pose[:, 1])
 92 
 93         if (1.5 ** 2 * (xmax - xmin) * (ymax - ymin) < areaThres):
 94             continue
 95 
 96         final_result.append({
 97             'keypoints': merge_pose - 0.3,
 98             'kp_score': merge_score,
 99             'proposal_score': torch.mean(merge_score) + bbox_scores_pick[j] + 1.25 * max(merge_score)
100         })
101 
102     return final_result
103 
104 
105 
106 def PCK_match(pick_pred, all_preds, ref_dist):
107     dist = torch.sqrt(torch.sum(torch.pow(pick_pred[np.newaxis, :] - all_preds, 2), dim=2 ))   # 当前点和其他所有点的距离 [n, 17]
108     ref_dist = min(ref_dist, 7)
109     num_match_keypoints = torch.sum(dist / ref_dist <= 1, dim=1)   # 得到满足条件的点的数量   [n]
110     return num_match_keypoints    # 返回满足条件的点的数量
111 
112 
113 
114 def get_parametric_distance(i, all_preds, keypoint_scores, ref_dist):
115     pick_preds = all_preds[i]   # 当前预测关节点的坐标
116     pred_scores = keypoint_scores[i]    # 当前预测关节点的分值
117     dist = torch.sqrt(torch.sum(torch.pow(pick_preds[np.newaxis, :] - all_preds, 2), dim=2))  # 当前人关节点和所有人关节点的距离 [n, 17]
118     mask = (dist <= 1)    # 当前人关节点和所有人关节点的mask，此处指如果两套关节点距离太小（因是二维矩阵，不会出现某人部分关节点mask=1），则mask=1，一般来说，只是本人关节点mask=1 [n, 17]
119 
120     score_dists = torch.zeros(all_preds.shape[0], 17)  # Define a keypoints distance
121     keypoint_scores.squeeze_()
122     if keypoint_scores.dim() == 1:
123         keypoint_scores.unsqueeze_(0)  # 增加维度
124     if pred_scores.dim() == 1:
125         pred_scores.unsqueeze_(1)      # 增加维度
126     pred_scores = pred_scores.repeat(1, all_preds.shape[0]).transpose(0, 1)  # The predicted scores are repeated up to do broadcast。 [n, 1]
127 
128     # 由于broadcast，pred_scores！=keypoint_scores，但是pred_scores[mask] == keypoint_scores[mask]
129     score_dists[mask] = torch.tanh(pred_scores[mask] / delta1) * torch.tanh(keypoint_scores[mask] / delta1)   # delta1 = 1，当前点和近距离点的score的相似度，公式（8）
130 
131     point_dist = torch.exp((-1) * dist / delta2)    # delta2 = 2.65，当前点和近距离点的距离的相似度，公式（9）
132     final_dist = torch.sum(score_dists, dim=1) + mu * torch.sum(point_dist, dim=1)  # mu = 1.7，最终的距离  [n]
133 
134     return final_dist   # 返回最终的距离
135 
136 
137 # 如果人体检测器效果很好，无冗余检测，则此函数无效
138 def p_merge_fast(ref_pose, cluster_preds, cluster_scores, ref_dist):
139     '''
140     Score-weighted pose merging
141     INPUT:
142         ref_pose:       reference pose          -- [17, 2]       ref_pose  # 根据pick重新映射后的当前人各关节点的坐标
143         cluster_preds:  redundant poses         -- [n, 17, 2]    cluster_preds  # 筛选出来的当前人各关节点的坐标
144         cluster_scores: redundant poses score   -- [n, 17, 1]    cluster_scores  # 筛选出来的当前人各个关节点的score
145         ref_dist:       reference scale         -- Constant      ref_dist  # 根据pick重新映射后当前人NMS子框的阈值
146     OUTPUT:
147         final_pose:     merged pose             -- [17, 2]
148         final_score:    merged score            -- [17]
149     '''
150     # 无冗余姿态的情况下，ref_pose==cluster_preds==final_pose，dist=[[0....0]]  17个
151     dist = torch.sqrt(torch.sum(torch.pow(ref_pose[np.newaxis, :] - cluster_preds, 2), dim=2))
152 
153     kp_num = 17
154     ref_dist = min(ref_dist, 15)
155 
156     mask = (dist <= ref_dist)
157     final_pose = torch.zeros(kp_num, 2)
158     final_score = torch.zeros(kp_num)
159 
160     if cluster_preds.dim() == 2:
161         cluster_preds.unsqueeze_(0)    # [17,2] ==> [1, 17, 2]
162         cluster_scores.unsqueeze_(0)   # [17,1] ==> [1, 17, 1]
163     if mask.dim() == 1:
164         mask.unsqueeze_(0)             # [1,17] ==> [1, 17]  不变
165 
166     # Weighted Merge
167     masked_scores = cluster_scores.mul(mask.float().unsqueeze(-1))    # [1, 17, 1]   冗余score乘以mask，并进行归一化
168     normed_scores = masked_scores / torch.sum(masked_scores, dim=0)    # [1, 17, 1]  的全1矩阵
169 
170     # 冗余关节点位置乘归一化分数，得到冗余关节点位置。无冗余姿态的情况下，无冗余姿态的情况下，ref_pose==cluster_preds==final_pose
171     final_pose = torch.mul(cluster_preds, normed_scores.repeat(1, 1, 2)).sum(dim=0)
172     # 归一化之前的冗余关节点分数  final_score==cluster_scores==masked_scores
173     final_score = torch.mul(masked_scores, normed_scores).sum(dim=0)
174 
175     return final_pose, final_score   # 返回冗余关节点位置和这些关节点对应的score

View Code

posted on 2020-01-04 19:51 darkknightzh 阅读(25925) 评论(2) 收藏举报

刷新页面返回顶部

darkknightzh

（原）人体姿态识别alphapose

1. 简介

2. 之前算法的问题

2.1检测框定位错误

2.2 检测框冗余

3. 网络结构

3.1 总体结构

3.2 SSTN

3.3 STN和SDTN

3.4 Parallel SPPE（PSPPE）

3.6 PGPG

4. 代码

4.1 前向推断

4.2 预测

4.3 P-NMS

导航

公告