摘要:
YOLO 算法 假设你要训练一个算法去检测三种对象,行人、汽车和摩托车,你还需要显式指定完整的背景类别。这里有 3 个类别标签,如果你要用两个 anchor box,那么输出 y 就是 3×3×2×8,其中 3×3 表示 3×3 个网格,2 是 anchor box 的数量,8 是向量维度,你可以将 阅读全文
posted @ 2021-07-29 21:29
zhang-X
阅读(926)
评论(0)
推荐(0)
摘要:
Anchor Boxes 如果我们想让一个格子检测出多个对象,我们怎么做呢? 假设你有这样一张图片,对于这个例子,我们继续使用 3×3 网格,注意行人的中点和汽车的中点几乎在同一个地方,两者都落入到同一个格子中。所以对于那个格子,如果 y 输出这个向量,对于检测这三个类别,行人、汽车和摩托车,它将无 阅读全文
posted @ 2021-07-29 21:28
zhang-X
阅读(70)
评论(0)
推荐(0)
摘要:
1 交并比(Intersection over union) 如何判断对象检测算法运作良好呢?并交比函数,可以用来评价对象检测算法。在对象检测任务中,你希望能够同时定位对象,所以如果实际边界框是这样的,你的算法给出这个紫色的边界框,那么这个结果是好还是坏?所以交并比(loU)函数做的是计算两个边界框 阅读全文
posted @ 2021-07-29 21:25
zhang-X
阅读(188)
评论(0)
推荐(0)
摘要:
1 滑动窗口的卷积实现(Convolutional implementation of sliding windows) 为了构建滑动窗口的卷积应用,首先要知道如何把神经网络的全连接层转化成卷积层。假设对象检测算法输入一个 14×14×3 的图像,过滤器大小为 5×5,数量是 16,14×14×3 阅读全文
posted @ 2021-07-29 21:22
zhang-X
阅读(408)
评论(0)
推荐(0)
摘要:
1 特征点检测(Landmark detection) 假设你正在构建一个人脸识别应用,出于某种原因,你希望算法可以给出眼角的具体位置。眼角坐标为(x, y),你可以让神经网络的最后一层多输出两个数字lx和ly,作为眼角的坐标值。如果你想知道两只眼睛的四个眼角的具体位置,那么从左到右,依次用四个特征 阅读全文
posted @ 2021-07-29 21:18
zhang-X
阅读(491)
评论(0)
推荐(0)
摘要:
目标定位(Object localization) 图片分类任务我们已经熟悉了,就是算法遍历图片,判断其中的对象是不是汽车,这就是图片分类。定位分类问题,这意味着,我们不仅要用算法判断图片中是不是一辆汽车,还要在图片中标记出它的位置,用边框或红色方框把汽车圈起来,这就是定位分类问题。其中“定位”的意 阅读全文
posted @ 2021-07-29 21:16
zhang-X
阅读(818)
评论(0)
推荐(0)
摘要:
数据增强(Data augmentation) 或许最简单的数据增强方法就是垂直镜像对称,假如,训练集中有这张图片,然后将其翻转得到右边的图像,实际是做了一个镜像对称,如果镜像操作保留了图像中想识别的物体的前提下,这是个很实用的数据增强技巧。 另一个经常使用的技巧是随机裁剪,给定一个数据集,然后开始 阅读全文
posted @ 2021-07-29 15:07
zhang-X
阅读(1401)
评论(0)
推荐(0)
摘要:
1.1 1×1 卷积(Network in Network and 1×1 convolutions) 输入一张 6×6×1 的图片,然后对它做卷积,起过滤器大小为 1×1×1,结果相当于把这个图片乘以数字 2,但这仅仅是对于6×6×1 的一个通道图片来说,1×1 卷积效果不佳。如果是一张 6×6× 阅读全文
posted @ 2021-07-29 15:06
zhang-X
阅读(303)
评论(0)
推荐(0)
摘要:
残差网络(ResNets)(Residual Networks (ResNets)) 非常非常深的神经网络是很难训练的,因为存在梯度消失和梯度爆炸问题。习跳跃连接(Skip connection),它可以从某一层网络层获取激活,然后迅速反馈给另外一层,甚至是神经网络的更深层。我们可以利用跳跃连接构建 阅读全文
posted @ 2021-07-29 15:03
zhang-X
阅读(1227)
评论(0)
推荐(0)
摘要:
经典网络(Classic networks) 经典的神经网络结构,分别是 LeNet-5、AlexNet 和 VGGNet。 第一个是 LeNet-5 的网络结构,假设你有一张 32×32×1 的图片,LeNet-5 可以识别图中的手写数字,比如像这样手写数字 7,LeNet-5 是针对灰度图片训练 阅读全文
posted @ 2021-07-29 15:02
zhang-X
阅读(599)
评论(0)
推荐(0)

浙公网安备 33010602011771号