Machine Learning/Computer Vision - 随笔分类(第2页) - MSTK

Soft-NMS: Improving Object Detection With One Line of Code

摘要：非极大值抑制(Non-Maximum Suppression,NMS)是在目标检测中广泛应用的一种方法:首先对每一个预测框给出一个分类和置信度,对每一类的框,按照置信度从小到大排序;然后选中置信度最大的框,依次和前面的同类框计算IOU,对于IOU大于阈值的框,就直接删除掉（也可以理解成将这些框的置信阅读全文

posted @ 2020-05-13 18:08 MSTK 阅读(670) 评论(0) 推荐(0)

MASK-RCNN(2)

摘要：2. Network Architecture 网络分为两个部分:第一部分是backbone卷积网络,用于提取整张图的特征;第二部分是head,用于对ROI进行处理,分为两个分支,一个分支用来对box分类和回归,另一部分进行mask预测。网络的Backbone采用ResNet或者FPN(Featu 阅读全文

posted @ 2020-03-31 20:23 MSTK 阅读(306) 评论(0) 推荐(0)

IoU-aware Single-stage Object Detector for Accurate Localization

摘要：网络的结构如下：采用FPN结构,Backbone是RetinalNet,分成了P3~P7共5个Layer,分别训练不同尺寸的Box.每个Layer对应的Head有2个分支,包括一个单独的分支用来预测分类,另一个分支用来预测两部分,一部分是Box坐标的回归,另一部分是GT Box和Anchor之间的阅读全文

posted @ 2020-02-24 16:11 MSTK 阅读(931) 评论(0) 推荐(0)

MASK-RCNN(1)

摘要：MASK-RCNN是一个多用途的网络,可以用来做目标检测,实例分割或者人体姿态识别.主要结构如下. 简单的说,就是首先用Faster-RCNN获得ROI,再进行ROI Align,然后输出ROI的分类,同时输出分割掩码. 1. Faster-RCNN和ROI Align Faster-RCNN是一个阅读全文

posted @ 2019-11-30 21:53 MSTK 阅读(432) 评论(0) 推荐(0)

FCOS及其和Faster R-CNN的区别

摘要：RetinaNet，SSD，YOLOv3，Faster R-CNN等都是Anchor-based的检测器，即需要预定义的Anchor boxes来进行训练。FCOS是一种Anchor-free和Proposal-free的检测器，即不需要预定义Anchor boxes来进行训练，从而节省了对计算资源阅读全文

posted @ 2019-10-30 23:15 MSTK 阅读(1258) 评论(0) 推荐(0)

CornerNet: Detecting Objects as Paired Keypoints

摘要：CornerNet是一种anchor free的目标检测方法，不需要设置anchor，而是通过检测关键点(Keypoints)，即目标的左上角(Top-Left Corners)和右下角(Bottom-Right Corners)，再进行配对，来实现目标的检测。网络的前半部分是一个卷积网络，后半部阅读全文

posted @ 2019-09-30 14:45 MSTK 阅读(461) 评论(0) 推荐(0)

神经网络不收敛的原因

摘要：1. Learning rate不合适，如果太大，会造成不收敛，如果太小，会造成收敛速度非常慢； 2. Batch size太大，陷入到局部最优； 3. 网络太简单，一般情况下，网络的层数和节点数量越大，拟合能力就越强，如果层数和节点不够多，无法拟合复杂的数据，也会造成不收敛. 阅读全文

posted @ 2019-08-20 01:21 MSTK 阅读(5967) 评论(0) 推荐(0)

交叉熵损失函数

摘要：1. Cross entropy 交叉熵损失函数用于二分类损失函数的计算,其公式为：其中y为真值,y'为估计值.当真值y为1时, 函数图形: 可见此时y'越接近1损失函数的值越小,越接近0损失函数的值越大. 当真值y为0时, 函数图形: 可见此时y'越接近0损失函数的值越小,越接近1损失函数的值越阅读全文

posted @ 2019-07-28 17:26 MSTK 阅读(13129) 评论(0) 推荐(0)

对Faster R-CNN的理解(3)

摘要：2.2 边框回归边框回归使用下面的几个公式： xywh是预测值,带a的是anchor的xywh,带*的是GT Box的xywh,可以看作是anchor经过一定的变换回归到附近的GT Box. 阅读全文

posted @ 2019-04-27 23:36 MSTK 阅读(374) 评论(0) 推荐(0)

深度卷积网络(DCNN)和人类识别物体方法的不同

摘要：加州大学洛杉矶分校在PLOS Computing Biology上发表了一篇文章，分析了深度卷积网络(DCNN)和人类识别物体方法的不同：深度卷积网络(DCNN)是依靠物体的纹理进行识别，而人类是依靠物体的轮廓进行识别。如对下面的图a，人类依靠轮廓很快就能识别出这是一只熊，速度和准确性超过深度卷积网阅读全文

posted @ 2019-02-12 22:30 MSTK 阅读(1653) 评论(0) 推荐(0)

对Rethinking ImageNet Pre-training的理解

摘要：Kaiming He的这篇论文提出了一个新问题，在目标检测、实例分割和人体关键点检测等领域，预训练的模型是否真的起了作用？通过实验，得出结论：迭代次数较少时，使用预训练模型效果更好；但是只要迭代次数充分多，使用预训练的模型和使用随机初始化的模型效果差距不大。可见预训练模型并不是那么重要。阅读全文

posted @ 2019-01-31 12:43 MSTK 阅读(533) 评论(0) 推荐(0)

对Faster R-CNN的理解(2)

摘要：2. 区域建议网络区域建议网络(Regional Proposal Network, RPN)，根据特征图上每一个点的向量，为这个点生成k个矩形建议框。每一个点输出的内容包括：reg层4个输出x、y、w、h，其中x、y是矩形建议框中心的目标，w、h是矩形建议框的宽度和高度，cls层输出两个数字，分阅读全文

posted @ 2018-12-24 16:40 MSTK 阅读(398) 评论(0) 推荐(0)

运行Keras版本的Faster R-CNN(1)

摘要：Keras版本的Faster R-CNN源码下载地址：https://github.com/yhenon/keras-frcnn下载以后，用PyCharm打开（前提是已经安装了Tensorflow-gpu和Keras），打开以后可以看到项目的结构：修改requirements.txt，设置Kera 阅读全文

posted @ 2018-11-23 18:16 MSTK 阅读(6194) 评论(5) 推荐(0)

对Faster R-CNN的理解(1)

摘要：目标检测是一种基于目标几何和统计特征的图像分割，最新的进展一般是通过R-CNN（基于区域的卷积神经网络）来实现的，其中最重要的方法之一是Faster R-CNN。 1. 总体结构 Faster R-CNN的基本结构如下图所示，其基础是深度全卷积网络（ZF或者VGG-16）。在深度全卷积网络输出的特征阅读全文

posted @ 2018-10-30 20:08 MSTK 阅读(440) 评论(0) 推荐(0)

特征选择的3种方法

摘要：当数据维数比较大时，就需要进行降维，特征选择是降维的一种主要方式，又包括3种方法：Filter、Wrapper和Enbedding。 1. Filter 过滤器方法，这种方法首先选定特征，再来进行学习。根据每一个属性的一些指标（如方差等），来确定这个属性的重要程度，然后对所有属性按照重要程度排序，从阅读全文

posted @ 2018-02-23 21:09 MSTK 阅读(5046) 评论(0) 推荐(0)

SVM多分类

摘要：SVMs(Surport Vector Machines)是用来解决两分类问题的，直接用SVMs实现多分类是不行的，只能使用下面这些间接的方法：（1）1-v-r，即对于每一个分类，训练一个该分类和其他分类的分类器，如对于类k，k是一类，所有其他的是另一类，这样就需要训练k个分类器。对未知样本分类时阅读全文

posted @ 2018-02-20 09:35 MSTK 阅读(4495) 评论(0) 推荐(0)

机器学习中Batch Size、Iteration和Epoch的概念

摘要：Batch Size：批尺寸。机器学习中参数更新的方法有三种：（1）Batch Gradient Descent，批梯度下降，遍历全部数据集计算一次损失函数，进行一次参数更新，这样得到的方向能够更加准确的指向极值的方向，但是计算开销大，速度慢；（2）Stochastic Gradient Des 阅读全文

posted @ 2018-01-06 16:05 MSTK 阅读(14524) 评论(0) 推荐(0)

Linear SVM和LR的区别和联系

摘要：首先，SVM和LR(Logistic Regression)都是分类算法。SVM通常有4个核函数，其中一个是线性核，当使用线性核时，SVM就是Linear SVM，其实就是一个线性分类器，而LR也是一个线性分类器，这是两者的共同之处。不同之处在于，第一，LR只要求计算出一个决策面，把样本点分为两类阅读全文

posted @ 2017-12-19 14:52 MSTK 阅读(1635) 评论(0) 推荐(0)

Python机器学习(1)：KMeans聚类

摘要：Python进行KMeans聚类是比较简单的，首先需要import numpy，从sklearn.cluster中import KMeans模块：然后读取txt文件，获取相应的数据并转换成numpy array：设置类的数量，并聚类：完整代码：运行结果：阅读全文

posted @ 2017-10-30 17:57 MSTK 阅读(1312) 评论(1) 推荐(0)

CentOS 7搭建Linux GPU服务器

摘要：1. CUDA Toolkit的安装到https://developer.nvidia.com/cuda-gpus查询GPU支持的CUDA版本：到https://developer.nvidia.com/cuda-downloads，根据操作系统选择下载相应的CUDA Toolkit版本，下载的阅读全文

posted @ 2017-10-04 15:29 MSTK 阅读(3434) 评论(0) 推荐(1)

代码空间

Computer Vision/Machine Learning/Evolutionary Computation...

随笔分类 - Machine Learning/Computer Vision

公告