随笔分类 - Machine Learning/Computer Vision
摘要:非极大值抑制(Non-Maximum Suppression,NMS)是在目标检测中广泛应用的一种方法:首先对每一个预测框给出一个分类和置信度,对每一类的框,按照置信度从小到大排序;然后选中置信度最大的框,依次和前面的同类框计算IOU,对于IOU大于阈值的框,就直接删除掉(也可以理解成将这些框的置信
阅读全文
摘要:2. Network Architecture 网络分为两个部分:第一部分是backbone卷积网络,用于提取整张图的特征;第二部分是head,用于对ROI进行处理,分为两个分支,一个分支用来对box分类和回归,另一部分进行mask预测。 网络的Backbone采用ResNet或者FPN(Featu
阅读全文
摘要:网络的结构如下: 采用FPN结构,Backbone是RetinalNet,分成了P3~P7共5个Layer,分别训练不同尺寸的Box.每个Layer对应的Head有2个分支,包括一个单独的分支用来预测分类,另一个分支用来预测两部分,一部分是Box坐标的回归,另一部分是GT Box和Anchor之间的
阅读全文
摘要:MASK-RCNN是一个多用途的网络,可以用来做目标检测,实例分割或者人体姿态识别.主要结构如下. 简单的说,就是首先用Faster-RCNN获得ROI,再进行ROI Align,然后输出ROI的分类,同时输出分割掩码. 1. Faster-RCNN和ROI Align Faster-RCNN是一个
阅读全文
摘要:RetinaNet,SSD,YOLOv3,Faster R-CNN等都是Anchor-based的检测器,即需要预定义的Anchor boxes来进行训练。FCOS是一种Anchor-free和Proposal-free的检测器,即不需要预定义Anchor boxes来进行训练,从而节省了对计算资源
阅读全文
摘要:CornerNet是一种anchor free的目标检测方法,不需要设置anchor,而是通过检测关键点(Keypoints),即目标的左上角(Top-Left Corners)和右下角(Bottom-Right Corners),再进行配对,来实现目标的检测。 网络的前半部分是一个卷积网络,后半部
阅读全文
摘要:1. Learning rate不合适,如果太大,会造成不收敛,如果太小,会造成收敛速度非常慢; 2. Batch size太大,陷入到局部最优; 3. 网络太简单,一般情况下,网络的层数和节点数量越大,拟合能力就越强,如果层数和节点不够多,无法拟合复杂的数据,也会造成不收敛.
阅读全文
摘要:1. Cross entropy 交叉熵损失函数用于二分类损失函数的计算,其公式为: 其中y为真值,y'为估计值.当真值y为1时, 函数图形: 可见此时y'越接近1损失函数的值越小,越接近0损失函数的值越大. 当真值y为0时, 函数图形: 可见此时y'越接近0损失函数的值越小,越接近1损失函数的值越
阅读全文
摘要:2.2 边框回归 边框回归使用下面的几个公式: xywh是预测值,带a的是anchor的xywh,带*的是GT Box的xywh,可以看作是anchor经过一定的变换回归到附近的GT Box.
阅读全文
摘要:加州大学洛杉矶分校在PLOS Computing Biology上发表了一篇文章,分析了深度卷积网络(DCNN)和人类识别物体方法的不同:深度卷积网络(DCNN)是依靠物体的纹理进行识别,而人类是依靠物体的轮廓进行识别。如对下面的图a,人类依靠轮廓很快就能识别出这是一只熊,速度和准确性超过深度卷积网
阅读全文
摘要:Kaiming He的这篇论文提出了一个新问题,在目标检测、实例分割和人体关键点检测等领域,预训练的模型是否真的起了作用?通过实验,得出结论:迭代次数较少时,使用预训练模型效果更好;但是只要迭代次数充分多,使用预训练的模型和使用随机初始化的模型效果差距不大。可见预训练模型并不是那么重要。
阅读全文
摘要:2. 区域建议网络 区域建议网络(Regional Proposal Network, RPN),根据特征图上每一个点的向量,为这个点生成k个矩形建议框。每一个点输出的内容包括:reg层4个输出x、y、w、h,其中x、y是矩形建议框中心的目标,w、h是矩形建议框的宽度和高度,cls层输出两个数字,分
阅读全文
摘要:Keras版本的Faster R-CNN源码下载地址:https://github.com/yhenon/keras-frcnn下载以后,用PyCharm打开(前提是已经安装了Tensorflow-gpu和Keras),打开以后可以看到项目的结构: 修改requirements.txt,设置Kera
阅读全文
摘要:目标检测是一种基于目标几何和统计特征的图像分割,最新的进展一般是通过R-CNN(基于区域的卷积神经网络)来实现的,其中最重要的方法之一是Faster R-CNN。 1. 总体结构 Faster R-CNN的基本结构如下图所示,其基础是深度全卷积网络(ZF或者VGG-16)。在深度全卷积网络输出的特征
阅读全文
摘要:当数据维数比较大时,就需要进行降维,特征选择是降维的一种主要方式,又包括3种方法:Filter、Wrapper和Enbedding。 1. Filter 过滤器方法,这种方法首先选定特征,再来进行学习。根据每一个属性的一些指标(如方差等),来确定这个属性的重要程度,然后对所有属性按照重要程度排序,从
阅读全文
摘要:SVMs(Surport Vector Machines)是用来解决两分类问题的,直接用SVMs实现多分类是不行的,只能使用下面这些间接的方法: (1)1-v-r,即对于每一个分类,训练一个该分类和其他分类的分类器,如对于类k,k是一类,所有其他的是另一类,这样就需要训练k个分类器。对未知样本分类时
阅读全文
摘要:Batch Size:批尺寸。机器学习中参数更新的方法有三种: (1)Batch Gradient Descent,批梯度下降,遍历全部数据集计算一次损失函数,进行一次参数更新,这样得到的方向能够更加准确的指向极值的方向,但是计算开销大,速度慢; (2)Stochastic Gradient Des
阅读全文
摘要:首先,SVM和LR(Logistic Regression)都是分类算法。SVM通常有4个核函数,其中一个是线性核,当使用线性核时,SVM就是Linear SVM,其实就是一个线性分类器,而LR也是一个线性分类器,这是两者的共同之处。 不同之处在于,第一,LR只要求计算出一个决策面,把样本点分为两类
阅读全文
摘要:Python进行KMeans聚类是比较简单的,首先需要import numpy,从sklearn.cluster中import KMeans模块: 然后读取txt文件,获取相应的数据并转换成numpy array: 设置类的数量,并聚类: 完整代码: 运行结果:
阅读全文
摘要:1. CUDA Toolkit的安装 到https://developer.nvidia.com/cuda-gpus查询GPU支持的CUDA版本: 到https://developer.nvidia.com/cuda-downloads,根据操作系统选择下载相应的CUDA Toolkit版本,下载的
阅读全文

浙公网安备 33010602011771号