Fork me on GitHub

随笔分类 -  计算机视觉-CV

摘要:Intro目前在做边缘检测,关于评估方法里面的指标ODS-F/OIS-F理解一直比较模糊,网上搜索相关解析也不太明白,这段时间恰好看了一下文献,加深了一下理解,故写本文分享一下,错误之处还烦请批评指正。 PS.最好的方法是查看CVPR 2017文章Richer Convolutional Featu 阅读全文
posted @ 2023-06-01 10:13 stardsd 阅读(815) 评论(0) 推荐(0)
摘要:The Intel Media Software Development Kit (Intel Media SDK) is a cross-platform application programming interface (API) for developing media applicatio 阅读全文
posted @ 2023-05-31 15:04 stardsd 阅读(346) 评论(0) 推荐(0)
摘要:零样本学习是一种机器学习的问题设置,其中模型可以对从未在训练过程中见过的类别的样本进行分类,使用一些形式的辅助信息来关联已见和未见的类别。例如,一个模型可以根据动物的文本描述来识别动物,即使它从未见过那些动物的图像。 实现零样本学习有不同的方法,取决于辅助信息的类型和学习方法。以下是一些例子: 一种 阅读全文
posted @ 2023-05-31 10:52 stardsd 阅读(736) 评论(0) 推荐(0)
摘要:Well-posed problem & Ill-posed problem. 适定问题(Well-posed problem)是指满足下列三个要求的问题: a solution exists:解必须存在;the solution is unique:解必须唯一;the solution’s beh 阅读全文
posted @ 2023-05-31 10:01 stardsd 阅读(861) 评论(0) 推荐(0)
摘要:Mask concavity: 在语义分割问题中,mask凹度是指形状或物体的**凹陷程度**的术语。 它的计算方法是从mask凸包(convex hull)的**面积**中减去mask的**面积**并除以后者。 凸包是包含掩码的最小凸形。 ¹² mask凹度的范围可以从 0 到 1,其中 0 表示 阅读全文
posted @ 2023-05-24 15:13 stardsd 阅读(440) 评论(0) 推荐(0)
摘要:AI的一致性问题 (图片来源:维基百科,Kismet robot。) 人工智慧(AI)系统可以应用到很多方面,帮人类解决很多问题。但不论AI的原始目的是什么,万一AI发展出自己的功能或意识,做出预料之外的事,这可能会造成很多严重的后果,例如在很多电影里面变坏的机器人,试图控制人类的电脑等等。所以如何 阅读全文
posted @ 2023-05-23 13:43 stardsd 阅读(324) 评论(0) 推荐(0)
摘要:对比学习是一种机器学习技术,算法学习区分相似和不相似的数据点。对比学习的目标是学习数据的表示,以捕捉不同数据点之间的基本结构和关系。 在对比学习中,算法被训练最大化相似数据点之间的相似度,并最小化不相似数据点之间的相似度。通常的做法是通过训练算法来预测两个数据点是否来自同一类别。 对比学习已经在各种 阅读全文
posted @ 2023-05-19 16:34 stardsd 阅读(14747) 评论(0) 推荐(1)
摘要:音视频处理领域,经常遇到一些设备的名词术语。本文对IPC\DVS\DVR\NVR\XVR这些专业设备进行简单分析和区分。 IPC即IP-CAMERA,是集成视频服务器和摄像机的功能为一体的数字视频设备;IP-CAMERA网络摄像机一般有内置Web服务的数字摄像机和录音设备,直接与以太网(有线、无线) 阅读全文
posted @ 2023-05-19 11:19 stardsd 阅读(965) 评论(0) 推荐(0)
摘要:(1) 广播电视级别: 标清=Standard Definition=SD。 NTSC制式标清:纵向480线=480i/p (640x480, 704x480, 720x480, 848x480等) PAL制式标清:纵向576线=576i/p (720x576, 768x576, 1024x576等 阅读全文
posted @ 2023-05-11 17:06 stardsd 阅读(21381) 评论(0) 推荐(1)
摘要:高度可扩展、可编程的计算机视觉和人工智能处理器 芯原Vivante的神经网络处理器 (NPU) IP是高度可扩展、可编程的计算机视觉和人工智能处理器,支持终端、边缘端及云端设备的人工智能运算升级。Vivante NPU IP可满足多种芯片尺寸和功耗预算,是具成本效益的优质神经网络加速引擎解决方案。 阅读全文
posted @ 2023-05-05 16:21 stardsd 阅读(826) 评论(0) 推荐(0)
摘要:TensorRT是一个用于高性能深度学习推理的SDK,它可以将已经训练好的网络转换为TensorRT引擎,从而提高推理速度和效率。TensorRT的作用有以下几点¹²: TensorRT可以对网络进行压缩、优化以及运行时部署,并且没有框架的开销。 TensorRT通过合并层、选择最优的卷积核、根据指 阅读全文
posted @ 2023-05-05 15:27 stardsd 阅读(712) 评论(0) 推荐(0)
摘要:随着研究和行业转向能够执行大量下游任务的大规模模型,理解赋予模型细微差别的多模态数据集的复杂性迅速增加。对数据集的起源、发展、意图、伦理考虑和演变的清晰和透彻的理解成为负责任和知情部署模型的必要步骤,尤其是那些在面向人的环境和高风险领域中的模型。然而,这种理解的负担往往落在文档的可理解性、简洁性和全 阅读全文
posted @ 2023-04-21 15:31 stardsd 阅读(441) 评论(0) 推荐(0)
摘要:# 导入必要的库 import torch import torch.nn as nn import torch.optim as optim from torch.utils.data import DataLoader, Dataset # 定义超参数 epochs = 10 # 训练轮数 lr 阅读全文
posted @ 2023-04-13 15:56 stardsd 阅读(783) 评论(0) 推荐(0)
摘要:空间局部性和频域局部性是在信号处理和图像处理中经常使用的两个概念。 空间局部性指的是在一个图像的某个位置附近的像素值对该位置像素值的影响很大,而离该位置远的像素值对该位置像素值的影响很小。这种局部性在很多图像处理算法中都被广泛应用,例如图像平滑、边缘检测等。在计算机体系结构中,空间局部性也是一个重要 阅读全文
posted @ 2023-03-31 14:12 stardsd 阅读(200) 评论(0) 推荐(0)
摘要:bitdepth 和 bpp(bits per pixel) 的区别; ffmpeg中所有支持的图片存储格式(pixel format) 最近在用ffmepg做各种图片格式的转码,现总结一下这两个概念的区别。(以下假设图片宽为W,高为H) bitdepth是指每个通道的每个像素分量的有效比特数,它越 阅读全文
posted @ 2023-02-23 16:16 stardsd 阅读(631) 评论(0) 推荐(0)
摘要:什么是亚像素 亚像素(Sub Pixel): 面阵摄像机的成像面以像素为最小单位,像素中心之间的距离有几个至十几个微米不等。为了最大限度利用图像信息来提高分辨率,有人提出了亚像素概念。意思是说,在两个物理像素之间还有像素,称之为亚像素,它完全是通过计算方法得出来的。 例如某CMOS摄像芯片,其像素间 阅读全文
posted @ 2023-02-20 15:06 stardsd 阅读(1208) 评论(0) 推荐(0)
摘要:Silicon Graphics Image (SGI) or the RGB file format is the native raster graphics file format for Silicon Graphics workstations.[3] The format was inv 阅读全文
posted @ 2023-02-17 15:27 stardsd 阅读(109) 评论(0) 推荐(0)
摘要:什么是 SDVoE? What is SDVoE?SDVoE (Software Defined Video-over-Ethernet) is the latest high-performance, software-based AV-over-IP platform for control a 阅读全文
posted @ 2023-01-31 10:13 stardsd 阅读(679) 评论(0) 推荐(0)
摘要:机器视觉接口一般有两种形式:专用型和消费型。 专用型接口 此类接口适用于需要极高速或超高分辨率应用;例如,用于检测纸质或塑料薄膜生产这类连续流水作业的行扫描摄像头,其工作频率一般处于kHz水平。然而这些接口明显更加昂贵,灵活性更低,而且会增加系统复杂性。此类应用通常使用CarmeraLink(支持最 阅读全文
posted @ 2022-07-21 16:46 stardsd 阅读(703) 评论(0) 推荐(0)
摘要:摘要 由于生成高分辨率图像较为缓慢且复杂,基于Transformer的文本到图像模型的发展阻碍。在这项工作中,研究者提出了一种基于分层Transformer和局部并行自回归生成的解决方案。研究者预训练了一个60亿参数的transformer模型,采用简单灵活的司监督任务、跨模态通用语言模型(CogL 阅读全文
posted @ 2022-05-31 19:58 stardsd 阅读(698) 评论(0) 推荐(0)