摘要: 在视频中检测物体和在图像中检测物体的最大区别在于:信息存在于时间维度中。视频中孤立的帧可能会出现运动模糊、遮挡或失焦等问题,自然可以想到从整个视频中寻找线索来识别物体。 当我们无法确定一个目标的类别时,我们会从其它帧中寻找一个与当前目标具有高度语义相似性的独特目标,并将它们分配在一起。这种信息称为全 阅读全文
posted @ 2024-05-13 15:11 吃瓜吃撑了 阅读(117) 评论(0) 推荐(0)