实时实例分割与自监督学习的前沿进展
实时实例分割与自监督学习的前沿进展
理解我们万花筒般的视觉世界是计算机科学家数十年来面临的重大挑战。因为视觉远不止是简单的"看见"。为了充分发挥机器的潜力,并最终让它们在我们中间有用且安全地移动,它们必须以超人类的置信度理解周围发生的事。
人类为每个场景带来的知识赋予了场景意义,使我们能够做出恰当反应。在计算机视觉早期,人工智能系统只能通过人工精心标注的大量示例图像进行学习——这一过程称为监督学习。
从监督学习到自监督学习的转变
当电气工程本科生Yong Jae Lee大约15年前首次接触计算机视觉挑战时,监督学习占据主导地位。当时,要教会计算机视觉系统识别猫,必须展示数千张猫的图片,每只猫周围都精心绘制了边框并标注为"猫"。
但Lee坚信计算机视觉的未来在于无监督或弱监督学习。这种机器学习形式的核心思想是,计算机视觉模型接收大量未标注图像,并自行学习如何区分其中的各类对象。
"当时无监督学习并不流行,但我毫不怀疑这是值得研究的方向。现在,几乎整个社区都相信这个方向,正在取得巨大进展。"
YOLACT:实时实例分割的突破
2019年,Lee获得了某机构的机器学习研究奖项,部分用于支持一系列关于实时对象实例分割的开创性论文。
对象实例分割比视觉对象检测更进一步:它使计算机视觉模型不仅能够检测图像中是否存在对象,还能准确定位和分类每个感兴趣的对象,并划定其在图像中的视觉边界。在实例分割中,不仅图像中的每个像素都被归为某类对象,模型还通过清晰分割该类的每个"实例"来区分同一类的两个对象。
2019年面临的挑战是:虽然实例分割任务在应用于单个图像时可以达到高标准,但尚无系统在应用于实时流视频时能达到高精度基准。
Lee和他的团队不仅开发了首个在此速度下达到如此精度的模型,而且仅使用一个GPU就完成了训练。他们的监督系统名为YOLACT,因其研究人员开发了一种新颖的方式,使实例分割任务的某些方面能够并行运行,而不是依赖较慢的顺序处理。
此后,Lee的团队显著提高了系统的效率和性能,最新版本的YOLACT可以搭载在手掌大小的设备中。通过将YOLACT代码在GitHub上开源,Lee让许多人能够使用这一系统。
图像生成的创新方法
在Lee工作的另一个分支中,他开创了基于机器学习的图像生成新方法。其中一个研究首创是MixNMatch,这是一个最小监督模型,当提供许多真实图像时,它能自学区分各种重要的图像属性。通过学习区分对象的形状、姿态、纹理/颜色和背景,系统可以运用精细控制来生成具有任何所需属性组合的新图像。
今年,Lee和他的学生发布了GIRAFFE HD,这是一个具有3D意识的高分辨率生成模型。这意味着它可以在独立生成适当背景的同时,连贯地旋转、移动和缩放场景中的前景对象。
"作为用户,你可以调整不同的'旋钮'以高度可控的方式改变生成的图像,例如对象的姿态甚至虚拟相机高度。"
计算资源的重要性
开发此类技术需要显著的计算资源,这就是为什么Lee的某机构奖项包含了某机构网络服务的积分。
"对我们实验室特别有益的是某机构的EC2。在关键时刻,当我们需要运行许多不同实验时,我们可以并行进行。EC2的可扩展性和机器可用性对我们的研究非常有帮助。"
未来挑战与展望
虽然Lee对视觉研究的许多方面充满热情,但他看到了一个迫在眉睫的缺点:在线发布的AI生成艺术大量涌入。
"目前的技术前沿是直接从互联网数据中学习。如果这些数据中充满了大量机器学习输出,你实际上不是从所谓的真实知识中学习,而是从'虚假'信息中学习。目前尚不清楚这将如何影响未来模型的训练。"
但他对进展速度仍持乐观态度。图像生成系统已经展示的语义理解令人惊讶。
"以Dalle-2的骑马宇航员为例。这种语义概念在现实世界中并不真正存在,但这些系统可以构建出恰好符合这一描述的合理图像。"
这一点的启示是,数据的力量难以否认。即使数据是"嘈杂的",拥有大量数据使得机器学习模型能够对视觉世界发展出非常深入的理解,从而产生语义概念的创造性组合。
"即使是对这个领域的工作者来说,我仍然觉得这很迷人。"
给学生的建议
"在机器学习领域有如此多的活动,真正重要的是找到你真正热衷的主题,并获得一些实践经验。不要只是阅读论文,然后就假定你知道需要知道什么。最好的学习方法是下载一些前沿的开源代码,真正地尝试使用它。享受乐趣!"
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码

公众号二维码


浙公网安备 33010602011771号