视觉多模态大模型case study
360智脑
https://aiot.360.cn/solutions/factory
https://zhuanlan.zhihu.com/p/633755589
1、开放目标检测:自然语言输入快速完成数据标注
一些安防巡店场景下,摄像头会出现被遮挡、发生偏移、镜头对向室外等人为干扰现象,因此,360研发人员通过对墙上固定的logo进行单独数据标注、训练,以此来确保摄像头画面没有被人为干扰。但因为不同商家的logo颜色、大小都不同,这部分标注、训练的成本很高。
基于开放目标检测OVD功能,用户就可以输入“蓝色中文文字loge”等自然语言描述,摄像头就可以进行相应识别。
其次,车辆检测中,停车场需要统计每天的停车数量,但一些摄像头受安装位置影响,可能出现多个摄像头图像重叠,从而影响识别精度,或者客户有其它如“特定车型数量”需求,这些对于传统算法的挑战较高。
OVD开放目标检测就可以基于自然语言,快速检测“红色小汽车”等。
2、图生文:根据生成标题快速提取有效信息
图生文能力也就是让大模型像人一样理解图片的内容。
在演示案例中可以看到,大模型能理解画面的实际内容,并推断出图片中店铺大概提供的服务。
在安防场景有一个很基础的应用就是图像生成标题,因为用户在检索时会发现图片和文本相似的场景,无法高效检索信息。视觉大模型就可以快速标注、提炼出图片中的主要信息,如“一个老年男子躺在棕色地板上”等就可以有效提取出来。
3、视觉问答:一键输出巡检项目打分表
例如店铺巡检场景中,视觉问答的交互可以更加自然,巡检人员通过语言描述把想要检查的项目表述出来,大模型就可以分析图片再进行打分。
开放词汇目标检测(Open-Vocabulary Object Detection, OVOD)
https://blog.csdn.net/mieshizhishou/article/details/141216656
1. 什么是开放词汇目标检测(OVOD)?
开放词汇目标检测是一种目标检测任务,旨在检测和识别那些未在训练集中明确标注的物体类别。传统的目标检测模型通常只能识别有限数量的预定义类别,而OVOD模型则具有识别“开放词汇”类别的能力,即在测试时可以识别和定位那些未曾在训练集中见过的类别。
大华 星汉
https://www.dahuatech.com/search.html?keyword=%E6%98%9F%E6%B1%89
官网 - 无显示案例
海康 观澜
https://ai.hikvision.com/open-ability
拥有国家人工智能实验室。
声明基于大模型,基于传统CV在业务细分领域有很多积累, 例如下载工地场景工具包。
https://ai.hikvision.com/open-ability/domain-case-detail/10
商汤日日新
https://platform.sensenova.cn/home#/home?1=1&gioNav=1
赋能产业升级,垂直领域落地丰富应用医疗
医学知识问答,疾病药品库,智慧问诊
星火大模型
https://www.aicxl.com/zh_cn/ind/home?s=iflytek
https://www.aicxl.com/zh_cn/ind/solution/diggings/ksModel
电力和矿山版本,对视觉支持能力未说明支持能力。