Stay Hungry,Stay Foolish!

视觉多模态大模型case study

360智脑

https://aiot.360.cn/solutions/factory

https://zhuanlan.zhihu.com/p/633755589

1、开放目标检测:自然语言输入快速完成数据标注

一些安防巡店场景下,摄像头会出现被遮挡、发生偏移、镜头对向室外等人为干扰现象,因此,360研发人员通过对墙上固定的logo进行单独数据标注、训练,以此来确保摄像头画面没有被人为干扰。但因为不同商家的logo颜色、大小都不同,这部分标注、训练的成本很高。

 

 

基于开放目标检测OVD功能,用户就可以输入“蓝色中文文字loge”等自然语言描述,摄像头就可以进行相应识别。

其次,车辆检测中,停车场需要统计每天的停车数量,但一些摄像头受安装位置影响,可能出现多个摄像头图像重叠,从而影响识别精度,或者客户有其它如“特定车型数量”需求,这些对于传统算法的挑战较高。

OVD开放目标检测就可以基于自然语言,快速检测“红色小汽车”等。

 

 

2、图生文:根据生成标题快速提取有效信息

图生文能力也就是让大模型像人一样理解图片的内容。

在演示案例中可以看到,大模型能理解画面的实际内容,并推断出图片中店铺大概提供的服务。

 

 

在安防场景有一个很基础的应用就是图像生成标题,因为用户在检索时会发现图片和文本相似的场景,无法高效检索信息。视觉大模型就可以快速标注、提炼出图片中的主要信息,如“一个老年男子躺在棕色地板上”等就可以有效提取出来。

3、视觉问答:一键输出巡检项目打分表

例如店铺巡检场景中,视觉问答的交互可以更加自然,巡检人员通过语言描述把想要检查的项目表述出来,大模型就可以分析图片再进行打分。

 



开放词汇目标检测(Open-Vocabulary Object Detection, OVOD)

https://blog.csdn.net/mieshizhishou/article/details/141216656

1. 什么是开放词汇目标检测(OVOD)?

开放词汇目标检测是一种目标检测任务,旨在检测和识别那些未在训练集中明确标注的物体类别。传统的目标检测模型通常只能识别有限数量的预定义类别,而OVOD模型则具有识别“开放词汇”类别的能力,即在测试时可以识别和定位那些未曾在训练集中见过的类别。

 

大华 星汉

https://www.dahuatech.com/search.html?keyword=%E6%98%9F%E6%B1%89

官网 - 无显示案例

 

海康 观澜

https://ai.hikvision.com/open-ability

拥有国家人工智能实验室。

声明基于大模型,基于传统CV在业务细分领域有很多积累, 例如下载工地场景工具包。

https://ai.hikvision.com/open-ability/domain-case-detail/10

 

商汤日日新

https://platform.sensenova.cn/home#/home?1=1&gioNav=1

赋能产业升级,垂直领域落地丰富应用

办公

内部知识库问答,办公文档生成,对话式办公助手等

教育

教学大脑,可应用于学校、培训机构、家庭教育等

文娱

自动生成高质量的短视频或直播文案,数字人等

汽车

汽车智能管家、车载语音助手,车主场景大脑等

金融

金融知识问答,智能创作,投资顾问,资产盘点等

医疗

医学知识问答,疾病药品库,智慧问诊

 

星火大模型

https://www.aicxl.com/zh_cn/ind/home?s=iflytek

https://www.aicxl.com/zh_cn/ind/solution/diggings/ksModel

电力和矿山版本,对视觉支持能力未说明支持能力。

 

posted @ 2024-09-25 10:42  lightsong  阅读(197)  评论(0)    收藏  举报
千山鸟飞绝,万径人踪灭