视觉多模态大模型case study

360智脑

https://aiot.360.cn/solutions/factory

https://zhuanlan.zhihu.com/p/633755589

1、开放目标检测：自然语言输入快速完成数据标注

一些安防巡店场景下，摄像头会出现被遮挡、发生偏移、镜头对向室外等人为干扰现象，因此，360研发人员通过对墙上固定的logo进行单独数据标注、训练，以此来确保摄像头画面没有被人为干扰。但因为不同商家的logo颜色、大小都不同，这部分标注、训练的成本很高。

基于开放目标检测OVD功能，用户就可以输入“蓝色中文文字loge”等自然语言描述，摄像头就可以进行相应识别。

其次，车辆检测中，停车场需要统计每天的停车数量，但一些摄像头受安装位置影响，可能出现多个摄像头图像重叠，从而影响识别精度，或者客户有其它如“特定车型数量”需求，这些对于传统算法的挑战较高。

OVD开放目标检测就可以基于自然语言，快速检测“红色小汽车”等。

2、图生文：根据生成标题快速提取有效信息

图生文能力也就是让大模型像人一样理解图片的内容。

在演示案例中可以看到，大模型能理解画面的实际内容，并推断出图片中店铺大概提供的服务。

在安防场景有一个很基础的应用就是图像生成标题，因为用户在检索时会发现图片和文本相似的场景，无法高效检索信息。视觉大模型就可以快速标注、提炼出图片中的主要信息，如“一个老年男子躺在棕色地板上”等就可以有效提取出来。

3、视觉问答：一键输出巡检项目打分表

例如店铺巡检场景中，视觉问答的交互可以更加自然，巡检人员通过语言描述把想要检查的项目表述出来，大模型就可以分析图片再进行打分。

开放词汇目标检测（Open-Vocabulary Object Detection, OVOD）

https://blog.csdn.net/mieshizhishou/article/details/141216656

1. 什么是开放词汇目标检测（OVOD）？

开放词汇目标检测是一种目标检测任务，旨在检测和识别那些未在训练集中明确标注的物体类别。传统的目标检测模型通常只能识别有限数量的预定义类别，而OVOD模型则具有识别“开放词汇”类别的能力，即在测试时可以识别和定位那些未曾在训练集中见过的类别。

大华星汉

https://www.dahuatech.com/search.html?keyword=%E6%98%9F%E6%B1%89

官网 - 无显示案例

海康观澜

https://ai.hikvision.com/open-ability

拥有国家人工智能实验室。

声明基于大模型，基于传统CV在业务细分领域有很多积累，例如下载工地场景工具包。

https://ai.hikvision.com/open-ability/domain-case-detail/10

商汤日日新

https://platform.sensenova.cn/home#/home?1=1&gioNav=1

赋能产业升级，垂直领域落地丰富应用

办公

内部知识库问答，办公文档生成，对话式办公助手等

教育

教学大脑，可应用于学校、培训机构、家庭教育等

文娱

自动生成高质量的短视频或直播文案，数字人等

汽车

汽车智能管家、车载语音助手，车主场景大脑等

金融

金融知识问答，智能创作，投资顾问，资产盘点等

医疗

医学知识问答，疾病药品库，智慧问诊

星火大模型

https://www.aicxl.com/zh_cn/ind/home?s=iflytek

https://www.aicxl.com/zh_cn/ind/solution/diggings/ksModel

电力和矿山版本，对视觉支持能力未说明支持能力。

posted @ 2024-09-25 10:42 lightsong 阅读(343) 评论(0) 收藏举报

刷新页面返回顶部

Stay Hungry,Stay Foolish!

lightsong

{Web: [React, Vue, NodeJS, HTTP]，DevOps:[Jenkins,Docker,K8S], Languages:[Python, JS, C, Lua, Shell, Groovy]}, AI:[LLM, langchain，langraph]

视觉多模态大模型case study

360智脑

开放词汇目标检测（Open-Vocabulary Object Detection, OVOD）

大华星汉

海康观澜

商汤日日新

办公

教育

文娱

汽车

金融

医疗

星火大模型

公告

Stay Hungry,Stay Foolish!

lightsong

{Web: [React, Vue, NodeJS, HTTP]，DevOps:[Jenkins,Docker,K8S], Languages:[Python, JS, C, Lua, Shell, Groovy]}, AI:[LLM, langchain，langraph]

视觉多模态大模型case study

360智脑

开放词汇目标检测（Open-Vocabulary Object Detection, OVOD）

大华 星汉

海康 观澜

商汤日日新

办公

教育

文娱

汽车

金融

医疗

星火大模型

公告

大华星汉

海康观澜