摘要:
VideoLLaMA 3是基于Llama 3的前沿多模态基础模型,深度融合视觉、听觉与语言理解能力,支持高分辨率图像和长视频的端到端分析。其核心技术包括统一的视听语言架构、高效长视频词元化和万亿级多模态预训练,具备复杂的时空因果推理能力,可同步解析画面与音轨信息。该模型为影视分析、场景理解等任务提供强大支持,相关代码和预训练权重已在Lab4AI平台开源,用户可一键复现实验。 阅读全文
posted @ 2025-11-18 17:56
Lab4AI大模型实验室
阅读(36)
评论(0)
推荐(0)
摘要:
论文《FBRT-YOLO: Faster and Better for Real-Time Aerial Image Detection》提出了一种针对航拍图像目标检测的优化方法。针对航拍场景中小目标密集、尺度变化大等挑战,该研究通过轻量化网络设计、增强的多尺度特征融合、专设小目标检测层以及注意力机制等技术,显著提升了检测速度和精度。实验表明,FBRT-YOLO在保持高精度的同时实现了更快的处理速度,为无人机等边缘设备的实时目标检测提供了有效解决方案。论文已提供完整复现环境与预训练模型。 阅读全文
posted @ 2025-11-18 16:51
Lab4AI大模型实验室
阅读(163)
评论(0)
推荐(0)
摘要:
论文标题:Scaling Instruction-Based VideoEditing with a High-Quality Synthetic Dataset 作者团队:香港科大、蚂蚁集团、浙江大学、东北大学 发布时间:2025年10月17日 👉一键直达论文 [👉Lab4AI大模型实验室论文 阅读全文
posted @ 2025-11-18 16:38
Lab4AI大模型实验室
阅读(7)
评论(0)
推荐(0)
摘要:
CVPR 2024 目标检测!开放词汇 01 论文概述 论文名称:YOLO-World: Real-Time Open-Vocabulary Object Detection 会议名称:CVPR (2024) 👉一键直达论文 [👉Lab4AI大模型实验室论文](https://www.lab4a 阅读全文
posted @ 2025-11-18 15:33
Lab4AI大模型实验室
阅读(28)
评论(0)
推荐(0)

浙公网安备 33010602011771号