会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
lab4ai
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
3
4
5
6
7
8
9
10
下一页
2025年11月26日
从 50 步到 4 步:LightX2V 如何把视频生成拉进20 秒时代?
摘要: 从 50 步到 4 步:LightX2V 如何把视频生成拉进20 秒时代? 还在为高质量视频生成「又慢又重」头疼吗? 传统扩散式视频生成模型往往需要20~50步迭代过程,即便生成几十帧的短视频,也需长时间占用GPU资源,日志持续输出却进度缓慢。 而LightX2V的核心目标,是从技术底层重构这一流程
阅读全文
posted @ 2025-11-26 16:15 Lab4AI大模型实验室
阅读(60)
评论(0)
推荐(0)
2025年11月25日
ECCV 2024!面向领域泛化分割的文本查询驱动掩码Transformer| 语义分割 | 计算机视觉
摘要: ECCV 2024!面向领域泛化分割的文本查询驱动掩码Transformer| 语义分割 | 计算机视觉 01 论文概述 论文名称:Textual query-driven mask transformer for domain generalized segmentation —— 面向领域泛化分
阅读全文
posted @ 2025-11-25 17:24 Lab4AI大模型实验室
阅读(11)
评论(0)
推荐(0)
# CVPR 2025| 基于扩散变换器的自适应图像融合框架| 计算机视觉 | 图像编辑
摘要: DreamFuse: Adaptive Image Fusion with Diffusion Transformer —— 基于扩散变换器的自适应图像融合框架
阅读全文
posted @ 2025-11-25 15:55 Lab4AI大模型实验室
阅读(46)
评论(0)
推荐(0)
从帧到世界:面向世界模型的长视频生成
摘要: 从帧到世界:面向世界模型的长视频生成 世界模型是一种能够“看懂”现实世界规则并“预测”其动态变化的生成式AI,例如理解“抛球会落地”或“太阳东升西落”等常识。其技术本质是通过大量数据学习物理规律、因果关系和时空逻辑,形成兼具“认知”与“预测”能力的模型框架。 视频生成不只是拼接现有素材,而是由AI从
阅读全文
posted @ 2025-11-25 10:48 Lab4AI大模型实验室
阅读(46)
评论(0)
推荐(0)
2025年11月20日
写论文的正确姿势:用代码排版?没听错,就是 LaTeX!| 附保姆级安装教程
摘要: 写论文的正确姿势:用代码排版?没听错,就是 LaTeX!| 附保姆级安装教程 你是不是也被Word的格式崩溃折磨过? 论文一改模板,公式全乱,页码飘移——如果你有过这样的经历,那么你该认识一下LaTeX。 「LaTeX」,能轻松搞定专业公式和图表排版,堪称科研党的效率神器! 今天就用最通俗的话,教你
阅读全文
posted @ 2025-11-20 18:12 Lab4AI大模型实验室
阅读(704)
评论(0)
推荐(0)
这所双非高校在AAAI 2026上发表11篇论文
摘要: 这所双非高校在AAAI 2026上发表11篇论文 近日,人工智能领域国际顶尖学术会议AAAI 2026(第40届人工智能大会)论文录用结果公布。武汉科技大学计算机科学与技术学院5位老师的高质量论文被录用,录用数量超历年总和,体现了学院在人工智能前沿研究方面的持续发展与科研实力的显著提升。 被录用的论
阅读全文
posted @ 2025-11-20 11:47 Lab4AI大模型实验室
阅读(71)
评论(0)
推荐(0)
2025年11月19日
CVPR 2024 | 赋能大语言模型以精准理解视频时序瞬间 | LLM | 时序预测
摘要: CVPR 2024 | 赋能大语言模型以精准理解视频时序瞬间 | LLM | 时序预测 01 论文概述 论文名称:VTimeLLM: Empower LLM to Grasp Video Moments —— 赋能大语言模型以精准理解视频时序瞬间 👉一键直达论文 👉Lab4AI大模型实验室论文
阅读全文
posted @ 2025-11-19 16:15 Lab4AI大模型实验室
阅读(16)
评论(0)
推荐(0)
CVPR 2022!经典论文!稳定扩散模型(Stable Diffusion)背后的革命性技术:隐空间扩散模型
摘要: CVPR 2022!经典论文!稳定扩散模型(Stable Diffusion)背后的革命性技术:隐空间扩散模型 01 论文概述 论文名称:High-Resolution Image Synthesis with Latent Diffusion Models —— 稳定扩散模型(Stable Dif
阅读全文
posted @ 2025-11-19 15:11 Lab4AI大模型实验室
阅读(134)
评论(0)
推荐(0)
2025年11月18日
VideoLLaMA 3新一代前沿多模态基础模型赋能图像与视频深度理解| LLM | 计算机视觉
摘要: VideoLLaMA 3是基于Llama 3的前沿多模态基础模型,深度融合视觉、听觉与语言理解能力,支持高分辨率图像和长视频的端到端分析。其核心技术包括统一的视听语言架构、高效长视频词元化和万亿级多模态预训练,具备复杂的时空因果推理能力,可同步解析画面与音轨信息。该模型为影视分析、场景理解等任务提供强大支持,相关代码和预训练权重已在Lab4AI平台开源,用户可一键复现实验。
阅读全文
posted @ 2025-11-18 17:56 Lab4AI大模型实验室
阅读(50)
评论(0)
推荐(0)
AAAI2025!北理工团队提出FBRT-YOLO:面向实时航拍图像更快更好的目标检测 |计算机视觉|目标检测
摘要: 论文《FBRT-YOLO: Faster and Better for Real-Time Aerial Image Detection》提出了一种针对航拍图像目标检测的优化方法。针对航拍场景中小目标密集、尺度变化大等挑战,该研究通过轻量化网络设计、增强的多尺度特征融合、专设小目标检测层以及注意力机制等技术,显著提升了检测速度和精度。实验表明,FBRT-YOLO在保持高精度的同时实现了更快的处理速度,为无人机等边缘设备的实时目标检测提供了有效解决方案。论文已提供完整复现环境与预训练模型。
阅读全文
posted @ 2025-11-18 16:51 Lab4AI大模型实验室
阅读(212)
评论(0)
推荐(0)
上一页
1
···
3
4
5
6
7
8
9
10
下一页
公告