随笔档案「2025年5月」 - CV技术指南（公众号）

CVPR 2025 Oral | 中科院、中山大学等提出真实世界去雨模型VDMamba，效果好、速度快、兼顾增强下游视觉任务

摘要：前言本篇分享 CVPR 2025 Oral 论文Semi-Supervised State-Space Model with Dynamic Stacking Filter for Real-World Video Deraining，中科院、中山大学等提出真实世界去雨模型VDMamba，效果好、阅读全文

posted @ 2025-05-30 16:26 CV技术指南（公众号）阅读(245) 评论(0) 推荐(0)

CVPR 2025｜AnomalyAny：异常检测新工作，利用Stable Diffusion生成真实多样异常样本！

摘要：前言本文介绍了一种名为AnomalyAny的创新框架，它利用Stable Diffusion的强大生成能力，仅需单个正常样本和文本描述，即可生成逼真且多样化的异常样本，有效解决了视觉异常检测中异常样本稀缺的难题，为工业质检、医疗影像等领域提供了新的解决方案。欢迎关注公众号CV技术指南，专注于计算阅读全文

posted @ 2025-05-30 16:22 CV技术指南（公众号）阅读(299) 评论(0) 推荐(0)

长推理≠高精度！自适应切换“秒答”与“深思”：省Token与提精度的双赢哲学

摘要：前言长 CoT 推理并非总能提升准确率，甚至会削弱模型处理简单任务的能力。为此，本文提出基于置信度的自适应推理框架（CAR），它能根据模型困惑度动态选择短回答或详细的长文本推理：首先生成简短回答并评估困惑度，仅在模型置信度低（困惑度高）时触发推理。欢迎关注公众号CV技术指南，专注于计算机视觉的技阅读全文

posted @ 2025-05-30 16:17 CV技术指南（公众号）阅读(129) 评论(0) 推荐(0)

用于图像分割的自监督学习（Self-Supervised Learning）方法综述

摘要：前言本篇分享论文Self-Supervised Learning for Image Segmentation:A Comprehensive Survey，自监督学习在图像分割中的全面综述。欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。本文阅读全文

posted @ 2025-05-28 09:57 CV技术指南（公众号）阅读(292) 评论(0) 推荐(0)

何恺明团队新作MeanFlow：单步图像生成SOTA，性能提升高达50%！

摘要：前言这段时间，大神何恺明真是接连不断地发布新研究。这不，他又放出一篇新作！作者团队来自 CMU 以及 MIT。欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。本文转载自机器之心仅用于学术分享，若侵权请联系删除 CV方向的准研究生们，未来三年如阅读全文

posted @ 2025-05-28 09:51 CV技术指南（公众号）阅读(197) 评论(0) 推荐(0)

ICML 2025 | 自回归OUT！TokenSwift实现无损3倍加速，超长文本也能飞起来

摘要：前言生成超长文本的背后，却隐藏着令人咋舌的计算成本 —— 长时间的等待、巨大的内存负担以及偶尔重复乏味的输出，严重制约了这些模型的真正潜力。面对这一挑战，BIGAI NLCo 团队提出了一项全新的推理加速框架 —— TokenSwift，该工作已成功被 ICML 2025正式接收！欢迎关注公众号阅读全文

posted @ 2025-05-28 09:48 CV技术指南（公众号）阅读(97) 评论(0) 推荐(0)

ICML 2025 | 大模型深度思考新范式

摘要：前言本文提出一个交替「推理 - 擦除」的深度思考新范式 PENCIL，比传统 CoT 更高效地解决更复杂的推理任务。理论上，我们证明 PENCIL 可用最优空间与最优时间下解决所有可计算问题，而这对于传统的 CoT 是不可能的！该工作已被机器学习顶会 ICML 2025 收录。欢迎关注公众号CV 阅读全文

posted @ 2025-05-26 14:56 CV技术指南（公众号）阅读(220) 评论(0) 推荐(0)

全新注意力机制！Meta重磅新作MTA：多token注意力机制，性能暴涨！

摘要：前言简单的任务，传统的Transformer却错误率极高。Meta FAIR团队重磅推出多token注意力机制（MTA ），精准捕捉复杂信息，带来模型性能飞升！欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。本文转载自新智元仅用于学术分享，若阅读全文

posted @ 2025-05-26 14:53 CV技术指南（公众号）阅读(123) 评论(0) 推荐(0)

CVPR2025 | 西北工业大学联合华为、腾讯发表基于生成式空间增强的图像分割模型！

摘要：前言本文提出了GleSAM，它利用生成式潜在空间增强来提高对低质量图像的鲁棒性，从而实现对各种图像质量的泛化。欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。本文转载自群函数仅用于学术分享，若侵权请联系删除 CV方向的准研究生们，未来三年如何阅读全文

posted @ 2025-05-26 14:49 CV技术指南（公众号）阅读(252) 评论(0) 推荐(0)

TNNLS 2025 | 简化版可变形卷积DCNv3——可变形空间注意力，CV任务涨点起飞！

摘要：前言本文提出了一种新的轻量级卷积神经网络（CNN）架构DSAN，通过设计可变形条形卷积Deformable Strip Convolution（DSCN）和可变形空间注意力Deformable Spatial Attention（DSA），解决了DCNv3在轻量级CNN中因稀疏采样导致性能不足的问阅读全文

posted @ 2025-05-20 10:11 CV技术指南（公众号）阅读(1129) 评论(0) 推荐(0)

PyTorch量化感知训练技术：模型压缩与高精度边缘部署实践

摘要：前言本文将深入探讨模型量化的原理、主要量化技术类型以及如何使用PyTorch实现这些技术。欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。本文转载自Deephub Imba 仅用于学术分享，若侵权请联系删除 CV方向的准研究生们，未来三年如何度阅读全文

posted @ 2025-05-20 09:59 CV技术指南（公众号）阅读(309) 评论(0) 推荐(0)

ICML 2025 | FG-CLIP：细粒度视觉和文本对齐，解决CLIP的"近视"问题！

摘要：前言 360人工智能研究院最新图文跨模态模型FG-CLIP，宣布以“长文本深度理解”和“细粒度视觉比对”双突破，彻底解决了传统CLIP模型的“视觉近视”问题，能够精准识别局部细节。欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。本文转载自量子位阅读全文

posted @ 2025-05-20 09:57 CV技术指南（公众号）阅读(1337) 评论(0) 推荐(0)

ICML 2025 | 视频生成模型无损加速两倍，秘诀竟然是「抓住attention的时空稀疏性」

摘要：前言本文介绍一种完全无需重新训练模型的视频生成加速方法。通过挖掘注意力机制中的空间与时间稀疏性，配合自适应稀疏选择与算子优化，成功将推理时间减半。欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。本文转载自机器之心仅用于学术分享，若侵权请联系删阅读全文

posted @ 2025-05-12 09:45 CV技术指南（公众号）阅读(133) 评论(0) 推荐(0)

ICLR 2025 Oral | 训练LLM，不只是多喂数据，PDS框架给出最优控制理论选择

摘要：前言清华大学、北京大学联合微软亚洲研究院提出了PMP-based Data Selection（PDS）方法，首次将数据选择建模为最优控制问题，基于庞特里亚金最大值原理（PMP）推导出理论条件，明确了“哪些数据更值得学”。欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典阅读全文

posted @ 2025-05-12 09:39 CV技术指南（公众号）阅读(131) 评论(0) 推荐(0)

05 2025 档案

公告