摘要: https://arxiv.org/abs/2502.13923 https://github.com/QwenLM/Qwen2.5-VL 摘要 我们介绍 Qwen2.5-VL,这是 Qwen 视觉-语言系列的最新旗舰模型,展示了基础能力和创新功能方面的显著进步。Qwen2.5-VL 在通过增强的视 阅读全文
posted @ 2025-05-13 10:21 一介布衣、 阅读(3154) 评论(0) 推荐(0)
摘要: https://arxiv.org/abs/2503.21696 摘要 近期的深度思维模型在数学和编程任务中展现出卓越的推理能力。然而,这些模型在需要通过图像-动作交织轨迹与环境进行连续交互的具身领域中的有效性仍然未被探索。我们提出了具身推理器(Embodied Reasoner),该模型将 o1 阅读全文
posted @ 2025-05-07 11:26 一介布衣、 阅读(344) 评论(0) 推荐(0)
摘要: https://arxiv.org/abs/2504.10479 摘要 我们介绍InternVL3,这是InternVL系列的一个重要进展,采用了原生的多模态预训练范式。与将纯文本大型语言模型(LLM)改编为支持视觉输入的多模态大型语言模型(MLLM)不同,InternVL3在单一预训练阶段中,同时 阅读全文
posted @ 2025-04-25 15:29 一介布衣、 阅读(1080) 评论(0) 推荐(0)
摘要: https://openai.com/index/gpt-4-1 【openai的技术报告越来越没意思了,除了秀肌肉,没有干货】 引言 今天我们正式发布API中的三个新模型:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。这些模型在各方面均优于GPT-4.0和GPT-4.0 阅读全文
posted @ 2025-04-22 11:28 一介布衣、 阅读(409) 评论(0) 推荐(0)
摘要: https://docs.espressif.com/projects/esp-sr/zh_CN/latest/esp32s3/audio_front_end/README.html https://github.com/espressif/esp-sr https://github.com/esp 阅读全文
posted @ 2025-04-20 10:51 一介布衣、 阅读(302) 评论(0) 推荐(0)
摘要: http://arxiv.org/pdf/2312.14860v1 摘要 在语音识别系统中,语音活动检测(VAD)是一个至关重要的前端模块。针对传统基于DFSMN的二值VAD系统在噪声鲁棒性方面的不足,本文进一步提出了基于多任务学习的改进模型的语义VAD,以满足实时和离线系统的特定应用需求。内部数据 阅读全文
posted @ 2025-04-16 17:32 一介布衣、 阅读(674) 评论(0) 推荐(0)
摘要: https://arxiv.org/abs/2502.09560 https://embodiedbench.github.io 摘要 利用多模态大型语言模型(MLLMs)创建具身代理提供了一个有前途的解决现实世界任务的途径。尽管语言为中心的具身代理已经引起了广泛关注,但由于缺乏全面的评估框架,基于 阅读全文
posted @ 2025-04-10 17:43 一介布衣、 阅读(463) 评论(0) 推荐(0)
摘要: https://arxiv.org/abs/1912.01734 https://github.com/askforalfred/alfred 摘要 我们提出了ALFRED(Action Learning From Realistic Environments and Directives),这是一 阅读全文
posted @ 2025-04-09 11:44 一介布衣、 阅读(258) 评论(0) 推荐(0)
摘要: 摘要 在本报告中,我们介绍了Qwen2.5-Omni,这是一种端到端的多模态模型,旨在感知包括文本、图像、音频和视频在内的多种模态,并同时以流式方式生成文本和自然语音响应。为了实现多模态信息输入的流式处理,音频和视觉编码器采用了分块处理方法。该策略有效地分离了对多模态数据长序列的处理,将感知责任分配 阅读全文
posted @ 2025-03-27 18:02 一介布衣、 阅读(1894) 评论(0) 推荐(0)
摘要: https://arxiv.org/abs/2501.15068 摘要 实体操控是实体人工智能领域的一项基本能力。尽管当前的实体操控模型在特定环境中表现出一定的泛化能力,但由于现实世界场景的复杂性和多样性,它们在新环境和任务中仍面临挑战。传统的端到端数据收集和训练方式导致了对大量数据的需求。将端到端 阅读全文
posted @ 2025-03-16 16:00 一介布衣、 阅读(336) 评论(0) 推荐(0)