一介布衣、

2025年5月13日

摘要： https://arxiv.org/abs/2502.13923 https://github.com/QwenLM/Qwen2.5-VL 摘要我们介绍 Qwen2.5-VL，这是 Qwen 视觉-语言系列的最新旗舰模型，展示了基础能力和创新功能方面的显著进步。Qwen2.5-VL 在通过增强的视阅读全文

posted @ 2025-05-13 10:21 一介布衣、阅读(3154) 评论(0) 推荐(0)

2025年5月7日

Emboded-Reasoner：在具身交互任务中协同视觉搜索、推理和行动

摘要： https://arxiv.org/abs/2503.21696 摘要近期的深度思维模型在数学和编程任务中展现出卓越的推理能力。然而，这些模型在需要通过图像-动作交织轨迹与环境进行连续交互的具身领域中的有效性仍然未被探索。我们提出了具身推理器（Embodied Reasoner），该模型将 o1 阅读全文

posted @ 2025-05-07 11:26 一介布衣、阅读(344) 评论(0) 推荐(0)

2025年4月25日

InternVL3: 探索开源多模态模型的高级训练和测试方法

摘要： https://arxiv.org/abs/2504.10479 摘要我们介绍InternVL3，这是InternVL系列的一个重要进展，采用了原生的多模态预训练范式。与将纯文本大型语言模型（LLM）改编为支持视觉输入的多模态大型语言模型（MLLM）不同，InternVL3在单一预训练阶段中，同时阅读全文

posted @ 2025-04-25 15:29 一介布衣、阅读(1080) 评论(0) 推荐(0)

2025年4月22日

GPT4.1 技术报告

摘要： https://openai.com/index/gpt-4-1 【openai的技术报告越来越没意思了，除了秀肌肉，没有干货】引言今天我们正式发布API中的三个新模型：GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。这些模型在各方面均优于GPT-4.0和GPT-4.0 阅读全文

posted @ 2025-04-22 11:28 一介布衣、阅读(409) 评论(0) 推荐(0)

2025年4月20日

语音前端处理算法

摘要： https://docs.espressif.com/projects/esp-sr/zh_CN/latest/esp32s3/audio_front_end/README.html https://github.com/espressif/esp-sr https://github.com/esp 阅读全文

posted @ 2025-04-20 10:51 一介布衣、阅读(302) 评论(0) 推荐(0)

2025年4月16日

阿里语义VAD：基于改进模型结构的多任务学习推进VAD系统发展

摘要： http://arxiv.org/pdf/2312.14860v1 摘要在语音识别系统中，语音活动检测（VAD）是一个至关重要的前端模块。针对传统基于DFSMN的二值VAD系统在噪声鲁棒性方面的不足，本文进一步提出了基于多任务学习的改进模型的语义VAD，以满足实时和离线系统的特定应用需求。内部数据阅读全文

posted @ 2025-04-16 17:32 一介布衣、阅读(674) 评论(0) 推荐(0)

2025年4月10日

EMBODIEDBENCH：评估视觉驱动具身智能体的基准

摘要： https://arxiv.org/abs/2502.09560 https://embodiedbench.github.io 摘要利用多模态大型语言模型（MLLMs）创建具身代理提供了一个有前途的解决现实世界任务的途径。尽管语言为中心的具身代理已经引起了广泛关注，但由于缺乏全面的评估框架，基于阅读全文

posted @ 2025-04-10 17:43 一介布衣、阅读(463) 评论(0) 推荐(0)

2025年4月9日

ALFRED：一个用于解释日常任务中基础指令的基准

摘要： https://arxiv.org/abs/1912.01734 https://github.com/askforalfred/alfred 摘要我们提出了ALFRED（Action Learning From Realistic Environments and Directives），这是一阅读全文

posted @ 2025-04-09 11:44 一介布衣、阅读(258) 评论(0) 推荐(0)

2025年3月27日

Qwen2.5-Omni技术报告

摘要：摘要在本报告中，我们介绍了Qwen2.5-Omni，这是一种端到端的多模态模型，旨在感知包括文本、图像、音频和视频在内的多种模态，并同时以流式方式生成文本和自然语音响应。为了实现多模态信息输入的流式处理，音频和视觉编码器采用了分块处理方法。该策略有效地分离了对多模态数据长序列的处理，将感知责任分配阅读全文

posted @ 2025-03-27 18:02 一介布衣、阅读(1894) 评论(0) 推荐(0)

2025年3月16日

一种面向数据高效具身操作的原子技能库构建方法

摘要： https://arxiv.org/abs/2501.15068 摘要实体操控是实体人工智能领域的一项基本能力。尽管当前的实体操控模型在特定环境中表现出一定的泛化能力，但由于现实世界场景的复杂性和多样性，它们在新环境和任务中仍面临挑战。传统的端到端数据收集和训练方式导致了对大量数据的需求。将端到端阅读全文

posted @ 2025-03-16 16:00 一介布衣、阅读(336) 评论(0) 推荐(0)

公告