摘要: https://openai.com/index/gpt-4-1 【openai的技术报告越来越没意思了,除了秀肌肉,没有干货】 引言 今天我们正式发布API中的三个新模型:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。这些模型在各方面均优于GPT-4.0和GPT-4.0 阅读全文
posted @ 2025-04-22 11:28 一介布衣、 阅读(293) 评论(0) 推荐(0)
摘要: https://docs.espressif.com/projects/esp-sr/zh_CN/latest/esp32s3/audio_front_end/README.html https://github.com/espressif/esp-sr https://github.com/esp 阅读全文
posted @ 2025-04-20 10:51 一介布衣、 阅读(196) 评论(0) 推荐(0)
摘要: http://arxiv.org/pdf/2312.14860v1 摘要 在语音识别系统中,语音活动检测(VAD)是一个至关重要的前端模块。针对传统基于DFSMN的二值VAD系统在噪声鲁棒性方面的不足,本文进一步提出了基于多任务学习的改进模型的语义VAD,以满足实时和离线系统的特定应用需求。内部数据 阅读全文
posted @ 2025-04-16 17:32 一介布衣、 阅读(488) 评论(0) 推荐(0)
摘要: https://arxiv.org/abs/2502.09560 https://embodiedbench.github.io 摘要 利用多模态大型语言模型(MLLMs)创建具身代理提供了一个有前途的解决现实世界任务的途径。尽管语言为中心的具身代理已经引起了广泛关注,但由于缺乏全面的评估框架,基于 阅读全文
posted @ 2025-04-10 17:43 一介布衣、 阅读(244) 评论(0) 推荐(0)
摘要: https://arxiv.org/abs/1912.01734 https://github.com/askforalfred/alfred 摘要 我们提出了ALFRED(Action Learning From Realistic Environments and Directives),这是一 阅读全文
posted @ 2025-04-09 11:44 一介布衣、 阅读(124) 评论(0) 推荐(0)
摘要: 摘要 在本报告中,我们介绍了Qwen2.5-Omni,这是一种端到端的多模态模型,旨在感知包括文本、图像、音频和视频在内的多种模态,并同时以流式方式生成文本和自然语音响应。为了实现多模态信息输入的流式处理,音频和视觉编码器采用了分块处理方法。该策略有效地分离了对多模态数据长序列的处理,将感知责任分配 阅读全文
posted @ 2025-03-27 18:02 一介布衣、 阅读(1369) 评论(0) 推荐(0)
摘要: https://arxiv.org/abs/2501.15068 摘要 实体操控是实体人工智能领域的一项基本能力。尽管当前的实体操控模型在特定环境中表现出一定的泛化能力,但由于现实世界场景的复杂性和多样性,它们在新环境和任务中仍面临挑战。传统的端到端数据收集和训练方式导致了对大量数据的需求。将端到端 阅读全文
posted @ 2025-03-16 16:00 一介布衣、 阅读(157) 评论(0) 推荐(0)
摘要: 我的第一篇博客 工作得久了,就学会了慢下来,一点一滴地积累。 至此记录一下,希望能坚持下去。 阅读全文
posted @ 2023-01-18 10:12 一介布衣、 阅读(30) 评论(0) 推荐(0)