会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
一介布衣、
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
2025年4月22日
GPT4.1 技术报告
摘要: https://openai.com/index/gpt-4-1 【openai的技术报告越来越没意思了,除了秀肌肉,没有干货】 引言 今天我们正式发布API中的三个新模型:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。这些模型在各方面均优于GPT-4.0和GPT-4.0
阅读全文
posted @ 2025-04-22 11:28 一介布衣、
阅读(293)
评论(0)
推荐(0)
2025年4月20日
语音前端处理算法
摘要: https://docs.espressif.com/projects/esp-sr/zh_CN/latest/esp32s3/audio_front_end/README.html https://github.com/espressif/esp-sr https://github.com/esp
阅读全文
posted @ 2025-04-20 10:51 一介布衣、
阅读(196)
评论(0)
推荐(0)
2025年4月16日
阿里语义VAD:基于改进模型结构的多任务学习推进VAD系统发展
摘要: http://arxiv.org/pdf/2312.14860v1 摘要 在语音识别系统中,语音活动检测(VAD)是一个至关重要的前端模块。针对传统基于DFSMN的二值VAD系统在噪声鲁棒性方面的不足,本文进一步提出了基于多任务学习的改进模型的语义VAD,以满足实时和离线系统的特定应用需求。内部数据
阅读全文
posted @ 2025-04-16 17:32 一介布衣、
阅读(488)
评论(0)
推荐(0)
2025年4月10日
EMBODIEDBENCH:评估视觉驱动具身智能体的基准
摘要: https://arxiv.org/abs/2502.09560 https://embodiedbench.github.io 摘要 利用多模态大型语言模型(MLLMs)创建具身代理提供了一个有前途的解决现实世界任务的途径。尽管语言为中心的具身代理已经引起了广泛关注,但由于缺乏全面的评估框架,基于
阅读全文
posted @ 2025-04-10 17:43 一介布衣、
阅读(244)
评论(0)
推荐(0)
2025年4月9日
ALFRED:一个用于解释日常任务中基础指令的基准
摘要: https://arxiv.org/abs/1912.01734 https://github.com/askforalfred/alfred 摘要 我们提出了ALFRED(Action Learning From Realistic Environments and Directives),这是一
阅读全文
posted @ 2025-04-09 11:44 一介布衣、
阅读(124)
评论(0)
推荐(0)
2025年3月27日
Qwen2.5-Omni技术报告
摘要: 摘要 在本报告中,我们介绍了Qwen2.5-Omni,这是一种端到端的多模态模型,旨在感知包括文本、图像、音频和视频在内的多种模态,并同时以流式方式生成文本和自然语音响应。为了实现多模态信息输入的流式处理,音频和视觉编码器采用了分块处理方法。该策略有效地分离了对多模态数据长序列的处理,将感知责任分配
阅读全文
posted @ 2025-03-27 18:02 一介布衣、
阅读(1369)
评论(0)
推荐(0)
2025年3月16日
一种面向数据高效具身操作的原子技能库构建方法
摘要: https://arxiv.org/abs/2501.15068 摘要 实体操控是实体人工智能领域的一项基本能力。尽管当前的实体操控模型在特定环境中表现出一定的泛化能力,但由于现实世界场景的复杂性和多样性,它们在新环境和任务中仍面临挑战。传统的端到端数据收集和训练方式导致了对大量数据的需求。将端到端
阅读全文
posted @ 2025-03-16 16:00 一介布衣、
阅读(157)
评论(0)
推荐(0)
2023年1月18日
我的第一篇博客
摘要: 我的第一篇博客 工作得久了,就学会了慢下来,一点一滴地积累。 至此记录一下,希望能坚持下去。
阅读全文
posted @ 2023-01-18 10:12 一介布衣、
阅读(30)
评论(0)
推荐(0)
上一页
1
2
3
4
公告