摘要:
2024-10-18,由西安交通大学和圣母大学的研究人员提出了MultiChartQA,一个新的基准数据集,目的评估多模态大型语言模型(MLLMs)在处理多图表问题时的能力。这个数据集的创建填补了现有基准测试在多图表场景下的空白,对于推动MLLMs在实际应用中的多图表理解能力具有重要意义。 一、研究 阅读全文
posted @ 2024-10-22 15:33
数据猎手小k
阅读(48)
评论(0)
推荐(0)
摘要:
2024-10-19,由伊利诺伊大学厄巴纳-香槟分校和香港城市大学的研究团队提出了一种创新方法,通过将常规视频转换成伪标记的多摄像机视角推荐数据集,有效解决了在未知领域中模型泛化能力差的问题。数据集的创建,为电影、电视和其他媒体制作中的摄像机选择提供了有力的辅助,显著提高了模型在目标领域的准确性,实 阅读全文
posted @ 2024-10-22 11:28
数据猎手小k
阅读(33)
评论(0)
推荐(0)
摘要:
2024-10-10,由浙江大学和阿里巴巴集团联合创建的WORFBENCH,一个用于评估大型语言模型(LLMs)生成工作流能力的基准测试。它包含了一系列的测试和评估协议,用于量化和分析LLMs在处理复杂任务时分解问题和规划执行步骤的能力。WORFBENCH 通过模拟多种应用场景和复杂的图结构工作流, 阅读全文
posted @ 2024-10-22 10:35
数据猎手小k
阅读(53)
评论(0)
推荐(0)
摘要:
2024-10-10,由电信研究所、里斯本大学等联合创建MT-Pref数据集,它包含18种语言方向的18k实例,覆盖了2022年后的多个领域文本。通过在WMT23和FLORES基准测试上的实验,我们展示了使用MT-Pref数据集对Tower模型进行对齐可以显著提高翻译质量。 一、研究背景: 大型语言 阅读全文
posted @ 2024-10-22 10:33
数据猎手小k
阅读(55)
评论(0)
推荐(0)
浙公网安备 33010602011771号