2024 年 11月 18 日随笔档案 - 数据猎手小k

2024年11月18日

Chinese SimpleQA：包含3000个高质量问题，覆盖6个主要主题，每个主题下有99个细分主题，用来评估大型语言模型中文事实性能力的基准测试.

摘要： 2024-11-12, 由阿里巴巴集团旗下的淘宝和天猫团队创建的Chinese SimpleQA数据集，是首个全面评估语言模型回答简短问题事实性能力的中文基准测试。该数据集的创建，为理解和提升大型语言模型在中文环境下的事实性回答能力提供了重要的工具和标准。一、研究背景：随着大型语言模型（LLMs 阅读全文

posted @ 2024-11-18 18:17 数据猎手小k 阅读(113) 评论(0) 推荐(0)

公告