摘要: 面向大语言模型(LLM)的文本生成质量评估框架 作为文本大模型的评测工程师,我深知长文本生成(通常指500词以上或连续多段落的输出)是当前大模型能力的关键挑战点。与短文本不同,长文本更易暴露模型的上下文保持能力、逻辑连贯性、错误累积风险等深层问题。错误在长文本中会被放大,导致用户体验断崖式下降(例如 阅读全文
posted @ 2025-11-06 14:22 Syw_文 阅读(60) 评论(0) 推荐(0)