大模型评测

大模型评测

大模型评测分为:1、基座模型的评测 2、大模型在业务系统的评测

大模型基座评测

大模型基座评测,往往由专业评测机构进行评测,跑专业定制的数据集进行相应的评测。这种评测具有一定可信性,但是也不能完全定义模型能力的高低,因为相应数据集的泛化能力还有待商榷。甚至有的大模型研发团队,会为了提高模型的知名度,会刻意的过拟合响应的测试集。另外有时候大模型在相应的数据集上,表现很高,但是在具体业务就是另外一番表现了。因此大模型基座评测对于目前的业务开发程序员,具有一定的可信度,但是不能迷信榜单。

大模型业务评测

目前绝大多数人还是基于大模型的进行相应的业务开发,所以大模型的业务系统的表现还是各位开发者对大模型评价的根本:

大模型业务评测因子

  • 大模型的搜索增强召回的物料
  • 大模型生成的内容

搜索增强召回的物料评测角度

1、召回物料的数量
2、召回物料与query 意图的相关性
3、召回物料的质量的高低

大模型生成内容:

如果是大模型生成内容直接作为最终生产内容,这类业务类似目前的ai 搜索,评测角度:
1、生成内容的丰富性
2、生成内容的逻辑性,可读性
3、生成内容的准确性
4、生成内容的完整性

通过以上分析内容,对比召回的物料,可以从召回物料的角度上对生成的效果进行评测。目前这些评测还是需要一些,熟练且对业务数据有一定经验的的评测人员进行评测。笔者团队也参考过进行相应的自动化评测,但是自动话评测需要专业的数据集来评估大模型在迭代迅速的业务系统上的表现,还是有一定的滞后性以及不准确性,业务系统的变动因子还是又一些多,因此数据集的创建还是需要一些设计。另外考虑到就算有了自动化的评测,人工的评测还是必不可少的。因此笔者团队并没有对自动化评测进行评估,但是一些比较固定的产生以及又一些预期输出的场景还是可以引入自动化评测。

通过大模型的评估指标,可以对比策略的上线效果,从而给出整个生成系统的迭代优化方向。有了评测指标,那么就对相应的策略,可以评估出相应的好坏,也可以评估出正向收益还是负向收益。

另外笔者的团队,在大模型的生成上,会生成引文,引文明确对应相应的物料。相当于生成的召回,可以从生成的召回,在原本的召回上的分布,可以看出大模型的思考方式,可以改善大模型的生成。这就是大模型基于各自业务进行相应的独特的评测方式。

迭代策略

对于大模型的生成系统,迭代策略往往是基于意图识别,从而更加精准的理解用户意图,从而召回更多优质以及准确的物料。或者基于当前的意图,不修改意图的情况下,基于多路召回、混召。进行微调,调整各路的比例,以及最终生成内容的排序规则。召回的质量对于大模型的生成质量具有一定的正向相关性,所以召回质量越好,大模型系统的生成内容质量越高。因此可以在召回物料之后还有可以基于大模型自身的能力,对物料进行相应的过滤,提高物料的相关性。

此外大模型还是基于召回物料,基于prompt 指令进行相应的总结,prompt的调试对于大模型的生成还是有明显的提升效果。大模型有时候指令遵循能力不是完美的,因此可以通过相应的输出约束,增强大模型的指令增强能力,同时进行相应的后处理,从而保证内容质量。

posted @ 2025-05-08 23:47  wsl-hitsz  阅读(88)  评论(0)    收藏  举报