山东大学项目实训-基于LLM的中文法律文书生成系统（十八）- 模型评估

{

  "predict_bleu-4": 96.00244754098361,

  "predict_rouge-1": 97.58144262295083,

  "predict_rouge-2": 96.16612295081967,

  "predict_rouge-l": 96.69872295081967,

  "predict_runtime": 66.7579,

  "predict_samples_per_second": 0.914,

  "predict_steps_per_second": 0.464

}

predict_bleu-4: BLEU（双语评价和检索）是一个用于评估机器翻译质量的指标。BLEU-4意味着它考虑了前四个N-gram（即1-gram, 2-gram, 3-gram, 4-gram）的匹配度。96.0024的BLEU-4分数表明模型在机器翻译任务中的表现非常好。
predict_rouge-1: ROUGE（参考与候选的评估）是一个用于评估摘要质量的指标。ROUGE-1考虑了1-gram的匹配度。97.5814的ROUGE-1分数表明模型在摘要生成任务中的表现非常出色。
predict_rouge-2: ROUGE-2考虑了2-gram的匹配度。96.1661的ROUGE-2分数也表明模型在摘要生成任务中的表现非常好。
predict_rouge-l: ROUGE-L考虑了最长公共子序列（LCS）的匹配度。96.6987的ROUGE-L分数表明模型在摘要生成任务中的表现非常出色。
predict_runtime: 模型预测的平均运行时间。66.7579秒的运行时间对于这样的模型来说是可以接受的，但可能会根据具体的使用场景和需求进行优化。
predict_samples_per_second: 模型每秒处理的样本数。0.914个样本每秒表明模型在处理数据时可能存在瓶颈，可以考虑进行优化以提高处理速度。
predict_steps_per_second: 模型每秒处理的步骤数。0.464个步骤每秒表明模型在处理任务时可能存在瓶颈，可以考虑进行优化以提高处理速度。

posted @ 2024-05-31 14:42 H1S96 阅读(224) 评论(0) 收藏举报

刷新页面返回顶部

h1s97x

山东大学项目实训-基于LLM的中文法律文书生成系统（十八）- 模型评估

公告