山东大学项目实训-基于LLM的中文法律文书生成系统(十八)- 模型评估

{

  "predict_bleu-4": 96.00244754098361,

  "predict_rouge-1": 97.58144262295083,

  "predict_rouge-2": 96.16612295081967,

  "predict_rouge-l": 96.69872295081967,

  "predict_runtime": 66.7579,

  "predict_samples_per_second": 0.914,

  "predict_steps_per_second": 0.464

}
  1. predict_bleu-4: BLEU(双语评价和检索)是一个用于评估机器翻译质量的指标。BLEU-4意味着它考虑了前四个N-gram(即1-gram, 2-gram, 3-gram, 4-gram)的匹配度。96.0024的BLEU-4分数表明模型在机器翻译任务中的表现非常好。
  2. predict_rouge-1: ROUGE(参考与候选的评估)是一个用于评估摘要质量的指标。ROUGE-1考虑了1-gram的匹配度。97.5814的ROUGE-1分数表明模型在摘要生成任务中的表现非常出色。
  3. predict_rouge-2: ROUGE-2考虑了2-gram的匹配度。96.1661的ROUGE-2分数也表明模型在摘要生成任务中的表现非常好。
  4. predict_rouge-l: ROUGE-L考虑了最长公共子序列(LCS)的匹配度。96.6987的ROUGE-L分数表明模型在摘要生成任务中的表现非常出色。
  5. predict_runtime: 模型预测的平均运行时间。66.7579秒的运行时间对于这样的模型来说是可以接受的,但可能会根据具体的使用场景和需求进行优化。
  6. predict_samples_per_second: 模型每秒处理的样本数。0.914个样本每秒表明模型在处理数据时可能存在瓶颈,可以考虑进行优化以提高处理速度。
  7. predict_steps_per_second: 模型每秒处理的步骤数。0.464个步骤每秒表明模型在处理任务时可能存在瓶颈,可以考虑进行优化以提高处理速度。
posted @ 2024-05-31 14:42  H1S96  阅读(224)  评论(0)    收藏  举报