摘要: Check List 测试而不是评估 如何评估nlp模型呢?accuracy?在held-out dataset上的正确率往往是偏高的,生产环境中完全是另一番光景。perplexity?只能用于衡量Language model,详细可以看之前的bolg。近些年也有不少方法,可惜只能用于特定的任务或问 阅读全文
posted @ 2021-01-10 23:28 zoheth 阅读(126) 评论(0) 推荐(0)