摘要: Anthropic 最近放出了一个叫 Bloom 的开源框架,专门用来测试大语言模型会不会出现某些特定行为。比如模型是不是会阿谀奉承用户、有没有政治倾向、会不会为了自保撒谎或者试图绕过监督机制这类问题。 这个框架跟常规的评估基准不太一样。传统基准都是固定的测试集而 Bloom 会根据你的配置“长”出 阅读全文
posted @ 2025-12-24 22:33 deephub 阅读(6) 评论(0) 推荐(0)