2025 年 12月 24 日随笔档案 - deephub

2025年12月24日

摘要： Anthropic 最近放出了一个叫 Bloom 的开源框架，专门用来测试大语言模型会不会出现某些特定行为。比如模型是不是会阿谀奉承用户、有没有政治倾向、会不会为了自保撒谎或者试图绕过监督机制这类问题。这个框架跟常规的评估基准不太一样。传统基准都是固定的测试集而 Bloom 会根据你的配置“长”出阅读全文

posted @ 2025-12-24 22:33 deephub 阅读(6) 评论(0) 推荐(0)

deephub

overfit深度学习

公告