• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录

littlesuccess

  • 博客园
  • 联系
  • 订阅
  • 管理

公告

View Post

书生开源大模型训练营-第6讲-笔记

1、模型评测的Why, What How?为什么要做模型评测,评测什么,以及怎样评测。

2、模型评测的Why?

  • 用户:可以知道那个模型好,便于选择
  • 开发者:知道模型的能力边界,以便提升

3、What

  • 知识、语言、推理
  • 长文本生成、Agent工具的使用能力
  • 情感、认知
  • 垂直领域:如医疗

4、How

  • 基座模型 VS 微调模型
  • 主管评测 VS 客观评测

5、评测框架

  • Stanford
  • Berkeley
  • HuggingFace
  • 北京智源

6、OpenCompass:Meta唯一推荐

 7、大模型评测面临的挑战

 8、动手

a、安装

 

posted on 2024-02-19 16:46  littlesuccess  阅读(19)  评论(0)    收藏  举报

刷新页面返回顶部
 
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3