• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
思想人生从关注生活开始
博客园    首页    新随笔    联系   管理    订阅  订阅

Tokenizer分词器-OpenAI API系统快速入门

GPT 系列模型使用标记处理文本,标记是在文本中找到的常见字符序列。这些模型了解这些令牌之间的统计关系,并擅长在令牌序列中生成下一个令牌。

您可以使用下面的工具来了解 API 如何标记一段文本,以及该文本中的标记总数。

 

 

一个有用的经验法则是,对于常见的英语文本,一个标记通常对应于 ~4 个字符的文本。这相当于大约一个单词的 3/4(所以 100 个标记 ~= 75 个单词)。

如果您需要一个用于标记文本的编程接口,请查看 python 的转换器包或 node.js 的gpt-3-encoder包。

posted @ 2023-02-13 10:57  JackYang  阅读(614)  评论(1)    收藏  举报
刷新页面返回顶部
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3