题目内容

您正在为一种罕见的语言构建一个专用的大语言模型。由于训练样本缺失,传统$ BPE $等标准的分词器效果不佳,使得大模型推理生成的句子不理想。

幸运的是,一位语言学家为罕见的语言的已知词根和词缀(我们统称为“词元"或“TokenTokenToken”)都标注了一个“置信度”分数,该分数代表了该词元作为一个“独立单位”的合理性,同时,语言学家还总结出了一个转移分数表,表示当前词元选择对下一个词元"置信度"的影响。

您的任务是设计并完成一个“最优分词器”,它能将输入的罕见语言句子(一个不含空格的英文小写字符多也串)切分成一系列词元,并使得所有词元的置信度分数之和达到最大,从而帮助大语言模

posted on 2025-09-18 16:27  ycfenxi  阅读(22)  评论(0)    收藏  举报