【2025年华为秋招（AI）-9月17日-第三题（300分）- 大模型分词】（题目+思路+Java&C++&Python解析+在线测试) - 实践

题目内容

您正在为一种罕见的语言构建一个专用的大语言模型。由于训练样本缺失，传统$ BPE $等标准的分词器效果不佳，使得大模型推理生成的句子不理想。

幸运的是，一位语言学家为罕见的语言的已知词根和词缀(我们统称为“词元"或“ $T o k e n$ ”)都标注了一个“置信度”分数，该分数代表了该词元作为一个“独立单位”的合理性，同时，语言学家还总结出了一个转移分数表，表示当前词元选择对下一个词元"置信度"的影响。

您的任务是设计并完成一个“最优分词器”，它能将输入的罕见语言句子(一个不含空格的英文小写字符多也串)切分成一系列词元，并使得所有词元的置信度分数之和达到最大，从而帮助大语言模

posted @ 2025-09-18 16:27 ycfenxi 阅读(52) 评论(0) 收藏举报

刷新页面返回顶部