SimpleTokenizer

输入一段文字描述，将文字描述中的自然语言转化成整形的特征（可能存在一个词变成多个整形特征），类似词带模型

每个单词映射成一个整形，映射表的构成由256个Ascii码映射+bpe常见的字符组合统计包bpe_simple_vocab_16e6.txt.gz(是字符组合的列表，列表先后顺序表示字符组合的频次)，然后由总的list和位置构成dict
映射过程是，比如需要映射bicycle,先将bicycle拆成字符'b','i','c','y','c','l','e'，然后响铃字符组合'bi','ic','cy','yc','cl','le',然后找出这些个组合在bpe_simple_vocab_16e6.txt.gz出现位置最靠前的组合（越靠前则频次越高），比如'ic'最小，在字符列表变成'b','ic','y','c','l','e'，重复上述过程，直到组合在bpe_simple_vocab_16e6.txt.gz找不到，然后返回组合最终的位置标号，比如最终组合为'bicy', 'cle'，即'bicycle'在bpe_simple_vocab_16e6.txt.gz不存在，则返回'bicy'和 'cle'在步骤1中的位置作为最终的tokenizer的结果

posted @ 2022-04-15 11:15 哈哈哈喽喽喽阅读(907) 评论(0) 收藏举报

刷新页面返回顶部

哈哈哈喽喽喽