SimpleTokenizer

输入一段文字描述,将文字描述中的自然语言转化成整形的特征(可能存在一个词变成多个整形特征),类似词带模型

  • 每个单词映射成一个整形,映射表的构成由256个Ascii码映射+bpe常见的字符组合统计包bpe_simple_vocab_16e6.txt.gz(是字符组合的列表,列表先后顺序表示字符组合的频次),然后由总的list和位置构成dict
  • 映射过程是,比如需要映射bicycle,先将bicycle拆成字符'b','i','c','y','c','l','e',然后响铃字符组合'bi','ic','cy','yc','cl','le',然后找出这些个组合在bpe_simple_vocab_16e6.txt.gz出现位置最靠前的组合(越靠前则频次越高),比如'ic'最小,在字符列表变成'b','ic','y','c','l','e',重复上述过程,直到组合在bpe_simple_vocab_16e6.txt.gz找不到,然后返回组合最终的位置标号,比如最终组合为'bicy', 'cle',即'bicycle'在bpe_simple_vocab_16e6.txt.gz不存在,则返回'bicy'和 'cle'在步骤1中的位置作为最终的tokenizer的结果
posted @ 2022-04-15 11:15  哈哈哈喽喽喽  阅读(858)  评论(0)    收藏  举报