摘要: 如何建立词项词典 文档解析 识别不同文档格式/识别文档语言/识别文档编码方式/一个文档或其附件中包含多种语言或格式 词条化 定义:将给定的自负系列拆分为一系列子序列的过程,其中每一个子序列称之为一个“词条”Token 词条化可能会遇到的问题:连字符/空格、连字符空格相互影响、英文句号的考虑、数字的考 阅读全文
posted @ 2020-05-21 16:01 月沫 阅读(200) 评论(0) 推荐(0) 编辑