摘要: 题目 给定一个字符串,请你找出其中不含有重复字符的 最长子串 的长度。 示例 1: 输入: s = "abcabcbb"输出: 3 解释: 因为无重复字符的最长子串是 "abc",所以其长度为 3。 思路 构造子串的首尾指针。 判断子串是否重复的方法:利用string的find_first_of方法 阅读全文
posted @ 2021-05-15 10:36 linkcxt 阅读(48) 评论(0) 推荐(0)
摘要: jieba分词问题导引 用户词典大小最大可以有多大 用户词典大小对速度的影响 有相同前缀和后缀的词汇如何区分 对比百度分词的API 问题一:词典大小 从源码大小分析,整个jieba分词的源码总容量为81MB,其中系统词典dict.txt的大小为5.16MB,所以用户词典至少可以大于5.16MB,在从 阅读全文
posted @ 2021-05-15 10:34 linkcxt 阅读(1652) 评论(0) 推荐(0)
摘要: 目标 查看jieba分词组件源码,分析源码各个模块的功能,找到分词模块,实现能自定义分词字典,且优先级大于系统自带的字典等级,以医疗词语邻域词语为例。 jieba分词地址:github地址:https://github.com/fxsjy/jieba jieba四种分词模式 精确模式,试图将句子最精 阅读全文
posted @ 2021-04-24 11:23 linkcxt 阅读(3311) 评论(0) 推荐(0)