随笔分类 -  字符串

摘要:Aho-Corasick automaton,该算法在1975年产生于贝尔实验室,是著名的多模匹配算法。 解决什么问题呢? KMP是给你一个模式串和一个文本串,要求求出模式串的匹配位置。 而AC自动机是给你一个文本串和一堆模式串,问你能匹配上多少模式串。 容易想到我们可以在Trie上跑KMP,结合二 阅读全文
posted @ 2018-05-10 20:38 _ZZH 阅读(522) 评论(0) 推荐(1)
摘要:给你一个文本串和一个模式串,问在文本串中模式串在什么时候出现过。 显然存在一种暴力写法(万能暴力): 从文本串和模式串的开头进行匹配,直到失配,则从模式串开头进行重新匹配。 显然这种写法是很慢的,失配后它只能一格一格地从头开始找。 看下面的例子: 当匹配到以下情况: 那么按照我们的暴力写法,应该是这 阅读全文
posted @ 2018-05-05 21:03 _ZZH 阅读(280) 评论(0) 推荐(0)
摘要:又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希表高。 可见根节点不包含字符,除根节点 阅读全文
posted @ 2018-05-05 20:42 _ZZH 阅读(250) 评论(0) 推荐(1)