摘要: 全切分分词 如果在分词的时候本着"宁可错杀三千,不可放过一个"的原则,将句子中所有在词典中出现的词汇都找出来,这样的分词算法就叫做全切分词。 全切分词是很多种分词算法的前处理环节,利用全切分词生成有限无环图DAG,然后利用不同的算法求出一条或多条不同的路径,是很多分词算法的一部分。 算法 1. 根据 阅读全文
posted @ 2018-04-02 21:21 forin.xyz 阅读(316) 评论(0) 推荐(0)
摘要: 有限状态机 什么是有限状态机 DFA-确定性有限自动机 DFA M是一个五元组:M=(Σ,Q,σ,q0​,F)其中,Σ是输入事件的有穷集合;Q是状态的有限集合;q0​∈Q是初始状态;F⊆Q是终止状态集合;σ是Q与Σ的笛卡儿积到Q(下一个状态)的映射,它支配着有限状态控制的行为,有时也称为状态转移函数 阅读全文
posted @ 2018-03-31 07:11 forin.xyz 阅读(1576) 评论(0) 推荐(0)
摘要: 基于词典的分词 顾名思义,基于词典的分词就是要有一个词典,分词的过程就是用词典中的词和句子中的词进行比对,然后选出一个最优的切分结果。显而易见,基于词典的分词必须要维护一个好的词典,且其无法处理未登录词。 最长匹配分词 最长匹配分词指的是使用贪婪算法,从前往后匹配,匹配到最长的字串作为一个词,这种方 阅读全文
posted @ 2018-03-30 07:55 forin.xyz 阅读(823) 评论(0) 推荐(0)
摘要: tidy data test tidy data 2 test title 3 test oh no 阅读全文
posted @ 2016-12-09 07:14 forin.xyz 阅读(104) 评论(0) 推荐(0)