会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
forin.xyz
博客园
首页
新随笔
联系
订阅
管理
2018年4月2日
全切分分词
摘要: 全切分分词 如果在分词的时候本着"宁可错杀三千,不可放过一个"的原则,将句子中所有在词典中出现的词汇都找出来,这样的分词算法就叫做全切分词。 全切分词是很多种分词算法的前处理环节,利用全切分词生成有限无环图DAG,然后利用不同的算法求出一条或多条不同的路径,是很多分词算法的一部分。 算法 1. 根据
阅读全文
posted @ 2018-04-02 21:21 forin.xyz
阅读(316)
评论(0)
推荐(0)
2018年3月31日
有限状态机与分词
摘要: 有限状态机 什么是有限状态机 DFA-确定性有限自动机 DFA M是一个五元组:M=(Σ,Q,σ,q0,F)其中,Σ是输入事件的有穷集合;Q是状态的有限集合;q0∈Q是初始状态;F⊆Q是终止状态集合;σ是Q与Σ的笛卡儿积到Q(下一个状态)的映射,它支配着有限状态控制的行为,有时也称为状态转移函数
阅读全文
posted @ 2018-03-31 07:11 forin.xyz
阅读(1576)
评论(0)
推荐(0)
2018年3月30日
汉语分词初探
摘要: 基于词典的分词 顾名思义,基于词典的分词就是要有一个词典,分词的过程就是用词典中的词和句子中的词进行比对,然后选出一个最优的切分结果。显而易见,基于词典的分词必须要维护一个好的词典,且其无法处理未登录词。 最长匹配分词 最长匹配分词指的是使用贪婪算法,从前往后匹配,匹配到最长的字串作为一个词,这种方
阅读全文
posted @ 2018-03-30 07:55 forin.xyz
阅读(823)
评论(0)
推荐(0)
2016年12月9日
tidy date
摘要: tidy data test tidy data 2 test title 3 test oh no
阅读全文
posted @ 2016-12-09 07:14 forin.xyz
阅读(104)
评论(0)
推荐(0)
公告