随笔分类 -  Code

摘要:不多介绍,可自行Google,或者其它关键词: "datrie" 放代码链接: "double_array_trie.py" 因为也是一段学习代码,参考的文章都记在里面了,主要参考github项目: komiya atsushi/darts java。 另外,增加了一个从某叶子节点回溯得到字符串的方 阅读全文
posted @ 2018-05-16 16:46 Comero 阅读(1155) 评论(1) 推荐(0)
摘要:通过unihan的文件来实现。 只要是unihan中有kTotalStrokes字段,获取其笔画数。 Hash也是非常简单清楚的,但想到这些unicode其实会有一个分布规律,就记录了一下, 利用此性质通过数组方式来获取笔画。 记录了一下unicode的范围 start: [13311, 19968 阅读全文
posted @ 2018-05-06 11:02 Comero 阅读(5962) 评论(0) 推荐(0)
摘要:0. 背景 因为最近在看平行语料句对齐、词对齐的缘故,想做对齐的话需要先做一个分句。 一开始利用正则和引号开关标志写了一种方法,中间想到一个小技巧,写出来比较简单通用,想把这一小段代码分享一下。 1. 原理 一些情况下,标点也算是比较好的一个特征,这里就想尽量正确的切分。 主要考虑到的问题包括: + 阅读全文
posted @ 2018-04-27 09:41 Comero 阅读(700) 评论(0) 推荐(0)