会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Comero 's Blog
博客园
首页
新随笔
联系
订阅
管理
2018年5月16日
Double Array Trie 的Python实现
摘要: 不多介绍,可自行Google,或者其它关键词: "datrie" 放代码链接: "double_array_trie.py" 因为也是一段学习代码,参考的文章都记在里面了,主要参考github项目: komiya atsushi/darts java。 另外,增加了一个从某叶子节点回溯得到字符串的方
阅读全文
posted @ 2018-05-16 16:46 Comero
阅读(1153)
评论(1)
推荐(0)
2018年5月6日
Python 获得汉字笔画
摘要: 通过unihan的文件来实现。 只要是unihan中有kTotalStrokes字段,获取其笔画数。 Hash也是非常简单清楚的,但想到这些unicode其实会有一个分布规律,就记录了一下, 利用此性质通过数组方式来获取笔画。 记录了一下unicode的范围 start: [13311, 19968
阅读全文
posted @ 2018-05-06 11:02 Comero
阅读(5923)
评论(0)
推荐(0)
2018年5月5日
Unihan(统汉字)常用字段介绍
摘要: "0 背景" "1 文件" + "1.1 IRG Sources" + "1.2 Dictionary Indices" + "1.3 Dictionary like Data" + "1.4 Other Mappings" + "1.5 Radical stroke Indices" + "1.6
阅读全文
posted @ 2018-05-05 17:44 Comero
阅读(2926)
评论(0)
推荐(0)
[译] Z-variant (Z变体)
摘要: 阅读目录 "1. Z轴上的区别" "2. 问题" Unihan 的 kZVariant 字段 译自: en.wikipedia.org/wiki/Z variant | 已发布zh.wiki 在Unicode中,如果两个字形共享相同的词源(etymology),但外观和Unicode字符编码稍有不同
阅读全文
posted @ 2018-05-05 08:39 Comero
阅读(625)
评论(0)
推荐(0)
2018年4月27日
Python3 中日语料分句实现
摘要: 0. 背景 因为最近在看平行语料句对齐、词对齐的缘故,想做对齐的话需要先做一个分句。 一开始利用正则和引号开关标志写了一种方法,中间想到一个小技巧,写出来比较简单通用,想把这一小段代码分享一下。 1. 原理 一些情况下,标点也算是比较好的一个特征,这里就想尽量正确的切分。 主要考虑到的问题包括: +
阅读全文
posted @ 2018-04-27 09:41 Comero
阅读(695)
评论(0)
推荐(0)
2017年1月19日
Ubuntu更换硬盘
摘要: 0x00 背景: + 目前ubuntu用的是一个80g的硬盘( 一开始没买硬盘,直接拆了一个老老老老的机子来用),系统16.04, 只有一个/分区 ( /dev/sdb1 ) 。 + 新的硬盘是一块256G的SSD,新装了一个系统,除了2G的swap,其他都归 / 目录了( /dev/sda1 )。
阅读全文
posted @ 2017-01-19 22:33 Comero
阅读(913)
评论(0)
推荐(0)
公告