这才是个比较正经的词典;Python真快

下面这个土程序

import sys
d = {}
for s in open('sougou', 'r'):
  f = s.split()
  if len(f) == 0: continue
  d.setdefault(f[0], [0])[0] = '-'.join(f[1:])
for s in sys.stdin:
  f = s.split()
  if len(f) == 0: continue
  w = f[0]
  v = d.get(w)
  if v is not None:
    print(w, v[0])

输入是303M,9599105行。

我一根烟都没抽完,得到的out是:1.3M,70740行

https://github.com/beavailable/better-wubi

  • 以大陆商务印书馆《现代汉语词典》(第7版)(约5.9万词)、上海辞书出版社《现代汉语大词典》(约10万词)及《现代汉语新词语词典》(第2版)(约1万词)和台湾教育部《重編國語辭典修訂本》(约15.1万词)、《成語典》(约0.75万词)(以下简称“五词典”)为基准
  • 完整包括《现代汉语词典》(第7版)、《现代汉语大词典》、《现代汉语新词语词典》(第2版)词头
  • 整合了9种五笔码表(王码大一统、QQ五笔、极点五笔、孤狐世纪词库、至善词库、冰凌五笔、黄狗五笔、精灵五笔、花儿五笔)的公共词语
  • 原则上不含5字以上词语(“五词典”词头除外)
  • 原则上不含外国人名、地名、品牌名等(“五词典”词头除外)
  • 完整包括民政部县以上行政区划简称(即只有“北京”,没有“北京市”等),并清理了地域词(即没有“北京动物园”等)
  • 完整包括教育部76所直属大学名称
  • 完整包括各届中国大陆及港澳台地区领导人姓名,其他国内人名仅含“五词典”词头中的历史人物姓名

就算如此,依然包含 阿屎 阿里味 苏珊大爷 等。华宇拼音就没有这些乱七八糟的“词”。

posted @ 2025-11-20 15:31  华容道专家  阅读(12)  评论(0)    收藏  举报