字的bi-gram是个馊主意么？

续之前的贴子，我们有了部精修词典，二至六字词共169872个。

foreach 词，用字的2-gram去检查首选是否正确，结果很差，可在〔这里〕下载

123094个不一样的。部分结果：

䴔䴖 交警
𫘝𫘨 抉剔
吖嗪 阿嗪
腌菜 言采
腌肉 眼肉
折光度 遮光度
折斤斗 辄筋斗
折腰步 这么不
折子书 折子数
折子戏 着自西
坐言起行 坐厌其形
坐以待毙 做一代币
坐拥书城 作用书城
座无虚席 坐无须喜
爆炒鹅卵石 饱巢蛾卵石
杯酒释兵权 备就是冰泉
北赤道海流 背驰道还留
北京直立人 北京治理人
唯恐天下不乱 惟恐天下不乱
维也纳华尔兹 畏耶纳花儿子
中性日照植物 中兴日照植物
做一行怨一行 做一星愿意行

但是，这不说明如果我作个输入法就不好用。因为我会带苗条利落的系统词典。

含多音字的词有29953个，重点检查行、差、和、薄、说、埋。慢慢手工改。

用这个程序处理了下词典

import re
ptn = re.compile(r'(ch|sh|zh|b|c|d|f|g|h|j|k|l|m|n|p|q|r|s|t|w|x|y|z)')
d = {}
for s in open('sysdic.utf8'):
  f = s.split()
  hz = f[0]; jianpin = []
  for py in f[1].split("'"):
    m = re.match(ptn, py)
    if m == None: shengmu = '0'
    else: shengmu = py[:min(m.span()[1], 1)]
    jianpin.append(shengmu)
  d.setdefault(''.join(jianpin), []).append(hz)
max = 0
for k,v in d.items():
  n = len(v)
  if n > max: max = n; print(k, v)
print('\n', max)

View Code

最多的是yy，817个，如...'郧阳', '陨越', '孕婴', '孕育', '蕴意', '蕴育', '韵语']。第二多的是jj :-)

So, 启动时造unordered_map，key是yy这样的简拼（已考虑z-zh...这样的模糊音），

然后顺序匹配。用0代表0声母，如wangerjie在w0j里，输入werj可找到。n'ai's可找到纳爱斯。

系统词典里的词条长这样：哀嚎 0aihao 0h

哀嚎既在0h里，也在0aihao里。

C++11标准库<regex>匹配。可查到一些就返回。查不到时用户可输全拼。

讲普通话是每个公民应尽的义务，c=ch, s=sh, z=zh就够了
电梯口有个年龄和我差不多一样的，整天捧着手机刷视频

编程使我快乐，编不动了我还可以整理词典

一高兴买了个AOC的显示器，389元 24.5" 1080p, 字大还不用老转头，字体用13pt JetBrains Pro

SQLite, gcc和regex都不是神一般快，新电脑主频高不了一倍也没大用。核多sort快，但我都排完了。

Anyway，股票+50%就买核数+50%的电脑，消费型社会么
gcc编译xfce4-terminal的.c们比较快；I blame g++; 或者因为N100从0.9G到3.6G需要时间；clang++快一点点
clang++的预编译头文件9.1M，比gcc的53M小多了

SysDic loaded in 0.082s. 常量表达式外提等优化到0.07秒。鄙人的华容道真快。

248行程序，系统词典、语言模型和用户词典都有了（没算头文件，可print也不是必须的）
用户词典支持事务和journal哈。可用sqlite3/C++/Python...（编程）导入导出、合并去重…
系统词典是文本文件，不必按词长有序
综上，叫Open Pinyin不过分吧？

接下来：

用字符串查用户词典，any to any，可以aaaa变①
打碎拼音串，查系统词典
语言模型找首选
以上都没有则进入造词模式，用户每选一个字，再用LM找

LM质量不错，输入单位是词而不是句子，我嫌麻烦，总之就不用词组词了

新造的词加入用户词典。我又嫌麻烦，用werj造的王二姐，用wangerjie找不到
- 养成固定习惯、肌肉记忆
InputContext::on_key，横排候选算长度好烦
做成UDP Server

#include "h.h"
template<class K, class V>using dict = unordered_map<K, V>;
using strvec = vector<string>; using wstrvec = vector<wstring>;

string wstr2utf8 (const wstring_view& ws) {
  size_t n = ws.size() * 3 + 1;
  char* s = new char[n]; wcstombs(s, ws.data(), n);
  string str(s); delete[] s; return str;
}

struct YJ { // yinjie (syllable)
  string sh, y; // "shi" = { "sh", "i" }
  operator string () const {
    static const string ptn = "[aeiouvng]+";
    return y.size() ? (sh + y) : (sh + ptn);
  }
};

vector<YJ> break_pinyin_str (const char* s) {
  static const regex _sh("^(ch|sh|zh|b|c|d|f|g|h|j|k|l|m|n|p|q|r|s|t|w|x|y|z)");
  static const regex _y("^(uang|iong|iang|ang|uan|eng|ing|ian|ong|iao|uai|er|in|ou|an|ue|ei|ui|ua|iu|ao|ai|un|en|ia|ie|uo|o|u|v|a|i|e)");
  vector<YJ> r;
  for (cmatch m; *s;) {
    if (*s == '\'') { ++s; continue; }
    const int i = regex_search(s, m, _sh) ? m.length() : 0;
    const int n = regex_search(s + i, m, _y) ? m.length() : 0;
    if (i || n) {
      r.emplace_back(YJ{string(s, i), string(s + i, n)});
      s += i + n;
    }
    else break;
  }
  return r;
}

static struct SysDic {
  dict<string, wstrvec> _d; // quanpin
  struct hz_qp { wstring hz; string qp; }; // hanzi & quanpin
  dict<string, vector<hz_qp>> _d2;  // jianpin

  void load();
  wstrvec find(const vector<YJ>& yjs, int i = -1);
} _sysdic;

void SysDic::load () {
  double tm = clock();
  FILE* f = fopen("sysdic.txt", "rb"); assert(f);
  _d.reserve(77625); _d2.reserve(21766);
  const wstrvec E; const vector<hz_qp> E2;
  for (char s[512]; fgets(s, sizeof(s), f);) { // 䴔䴖 jiaojing jj
    static const char S[] = " \n";
    char* utf8 = strtok(s, S); assert(utf8);
    wchar_t hz[16]; mbstowcs(hz, utf8, lenof(hz));
    char* qp = strtok(0, S); assert(qp);
    char* jp = strtok(0, S); assert(jp);
    _d.insert({qp, E}).first->second.emplace_back(hz);
    _d2.insert({jp, E2}).first->second.emplace_back(hz_qp{hz, qp});
  }
  fclose(f);
  printf("SysDic loaded, %fs %lu %lu\n", (clock() - tm) / CLOCKS_PER_SEC, _d.size(), _d2.size());
}

wstrvec SysDic::find (const vector<YJ>& yjs, int i) {
  string quan, jian;
  if (i != -1) { quan = yjs[i]; jian = yjs[i].sh[0]; }
  else for (const YJ& yj : yjs) { quan += yj; jian += yj.sh[0]; }
  const auto it = _d.find(quan);
  if (it != _d.end()) return it->second;
  wstrvec r;
  const auto it2 = _d2.find(jian);
  if (it2 == _d2.end()) return r;
  const regex ptn(quan); smatch m;
  for (const auto& hq : it2->second)
    if (regex_match(hq.qp, m, ptn)) r.emplace_back(hq.hz);
  return r;
}

struct Token {
  uint16_t hz;
  float prob, bop; // 1-gram; backoff probability/penalty
  float max; int from;

  Token (uint16_t hanzi) : hz(hanzi) {}
  bool operator< (const Token& that) const { return prob > that.prob; }
  void print() const {
    wchar_t wc = hz; char s[4] = ""; wctomb(s, wc);
    printf("%s %2d %8.3f ", s, from, max);
  }
};

template<int KL, int VL> struct SortedAry {
  enum { RL = KL + VL }; // [record|key|value|] length
  uint8_t (*_a)[RL]; int _n;

  ~SortedAry () { delete[] _a; }

  void load (const char* fn) {
    FILE* f = fopen(fn, "rb"); assert(f); fseek(f, 0, SEEK_END);
    _n = ftell(f) / RL; _a = new uint8_t [_n][RL];
    rewind(f); fread(_a, RL, _n, f); fclose(f);
  }

  bool get (void* v, const void* k) {
    int l = 0, h = _n - 1;
    while (l <= h) {
      const int m = (l + h) >> 1;
      int c = memcmp(k, _a[m], KL);
      if (c == 0) return memcpy(v, _a[m] + KL, VL);
      else if (c < 0) h = m - 1;
      else l = m + 1;
    }
    return false;
  }
};

static struct LM {
  SortedAry<2, 4+4> _1; SortedAry<2+2, 4> _2;
  vector<vector<Token>> _m; // matrix (lattice)
  vector<size_t> _path;

  void load () { _1.load("lm1.bin"); _2.load("lm2.bin"); }
  vector<Token> get_column(const vector<YJ>& yjs, int i);
  float bigram (int x, int y, int y2) {
    uint16_t hz[2] = { _m[x][y].hz, _m[x + 1][y2].hz };
    float prob;
    if (!_2.get(&prob, hz)) prob = _m[x][y].bop + _m[x + 1][y2].prob;
    return prob;
  }
  wstring viterbi();
  void print();
  wstring predict(const vector<YJ>& yjs, size_t i = 0);
} _lm;

vector<Token> LM::get_column (const vector<YJ>& yjs, int i) {
  vector<Token> tkc; // token column/collection
  for (const auto& hz : _sysdic.find(yjs, i)) tkc.emplace_back(hz[0]);
  for (auto& tk : tkc) {
    float f[2];
    if (_1.get(f, &tk.hz)) { tk.prob = f[0]; tk.bop = f[1]; }
    else tk.prob = tk.bop = -19;
    tk.max = -1E4; tk.from = 0;
  }
  sort(tkc.begin(), tkc.end()); // or partial_sort()
  return tkc;
}

wstring LM::viterbi () {
  size_t lastX = _m.size() - 1; // size_t is long unsigned; make sure size() >= 1

  for (size_t y = 0; y < _m[0].size(); y++) _m[0][y].max = _m[0][y].prob;

  for (size_t x = 0; x < lastX; x++) {  // [:-2]
    const size_t n = min(33ul, _m[x].size());
    for (size_t y = 0; y < n; y++) {
      const size_t x2 = x + 1;
      const size_t m = min(33ul, _m[x2].size());
      for (size_t y2 = 0; y2 < m; y2++) {
        const float prob = _m[x][y].max + bigram(x, y, y2);
        if (prob > _m[x2][y2].max) { _m[x2][y2].max = prob; _m[x2][y2].from = y; }
      }
    }
  }

  _path.resize(_m.size()); float max = -1E8;
  for (size_t y = 0; y < _m[lastX].size(); y++) {
    const float p = _m[lastX][y].max;
    if (p > max) { max = p; _path[lastX] = y; }
  }
  for (size_t x = lastX; x; x--) _path[x - 1] = _m[x][_path[x]].from;

  wstring ws;
  for (size_t x = 0; x <= lastX; x++) ws += _m[x][_path[x]].hz;
  return ws;
}

void LM::print () {
  size_t maxY = 0, y;
  for (const auto& col : _m) ((y = col.size()) > maxY) && (maxY = y);
  maxY = min(25ul, maxY);
  for (y = 0; y < maxY; y++) {
    printf("%02lu: ", y);
    for (size_t x = 0; x < _m.size(); x++) {
      const auto& col = _m[x];
      if (y == _path[x]) printf("\e[31m");
      if (y < col.size()) col[y].print(); else printf("%15c", ' ');
      if (y == _path[x]) printf("\e[0m");
    }
    puts("");
  }
}

wstring LM::predict (const vector<YJ>& yjs, size_t i) {
  _m.resize(0);
  for (; i < yjs.size(); i++) {
    _m.emplace_back(get_column(yjs, i));
    if (!_m.back().size()) break;
  }
  return _m.size() ? viterbi() : L"";
}

static struct UsrDic {
  sqlite3* _db; sqlite3_stmt *_st, *_st2;

   UsrDic () : _db(0), _st(0), _st2(0) {}
  ~UsrDic () { if (_st2) sqlite3_finalize(_st2), sqlite3_finalize(_st), sqlite3_close(_db); }

  void load() {
    assert(sqlite3_open("usrdic.db", &_db) == SQLITE_OK);
    assert(sqlite3_exec(_db, "CREATE TABLE IF NOT EXISTS dic (key VARCHAR(255), hz VARCHAR(255))",
      0, 0, 0) == SQLITE_OK);
    assert(sqlite3_exec(_db, "CREATE INDEX IF NOT EXISTS dic_key ON dic (key)", 0, 0, 0) == SQLITE_OK);
    assert(sqlite3_prepare_v2(_db, "INSERT INTO dic (key, hz) VALUES (?,?)", -1, &_st, 0) == SQLITE_OK);
    assert(sqlite3_prepare_v2(_db, "SELECT hz FROM dic WHERE key=?", -1, &_st2, 0) == SQLITE_OK);
  }

  bool add (const string_view& key, const wstring_view& hz) {
    sqlite3_bind_text(_st, 1, key.data(), key.size(), SQLITE_STATIC);
    sqlite3_bind_text(_st, 2, wstr2utf8(hz).data(), -1, SQLITE_STATIC);
    bool ok = (sqlite3_step(_st) == SQLITE_DONE);
    sqlite3_reset(_st);
    return ok;
  }

  wstrvec find (const string_view& key) {
    wstrvec r;
    sqlite3_bind_text(_st2, 1, key.data(), key.size(), SQLITE_STATIC);
    while (sqlite3_step(_st2) == SQLITE_ROW) {
      wchar_t hz[256]; mbstowcs(hz, (const char*)sqlite3_column_text(_st2, 0), lenof(hz));
      r.emplace_back(hz);
    }
    sqlite3_reset(_st2);
    return r;
  }
} _usrdic;

int main () {
  setlocale(LC_CTYPE, "zh_CN.UTF-8");
  _sysdic.load(); _lm.load(); _usrdic.load();
  return 0;
}

#if 0
  _usrdic.add("aaa", L"测试");
  _usrdic.add("aaa", L"一下");
  for (auto t : _usrdic.find("aaa")) cout << wstr2utf8(t) << '\n';

  vector<YJ> yjs = break_pinyin_str ("yy");
  for (auto yj: yjs) cout << string(yj) << '\n';
  auto r = _sysdic.find(yjs);
  for (const auto& hz : r) cout << wstr2utf8(hz) << '\n';
  cout << r.size() << '\n';

  cout << wstr2utf8(_lm.predict(yjs)) << '\n';
#endif

View Code

离地三尺有神明啊，刚取笑完Java/C#程序员，就发现自己的bug了。

predict()里，if (!_m.back().size()) break; 前应 pop_back()，因为size()为0的列已被加入了
忘了对0声母的处理。yiy是yi-y，y'iy变成y-i-y，i不是合法拼音（没有字）。aiai测试通过
werj，wer是声母+韵母但不是合法拼音。把旧版的Pinyin trie加回来
我记得不用把声母全大写或首字母大写; r'n[aeiouvng]+n[aeiouvng]+'匹配'nangnang'
把struct YJ改成string，在切分拼音时造好
没大必要存词的ID而不是字符串
为了装B，费了很大劲把{ 换行、printf/puts改成像：_d2.insert({jp, E2}).first->second.emplace_back(hz_qp{hz, qp}); 调试时还得改回去

〔这个〕也晦涩

posted @ 2025-11-16 00:53 华容道专家阅读(21) 评论(0) 收藏举报

刷新页面返回顶部

Penilum meum pullo sententia Latin a est 「通过浪费时间获得快乐」

字的bi-gram是个馊主意么？