一个统计文章字数的算法，求改进

近日在做富文本编辑器时，希望将编辑器的字符统计功能改进成字数统计。

其中最重要的当然是解决如何统计中英文混合情况下的字数。

我的思路是：

1）先根据空白字符把文章分解为若干个段，分解得到的各段中的文本已不包含空白字符。

2）遍历对分解得到的各段，对每段 S_i进行如下处理，求该段的词数 C_i：

　　2.1）统计该段中连续非中文词（包括标点）出现的次数 E_i。

　　　　（例如对于 "abc好吗？abc很好。" 这个文本中，E_i = 2。）

　　2.2）统计该段中中文字符（包括标点）的字数 Z_i。

　　　　（例如对于 "abc好吗？abc很好。" 这个文本中，Z_i = 6。）

　　2.3）该段中的单词数即为 C_i = E_i+Z_i。

　　　　（根据上面的例子，C_i = 8。）

3）整篇文章的单词数 Count = ∑C_i。

在假设文章中仅出现英文字符和中文字符的情况下，划定 Unicode <= 0x00FF 的字符为英文字符，Unicode > 0x00FF 的字符为中文字符。

从而得到如下程序：

int WordCount(string value)
{
    var sec = Regex.Split(value, @"\s");
    int count = 0;
    foreach (var si in sec)
    {
        int ci = Regex.Matches(si, @"[\u0000-\u00ff]+").Count;
        foreach (var c in si)
            if ((int)c > 0x00FF) ci++;
        count += ci;
    }
    return count;
}

附上测试程序 /Files/tracydj/WordCountPerformance.rar

如果你还有好的思路和方法，请和大家一起分享。

posted on 2010-10-20 13:07 John Smith 阅读(1296) 评论(1) 收藏举报

刷新页面返回顶部

知而行

一个统计文章字数的算法，求改进

导航

公告