开源最强中文纠错大模型,超越华为17个点!
项目地址:
文本纠错任务在审查、写作任务中至关重要,以前的纠错大多采用小模型进行训练,例如BART、T5、BERT等,但是小模型的泛化性较差,需要在不同领域训练不同的小模型进行纠错,为此我们使用200万数据进行大模型的训练,经过验证我们在
1、数据集
| 数据集名称 | 数据链接 | 数据量和类别说明 | 描述 |
|---|---|---|---|
| CSC(拼写纠错数据集) | W271K:279,816 条,Medical:39,303 条,Lemon:22,259 条,ECSpell:6,688 条,CSCD:35,001 条 | 中文拼写纠错的数据集 | |
| CGC(语法纠错数据集) | CGED:20449 条,FCGEC:37354 条,MuCGEC:2467 条,NaSGEC:7568条 | 中文语法纠错的数据集 | |
| Lang8+HSK(百万语料-拼写和语法错误混合数据集) | 1568885条 | 中文拼写和语法数据集 |
项目包含三个部分的数据集,分别为CSC、CGC和Lang8+HSK,涵盖了所有开源高质量的拼写纠错和语法纠错的数据集,也是我们分阶段训练的数据。
2、评估结果
| Model Name | Model Link | Prec | Rec | F0.5 |
|---|---|---|---|---|
| twnlp/ChineseErrorCorrector2-7B | 0.6233 | 0.6228 | 0.6232 | |
| HW_TSC_nlpcc2023_cgec(华为) | 未开源 | 0.5095 | 0.3129 | 0.4526 |
| 鱼饼啾啾Plus | 未开源 | 0.5708 | 0.1294 | 0.3394 |
| CUHK_SU | 未开源 | 0.3882 | 0.1558 | 0.2990 |
| CGEC++ | 未开源 | 0.2414 | 0.0735 | 0.1657 |
| zhao_jia | 未开源 | 0.1719 | 0.1478 | 0.1665 |
我们在NaCGEC数据集上,比最高的华为要高17个点,实测效果也很不错,强力推荐!
3、使用方法
transformers
通过 transformers 库,您可以方便地加载和使用中文纠错模型:
以下是使用模型进行纠错的代码示例:
VLLM
使用 VLLM 进行推理,支持快速高效地生成文本:
以下是 VLLM 示例代码:
总结
ChineseErrorCorrector 是一个强大的中文拼写和语法纠错工具,开箱即用,后面会不断的跟进前沿的纠错方法和数据,不断更新开源模型。

浙公网安备 33010602011771号