基于朴素贝叶斯分类器的文本分类算法C#版（一）

昨天有幸拜读了洞庭散人的<基于朴素贝叶斯分类器的文本分类算法>，我正在学习这个，我从内心感谢洞庭散人的分享！随即我把它移植到了c#平台上。

该程序用到了Lucene.Net,用到了基于词典的ICTCLAS中文分词1.0.

ICTCLAS中文分词for Lucene.Net接口代码(实现Analyzer):

Code

ICTCLAS中文分词for Lucene.Net接口代码(实现Tokenizer):

Code

中文分词器代码：

Code

训练管理器代码：

Code

先验概率计算代码：

Code

条件概率计算代码：

Code

用于保存分类结果的类：

Code

贝叶斯分类器代码：

Code
1

using System;
2

using System.Collections.Generic;
3

using System.Text;
4

namespace AspxOn.Search.FenLei
6

{
7

/// <summary>
8

/// 朴素贝叶斯分类器
9

/// </summary>
10

public class BayesClassifier
11

{
12

private TrainingDataManager tdm; //训练集合管理器
14

//private string trainingDataPath; //训练集合路径
15

private static float zoomFactor = 10.0F;
16

/// <summary>
18

/// 默认构造器，初始化训练集合
19

/// </summary>
20

public BayesClassifier()
21

{
22

tdm = new TrainingDataManager();
23

}
24

/// <summary>
26

/// 计算给定的文本属性向量X在给定的分类Cj中的类条件概率
27

/// </summary>
28

/// <param name="X">文本属性向量X</param>
29

/// <param name="Cj">给定的分类</param>
30

/// <returns>分类条件概率连乘值</returns>
31

protected float CaluProd(string[] X, string Cj)
32

{
33

float ret = 1.0F;
34

for (int i = 0; i < X.Length; i++)
35

{
36

string Xi = X[i];
37

ret *= ClassConditionalProbability.CaculatePxc(Xi, Cj) * zoomFactor;//因为数值过小，因此将连乘值放大10倍(通过乘以zoomFactor)
38

}
39

ret *= PriorProbability.CaculatePc(Cj); //再乘以先验概率
40

return ret;
41

}
42

/// <summary>
44

/// 对指定文本进行分类
45

/// </summary>
46

/// <param name="text">指定文本</param>
47

/// <returns>分类结果</returns>
48

public List<ClassifyResult> Classify(string text)
49

{
50

string[] terms = ChineseSpliter.Split(text, "|").Split('|'); //中文分词处理（分词结果可能包含停用词）
51

string[] classes = tdm.GetTrainingClassifications(); //分类列表数组
52

float probility = 0.0F;
53

List<ClassifyResult> crs = new List<ClassifyResult>(); //分类结果
54

for (int i = 0; i < classes.Length; i++)
55

{
56

string Ci = classes[i];
57

probility = CaluProd(terms, Ci); //计算给定的文本属性向量terms在给定的分类Ci中的分类条件概率
58

ClassifyResult cr = new ClassifyResult();
59

cr.classification = Ci;
60

cr.probability = probility;
61

crs.Add(cr);
62

}
63

return crs;
64

}
65

public string GetMaxNum(List<ClassifyResult> crs)
67

{
68

double ret = 0;
69

string classification = string.Empty;
70

ret = crs[0].probability;
71

for (int i = 0; i < crs.Count; i++)
72

{
73

if (crs[i].probability > ret)
74

{
75

ret = crs[i].probability;
76

classification = crs[i].classification;
77

}
78

}
79

return classification;
80

}
81

}
82

}

代码太多，编辑的时候卡的很，于是再整个（二）

posted @ 2009-02-25 09:04 waemz 阅读(5211) 评论(12) 收藏举报

刷新页面返回顶部

基于朴素贝叶斯分类器的文本分类算法C#版（一）

公告