文本分类学习（一）：开篇

今天开始，就要认真开始对待文本分类，在此之前只是稀疏的看过一些博客，了解一下贝叶斯分类。之所以要学习文本分类，是因为我做的毕业设计就是关于文本分类和机器学习的。突然感觉到时间不太够用了，而摆在我面前的实际上是一个很浩大的工程，不得不抓紧时间开始研究。至于为什么毕业设计会选择文本分类算法，因为觉得现在机器学习很热门，不会点都不好意思说自己是搞计算机科学的，其次我想把自己的毕业设计可以和工作结合，并充分发挥作用。

很庆幸自己搞过算法，高中数学还算不错，这些是学习文本分类的优势吧。如果可以我想把自己的学习和研究成果发表成论文，并且将代码在Git上开源。

其实自己到目前为止对文本分类的概率依然不是很清晰，只是大概知道这么些东西：

　　1.首先待分类的文本我们需要把它变成计算机能认识的东西，计算机能认识啥？（从底层来说只认识0和1）我们当然不能把一大段文字交给计算机。文本是由一些列词组成的，于是我们可以把文本变成一系列词的组合，在此之间需要对文本进行分词，（这和我之前学习的搜索引擎的分词是一样的，可以直接拿来用了，O(∩_∩)O哈哈~）。比如这篇文章进行分词之后：（"今天","开始","就要".......）这就是词向量，也就是文本的特征向量。在这之后还需要对词进行加权重，这样可以突出某些词的重要性，在这篇文章中显然"文本"，"分类"要比"今天","开始"更能代表文章的含义。关于文档向量就不细说了，毕竟只是开篇~

2.构造训练集，事先我们得准备好很多很多个已经分好类的文本组成训练集，当然对于所有的算法是训练集越大，分类的效果越好。

　　3.选择分类算法，构造分类器。就我目前知道的分类器有很多，比如决策树，贝叶斯分类器，KNN分类，SVM支持向量机等等，还有adaboost增强训练算法。但是在网上，一些测试结果中都说SVM算法的效果是最好的，所以就先拿SVM开刀了，貌似SVM还是一个挺复杂的算法（难在它的数学知识，比如高维空间，核函数，很好奇是个什么东西）。

　　4.分类待分类文本。

千里之行始于足下，同志们开始马不停蹄的探索和学习吧。

posted @ 2018-03-28 17:28 Shendu.CC 阅读(1490) 评论(0) 收藏举报

刷新页面返回顶部

文本分类学习（一）：开篇

公告