04 2021 档案
摘要:分词 基于词典的分词方法 FMM 从左向右取待切分汉语句的m个字符作为匹配字段,m为大机器词典中最长词条个数。 查找大机器词典并进行匹配。 若匹配成功,则将这个匹配字段作为一个词切分出来。 若匹配不成功,则将这个匹配字段的最后一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配,重复以上过程,直到
阅读全文
摘要:决策树分类器的构建及应用 决策树原理 决策树是属于机器学习监督学习分类算法中比较简单的一种,决策树是一个预测模型,代表对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,每个分叉路径代表某个可能的属性值,叶结点对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复
阅读全文
摘要:KNN 分类器构造 一、KNN 算法的思路: 存在一个样本数据集合,称为训练样本集,且样本集中每个数据都存在标签,即样本集中每一数据与所属分类的对应关系。 输入没有标签的数据后,将新数据中的每个特征与样本集中数据对应的特征进行比较,提取出样本集中特征最相似数据(最近邻)的分类标签。选择 k 个最相似
阅读全文
摘要:词向量 在自然语言处理(NLP)中,词向量将单词按照含义编码成向量,从而更好地进行语言建模和特征学习。词向量经常作为下游 NLP 任务的基本组件,出现在文本分类、翻译、问答、推荐等各种任务模型中;此外,我们也可以通过多种方式,训练自己的词向量。(for more, see here) 通过本次实验,
阅读全文
摘要:数据预处理 我们将一些不必要的标点字去除,因为这些标点字不会参与目标词的生成。 理论简介 新词发现 词级别中文 NLP 任务首先需要分词,目前主流的分词方法都是基于词库的,那么,词库从哪里来?我们使用的分词工具的词库适用于当前数据集吗?数据集包含大量新词怎么办?此类问题在网络数据集(大量网络新词)和
阅读全文
摘要:实验目标: 理解朴素贝叶斯分类器的原理; 能独立实现常用贝叶斯分类器的设计; 准确评估分类器精度。 创建实验样本,这些文本被切分成一系列词条集合,将标点符号从文本中去除。另外返回类别标签的集合,代表侮辱性和非侮辱性。 from numpy import * def loadDataSet(): po
阅读全文

浙公网安备 33010602011771号