随笔档案「2021年4月」 - Dallas98

NLP复习总结

摘要：分词基于词典的分词方法 FMM 从左向右取待切分汉语句的m个字符作为匹配字段，m为大机器词典中最长词条个数。查找大机器词典并进行匹配。若匹配成功，则将这个匹配字段作为一个词切分出来。若匹配不成功，则将这个匹配字段的最后一个字去掉，剩下的字符串作为新的匹配字段，进行再次匹配，重复以上过程，直到阅读全文

posted @ 2021-04-27 23:11 Dallas98 阅读(204) 评论(0) 推荐(0)

决策树分类器的构建及应用

摘要：决策树分类器的构建及应用决策树原理决策树是属于机器学习监督学习分类算法中比较简单的一种，决策树是一个预测模型，代表对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，每个分叉路径代表某个可能的属性值，叶结点对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出，若欲有复阅读全文

posted @ 2021-04-20 22:03 Dallas98 阅读(370) 评论(0) 推荐(0)

KNN&多项式分类器的设计

摘要：KNN 分类器构造一、KNN 算法的思路: 存在一个样本数据集合，称为训练样本集，且样本集中每个数据都存在标签，即样本集中每一数据与所属分类的对应关系。输入没有标签的数据后，将新数据中的每个特征与样本集中数据对应的特征进行比较，提取出样本集中特征最相似数据（最近邻）的分类标签。选择 k 个最相似阅读全文

posted @ 2021-04-13 16:52 Dallas98 阅读(461) 评论(0) 推荐(0)

自然语言处理 - 词向量

摘要：词向量在自然语言处理（NLP）中，词向量将单词按照含义编码成向量，从而更好地进行语言建模和特征学习。词向量经常作为下游 NLP 任务的基本组件，出现在文本分类、翻译、问答、推荐等各种任务模型中；此外，我们也可以通过多种方式，训练自己的词向量。（for more, see here）通过本次实验，阅读全文

posted @ 2021-04-12 22:47 Dallas98 阅读(436) 评论(1) 推荐(0)

自然语言处理 - 新词发现

摘要：数据预处理我们将一些不必要的标点字去除，因为这些标点字不会参与目标词的生成。理论简介新词发现词级别中文 NLP 任务首先需要分词，目前主流的分词方法都是基于词库的，那么，词库从哪里来？我们使用的分词工具的词库适用于当前数据集吗？数据集包含大量新词怎么办？此类问题在网络数据集（大量网络新词）和阅读全文

posted @ 2021-04-12 22:45 Dallas98 阅读(818) 评论(0) 推荐(0)

贝叶斯分类器的设计及应用实验

摘要：实验目标：理解朴素贝叶斯分类器的原理；能独立实现常用贝叶斯分类器的设计；准确评估分类器精度。创建实验样本，这些文本被切分成一系列词条集合，将标点符号从文本中去除。另外返回类别标签的集合，代表侮辱性和非侮辱性。 from numpy import * def loadDataSet(): po 阅读全文

posted @ 2021-04-06 21:13 Dallas98 阅读(255) 评论(0) 推荐(0)

Dallas98

04 2021 档案

公告