摘要:1、决策树简介 1.1 决策树概述 决策树算法是一种基于树形结构的分类算法,它能从给定的无序的训练样本中,提炼出树型的分类模型,树形中包含判断模块和终止模块。它是一种典型的分类算法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数 阅读全文
posted @ 2018-10-22 18:16 bep_code 阅读(219) 评论(0) 推荐(0) 编辑
摘要:一、kNN算法概述 kNN算法是用来分类的,其依据测量不同特征值之间的距离,其核心思想在于用距离目标最近的k个样本数据的分类来代表目标的分类(这k个样本数据和目标数据最为相似)。其精度高,对异常值不敏感,并且无数据输入假定,但是计算复杂度和空间复杂度均高,更多的适用于数值型和标称型数据。 kNN算法 阅读全文
posted @ 2018-10-15 19:05 bep_code 阅读(462) 评论(0) 推荐(0) 编辑
摘要:摘要 1.作者提出了一种新的简单有效的方法,用于学习词义嵌入word sense embedding 2.传统的两种方法:(1)直接从语料库中学习词义;(2)依赖词汇资源的语义库 研究方法的创新点:通过聚类相关词的自我网络ego-networks,从而在现有的词嵌入中引出语义库。 3.集成的WSD机 阅读全文
posted @ 2018-10-10 16:35 bep_code 阅读(410) 评论(0) 推荐(0) 编辑
摘要:论文:Chinese NER Using Lattice LSTM 论文链接:https://arxiv.org/abs/1805.02023 论文作者:Yue Zhang∗and Jie Yang∗ 项目链接:https://github.com/jiesutd/LatticeLSTM 论文翻译: 阅读全文
posted @ 2018-09-15 14:22 bep_code 阅读(4273) 评论(0) 推荐(0) 编辑
摘要:中文分词算法一般分为三类: 1.基于词表的分词算法 正向最大匹配算法FMM 逆向最大匹配算法BMM 双向最大匹配算法BM 2.基于统计模型的分词算法:基于N-gram语言模型的分词算法 3.基于序列标注的分词算法 基于HMM 基于CRF 基于深度学习的端到端的分词算法 下面介绍三类基于词表的分词算法 阅读全文
posted @ 2018-09-13 13:21 bep_code 阅读(3338) 评论(1) 推荐(0) 编辑
摘要:来自微信公众号人工智能头条 为什么会有分词 我们知道自然语言处理中词为最小的处理单元,当你的语料为句子、短文本、篇章时,我们要做的第一步就是分词。 由于英语的基本组成单位就是词,分词是比较容易的。其句子基本上就是由标点符号、空格和词构成,那么只要根据空格和标点符号将词语分割即可。 中文和英文就有很大 阅读全文
posted @ 2018-09-13 12:43 bep_code 阅读(720) 评论(0) 推荐(0) 编辑
摘要:1、研究方向部分 关于NLP的应用场景与领域我一直没有概念,翻博客,听视频,也都是东一榔头,西一棒槌的瞎鼓捣。我自己对于NLP的应用理解主要分为三部分: (1)基础功能部分:句法语义分析 这部分是属于NLP处理的基础部分,是一般NLP任务的首要处理问题,关于NLP的相关应用,起点都是从词法、句法开始 阅读全文
posted @ 2018-09-13 12:30 bep_code 阅读(394) 评论(0) 推荐(0) 编辑
摘要:摘自AI壹号堂 建议如下: 第一步:根据研究方向去google学术输入你研究方向的关键字进行搜索。例如社区问答,可输入CQA 时间筛选为近3年。如果文章数量很多,那就表明这个方向还不错,至少近期是出现在不少相关文献当中的,有一定可研究性。 第二步:对于完全小白的你,可以在CNKI上查询一些中文文献。 阅读全文
posted @ 2018-09-10 10:45 bep_code 阅读(182) 评论(0) 推荐(1) 编辑
摘要:一、选择正确的特征 1.建立分类器的工作中如何选择相关特征,并且为其编码来表示这些特征是首要问题。 2.特征提取,要避免过拟合或者欠拟合 过拟合,是提供的特征太多,使得算法高度依赖训练数据的特性,而对于一般化的新例子不起作用,在小型训练集上通常会出现这种问题。 欠拟合,是特征太少,算法不能很好地反映 阅读全文
posted @ 2018-09-01 21:28 bep_code 阅读(599) 评论(0) 推荐(0) 编辑
摘要:一、分类问题 分类是为了给那些已经给定的输入选择正确的标签。 在基本的分类任务中,每个输入都被认为与其他的输入是隔离的。每个类别的标签集是预先定义好的(只有把类别划分好了,才能给输入划分类别)。 分类任务举例: 判断电子是否是垃圾邮件 从一个固定的主题领域列表里,比如有‘体育’、‘技术’、‘政治’等 阅读全文
posted @ 2018-09-01 19:49 bep_code 阅读(1170) 评论(0) 推荐(0) 编辑