10 2018 档案

摘要:一、不平衡数据集的定义 所谓的不平衡数据集指的是数据集各个类别的样本量极不均衡。以二分类问题为例,假设正类的样本数量远大于负类的样本数量,通常情况下通常情况下把多数类样本的比例接近100:1这种情况下的数据称为不平衡数据。不平衡数据的学习即需要在分布不均匀的数据集中学习到有用的信息。 不平衡数据集的 阅读全文
posted @ 2018-10-21 21:39 kamekin 阅读(59642) 评论(1) 推荐(9)
摘要:一、模型评价的意义 在完成模型构建之后,必须对模型的效果进行评估,根据评估结果来继续调整模型的参数、特征或者算法,以达到满意的结果。 评价一个模型最简单也是最常用的指标就是准确率,但是在没有任何前提下使用准确率作为评价指标,准确率往往不能反映一个模型性能的好坏,例如在不平衡的数据集上,正类样本占总数 阅读全文
posted @ 2018-10-15 00:14 kamekin 阅读(25284) 评论(0) 推荐(0)
摘要:一、Word2vec word2vec是Google与2013年开源推出的一个用于获取word vecter的工具包,利用神经网络为单词寻找一个连续向量看空间中的表示。word2vec是将单词转换为向量的算法,该算法使得具有相似含义的单词表示为相互靠近的向量。 此外,它能让我们使用向量算法来处理类别 阅读全文
posted @ 2018-10-08 10:52 kamekin 阅读(3768) 评论(0) 推荐(0)