摘要:Unit1 会议的委员会: Conference Organizing Committee Conference Academic Committee Conference paper的格式 committee概况 The Organizing Committee have one chairman, one vice chairman, one member an... 阅读全文
posted @ 2020-10-15 23:15 森林1997 阅读(7) 评论(0) 推荐(0) 编辑
摘要:数据不平衡的数据处理 1. 前言 什么是不平衡数据呢?顾名思义即我们的数据集样本类别比例不均衡。数据不平衡问题主要存在于有监督机器学习任务中。当遇到不平衡数据时,以总体分类准确率为学习目标的传统分类算法会过多地关注多数类,从而使得少数类样本的分类性能下降。绝大多数常见的机器学习算法对于不平衡数据集都不能很好地工作。 1.1 数据不平衡例子 不平衡数据的场景出现在互联网应用的方方面面,如搜索引... 阅读全文
posted @ 2020-09-06 21:55 森林1997 阅读(27) 评论(0) 推荐(0) 编辑
摘要:代价敏感学习是指为不同类别的样本提供不同的权重,从而让机器学习模型进行学习的一种方法。 在通常的学习任务中,所有样本的权重一般都是相等的,但是在某些特定的任务中也可以为样本设置不同的权重。比如风控或者入侵检测,这两类任务都具有严重的数据不平衡问题,例如风控模型,将一个坏用户分类为好用户所造成的损失远远大于将一个好用户分类来坏用户的损失,因此在这种情况下要尽量避免将坏用户分类为好用户,可以在算法学习... 阅读全文
posted @ 2020-09-05 17:37 森林1997 阅读(86) 评论(0) 推荐(0) 编辑
摘要:两个排序列表的相似性 在信息检索领域,我们常用MAP、MRR、NDCG来评估排序算法的好坏,然而这些指标依赖人工标注的query与document的相关性档位(relevance level)。当没有此标注数据,或者我们要评估的排序列表跟相关性无关,并且我们刚好有一个待比较的基准列表时,该如何评估它们之间的距离呢?how to measure the similarity between two ... 阅读全文
posted @ 2020-09-02 09:02 森林1997 阅读(29) 评论(0) 推荐(0) 编辑
摘要:本文链接: https://blog.csdn.net/hlang8160/article/details/88310815 一、 概念 自动摘要技术解决的问题描述很简单,就是用一些精炼的话来概括整片文章的大意,用户通过读文摘就可以了解到原文要表达的意思。 问题解决的思路有两种: 一种是Extractive抽取式的,就是从原文中找到一些关键的句子,组合成一篇摘要; 另... 阅读全文
posted @ 2020-09-02 08:40 森林1997 阅读(41) 评论(0) 推荐(0) 编辑
摘要:用word2vec将文档中的单词训练成向量时要注意的点: 1. 不需要去除停用词。目前word2vec较好的方法是Negative Sampling,论文中提出该方法为了应对停用词,会进行subsampling,具体可见论文。 2. 需要去除语料库中出现次数过少的词。 3. 向量维度通常设50-20 阅读全文
posted @ 2020-08-29 20:43 森林1997 阅读(34) 评论(0) 推荐(0) 编辑
摘要:针对于单机多卡,可以使用 nn.DataParallel 进行训练,需要注意的是,与单卡训练有一些地方不同: (1)模型和优化器的初始化: 模型初始化之后,需要传入 nn.DataParallel ,再进行并行化处理,同时注意优化器同样需要做并行化处理,如下: model = Model.Model 阅读全文
posted @ 2020-07-21 15:44 森林1997 阅读(96) 评论(0) 推荐(0) 编辑
摘要:心得: 卷积操作在图像处理的领域应用广泛,图像做卷积处理有一个天然的好处,即:每个像素点的位置与相邻位置相对固定,也就是说,除了边缘,每一个节点都有相同数量的相邻节点。所以卷积操作相对容易。 但是,随着文本表示的发展,用向量来表示文本的思想应用的越来越广泛深入。textCNN是我理解的卷积在文本表示 阅读全文
posted @ 2020-07-04 21:36 森林1997 阅读(72) 评论(0) 推荐(0) 编辑
摘要:先说问题的本质:图中的每个结点无时无刻不因为邻居和更远的点的影响而在改变着自己的状态直到最终的平衡,关系越亲近的邻居影响越大。 要想理解GCN以及其后面一系列工作的实质,最重要的是理解其中的精髓Laplacian矩阵在干什么。知道了Laplacian矩阵在干什么后,剩下的只是解法的不同——所谓的Fourier变换只是将问题从空域变换到频域去解,所以也有直接在空域解的(例如GraphSage)。... 阅读全文
posted @ 2020-06-09 14:59 森林1997 阅读(123) 评论(0) 推荐(0) 编辑
摘要:Transform是在神经网络之后又发展的一个比较流行的深度模型,今天就给大家解释一下这个模型的原理。首先先抛出一个问题?神经网络有哪些缺点,或者是LSTM有什么不足之处,以至于让我们又发展了Transform这个深度模型?在这里我自己总结出了几点: 1、 难解释性,神经网络的一个通病,做出来的好坏 阅读全文
posted @ 2020-06-09 08:52 森林1997 阅读(233) 评论(0) 推荐(0) 编辑