随笔分类 - Paper Reading
摘要:本文使用不可微模块实现深度学习进行的探索,提出了一种非 DNN 的深度森林算法 gcForest(多粒度级联森林)。gcForest 具有级联结构,可以通过森林进行表示学习。它的表征学习能力可以通过多粒度扫描进一步增强,从而可能使 gcForest 具有上下文或结构感知能力。级联的级别可以自动确定,超参数比 DNN 少得多,使其能以数据依赖的方式确定模型规模,用户能够根据计算资源控制训练成本。实验表明在大多数情况下,gcForest 能够通过使用默认设置在不同领域的数据集中获得出色的性能。
阅读全文
摘要:为了解决联合用药数据的不平衡、高维、样本数量有限的问题,本文首先构建了一个由药物的物理、化学和生物特性组成的特征集,包括了丰富的生物学信息。特征空间的每个维度都有特定的含义,便于进行可解释性分析,找出预测过程中的关键特征。针对这种不平衡的高维中型数据集,提出了一种改进的基于 Deep Forest 的模型 ForSyn 来预测协同药物组合。ForSyn 设计了两个新的森林单元嵌入到模型架构中,一种是基于亲和传播聚类和分层欠采样的 RF 算法,该单元旨在解决类不平衡问题;另一种是基于数据复杂度降维的极端树森林(ETF)算法,主要用于处理高维数据问题。实验方面比较了 12 种算法在 8 个数据集上的性能,结果表明在大多数情况下具有所有特征类型的 ForSyn 会获得最佳性能。然后对一组先前未测试的药物组合进行细胞实验进一步证实了 ForSyn 的预测能力,最后对 ForSyn 提取的关键特征进行了可解释性分析。
阅读全文
摘要:针对 gcForest 存在的一些缺点,本文提出了一种 WCDForest 模型来提高小样本分类数据集的准确率。为了提高 WCDForest 的特征提取能力,提出了一种等量多粒度扫描模块,可以平等地扫描边缘特征。提出了类向量加权模块和特征增强模块,它们重新评估了 RF 在多粒度扫描和级联森林阶段的分类性能,最大限度地利用 RF 的特征信息。本文在 18 个公开数据集上进行了实验,实验表面提出的模型的分类性能优于基准模型,消融实验表明提出的模块对特征表征学习和准确率有积极的影响,且训练时间较少。
阅读全文
摘要:为了克服现有集成方法的缺点,本文提出一种新的混合集成策略——样本和特征选择混合集成学习 SFSHEL。SFSHEL 考虑基于聚类的分层对大多数样本进行欠采样,并采用滑动窗口机制同时生成多样性的特征子集。然后将经过验证训练的权重分配给不同的基学习器,最后 SFSHEL 通过加权投票进行预测。SFSHEL 不仅可以保证可接受的性能,还可以节省计算时间。在实践中采用随机森林作为 SFSHEL 的基学习器,简称为 SFSHEL-RF。实验表明所提出的 SFSHEL-RF 在部分 KEEL 数据集上的平均性能达到 91.37%,与之前最好的 ECUBoost-RF 方法相当,并且高于其他方法。在真实数据集上,SFSHEL-RF 的表现可以稳定达到 3 项指标前三名的水平。
阅读全文
摘要:为了实现基于 GAN 的交互式的基于点的操作,本文提出了 DragGAN,它解决了监督手柄点向目标移动和跟踪手柄点两个子问题,以便在每个编辑步骤中知道它们的位置。本文模型是建立在 GAN 的特征空间具有足够的区分力以实现运动监督和精确点跟踪的特性之上的,运动监督通过优化潜在代码的移位特征损失来实现的。每个优化步骤导致操作点向目标移动,然后通过特征空间中的最近邻搜索来执行点跟踪。重复该优化过程,直到操作点达到目标。DragGAN 还允许用户选择性地绘制感兴趣的区域以执行特定于区域的编辑。由于 DragGAN 不依赖于任何附加网络,因此它实现了高效的操作,因此编辑速度很快。
阅读全文
摘要:针对 gcForestcs 受高置信度但精度较低的实例影响的问题,本文提出了一种深度分箱置信度筛选森林算法。该算法采用基于置信度对实例进行分箱,这种方式可以检测到分区错误的实例,将更精确的实例传递到后续层次。实验结果表明,对于相同的训练超参数,DBC-Forest 模型比 gcForest 和 gcforests 具有更好的精度,且训练速度更快。
阅读全文
摘要:针对弱标签学习问题的困难,以及 gcForest 不能直接处理弱标签数据集的问题,本文提出了 LCForest (Label Complement cascade Forest) 模型。本文没有将问题表述为一个正则化的框架,而是采用了级联森林结构逐层处理信息,并通过简洁高效的标签补充结构赋予其利用弱标签数据的能力。首先在级联森林的每一层中在考虑标签的相关性的基础上,将伪标签分布与原始标签向量进行连接。为了解决假阴性标签带来的问题,在每一层将相关标签安全地补充到初始标签矩阵中。针对前几种类失衡问题,引入补码标志机制来控制每个类的标签补码,在一定程度上缓解了这一问题。通过实验表明,LCForest 方法优于现有的多标签学习、深度神经网络和弱标签学习算法。
阅读全文
摘要:为了对深度森林设计出信息量更大、计算成本更低的特征表示,本文提出了一种新的深度森林模型——高阶交互深度森林(hiDF),利用输入特征的稳定高阶交互来生成信息丰富且多样化的特征表示。具体而言,本文设计了一个广义版本的随机交叉树(gRIT)来发现稳定的高阶相互作用,并应用激活线性组合(ALC)将这些相互作用转化为新的特征表示,这些特征表示可以跨多层与输入特征交互。在级联的堆叠下,hiDF 可以有效地挖掘输入特征之间的高阶交互,并利用它们来提高预测性能。通过实验表明,hiDF 在显著减少时间和内存成本的情况下获得了极具竞争力的预测性能。
阅读全文
摘要:针对欠采样方法会丢弃大量多数类样本导致信息缺失的问题,本文提出了基于哈希的欠采样集成 HUE 模型,它利用 Bagging 和多数类样本的分布特征来构建多样化的训练子集。首先 HUE 通过散列将大多数类样本划分为不同的特征子空间,然后使用所有少数样本和主要从同一哈希子空间中提取的部分多数样本来构建训练子集,最后使用每个训练子集来训练一个基分类器,通过投票法将这些基分类器集成在一起。该方法在 25 个 UCI 数据集和两个大型数据集上与多种方法进行了对比,实验结果表明该方法优于其他方法,在高度不平衡的数据集上取得了良好的效果。
阅读全文
摘要:针对决策树模型的缺点,受 Network in Network 和斜决策树的启发,本文提出树中树(TnT)算法将传统的决策树扩展为一个决策图。TnT 不是基于贪心的方法自顶向下生成树结构,通过在内部节点或叶节点内递归地生长决策树来构造决策图。TnT 的时间复杂度与图中的节点数成线性关系,可以在大型数据集上构造决策图。在相同的模型复杂性约束下,TnT 在独立或集成的情况下都优于现有的决策树算法。同时它不依赖于预定义的图/树结构,而是能够从单个叶结点开始学习图连接,并提供完全可解释的决策过程。
阅读全文
摘要:针对 CTC 分类性能较差和 Bagging 的可解释性较差的问题,本文提出了一种结合 CTC 和 Bagging 的算法 PCTBagging。首先构建一棵不完整的 CTC,CTC 的规模由超参数合并比来确定,接着使用 Bagging 完成后续的树结构的生成。将 PCTBagging 的结果与 Bagging、CTC 和 C4.5 的进行比较,从实验结果可见 PCTBagging 在保持 CTC 的可解释结构的同时,实现了与 Bagging 相似的分类能力。
阅读全文
摘要:针对存在大量相关特征时重要特征的影响被削弱的问题,本文设计了一种通过稀疏森林来消除相关偏差的特征选择算法 ControlBurn。首先使用套袋和提升等方法生成森林,然后通过一个平衡特征稀疏性和预测性能的组 LASSO 惩罚目标为每棵树选择稀疏权值,从而减少树的数量。与 Wrapper 特征选择方法不同,ControlBurn 只需要一次训练迭代即可运行。通过实验说明,当应用于具有相关特征的数据集时,ControlBurn 优于传统的特征选择算法。
阅读全文
摘要:按照算法的类型对个人的 Paper Reading 博客进行汇总,涉及多个研究方向的论文将按照个人主观感觉的主要方向排列。 目录不平衡学习回归决策树决策森林进化计算计算机视觉计算学习理论与方法神经决策模型神经网络生物信息图学习特征工程 不平衡学习 A Novel Model for Imbalanc
阅读全文
摘要:本文将集成特征选择问题建模为具有两个目标的帕累托优化问题,提出一种类型的异构集成特征选择算法 PEFS。首先采用两种聚合方法对四种不同 FS 方法得到的结果进行组合,接着使用双目标优化来评估这些结果,最后根据非优势特征在双目标空间中的拥挤距离进行排序。该方法平衡了关联度和冗余性两种不同的 FS 方法,对相关性最大、冗余最少的特征给出更高的排序。实验使用了 7 个真实的数据集,将 PEFS 与一些基本的 FS 算法和集成 FS 算法进行比较,结果表明本文提出的方法在 acc、F1 和运行时间上比其他方法更好。
阅读全文
摘要:为了提高计算机视觉模型的可解释性,本文融合深度学习和决策树提出了神经支持决策树(NBDTs)。NBDT 使用一个可微的倾斜决策树取代了神经网络的最后一个线性层,和经典的决策树方法不同,NBDT 使用从模型参数派生的层次结构,不使用分层 softmax。NBDT 可以从任何现有的分类神经网络中创建,无需对模型架构进行修改。这样的模型结构不会过度拟合特征空间,减少了决策树对高度不确定决策的依赖,并鼓励对高级概念的准确识别。通过实验证明 NBDT 在 ImageNet、TinyImageNet200 和 CIFAR100 上的性能等同于或优于一些现有的模型,模型提供的解释可以让用户更方便地识别模型的错误,并且可用于识别模糊的 ImageNet 标签。
阅读全文
摘要:针对数据集存在缺失值的问题,本文提出了一种基于多树 GP(MTGP) 的迁移学习方法 pMTGPDA,用于将知识从完整的源域转移到不完整的目标域中。首先在源域的数据集上训练多个 SR 模型,通过模型中的训练细节计算源域的特征和实例的权重作为先验知识。然后将提取的权重知识用于基于 MTGP 的转换,构造源特征空间到目标特征空间的非对称映射,实现估算目标域中缺失的值的作用。产生变换后的特征和实例以及权重后,对输入的目标数据进行正常的 SR,得到输出的结果。对于 MTGP 的交叉、变异操作,本文开发了新的遗传算子进行优化,而且设置的适应度函数能同时度量域之间的不匹配度和 SR 的学习性能。
阅读全文
摘要:本文提出了一种类不平衡问题的功能树(FT4cip),该模型使用了考虑类不平衡的分割评估函数 Twoing,以及使用了一种优化 AUC 的新型剪枝算法。同时对多变量分割使用特征选择,进一步提高分类性能和可解释性。通过大量的实验分析证明,FT4cip 在 AUC 上的分类性能优于 LMT 和 Gama。接着对几种算法进行元分析,显示了 FT4cip 比 LMT 和 Gama 具有更好性能的问题类型。最后根据对分类性能的影响对算法的不同进行排序,证明所采取的设计决策是合理的。
阅读全文
摘要:为了实现既能处理原始图像,又能保留原始图像的属性,并且能够生成既具有高视觉质量又能丰富深度模型判别能力的图像。本文在 SMOTE 方法的基础上提出了一种新的深度学习模型过采样算法 DeepSMOTE,由三个主要部分组成:Encoder/Decoder、SMOTE、用惩罚项增强的 loss 函数。该方法允许在深度学习模型中嵌入有效的人工实例,以实现简化的端到端过程,和 GAN 方法不同在于 DeepSMOTE 在训练中不需要鉴别器。将 DeepSMOTE 与多种现有的算法进行比较,使用五种流行的图像基准和三种专用的评价指标证明 DeepSMOTE 的性能更优。DeepSMOTE 生成的高质量人工图像既适合视觉检查,又具有丰富的信息,可以有效地平衡类别并减轻不平衡分布的影响。
阅读全文
摘要:受人类学习过程的启发,本文根据学习速度设计了样本难度模型,并提出了一种新的实例级再平衡策略。具体来说模型在每个训练周期记录每个实例的预测,并根据预测的变化来测量该样本的难度难度。然后对困难实例赋予更高的权重,对数据进行重新采样。本文从理论上证明了提出的重采样策略的正确性和收敛性,并进行一些实证实验来展示本文算法的能力。
阅读全文
摘要:本文是不平衡分类问题的经典论文,文中提出了 2 种不平衡集成学习模型都是简单而有效的 baseline 方法。 EasyEnsemble 方法直接对多数类样本进行采样得到几个子集,并使用这些子集分别训练基分类器。BalanceCascade 是使用训练好的分类器来指导后续分类器的采样过程,即在上一个分类器被分类正确的样本将在下一个分类器中移除。两种方法在 16 个 UCI 数据集上的实验表明,与许多现有的类失衡学习方法相比,这两种方法在各个指标上都具有更高的性能。
阅读全文

浙公网安备 33010602011771号