随笔列表第2页 - 乌漆WhiteMoon

2024年2月26日

Paper Reading: SMOGN: a Pre-processing Approach for Imbalanced Regression

摘要：针对不平衡回归问题，本文提出了一种新方法称为 SMOGN。SMOGN 它结合了欠采样策略和两个过采样策略，使用 SmoteR 插值方法对更接近的样例进行插值，对距离较远的样本使用高斯噪声生成合成样本。实验数据表明，SMOGN 与其他方法相比具有优势，同时该方法对使用的学习器有不同的影响，对 RF 和 MARS 显示出更明显的优势。阅读全文

posted @ 2024-02-26 18:20 乌漆WhiteMoon 阅读(62) 评论(0) 推荐(0) 编辑

2024年2月25日

Paper Reading: SMOTE for Regression

摘要：针对罕见极值预测问题(不平衡回归问题)研究的空缺，本文首次提出了针对该问题的重采样方法。本文使用了欠采样策略，将著名且成功的 SMOTE 算法应用于回归任务，提出了名为 SMOTER 的算法。通过实验表明本文提出的 SMOTER 方法可以与任何现有的回归算法一起使用，使其成为解决连续目标变量罕见极值预测问题的通用工具。阅读全文

posted @ 2024-02-25 21:30 乌漆WhiteMoon 阅读(17) 评论(0) 推荐(0) 编辑

2023年12月8日

Paper Reading: Oversampling with Reliably Expanding Minority Class Regions for Imbalanced Data Learning

摘要：为了设计更有效的插值过采样算法，本文提出了一种新的插值过采样方法 OREM。OREM 在原始少数类样本周围找到候选少数类区域，然后利用这些候选区域识别不包含任何多数类样本的干净子区域。它们被认为是潜在的少数类区域，所以通过将合成样本填充到干净子区域可以增强少数类的表达能力。OREM 方法的思路很简单，既不涉及聚类算法的使用，也不涉及邻居参数k的调整。为了提高过采样技术处理多分类不平衡数据的能力，本文利用合成样本生成的迭代过程将 OREM 推广到多分类不平衡问题得到 OREM-M。OREM-M 的合成样本是迭代创建的，只有最近邻非原始样本或来自其他少数类的合成样本的合成样本才被接受，这样就缓解了对多个少数类进行过采样时类重叠的问题。为了与集成学习方法建立协同作用，本文将 OREM 嵌入到 Boosting 中得到 OREMBoost 算法，OREMBoost 在训练基分类器之前对每轮的训练数据进行平衡，使得构造的基分类器对多数类的偏差更小、多样性更大。通过大量的实验证明，本文提出的 OREM、OREM-M 和 OREMBoost 具有有效性。阅读全文

posted @ 2023-12-08 10:30 乌漆WhiteMoon 阅读(60) 评论(0) 推荐(0) 编辑

2023年11月23日

Paper Reading: Deep Forest

摘要：本文使用不可微模块实现深度学习进行的探索，提出了一种非 DNN 的深度森林算法 gcForest(多粒度级联森林)。gcForest 具有级联结构，可以通过森林进行表示学习。它的表征学习能力可以通过多粒度扫描进一步增强，从而可能使 gcForest 具有上下文或结构感知能力。级联的级别可以自动确定，超参数比 DNN 少得多，使其能以数据依赖的方式确定模型规模，用户能够根据计算资源控制训练成本。实验表明在大多数情况下，gcForest 能够通过使用默认设置在不同领域的数据集中获得出色的性能。阅读全文

posted @ 2023-11-23 14:25 乌漆WhiteMoon 阅读(15) 评论(0) 推荐(0) 编辑

2023年11月6日

Paper Reading: A hybrid deep forest-based method for predicting synergistic drug combinations

摘要：为了解决联合用药数据的不平衡、高维、样本数量有限的问题，本文首先构建了一个由药物的物理、化学和生物特性组成的特征集，包括了丰富的生物学信息。特征空间的每个维度都有特定的含义，便于进行可解释性分析，找出预测过程中的关键特征。针对这种不平衡的高维中型数据集，提出了一种改进的基于 Deep Forest 的模型 ForSyn 来预测协同药物组合。ForSyn 设计了两个新的森林单元嵌入到模型架构中，一种是基于亲和传播聚类和分层欠采样的 RF 算法，该单元旨在解决类不平衡问题；另一种是基于数据复杂度降维的极端树森林(ETF)算法，主要用于处理高维数据问题。实验方面比较了 12 种算法在 8 个数据集上的性能，结果表明在大多数情况下具有所有特征类型的 ForSyn 会获得最佳性能。然后对一组先前未测试的药物组合进行细胞实验进一步证实了 ForSyn 的预测能力，最后对 ForSyn 提取的关键特征进行了可解释性分析。阅读全文

posted @ 2023-11-06 19:40 乌漆WhiteMoon 阅读(162) 评论(0) 推荐(0) 编辑

2023年10月27日

Paper Reading: WCDForest: a weighted cascade deep forest model toward the classifcation tasks

摘要：针对 gcForest 存在的一些缺点，本文提出了一种 WCDForest 模型来提高小样本分类数据集的准确率。为了提高 WCDForest 的特征提取能力，提出了一种等量多粒度扫描模块，可以平等地扫描边缘特征。提出了类向量加权模块和特征增强模块，它们重新评估了 RF 在多粒度扫描和级联森林阶段的分类性能，最大限度地利用 RF 的特征信息。本文在 18 个公开数据集上进行了实验，实验表面提出的模型的分类性能优于基准模型，消融实验表明提出的模块对特征表征学习和准确率有积极的影响，且训练时间较少。阅读全文

posted @ 2023-10-27 00:44 乌漆WhiteMoon 阅读(134) 评论(0) 推荐(0) 编辑

2023年10月20日

Paper Reading: Sample and feature selecting based ensemble learning for imbalanced problems

摘要：为了克服现有集成方法的缺点，本文提出一种新的混合集成策略——样本和特征选择混合集成学习 SFSHEL。SFSHEL 考虑基于聚类的分层对大多数样本进行欠采样，并采用滑动窗口机制同时生成多样性的特征子集。然后将经过验证训练的权重分配给不同的基学习器，最后 SFSHEL 通过加权投票进行预测。SFSHEL 不仅可以保证可接受的性能，还可以节省计算时间。在实践中采用随机森林作为 SFSHEL 的基学习器，简称为 SFSHEL-RF。实验表明所提出的 SFSHEL-RF 在部分 KEEL 数据集上的平均性能达到 91.37%，与之前最好的 ECUBoost-RF 方法相当，并且高于其他方法。在真实数据集上，SFSHEL-RF 的表现可以稳定达到 3 项指标前三名的水平。阅读全文

posted @ 2023-10-20 09:00 乌漆WhiteMoon 阅读(119) 评论(0) 推荐(0) 编辑

2023年10月17日

Paper Reading: Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

摘要：为了实现基于 GAN 的交互式的基于点的操作，本文提出了 DragGAN，它解决了监督手柄点向目标移动和跟踪手柄点两个子问题，以便在每个编辑步骤中知道它们的位置。本文模型是建立在 GAN 的特征空间具有足够的区分力以实现运动监督和精确点跟踪的特性之上的，运动监督通过优化潜在代码的移位特征损失来实现的。每个优化步骤导致操作点向目标移动，然后通过特征空间中的最近邻搜索来执行点跟踪。重复该优化过程，直到操作点达到目标。DragGAN 还允许用户选择性地绘制感兴趣的区域以执行特定于区域的编辑。由于 DragGAN 不依赖于任何附加网络，因此它实现了高效的操作，因此编辑速度很快。阅读全文

posted @ 2023-10-17 10:23 乌漆WhiteMoon 阅读(102) 评论(0) 推荐(0) 编辑

2023年10月8日

Paper Reading: DBC-Forest: Deep forest with binning confidence screening

摘要：针对 gcForestcs 受高置信度但精度较低的实例影响的问题，本文提出了一种深度分箱置信度筛选森林算法。该算法采用基于置信度对实例进行分箱，这种方式可以检测到分区错误的实例，将更精确的实例传递到后续层次。实验结果表明，对于相同的训练超参数，DBC-Forest 模型比 gcForest 和 gcforests 具有更好的精度，且训练速度更快。阅读全文

posted @ 2023-10-08 01:28 乌漆WhiteMoon 阅读(21) 评论(0) 推荐(0) 编辑

2023年10月7日

Paper Reading: Learning from Weak-Label Data: A Deep Forest Expedition

摘要：针对弱标签学习问题的困难，以及 gcForest 不能直接处理弱标签数据集的问题，本文提出了 LCForest (Label Complement cascade Forest) 模型。本文没有将问题表述为一个正则化的框架，而是采用了级联森林结构逐层处理信息，并通过简洁高效的标签补充结构赋予其利用弱标签数据的能力。首先在级联森林的每一层中在考虑标签的相关性的基础上，将伪标签分布与原始标签向量进行连接。为了解决假阴性标签带来的问题，在每一层将相关标签安全地补充到初始标签矩阵中。针对前几种类失衡问题，引入补码标志机制来控制每个类的标签补码，在一定程度上缓解了这一问题。通过实验表明，LCForest 方法优于现有的多标签学习、深度神经网络和弱标签学习算法。阅读全文

posted @ 2023-10-07 01:38 乌漆WhiteMoon 阅读(2748) 评论(0) 推荐(0) 编辑

乌漆 WhiteMoon

公告