上一页 1 2 3 4 5 6 7 ··· 41 下一页
摘要: 针对现有工作在多分类不平衡问题的不足,本文提出了一种新的多分类联合清洗和重采样算法 MC-CCR。MC-CCR 主要使用了分解策略的思想,利用基于能量的方法对适合过采样的区域进行挖掘。与 SMOTE 相比,该方法受离群点和异常值的影响较小。接着将其与清理操作相结合,减少了重叠类分布对学习算法性能的影响。最后提出了一种迭代策略将二分类的场景扩展到多分类,MC-CCR 比经典的多分类分解策略受类间关系信息丢失的影响更小。通过多个多类不平衡基准数据集的实验研究结果表明,该方法对噪声具有较高的鲁棒性,并且与现有方法相比具有较高的性能。 阅读全文
posted @ 2024-10-29 03:25 乌漆WhiteMoon 阅读(233) 评论(0) 推荐(0)
摘要: 针对当前多分类不平衡问题仅依靠不平衡比,以及数据集的不平衡信息无法在训练过程中动态调整的问题。本文首先提出了基于自适应分布的样本权值,将类间不平衡比、类内密度变量和自适应裕度综合起来处理多类不平衡。接着将提出的自适应样本权值与 AdaBoost 学习框架相结合,提出了 AdaBoost.AD 算法,并为其提供了理论支持。通过多个不平衡数据集的实验,结果表明所提出的 AdaBoost.AD 相比现有方法具有更强的预测性能,并验证了自适应权重各个组成部分的有效性。 阅读全文
posted @ 2024-10-25 19:59 乌漆WhiteMoon 阅读(390) 评论(0) 推荐(0)
摘要: 本文提出了一种新的 GNN 架构,称为协作图神经网络 Co-GNN。在 Co-GNN 网络中,图中的每个节点都被视为可以执行 STANDARD(S)、LISTEN(L)、BROADCAST(B)、ISOLATE(I) 动作之一的参与者。Co-GNN 结构由两个联合训练的“合作”消息传递神经网络组成,分别是用于解决给定任务的环境网络 η 和一个用于选择最佳行动的行动网络 π。本文对新的消息传递方案进行了理论分析,并通过对合成数据和现实世界数据的对 Co-GNN 的性能进行了验证。 阅读全文
posted @ 2024-10-23 17:42 乌漆WhiteMoon 阅读(323) 评论(0) 推荐(0)
摘要: 本文基于级联森林提出了一种用于不平衡故障检测数据集的模型 DBCF,该模型设计了优化的级联随机森林,从数据层面和算法层面改进不平衡学习。首先提出了一种新的多通道级联旋转机械故障诊断框架,该框架将数据级方法和算法级方法相结合。然后提出了一种混合采样方法,通过生成新数据和丢弃类分布边缘的样本实现,为每个梯级森林通道提供平衡的数据集。最后提出了一种基于数据比例统计计算的新型平衡信息熵,并使用该指标设计了一种新型平衡森林。通过在平衡数据集上的对比实验,结果验证了 DBCF 在处理不平衡故障诊断问题上更加稳定和有效。 阅读全文
posted @ 2024-09-30 18:39 乌漆WhiteMoon 阅读(150) 评论(0) 推荐(0)
摘要: 本文针对多分类不平衡学习问题设计了一种基于动态集成选择的方法 DES-MI,主要思想是针对不同的样本选择不同的分类器进行集成。首先利用随机平衡框架构造一组平衡数据集训练多个基分类器作为候选池,该重采样框架混合使用了随机欠采样、随机过采样和 SMOTE。然后通过使用样本周围的实例进行加权来评估候选分类器的能力,分类器的预测性能越高,则它在局部区域内的少数类别分类能力越强。最后根据每个选定的分类器的预测结果进行多数类投票,得票最多的类被视为最终输出类。通过 KEEL 库中的 20 个多类不平衡数据集的实验,分析了动态选择在多分类不平衡数据集场景下的有效性,结果表明 DES-MI 能够提高多分类不平衡数据集的分类性能。 阅读全文
posted @ 2024-09-29 17:53 乌漆WhiteMoon 阅读(233) 评论(0) 推荐(0)
摘要: 为了解决基于现有多样性度量的学习复杂性较高的问题,本文提出了一种新的数据级多样性度量 IED。它能够直接基于训练数据集度量多样性,而不需要训练分类器,同时本文也设计了两种基于最优实例配对和贪婪实例配对的 IED 计算方法。在此基础上,本文设计了一种不平衡集成学习模型 P-EUSBagging,它使用基于种群的增量学习(PBIL)来生成子数据集,再用这些数据集用于训练具有最大数据级多样性的基分类器。P-EUSBagging 采用 Bagging 来集成,并设计了一种新的权重自适应投票策略,奖励给出正确预测的基本分类器。实验使用 44 个不平衡数据集,实验结果表明 IED 可以显著减少训练集成学习模型所需的时间,PEUSBagging 在 G-Mean 和 AUC 上都显著提高了学习性能。 阅读全文
posted @ 2024-09-28 02:41 乌漆WhiteMoon 阅读(218) 评论(0) 推荐(0)
摘要: 目录问题定义数据集定义数据模型特征生成Theorem A.1 及其证明Theorem A.2 及其证明 在论文《OpenFE: Automated Feature Generation with Expert-level Performance》中作者对理论结论给出了详细的分析过程,这篇博客对该部分 阅读全文
posted @ 2024-09-19 11:00 乌漆WhiteMoon 阅读(123) 评论(0) 推荐(0)
摘要: 本文设计了一种基于深度森林的embedding 学习方法 GraphDF,该方法可以实现以资源为中心的加权属性图的属性和拓扑信息的嵌入。提出的图预处理器包括基于自注意机制的潜在隐含特征挖掘、基于相似性和模块化相关转换对潜在隐含关系特征的深度一般信息挖掘。使编码器所提取的原始特征包含更全面的信息,以用于更广泛和更深的嵌入应用。还引入了一种新的特征提取器和相关的嵌入表示生成器,它利用多粒度扫描和深度级联森林在确保局部收敛的同时全局优化图嵌入表示。该方法避免了过多的约束和偏差,具有较强的泛化和判别能力,通过 7 个数据集实验结果表明 GraphDF 方法优于最先进的嵌入方法。 阅读全文
posted @ 2024-09-18 17:00 乌漆WhiteMoon 阅读(101) 评论(0) 推荐(0)
摘要: 针对搜索 Pareto 前沿需要生成大量的解导致大量模型训练开销的问题,本文提出了多分类多目标选择集成 MMSE 框架。该框架在多目标建模中引入选择性集成,这样就不必重复训练整个模型,而是通过不同的基础学习器组合来获得不同的模型。训练单个学习器时使用了不同比例的欠采样数据集进行训练,提高了训练效率。同时由多个基学习器集成得到的模型可以覆盖更多的训练样本,避免了信息丢失的问题,在不同的类中具有更多样化的性能选择。当类的数量增加时,因为大多数生成的解是不可比较的,优化问题变得困难。本文进一步提出了一个基于边际的版本 MMSEmargin,它通过优化标签和实例边界来优化常见的性能度量,将目标数量减少到 3 个,同时仍然可以对常用的指标进行优化。 阅读全文
posted @ 2024-09-01 16:07 乌漆WhiteMoon 阅读(109) 评论(0) 推荐(0)
摘要: 本文提出了一种可扩展自动特征工程方法 SAFE,它包括特征生成阶段和特征选择阶段,具备较高的计算效率、可扩展性,能满足实际业务问题的要求。不同于使用算子枚举所有的生成特征,本文的特征生成阶段专注于挖掘原始特征对,以更高的概率生成更有效的新特征。在特征选择阶段,本文的方法考虑了单个特征的信息量、特征对的冗余性、树模型评估的特征重要性。通过实验证明,SAFE 算法在大量数据集和多个分类器上具有优势,与原始特征空间相比预测精度平均提高了6.50%。 阅读全文
posted @ 2024-08-20 17:22 乌漆WhiteMoon 阅读(157) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 ··· 41 下一页