随笔分类 - Paper Reading
摘要:本文提出了一种自动特征工程学习模型 AutoLearn,AutoLearn 基于特征对之间的回归,通过特征相互关联的方式发现数据中的潜在模式及其变化,并选择非常少量的新特征来显著提高预测性能。提出的新的特征生成方法可以捕获特征对中的显著变化,从而产生高度判别性的信息。通过实验证明了我们的方法在大量数据集和多个分类器上的优势,与原始特征空间相比,预测精度平均提高了13.28%。
阅读全文
摘要:本文提出了一种自动特征生成模型 OpenFE,它通过一个特征增强算法和一个两阶段修剪算法来解决 expand-and-reduce 框架的挑战。本文认为模型再训练并不需要准确评估新特征的增量性能,在梯度增强的启发下提出了一种用于评估新特征增量性能的高效算法 FeatureBoost。同时本文提出了一种两阶段修剪算法,以有效地从大量候选特征中检索有效特征。由于有效特征通常是稀疏的,两阶段剪枝算法以粗到细的方式进行特征剪枝。实验部分在各种数据集中验证了 OpenFE 的性能,OpenFE 大大优于现有的基线方法。同时在自动特征生成模型的研究中很多现有方法都没有开源,本文还复现了一些经典方法并进行了基准测试,以便在未来的研究中进行公平的比较。
阅读全文
摘要:针对价格预测问题的特点,本文提出了一种代价敏感的深度森林价格预测方法 CSDF。通过代价敏感方案对远离真实价格类别的错误分类施加更高的成本,期望降低错误分类的成本并将其推向真实价格范围。此外为了进一步提高整体性能,通过修改传统的 K-means 方法,开发了一种改进的 K-means 离散化方法来预先定义价格的类别。基于多个真实数据集的实验结果表明,与传统深度森林和其他基准相比,本文提出的代价敏感深度森林可以显著降低成本,同时保持较好的准确性。
阅读全文
摘要:本文旨在研究构建多特征的不同方法,并分析它们的有效性、效率和潜在行为,以揭示在高维数据上使用 GP 构建多特征的洞察力。本研究研究了三种多特征构建方法,包括两种使用多树表示的方法,即类独立 MCIFC 和类依赖 CDFC,以及 Neshatian 等提出的一种使用单树表示的方法 1TGPFC 构建类依赖特征。将使用常用的学习算法(包括 KNN、朴素贝叶斯和决策树 DT)对三种方法构建的特征的性能进行比较。结果表明多特征构建的性能明显优于单特征构建,类依赖的构造特征比类独立的构造特征具有更好的性能。
阅读全文
摘要:针对深度森林中基分类器数量过多带来的时空开销,本文中提出了一种基于三目标优化的深度森林级联集成修剪算法 TOOCEP,该算法在级联森林的每一层学习最优决策树子集,并去除不在最优子集中的决策树。具体而言本文首先提出了一种基于三目标优化的单层剪枝方法 TOOSLP,通过同时优化精度、独立多样性和耦合多样性三个目标对其单层森林进行剪枝。前两个目标是单层森林本身的准确性和多样性,第三个目标用于处理被修剪的层与其前一层之间的耦合关系。在 TOOSLP 方法的基础上,提出了层叠集成剪枝框架对深层森林进行逐层剪枝。通过在 15 个 UCI 数据集上对该算法进行评估,实验结果表明 TOOCEP 在准确率和剪枝率方面优于几种最先进的方法,显著减少了深度森林的存储空间,加快了深度森林的预测速度。
阅读全文
摘要:为了解决现有分布式深度森林存在的问题,本文提出了一种新的计算效率高、鲁棒性强的分布式深度森林算法 CERT-DF。CERT-DF 基于本文新提出的 SAB 机制构建的,该机制集成了三种方案:块级预采样、两阶段预聚合和系统级备份。块级预采样将数据集划分为多个不相连的数据块,其中利用随机样本分区机制,确保每个块的统计特征和数据分布与原始整个数据集相似,以减少分布式数据集偏差对模型精度的负面影响。两阶段预聚合方案引入缓冲机制,将每个子森林生成的向量临时存储,然后对分布式子森林进行分层向量聚合,以减轻参数服务器的网络带宽占用,加快聚合过程。系统级备份旨在以很小的内存和磁盘开销备份关键特征空间,防止训练任务失败,增强分布式深度森林的鲁棒性。CERT-DF 框架在 Ray 平台上进行实现,并基于七个知名的基准数据集进行了广泛的实验,评估结果表明 CERT-DF 在计算效率、模型精度、系统资源开销和系统鲁棒性方面优于最先进的方法。
阅读全文
摘要:为应对不平衡回归任务与度量的形式化问题,本文旨在提供一套新颖的模型评估与优化的基准。本文提出了一种自动和非参数方法,用于推断偏向极端值的非均匀域偏好,解决早期工作中潜在正态分布的假设。接着设计了新的评估指标 SERA(平方误差相关区域),它允许优化和评估模型预测极值的能力,同时对严重的模型偏差具有鲁棒性。通过实验表明评估指标 SERA 为选择和优化程序提供了合适的基准、预测模型性能的分析、影响和预测权衡。
阅读全文
摘要:本文结合 Boosting 和 Bagging 的思想,提出了一种新的分类和回归算法 BoostForest。首先提出了一种新的决策树模型 BoostTree,它先在每个节点上训练一个回归模型进行回归或分类,对于给定的输入 BoostTree 将其分类到一个叶节点,然后通过将所有节点模型沿着从根到该叶节点的路径的输出相加来计算最终的预测。接着提出了一种称为随机参数池采样的参数设置策略,BoostTree 的参数从参数池中随机采样,使 BoostTree 比传统方法更容易调整其超参数。然后提出了一种新的集成学习方法 BoostForest,它使用 bootstrap 获得原始训练集的多个副本,然后在每个副本上训练一个 BoostTree。本文在 35 个分类和回归数据集上进行了实验,结果表明 BoostForest 总体上优于多种经典的集成学习方法。
阅读全文
摘要:针对回归任务中分布不平衡的问题,本文提出了几种新的预处理解决方案,包括随机过采样、引入高斯噪声、基于加权相关度的组合策略 WERCS。通过实验表明使用所提出的策略,特别是 WERCS 方法能提高学习器在不平衡回归问题上的性能。
阅读全文
摘要:本文提出了一种名为 DenseWeight 的不平衡回归数据集的样本加权方法,并在此基础上提出了一种名为 DenseLoss 的不平衡回归的成本敏感学习神经网络。DenseLoss 使用 KDE 近似训练目标值的密度函数,将所得密度函数构成计算 DenseWeight 权重函数的基础,接着 DenseLoss 根据 DenseWeight 为训练集中的每个数据点分配一个权重,增加稀有数据点对损失和梯度的影响。本文引入了一个单一的、易于解释的超参数,允许将模型的焦点转移到目标变量分布的稀有区域。使用合成数据分析了 DenseLoss 对常见和稀有数据点性能的影响,并将 DenseLoss 与不平衡回归方法 SMOGN 进行了比较,发现本文的方法通常提供更好的性能。结合将 DenseLoss 应用于严重不平衡的降尺度降水的现实世界问题,表明它能够在实践中显着提高模型性能。
阅读全文
摘要:针对不平衡回归问题,本文提出了一种新方法称为 SMOGN。SMOGN 它结合了欠采样策略和两个过采样策略,使用 SmoteR 插值方法对更接近的样例进行插值,对距离较远的样本使用高斯噪声生成合成样本。实验数据表明,SMOGN 与其他方法相比具有优势,同时该方法对使用的学习器有不同的影响,对 RF 和 MARS 显示出更明显的优势。
阅读全文
摘要:针对罕见极值预测问题(不平衡回归问题)研究的空缺,本文首次提出了针对该问题的重采样方法。本文使用了欠采样策略,将著名且成功的 SMOTE 算法应用于回归任务,提出了名为 SMOTER 的算法。通过实验表明本文提出的 SMOTER 方法可以与任何现有的回归算法一起使用,使其成为解决连续目标变量罕见极值预测问题的通用工具。
阅读全文
摘要:为了设计更有效的插值过采样算法,本文提出了一种新的插值过采样方法 OREM。OREM 在原始少数类样本周围找到候选少数类区域,然后利用这些候选区域识别不包含任何多数类样本的干净子区域。它们被认为是潜在的少数类区域,所以通过将合成样本填充到干净子区域可以增强少数类的表达能力。OREM 方法的思路很简单,既不涉及聚类算法的使用,也不涉及邻居参数k的调整。为了提高过采样技术处理多分类不平衡数据的能力,本文利用合成样本生成的迭代过程将 OREM 推广到多分类不平衡问题得到 OREM-M。OREM-M 的合成样本是迭代创建的,只有最近邻非原始样本或来自其他少数类的合成样本的合成样本才被接受,这样就缓解了对多个少数类进行过采样时类重叠的问题。为了与集成学习方法建立协同作用,本文将 OREM 嵌入到 Boosting 中得到 OREMBoost 算法,OREMBoost 在训练基分类器之前对每轮的训练数据进行平衡,使得构造的基分类器对多数类的偏差更小、多样性更大。通过大量的实验证明,本文提出的 OREM、OREM-M 和 OREMBoost 具有有效性。
阅读全文
摘要:本文使用不可微模块实现深度学习进行的探索,提出了一种非 DNN 的深度森林算法 gcForest(多粒度级联森林)。gcForest 具有级联结构,可以通过森林进行表示学习。它的表征学习能力可以通过多粒度扫描进一步增强,从而可能使 gcForest 具有上下文或结构感知能力。级联的级别可以自动确定,超参数比 DNN 少得多,使其能以数据依赖的方式确定模型规模,用户能够根据计算资源控制训练成本。实验表明在大多数情况下,gcForest 能够通过使用默认设置在不同领域的数据集中获得出色的性能。
阅读全文
摘要:为了解决联合用药数据的不平衡、高维、样本数量有限的问题,本文首先构建了一个由药物的物理、化学和生物特性组成的特征集,包括了丰富的生物学信息。特征空间的每个维度都有特定的含义,便于进行可解释性分析,找出预测过程中的关键特征。针对这种不平衡的高维中型数据集,提出了一种改进的基于 Deep Forest 的模型 ForSyn 来预测协同药物组合。ForSyn 设计了两个新的森林单元嵌入到模型架构中,一种是基于亲和传播聚类和分层欠采样的 RF 算法,该单元旨在解决类不平衡问题;另一种是基于数据复杂度降维的极端树森林(ETF)算法,主要用于处理高维数据问题。实验方面比较了 12 种算法在 8 个数据集上的性能,结果表明在大多数情况下具有所有特征类型的 ForSyn 会获得最佳性能。然后对一组先前未测试的药物组合进行细胞实验进一步证实了 ForSyn 的预测能力,最后对 ForSyn 提取的关键特征进行了可解释性分析。
阅读全文
摘要:针对 gcForest 存在的一些缺点,本文提出了一种 WCDForest 模型来提高小样本分类数据集的准确率。为了提高 WCDForest 的特征提取能力,提出了一种等量多粒度扫描模块,可以平等地扫描边缘特征。提出了类向量加权模块和特征增强模块,它们重新评估了 RF 在多粒度扫描和级联森林阶段的分类性能,最大限度地利用 RF 的特征信息。本文在 18 个公开数据集上进行了实验,实验表面提出的模型的分类性能优于基准模型,消融实验表明提出的模块对特征表征学习和准确率有积极的影响,且训练时间较少。
阅读全文
摘要:为了克服现有集成方法的缺点,本文提出一种新的混合集成策略——样本和特征选择混合集成学习 SFSHEL。SFSHEL 考虑基于聚类的分层对大多数样本进行欠采样,并采用滑动窗口机制同时生成多样性的特征子集。然后将经过验证训练的权重分配给不同的基学习器,最后 SFSHEL 通过加权投票进行预测。SFSHEL 不仅可以保证可接受的性能,还可以节省计算时间。在实践中采用随机森林作为 SFSHEL 的基学习器,简称为 SFSHEL-RF。实验表明所提出的 SFSHEL-RF 在部分 KEEL 数据集上的平均性能达到 91.37%,与之前最好的 ECUBoost-RF 方法相当,并且高于其他方法。在真实数据集上,SFSHEL-RF 的表现可以稳定达到 3 项指标前三名的水平。
阅读全文
摘要:为了实现基于 GAN 的交互式的基于点的操作,本文提出了 DragGAN,它解决了监督手柄点向目标移动和跟踪手柄点两个子问题,以便在每个编辑步骤中知道它们的位置。本文模型是建立在 GAN 的特征空间具有足够的区分力以实现运动监督和精确点跟踪的特性之上的,运动监督通过优化潜在代码的移位特征损失来实现的。每个优化步骤导致操作点向目标移动,然后通过特征空间中的最近邻搜索来执行点跟踪。重复该优化过程,直到操作点达到目标。DragGAN 还允许用户选择性地绘制感兴趣的区域以执行特定于区域的编辑。由于 DragGAN 不依赖于任何附加网络,因此它实现了高效的操作,因此编辑速度很快。
阅读全文
摘要:针对 gcForestcs 受高置信度但精度较低的实例影响的问题,本文提出了一种深度分箱置信度筛选森林算法。该算法采用基于置信度对实例进行分箱,这种方式可以检测到分区错误的实例,将更精确的实例传递到后续层次。实验结果表明,对于相同的训练超参数,DBC-Forest 模型比 gcForest 和 gcforests 具有更好的精度,且训练速度更快。
阅读全文
摘要:针对弱标签学习问题的困难,以及 gcForest 不能直接处理弱标签数据集的问题,本文提出了 LCForest (Label Complement cascade Forest) 模型。本文没有将问题表述为一个正则化的框架,而是采用了级联森林结构逐层处理信息,并通过简洁高效的标签补充结构赋予其利用弱标签数据的能力。首先在级联森林的每一层中在考虑标签的相关性的基础上,将伪标签分布与原始标签向量进行连接。为了解决假阴性标签带来的问题,在每一层将相关标签安全地补充到初始标签矩阵中。针对前几种类失衡问题,引入补码标志机制来控制每个类的标签补码,在一定程度上缓解了这一问题。通过实验表明,LCForest 方法优于现有的多标签学习、深度神经网络和弱标签学习算法。
阅读全文

浙公网安备 33010602011771号