乌漆WhiteMoon - 博客园

2024年8月16日

Paper Reading: Gradient Boosted Feature Selection

摘要：本文关注当数据集包含大量样本时的特征选择算法，主要使用梯度增强回归树实现，设计的模型称为梯度增强特征选择 GBFS。在梯度增强框架的基础上，采用贪心 CART 算法构建树。CBFS 对新特征产生的分割将受到惩罚，但如果是重用以前选择的特征就可以避免这个惩罚。当 GBFS 学习回归树的集合时，可以自然地发现特征之间的非线性相互作用。与随机森林的 FS 相比，GBFS 能够实现将特征选择和分类同时进行优化。实验环节在几个不同难度和大小的真实世界数据集上进行评估，结果表明 GBFS 优于或相当于随机森林特征选择的准确性和特征选择的性能，同时可以有效地处理特征间依赖关系。阅读全文

posted @ 2024-08-16 15:00 乌漆WhiteMoon 阅读(147) 评论(0) 推荐(0)

2024年8月13日

Paper Reading: AutoLearn - Automated Feature Generation and Selection

摘要：本文提出了一种自动特征工程学习模型 AutoLearn，AutoLearn 基于特征对之间的回归，通过特征相互关联的方式发现数据中的潜在模式及其变化，并选择非常少量的新特征来显著提高预测性能。提出的新的特征生成方法可以捕获特征对中的显著变化，从而产生高度判别性的信息。通过实验证明了我们的方法在大量数据集和多个分类器上的优势，与原始特征空间相比，预测精度平均提高了13.28%。阅读全文

posted @ 2024-08-13 17:31 乌漆WhiteMoon 阅读(161) 评论(0) 推荐(0)

2024年8月12日

Paper Reading: OpenFE: Automated Feature Generation with Expert-level Performance

摘要：本文提出了一种自动特征生成模型 OpenFE，它通过一个特征增强算法和一个两阶段修剪算法来解决 expand-and-reduce 框架的挑战。本文认为模型再训练并不需要准确评估新特征的增量性能，在梯度增强的启发下提出了一种用于评估新特征增量性能的高效算法 FeatureBoost。同时本文提出了一种两阶段修剪算法，以有效地从大量候选特征中检索有效特征。由于有效特征通常是稀疏的，两阶段剪枝算法以粗到细的方式进行特征剪枝。实验部分在各种数据集中验证了 OpenFE 的性能，OpenFE 大大优于现有的基线方法。同时在自动特征生成模型的研究中很多现有方法都没有开源，本文还复现了一些经典方法并进行了基准测试，以便在未来的研究中进行公平的比较。阅读全文

posted @ 2024-08-12 18:01 乌漆WhiteMoon 阅读(362) 评论(0) 推荐(0)

2024年7月31日

Paper Reading: Cost-sensitive deep forest for price prediction

摘要：针对价格预测问题的特点，本文提出了一种代价敏感的深度森林价格预测方法 CSDF。通过代价敏感方案对远离真实价格类别的错误分类施加更高的成本，期望降低错误分类的成本并将其推向真实价格范围。此外为了进一步提高整体性能，通过修改传统的 K-means 方法，开发了一种改进的 K-means 离散化方法来预先定义价格的类别。基于多个真实数据集的实验结果表明，与传统深度森林和其他基准相比，本文提出的代价敏感深度森林可以显著降低成本，同时保持较好的准确性。阅读全文

posted @ 2024-07-31 18:09 乌漆WhiteMoon 阅读(76) 评论(0) 推荐(0)

2024年6月30日

Paper Reading: Genetic programming for multiple-feature construction on high-dimensional classification

摘要：本文旨在研究构建多特征的不同方法，并分析它们的有效性、效率和潜在行为，以揭示在高维数据上使用 GP 构建多特征的洞察力。本研究研究了三种多特征构建方法，包括两种使用多树表示的方法，即类独立 MCIFC 和类依赖 CDFC，以及 Neshatian 等提出的一种使用单树表示的方法 1TGPFC 构建类依赖特征。将使用常用的学习算法(包括 KNN、朴素贝叶斯和决策树 DT)对三种方法构建的特征的性能进行比较。结果表明多特征构建的性能明显优于单特征构建，类依赖的构造特征比类独立的构造特征具有更好的性能。阅读全文

posted @ 2024-06-30 23:49 乌漆WhiteMoon 阅读(94) 评论(0) 推荐(0)

2024年5月6日

Paper Reading: Tri-objective optimization-based cascade ensemble pruning for deep forest

摘要：针对深度森林中基分类器数量过多带来的时空开销，本文中提出了一种基于三目标优化的深度森林级联集成修剪算法 TOOCEP，该算法在级联森林的每一层学习最优决策树子集，并去除不在最优子集中的决策树。具体而言本文首先提出了一种基于三目标优化的单层剪枝方法 TOOSLP，通过同时优化精度、独立多样性和耦合多样性三个目标对其单层森林进行剪枝。前两个目标是单层森林本身的准确性和多样性，第三个目标用于处理被修剪的层与其前一层之间的耦合关系。在 TOOSLP 方法的基础上，提出了层叠集成剪枝框架对深层森林进行逐层剪枝。通过在 15 个 UCI 数据集上对该算法进行评估，实验结果表明 TOOCEP 在准确率和剪枝率方面优于几种最先进的方法，显著减少了深度森林的存储空间，加快了深度森林的预测速度。阅读全文

posted @ 2024-05-06 11:00 乌漆WhiteMoon 阅读(144) 评论(0) 推荐(0)

2024年4月7日

分布式系统：远程调用

摘要：目录远程调用请求-应答协议基于 UDP 数据报的实现通信原语协议消息结构请求-应答协议的故障模型重复丢弃请求消息丢失应答消息历史交互协议的类型基于 TCP 流的实现远程过程调用 RPC接口编程RPC 调用语义透明性RPC 的实现远程方法调用 RMIRMI 的设计对象模型分布式对象RMI 实现RMI 阅读全文

posted @ 2024-04-07 22:05 乌漆WhiteMoon 阅读(447) 评论(0) 推荐(0)

2024年4月3日

分布式系统：间接通信

摘要：目录间接通信组通信编程模型组通信实现可靠性和排序组成员管理发布-订阅系统编程模型系统实现消息队列编程模型系统实现共享内存分布式共享内存元组空间编程模型系统实现参考资料间接通信进程间通信和远程调用都是基于发送者和接收者之间的直接耦合，这导致系统在处理改变时显得有些死板。例如在一个简单的客户-服务器阅读全文

posted @ 2024-04-03 17:09 乌漆WhiteMoon 阅读(228) 评论(0) 推荐(0)

2024年3月17日

Paper Reading: CERT-DF: A Computing-Efficient and Robust Distributed Deep Forest Framework With Low Communication Overhead

摘要：为了解决现有分布式深度森林存在的问题，本文提出了一种新的计算效率高、鲁棒性强的分布式深度森林算法 CERT-DF。CERT-DF 基于本文新提出的 SAB 机制构建的，该机制集成了三种方案：块级预采样、两阶段预聚合和系统级备份。块级预采样将数据集划分为多个不相连的数据块，其中利用随机样本分区机制，确保每个块的统计特征和数据分布与原始整个数据集相似，以减少分布式数据集偏差对模型精度的负面影响。两阶段预聚合方案引入缓冲机制，将每个子森林生成的向量临时存储，然后对分布式子森林进行分层向量聚合，以减轻参数服务器的网络带宽占用，加快聚合过程。系统级备份旨在以很小的内存和磁盘开销备份关键特征空间，防止训练任务失败，增强分布式深度森林的鲁棒性。CERT-DF 框架在 Ray 平台上进行实现，并基于七个知名的基准数据集进行了广泛的实验，评估结果表明 CERT-DF 在计算效率、模型精度、系统资源开销和系统鲁棒性方面优于最先进的方法。阅读全文

posted @ 2024-03-17 16:07 乌漆WhiteMoon 阅读(130) 评论(0) 推荐(0)

2024年3月15日

Paper Reading: Imbalanced regression and extreme value prediction

摘要：为应对不平衡回归任务与度量的形式化问题，本文旨在提供一套新颖的模型评估与优化的基准。本文提出了一种自动和非参数方法，用于推断偏向极端值的非均匀域偏好，解决早期工作中潜在正态分布的假设。接着设计了新的评估指标 SERA(平方误差相关区域)，它允许优化和评估模型预测极值的能力，同时对严重的模型偏差具有鲁棒性。通过实验表明评估指标 SERA 为选择和优化程序提供了合适的基准、预测模型性能的分析、影响和预测权衡。阅读全文

posted @ 2024-03-15 22:18 乌漆WhiteMoon 阅读(216) 评论(0) 推荐(0)

乌漆 WhiteMoon

公告