一种数据选择偏差下的去相关聚类方法

作者：凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/

本博文是对Decorrelated clustering with data selection bias这篇文章的展开与叙述。现有的聚类算法大多没有考虑数据的选择偏差。然而，在许多实际应用中，人们不能保证数据是无偏的。选择偏差可能会导致特征之间产生意想不到的相关性，忽略这些意想不到的相关性会影响聚类算法的性能。因此，如何消除这些由选择偏差引起的非预期相关性是非常重要的，但在聚类过程中还没有被深入探讨。在本文中，提出了一种新的去相关正则化k -均值算法(DCKM)，用于有数据选择偏差的聚类。具体来说，去相关正则化器的目的是学习能够平衡样本分布的全局样本权值，从而消除特征之间的非预期相关性。同时，将学习到的权值与k-means相结合，使重新加权后的k-means聚类对数据的固有分布没有非预期的相关性影响。此外，本文还推导出了更新规则，以有效地推断DCKM中的参数。在真实数据集上的大量实验结果很好地证明了DCKM算法获得了显著的性能提升，表明在聚类时需要去除由选择偏差引起的非预期特征关联。

参考文献：

[1] Xiao Wang, Shaohua Fan, Kuang Kun, Chuan Shi, Jiawei Liu, Bai Wang. Decorrelated clustering with data selection bias. IJCAI 2020. (CCF-A)

[2] 王啸, 石川, 范少华. 一种数据选择偏差下的去相关聚类方法及装置[发明专利], 申请号: 2020105917421.

王啸老师个人主页：https://wangxiaocs.github.io/

posted on 2021-03-25 17:25 凯鲁嘎吉阅读(447) 评论(0) 收藏举报