分类数据 EDA 实战：如何发现隐藏的层次结构

探索性数据分析（EDA）的本质不是画图和算统计量，而是不被自己的数据欺骗。

分类列是最容易出问题的地方。

、

、

、

、

、

——这些列看起来很简单，跑个

画个柱状图搞定了。

其实分类变量往往藏着隐藏的层次结构。这些关系存在于类别内部，不主动挖掘根本看不出来。一旦忽略那么就会得到错误的结论、垃圾特征、误导性的报表。

这篇文章讲的是如何在 EDA 阶段把这些隐藏结构找出来，用实际的步骤、真实的案例，外加可以直接复用的 Python 代码。

什么是"隐藏层次结构"？

一个分类变量表面看起来是扁平的，实际上却是分层的：这就是隐藏层次结构。

posted @ 2026-02-05 22:57 deephub 阅读(27) 评论(0) 收藏举报

刷新页面返回顶部