特征工程 - 概念分层(待)
一、基本概念
Concept Hierarchy Operation
概念分层更直观的描述和说明数据,是用户更容易理解。
将数据组织成树状结构,其中层次结构的每一层都代表一个比其下一层更通用的概念。
相同的数据可以具有不同的粒度或细节,并且通过以层次结构的方式组织数据,更容易地理解和执行分析。
具有最多不同值的属性放在分层结构的最底层。一个属性的不同值个数越少,它在产生的概念分层结构中所处的层次越高。
通过收集然后用高级概念替换低级概念(如:用分类变量如middle age或Senior,替换具体年龄)来减小数据大小。
概念层次结构可以由领域专家和/或数据仓库设计人员显式指定。
对于数值数据和标称数据,可以自动形成概念层次结构。对于数值数据,可以使用离散化方法。
下图来源 → https://cs.rhodes.edu/welshc/COMP345_F18/Lecture4.pdf

二、概念分层的类型
1、模式分层
Schema Hierarchy
用于以逻辑和有意义的方式,组织不同类型的数据,将相似的对象分组在一起,如:表、属性和关系。
这在需要将来自多个数据源的数据,集成到单个数据库时非常有用。
2、集合分组分层
Set-Grouping Hierarchy
基于集合论的概念分层结构,每个集合根据在其他集合中的隶属关系来定义。
可用于数据清洗、数据预处理和数据集成,这种类型的层次结构可用于识别和删除数据中的异常值、噪声或不一致性,并集成来自多个来源的数据。
3、操作导出分层
Operation-Derived Hierarchy
通过对数据应用一系列操作或转换来组织数据,这些操作以自顶向下的方式应用,层次结构的每一层都比下一层表示更一般或抽象。
通常用于数据挖掘任务,如聚类和降维。应用的操作可以是数学或统计操作,如聚合、规范化。
4、基于规则分层
Rule-based Hierarchy
通过对数据应用一组规则或条件来组织数据,在分类、决策和数据探索等数据挖掘任务中非常有用。
允许根据每个数据点的特征,为其分配类标签或决策,并识别数据的不同属性之间的模式和关系。
三、概念分层的用处
1、数据分析
组织和简化数据,使其易于管理和分析。将相似的概念分组在一起,帮助识别数据中的模式和趋势,否则很难发现这些模式和趋势。
在发现隐藏的或意想不到的见解时特别有用,为业务决策提供信息,为新产品或服务的开发提供信息。
2、数据可视化和探索
通过将数据组织成树状结构,改进数据可视化和数据探索,允许用户轻松理解大型和复杂的数据集。
在创建交互式指示板和报告时特别有用,允许用户在需要时,深入到更具体的细节级别。
3、算法性能
提高数据挖掘算法的性能,更容易地处理和分析数据,从而获得更快、更准确的结果。
4、数据清洗和预处理
识别和去除数据中的异常值和噪声。
5、领域知识
以更结构化的方式表示领域知识,这有助于更好地理解数据和问题领域。
四、应用
1、数据仓库
将来自多个来源的数据组织到一个一致的、有意义的结构中,提高数据分析和报告的 效率和有效性。
2、商业智能
以一种熟悉并了解业务决策的方式,组织和分析数据,如:分析客户数据,为新产品或服务的开发,提供信息和趋势。
3、在线零售
将产品组织成类别、子类别和子子类别,帮助客户快速、容易地找到想要的产品。
4、医疗保健
用于组织患者数据,如:根据诊断或治疗计划,对患者进行分组。帮助确定模式和趋势,为开发新治疗方法提供信息,或提高现有治疗方法的有效性。
5、自然语言处理
组织和分析文本数据,如:识别文本中的主题,从非结构化数据中提取有用的信息。
6、欺诈检测
组织和分析财务数据,如:识别并表明欺诈活动的模式和趋势。
(可以参考↓)
《Concept Hierarchy in Data Mining: Specification, Generation and Implementation》

浙公网安备 33010602011771号