性能分析 | 评分法
层次几何平均
参考资料
Self-Organizing Maps Intuition Video
解决了什么问题?
解决了基准测试评分时因簇内冗余导致每个簇对最终评分贡献不同等的问题。
在处理合并自多个基准套件(如 SPECjvm、SciMark2、DaCapo)的工作负载时,不同来源的冗余工作负载会人为放大评分。
层次几何平均通过先对每个簇(同类工作负载集合)取几何平均,再对簇级结果取几何平均,抵消了冗余的影响,使得每个簇对最终评分贡献同等“投票权”
“冗余工作负载”指在合并多个基准套件时,不同来源但功能、性能特征或行为高度相似的项
在普通(算术或几何)平均中,每个工作负载都被等权对待。当某类行为(如浮点运算)在合并套件中出现 5 次时,相当于该类性能在最终分数中占比 5/总数;
若另一类仅出现 1 次,则权重仅为 1/总数,造成不平衡。冗余类的重复计数“堆叠”了它们对平均值的贡献,从而人为拉高或拉低整体评分
如何解决的?
首先识别出簇(即检查出冗余工作负载): 采用 Self‑Organizing Map (SOM) + 层次聚类,将功能或微架构特征相似的工作负载归为同一簇。
1. Workload Characterization(工作负载表征)
工作负载(Workload)可定义为在一定时间内系统接收的所有请求或执行的任务集合,其描述了系统的使用模式与资源需求
工作负载表征(Workload Characterization)是对上述工作负载进行观察、量化、建模与分析的过程,旨在生成能够描述并重现该工作负载行为的模型,以支撑系统性能评估、容量规划、性能调优等研究与实践
-
选取指标:Self‑Organizing Map是个神经网络模型,需要特征作为输入, 可以是能反映行为差异的关键性能指标(如CPU周期、缓存命中率、I/O吞吐、指令混合比、网络延迟等)
-
特征向量构建:将采集到的多维度原始数据通过归一化、降噪、时间窗口聚合等预处理后,组合成每个时间片或请求的特征向量。