数据中心 + 事件驱动优化：面向数据中心绿色可靠运行的强化学习方法

这篇文章是贾庆山老师团队的工作，2020 年发表于《智能科学与技术学报》。

文章摘要：

数据中心的绿色可靠运行具有重大的社会经济价值。本文首先综述了面向数据中心绿色可靠运行的优化与控制方法；然后，提出一种事件驱动的强化学习方法，用于提升运行能效；最后，提出一种电池寿命预测方法，提升了预测精度。

1 background & motivation：这个问题为什么重要，如何给工作上价值、上高度
2 数据中心空调节能的"事件驱动强化学习"
3 电池寿命预测的"专家知识 + 数据驱动"

1 background & motivation：这个问题为什么重要，如何给工作上价值、上高度

1.1 数据中心 = 数字世界的"发电厂"

可以把数据中心想象成支撑整个数字社会的 隐形发电厂。它们不直接发电，但 24 小时不间断地为你的微信聊天、外卖下单、公司办公平台提供算力。没有数据中心，现代生活会直接瘫痪。

2020 年疫情后，线上需求爆发式增长，数据中心被我国列为"新基建"重点领域。但数据中心发展的代价是：到 2030 年，全球数据中心将吃掉全球 8% 的用电量（3000 太瓦时，相当于 300 个三峡大坝的年发电量）。谷歌、腾讯这些巨头，每年光电费就花掉几十亿。

核心痛点：数据中心的能源效率极低。全球平均 PUE（电源使用效率）是1.8，中国 1.67，意思是每给服务器 1 度电，还得额外花 0.67-0.8 度电用于散热、照明等。谷歌靠 AI 优化能做到 1.11，说明整个行业浪费惊人，优化空间巨大。

1.2 为什么这事这么难？三大挑战

挑战一：数据海啸但信息稀薄。一个大型数据中心有上万个传感器，每秒都在传温度、风速、功耗等数据。但这些数据就像"嘈杂的菜市场"，真正对决策有用的信号淹没在噪声里。
挑战二：牵一发而动全身的复杂动态。服务器发热、空调制冷、空气流动、任务调度环环相扣，调高一点空调温度，可能导致某个角落的服务器过热宕机。然而，这种耦合关系没有简单公式，必须用昂贵的 CFD 流体仿真软件模拟，算一天的能耗可能要花几小时。
挑战三：计算负载变化与数据中心制冷系统时间 scale 上的 mismatch。业务需求像"过山车"，用户流量忽高忽低（比如双 11 零点）。同时，制冷系统反应慢（分钟级），而任务调度反应快（秒级），这个时间错位导致频繁波动，浪费能源。

1.3 可靠性是生死线

数据中心断电 = 重大事故。备用电池（UPS）是最后一道保险，但：

电池长期处于"浮充"状态（只充电不放电），传统检测方法失效。
电池故障罕见，数据样本极少，像"熊猫血"一样难研究。
现在靠专家经验判断，准确率不高，要么换早了浪费钱，要么换晚了出事故。

价值升华：这项工作不仅是帮企业省电费，更是保障数字经济基础设施的可靠运行，实现碳中和目标的关键技术。用 AI 让数据中心既绿又稳，就是给数字社会装上"智能节能器"和"故障预警雷达"。

2 数据中心空调节能的"事件驱动强化学习"

传统 RL 把每个传感器数据当状态，这会导致 state space 维度爆炸，比如，1000 个传感器 × 10 个时间片 = 万维状态空间。

本工作的创新点：把"状态"升级为"事件"——只关注有决策意义的模式变化。

使用了事件驱动优化的框架，本站博客。

2.1 Step 1：建模为马尔可夫决策过程（MDP）

状态 = 连续 m 个时段的观测值（冷通道温度、热通道温度、IT 负载等）
动作 = (风机转速 SF, 送风温度 SP) —— 这就是你要调的两个旋钮
奖励 = 三部分加权：
1. 省电：风机转速的立方和；根据机理，风机转速降低 1%，省电约 3%。
2. 安全：温度越界惩罚，用 log(1+exp(温差²)) 平滑惩罚，避免硬边界。
3. 稳定：温度波动惩罚，标准差 / 均值 > 4% 就惩罚。
优化目标：最大化 cumulative reward，在不烧服务器的前提下，尽可能省电费。

2.2 Step 2：定义"事件" —— 状态转移对的聚类

事件 e 是一组状态转移对 (s→s') 的集合。怎么定义事件？

物理意义法：比如"IT负载突增事件"、"热通道超温事件"。
聚类算法：把相似的状态转移模式自动归为一类。

然后，使用事件驱动的 Q function：计算在某个事件 e 下，采取动作 a 的价值。即，Q(e, a) = Σ [当前状态 i 的概率] × (即时奖励 + 未来期望收益)。

2.3 Step 3：事件驱动的 DQN 算法

使用深度神经网络，近似 Q(e,a) 函数。输入是事件特征，输出是每个动作的价值。
训练时，用 CFD 仿真器作为环境（因为真实数据中心不敢随便试错）。

2.4 Step 4：仿真实验教训

论文里有个关键发现：仿真速度决定成败。

最初用 2 核服务器，仿真加速比 3:1（模拟 1 天要花 8 小时），训练 1600 步策略还没收敛。
换成 64 核服务器，加速比 120:1（模拟 1 天只要 12 分钟），策略很快收敛。

结论：强化学习在数据中心落地，硬件算力是王道。CFD 仿真慢得像蜗牛，根本吃不消 RL 的大量试错。

3 电池寿命预测的"专家知识 + 数据驱动"

背景：传统方法要深度充放电才能测电池健康，但数据中心电池几乎不放电，一直处于"浮充"状态。现在，我们的需求是预测电池状态是否正常。

具体方法分为以下 4 步：

Step 1: 数据清洗。剔除非浮充数据（放电、充电、异常状态），处理电压 / 电阻的异常跳变（比如传感器脏了），只保留"浮充"状态。
Step 2: 人工标注。
- 背景：电池故障是稀有事件（292 节电池 2 年只坏几十个），手动标注 2 亿条数据不现实。
- 方法：我们使用变点检测算法，自动找出"性能开始衰退"的时间段，比如电压方差突然变大。然后，只人工审核嫌疑区间：把工作量从 100% 降到 1%。
Step 3: 特征工程。原始数据只有电压、电流、内阻 3 个维度，这像像用"身高体重血压"判断一个人健不健康，信息太少。我们在专家经验指导下，构造 11 个新特征：
- 组内均衡性：一组电池里，电压最高和最低的差值。
- 离散度：电压 / 电阻的统计方差。
- 变化率：最近 7 天电压下降速度。
- 组合特征：电压和电阻的交互项，比如电阻飙升 + 电压下降 = 高危信号。
Step 4: 样本平衡。
- 背景：健康样本 2亿 vs 故障样本 44万，比例 500:1，样本过于不平衡，将导致模型训不好。
- 方法：我们对健康样本降采样，具体的，k-means 聚类后每类只取代表。然后，用梯度提升决策树分类，效果好、可解释性强。

实验结果：

比腾讯专家经验提升 8% 准确率，并且可以提前 15 天预警，提供宝贵的维护窗口。
特征重要性：组合特征 > 时间序列特征 > 组内特征 > 基础特征。

posted @ 2025-11-22 16:10 MoonOut 阅读(39) 评论(0) 收藏举报

刷新页面返回顶部

月出兮彩云归 🌙