数据中心 + 事件驱动优化:面向数据中心绿色可靠运行的强化学习方法


这篇文章是贾庆山老师团队的工作,2020 年发表于《智能科学与技术学报》。

文章摘要:

数据中心的绿色可靠运行具有重大的社会经济价值。本文首先综述了面向数据中心绿色可靠运行的优化与控制方法;然后,提出一种事件驱动的强化学习方法,用于提升运行能效;最后,提出一种电池寿命预测方法,提升了预测精度。



1 background & motivation:这个问题为什么重要,如何给工作上价值、上高度

1.1 数据中心 = 数字世界的"发电厂"

可以把数据中心想象成支撑整个数字社会的 隐形发电厂。它们不直接发电,但 24 小时不间断地为你的微信聊天、外卖下单、公司办公平台提供算力。没有数据中心,现代生活会直接瘫痪。

2020 年疫情后,线上需求爆发式增长,数据中心被我国列为"新基建"重点领域。但数据中心发展的代价是:到 2030 年,全球数据中心将吃掉全球 8% 的用电量(3000 太瓦时,相当于 300 个三峡大坝的年发电量)。谷歌、腾讯这些巨头,每年光电费就花掉几十亿。

核心痛点:数据中心的能源效率极低。全球平均 PUE(电源使用效率)是1.8,中国 1.67,意思是每给服务器 1 度电,还得额外花 0.67-0.8 度电用于散热、照明等。谷歌靠 AI 优化能做到 1.11,说明整个行业浪费惊人,优化空间巨大

1.2 为什么这事这么难?三大挑战

  • 挑战一:数据海啸但信息稀薄。一个大型数据中心有上万个传感器,每秒都在传温度、风速、功耗等数据。但这些数据就像"嘈杂的菜市场",真正对决策有用的信号淹没在噪声里。
  • 挑战二:牵一发而动全身的复杂动态。服务器发热、空调制冷、空气流动、任务调度环环相扣,调高一点空调温度,可能导致某个角落的服务器过热宕机。然而,这种耦合关系没有简单公式,必须用昂贵的 CFD 流体仿真软件模拟,算一天的能耗可能要花几小时。
  • 挑战三:计算负载变化与数据中心制冷系统 时间 scale 上的 mismatch。业务需求像"过山车",用户流量忽高忽低(比如双 11 零点)。同时,制冷系统反应慢(分钟级),而任务调度反应快(秒级),这个时间错位导致频繁波动,浪费能源。

1.3 可靠性是生死线

数据中心断电 = 重大事故。备用电池(UPS)是最后一道保险,但:

  • 电池长期处于"浮充"状态(只充电不放电),传统检测方法失效。
  • 电池故障罕见,数据样本极少,像"熊猫血"一样难研究。
  • 现在靠专家经验判断,准确率不高,要么换早了浪费钱,要么换晚了出事故。

价值升华:这项工作不仅是帮企业省电费,更是保障数字经济基础设施的可靠运行,实现碳中和目标的关键技术。用 AI 让数据中心既绿又稳,就是给数字社会装上"智能节能器"和"故障预警雷达"。

2 数据中心空调节能的"事件驱动强化学习"

传统 RL 把每个传感器数据当状态,这会导致 state space 维度爆炸,比如,1000 个传感器 × 10 个时间片 = 万维状态空间。

本工作的创新点:把"状态"升级为"事件"——只关注有决策意义的模式变化

使用了 事件驱动优化 的框架,本站博客

2.1 Step 1:建模为马尔可夫决策过程(MDP)

  • 状态 = 连续 m 个时段的观测值(冷通道温度、热通道温度、IT 负载等)
  • 动作 = (风机转速 SF, 送风温度 SP) —— 这就是你要调的两个旋钮
  • 奖励 = 三部分加权:
    1. 省电:风机转速的立方和;根据机理,风机转速降低 1%,省电约 3%。
    2. 安全:温度越界惩罚,用 log(1+exp(温差²)) 平滑惩罚,避免硬边界。
    3. 稳定:温度波动惩罚,标准差 / 均值 > 4% 就惩罚。
  • 优化目标:最大化 cumulative reward,在不烧服务器的前提下,尽可能省电费。

2.2 Step 2:定义"事件" —— 状态转移对的聚类

事件 e 是一组状态转移对 (s→s') 的集合。怎么定义事件?

  • 物理意义法:比如"IT负载突增事件"、"热通道超温事件"。
  • 聚类算法:把相似的状态转移模式自动归为一类。

然后,使用事件驱动的 Q function:计算在某个事件 e 下,采取动作 a 的价值。即,Q(e, a) = Σ [当前状态 i 的概率] × (即时奖励 + 未来期望收益)。

2.3 Step 3:事件驱动的 DQN 算法

  • 使用深度神经网络,近似 Q(e,a) 函数。输入是事件特征,输出是每个动作的价值。
  • 训练时,用 CFD 仿真器作为环境(因为真实数据中心不敢随便试错)。

2.4 Step 4:仿真实验教训

论文里有个关键发现:仿真速度决定成败。

  • 最初用 2 核服务器,仿真加速比 3:1(模拟 1 天要花 8 小时),训练 1600 步策略还没收敛。
  • 换成 64 核服务器,加速比 120:1(模拟 1 天只要 12 分钟),策略很快收敛。

结论:强化学习在数据中心落地,硬件算力是王道。CFD 仿真慢得像蜗牛,根本吃不消 RL 的大量试错。

3 电池寿命预测的"专家知识 + 数据驱动"

背景:传统方法要深度充放电才能测电池健康,但数据中心电池几乎不放电,一直处于"浮充"状态。现在,我们的需求是预测电池状态是否正常。

具体方法分为以下 4 步:

  • Step 1: 数据清洗。剔除非浮充数据(放电、充电、异常状态),处理电压 / 电阻的异常跳变(比如传感器脏了),只保留"浮充"状态。

  • Step 2: 人工标注。

    • 背景:电池故障是稀有事件(292 节电池 2 年只坏几十个),手动标注 2 亿条数据不现实。
    • 方法:我们使用变点检测算法,自动找出"性能开始衰退"的时间段,比如电压方差突然变大。然后,只人工审核嫌疑区间:把工作量从 100% 降到 1%。
  • Step 3: 特征工程。原始数据只有电压、电流、内阻 3 个维度,这像像用"身高体重血压"判断一个人健不健康,信息太少。我们在专家经验指导下,构造 11 个新特征:

    • 组内均衡性:一组电池里,电压最高和最低的差值。
    • 离散度:电压 / 电阻的统计方差。
    • 变化率:最近 7 天电压下降速度。
    • 组合特征:电压和电阻的交互项,比如电阻飙升 + 电压下降 = 高危信号。
  • Step 4: 样本平衡。

    • 背景:健康样本 2亿 vs 故障样本 44万,比例 500:1,样本过于不平衡,将导致模型训不好。
    • 方法:我们对健康样本降采样,具体的,k-means 聚类后每类只取代表。然后,用 梯度提升决策树 分类,效果好、可解释性强。

实验结果:

  • 比腾讯专家经验提升 8% 准确率,并且可以提前 15 天预警,提供宝贵的维护窗口。
  • 特征重要性:组合特征 > 时间序列特征 > 组内特征 > 基础特征。


posted @ 2025-11-22 16:10  MoonOut  阅读(12)  评论(0)    收藏  举报