随着 AI 应用的迅速扩展,全球数据中心建设正在加速推进。然而,在这股热潮背后,一个日益严峻的问题正逐渐浮现:电力供应难以跟上激增的需求,导致严重的电力短缺。而这一问题在美国尤为明显。
尽管拥有充足的发电能力,但美国电力行业仍面临一个被称为“并网排队”(interconnection queues)的结构性问题。监管审批和电网接入限制,使新建发电设施无法在所需时间和地点输送电力。近期日立集团旗下多家公司组成的团队通过为 Southwest Power Pool(SPP)项目提供咨询服务,协助缓解了这一瓶颈问题。SPP 是一家区域输电组织,负责管理美国部分地区的电网及批发电力市场。
为什么电网正面临失衡
近年来,美国电价涨幅已超过整体通胀水平。2020 年至 2024 年间,美国居民电价上涨了 25%。要原因包括老旧基础设施升级成本增加,以及 AI 热潮推动下数据中心需求的激增。
负责 Hitachi Vantara 数据基础设施开发的 Shawn Monroe 解释了这一挑战的规模:“过去 100 年间,美国电力需求的年增长率一直维持在 1%–3% 的温和水平。但预测显示,2025 年的增长率将达到 33%–35%,2026 年接近 40%。这意味着基础设施负载将在短短三年内增长 300%——对于设计寿命超过 50 年的基础设施而言,这一增长速度过于迅猛。”
Shawn Monroe,Hitachi Vantara 能源 AI 首席战略师
这一激增对 SPP 等区域输电组织(RTO)造成了尤为沉重的压力。RTO 负责管理大规模输电网络,并审核来自发电厂和数据中心的并网申请。如今,它们在扩展基础设施的同时,也面临提升运营效率的巨大压力。
电网基础设施正导致整个行业进展滞后
SPP 是经美国联邦能源监管委员会(FERC)批准的区域输电组织(RTO)之一。SPP 管理着覆盖 37 个州的大型电网,是美国第二大的 RTO。
“RTO 负责评估发电开发商提交的并网申请,”Monroe 解释道。“当开发商提议在某一地点建设新的发电机组时,RTO 必须模拟电力在电网中的流动情况,并识别可能出现负载压力或拥塞的区域。”
如果发现系统薄弱环节,开发商必须承担必要升级的费用——但识别这些问题并提供详细分析报告,则是 RTO 的职责。
在 SPP,评估新发电项目的流程——包括对整个电网进行评估并生成分析报告——平均需要 27.5 个月。对于大型项目而言,再加上建设、调试和并网流程,从项目启动到正式投运可能需要五年以上。此外,电网并网还需要进行大量研究、模拟和复杂的工程分析。这一流程的延误会形成一种“等待状态”,即发电资源已经准备就绪,却无法输送电力。与此同时,新的数据中心仍在不断接入电网,进一步推高了电力需求。
SPP 估计,如果并网审批持续滞后,到 2029 年,储备容量率可能会从当前的 24% 降至危险的 5%。为应对这一紧迫挑战,日立集团组建了一支由六家子公司组成的团队,从上游规划到 AI 基础设施,全面覆盖整个问题链条。
团队取得的成果超出了预期。SPP 最初的目标是将分析时间缩短 80%,但实际效果更进一步。此前需要近三周才能完成的一项流程,如今已缩短至不到一小时。
通过端到端解决方案应对这一挑战
为什么能够解决 SPP 问题的是日立,而不是传统公用事业供应商或 AI 专家?负责 Hitachi America 研发团队的 Bo Yang 指出了三个原因:端到端的方法、IT 与 OT(运营技术)的融合,以及对业务流程的深度参与。
Bo Yang,Hitachi America 研发部门能源解决方案实验室副总裁
“真正重要的并不是改进某一个软件或硬件,而是消除整个分析流程中的瓶颈,”她表示。“许多 AI 供应商仅依赖历史统计数据。但电网属于持续变化的关键任务系统。当面对未知情况时,这类模型会失去准确性,因此无法在实际运营中被充分信任。”
日立更进一步,运用设计思维重新构建运营流程,并基于数十年的 OT 专业经验开发了基于物理模型的 AI,从而确保其在真实电网环境中的安全性与准确性。
基于物理模型的 AI 在能源电网中的作用
Lumada Innovation Hub 高级负责人 Yoshimitsu Kaji 指出,尽管生成式 AI 占据了当今的头条,但这类模型经常因生成被称为“幻觉”的“看似合理却错误”的答案而受到批评。
“在电网这类社会基础设施领域,即便出现一次错误也是不可接受的,”Kaji 问道。“在一个几乎不容许出错的领域,你们如何确保 AI 可靠性?”
Yang 表示:“典型的数据驱动型 AI 会从历史数据中学习,并仅基于统计规律进行推理。相比之下,我们的基于物理模型的 AI 则直接将数学、物理等科学定律嵌入算法本身。”
例如,在电气工程领域,基尔霍夫电路定律定义了电流与电压的运行规律。基于物理模型的 AI 会将这些物理原理作为硬约束条件纳入算法之中。它不像大型语言模型那样仅依赖概率推断,而是将基于事实的物理计算与统计推理相结合,从而形成一种混合式方法。
“纯粹的数据驱动型 AI 在面对陌生或未曾见过的场景时,可能会生成统计学上看似合理的答案,”Yang 表示。“然而,基于物理模型的 AI 则受到不可改变的物理定律约束。这些定律如同一道安全边界,可防止系统出现失控行为,并确保 AI 即使在历史数据中不存在对应案例的情况下,也能生成符合物理规律的解决方案。”
通过引入基于物理模型的 AI,SPP 得以同时提升电网并网研究的准确性与速度——这类研究需要通过高级仿真评估海量场景模式。这一成果体现了 Yang 的领导力以及日立长期积累的专业技术能力。
Hitachi iQ:通过专有基础设施加速 AI
在生成式 AI 领域,大规模预训练模型被用于执行推理任务。模型能力越强,其内存占用也越大。理想情况下,整个模型应驻留于高速 DRAM 中,但现实中,其规模通常需要依赖大容量存储,从而不可避免地导致性能下降。
基于物理模型的 AI 对基础设施提出了更高要求。它不仅需要极其复杂的计算能力,还需要能够快速访问海量仿真数据。这正是 Hitachi iQ 发挥关键作用的地方。
在传统系统中,数据读写需要经过 CPU 和操作系统内核,从而带来大量开销并形成性能瓶颈。而 Hitachi iQ 则绕过操作系统内核,将数据直接从存储传输至 GPU,从而消除了 CPU 等待时间。
Monroe 热情地解释了其技术优势:“传统通信协议本质上是单向的,受限于 CPU,其吞吐量通常只能达到约 1.6 Gbps。Hitachi iQ 则可聚合多个超高速 800 Gbps 连接,并将数据直接流式传输至 GPU。结合日立在大规模数据湖技术方面长期积累的专业能力,这一架构围绕一个核心原则构建:绝不让 GPU 闲置。”
通过端到端优化软件以匹配 GPU 特性,SPP 实现了显著的性能提升——仅使用不到传统方案一半的资源,便获得了更快的处理速度。未来,SPP 将能够推进其历史性的 77 亿美元输电网强化计划,并且其分析时间缩短幅度已超过最初设定的 80% 目标。若没有这一协作框架,这一成果将无法实现。
了解 Hitachi iQ 如何帮助您的组织在大规模环境下实现卓越性能与高韧性,并无论数据位于何处都能实现统一访问。