随着人工智能(AI)重塑各行各业,它也在悄然改变 IT 的核心——数据中心。AI 工作负载的爆炸式增长正在推高能耗,挑战散热系统,并迫使人们从根本上重新思考数据的存储与传输方式。
在这一新格局下,闪存存储脱颖而出——提供 AI 真正加速所需的性能、效率与可扩展性。然而,对于许多组织来说,基于磁盘的存储仍发挥着重要作用,在成本或归档需求占主导的场景尤为如此。这并不是从一种技术骤然切换到另一种技术的问题,而是要找到适合每个组织独特需求的最佳组合。
当前真正的问题是:您应该何时开始为 AI 发展调整存储策略?以及如何规划最佳的发展路线?
以下是一些可帮助您入手的思路。
AI 能源激增:基础设施的临界点
AI 工作负载本质上就耗电。随着模型规模和复杂性的增长,其能源需求也随之增长。国际能源署预测,到 2030 年,全球数据中心 (DC) 的用电量可能会增加一倍以上,而人工智能将成为主要驱动力。一些预测甚至认为,数据中心的年耗电量可能超过 1,000 太瓦时——这已超过日本当前一年的总用电量。
这不仅是容量问题,更是一场正在形成的可持续性危机。AI 计算的功率密度比典型的数据中心应用高出 5-10 倍——每个机架可超过 100 千瓦,而 GPU 功耗可达 1,500 瓦,传统基础设施已被推到极限。
必须有所改变,而且迫在眉睫。
存储:AI 与数据中心能源危机的“隐形推手”
虽然计算往往是焦点,但存储同样是数据中心能耗的重要来源,而且常常被忽视。传统机械硬盘(HDD)在当今 AI 能耗标准下效率偏低,但仍被广泛部署。
相比之下,全闪存 NVMe 固态硬盘(SSD)在以下方面具备极具吸引力的优势:
- 空闲功耗:HDD 的功耗为 5-10W,而 NVMe SSD 仅为 0.2-0.8W。
- 每瓦性能:SSD 每瓦可提供高达 50 倍的 IOPS 性能。
- 密度:闪存能在更小的空间内提供更大容量,从而减少能耗与散热需求。
一项测试结果表明,一机架 SSD 就能替代 23 个机架的 HDD 容量与性能,同时提供高达 54 倍的读取带宽,并仅消耗其极少部分的电力。这不仅是性能上的胜利,更是可持续发展的必然选择。
散热创新:从可选到必需
AI 基础设施的热量输出加速了液冷技术的需求。与传统风冷系统相比,液冷可提供更高的机架密度与更优的散热能力,并能将机房总用电降低近 20%,将整个数据中心的用电减少 10% 以上。这类创新已不再是实验性质,而是必需条件——液冷数据中心如今已成为支撑功耗超过 500W 芯片、并保持数据中心在能源与碳排预算范围内的关键技术。
可靠性和存储总拥有成本
对于数据基础设施而言,能源效率只是总体拥有成本 (TCO) 公式的一部分。可靠性在衡量 TCO 方面也发挥着关键作用:
- HDD的年度故障率约为 1.4%,且其故障模式相对可预测。
- NVMe SSD 则更常表现为“慢速故障”(fail-slow),极少出现灾难性故障。
- 运维影响:闪存较高的可靠性与较低的维护负担,不仅能减少停机时间,还能降低与大规模存储管理相关的能源与人力成本。
结论:可靠性影响的不仅是直接更换成本,还包括监控、维护与性能一致性等运维开支——这些都共同促成了低能耗 SSD 所带来的 TCO 降低。
将 ESG 与 AI 战略目标相结合
向全闪存存储的转变符合企业一系列更广泛的战略重点:
- 可持续性:降低电力消耗、减少占地面积、减少电子垃圾。
- AI 性能:NVMe 的低延迟和高性能非常适合 AI 管道。
- 能源预算:减少的存储能源消耗可以重新分配到最需要的计算领域。
因此,运营层面的收益也有助于实现公司的企业环境、可持续发展和治理目标。这是一个双赢的局面。
现在是逐步淘汰基于磁盘存储的时机吗?
每家机构都有其特定技术发展路线所决定的独特需求,其中一些仍可能需要依赖某种形式的磁盘存储。尽管 HDD 在冷数据存储中依然具有每 TB 成本优势,但其低效性使其在 AI 驱动环境中越来越难以被合理采用。
闪存高达 5,000% 的每瓦性能优势,加上空间与运维等方面的好处,为加速转型提供了强有力的理由——尤其是那些在全企业范围内推进 AI 的组织。
下一步:创新和洞察的机会
在考虑何时以及如何开始推进这一转型时,有几个值得深入探讨的问题:
- 投资回报周期:在考虑节省的能源、散热与空间因素后,闪存转型多快能取回成本?
- AI 特定存储模式:我们如何优化存储架构,以适应那些日益动态化、数据密集且对延迟高度敏感的 AI 工作负载?
- 生命周期影响:从生产、运行到报废,相比于 HDD,闪存的全生命周期环境成本如何?
- 混合策略:HDD 在哪些场景仍有意义?如何与闪存智能搭配以最大化性能与成本优势?
- 考虑能源效应的软件:智能存储管理与 AI 驱动的编排能否进一步降低能耗与碳足迹?
在您和您的团队思考这些问题时,务必要牢记:AI 不仅在改变数据中心的功能,更改变了它们未来的发展方向。转向全闪存存储不仅是一次性能升级,更是向着可持续性、更高韧性与 AI 就绪型基础设施的战略转型。
随着工作负载的演变与环境压力的加剧,未来的数据中心必须更精简、更智能、更环保。采用闪存是实现这一转型的关键一步。这不仅为速度,也是为长期的责任与管理。
这是一段通往数字生态系统的旅程,在这里,性能和可持续性不再相互矛盾,而是密不可分。
每一段旅程都是独一无二的
正如开头所说,每个客户在 AI 旅程中的阶段不同——有些已在积极建设,有些才刚开始规划。但无论身处何处,有一点是明确的:实现数据中心现代化,并构建坚实的闪存数据基础,是释放 AI 潜力的关键。
正因如此,拥有一个具备全局视野的合作伙伴至关重要。在 Hitachi Vantara,我们深知成功的 AI 不仅仅关乎存储——它需要在计算、网络、数据管理与卓越运维之间实现最佳组合。我们在传统与新一代数据中心环境中都有深厚经验,并与客户紧密协作,设计、优化与扩展能带来长期价值的基础设施。
无论您处于旅程的哪个阶段,无论您关注的是性能、效率、可持续性,还是成本,我们都将助您构建一个加速而非限制 AI 目标的环境。让我们一起构筑 AI 的未来,从您数据与业务应得的基础开始。
阅读更多:
Atsushi Ishikawa
Atsushi Ishikawa is Chief Technology Officer for Network Storage at Hitachi Vantara.
Jason Hardy
Jason Hardy is Chief Technology Officer for Artificial Intelligence at Hitachi Vantara