所有博客文章

首席技术官需要了解的现代 AI 存储

Liam Yu
Hitachi Vantara 数据管理高级产品营销经理

2026 年 3 月 20 日


随着组织将其人工智能计划从实验阶段扩展到生产阶段,首席技术官 (CTO) 正面临一项关键的架构挑战:存储正成为最常见且成本最高的瓶颈之一。尽管组织持续加大对 GPU 计算的投入,但研究一致表明,GPU 之外的基础设施低效才是 AI 支出浪费的主要来源。

向高吞吐、实时数据管道的转变,要求存储基础设施不仅在吞吐量和延迟方面进行优化,还需兼顾运维简化、可持续性以及可预测的成本控制。换句话说:数据更快、意外更少,也更少需要向首席财务官 (CFO) 解释预算超支。

微软对 400 多个生产级深度学习任务的分析发现,GPU 平均利用率仅为 50% 或更低,其中近一半的利用率不足源于 I/O、预处理和数据传输等数据操作,而非模型设计。在基于 Kubernetes 的大型 AI 集群中,实际利用率往往仅为 15–25%,这意味着约 60–70% 的 GPU 预算实际上因等待基础设施跟进而被浪费。

现代化不再是周期性的更新换代,而是对组织长期 AI 就绪能力的战略性投资。对于 CTO 而言,这也重新定义了存储的讨论:数据管道中的每一个瓶颈,都会直接转化为 GPU 空转、更长的训练周期,以及更高的单位 Token 成本。

AI 工作负载暴露出传统存储架构的局限性

AI 训练和推理对数据的需求极高。谷歌和微软的研究表明,高达 70% 的模型训练时间可能消耗在 I/O 和数据传输上。这意味着原本设计用于高速运行的加速器,往往会因等待数据而被迫停滞。

与此同时,为这些管道提供数据的数据在规模和复杂性上都呈爆发式增长。在图像、视频、传感器数据和嵌入等多模态 AI 输入的推动下,非结构化数据前约占企业数据的 80–90%,其增长速度可达结构化数据集的 4 倍。

传统存储平台是为可预测的事务型工作负载而设计的。要求其在亚毫秒级延迟下持续提供数百 GiB/s 的并行吞吐量,充其量也只是过于乐观。最糟糕的情况是,这会导致高强度的人工调优、脆弱的临时性解决方案,以及只有少数人真正理解的基础设施——而那个人很可能正好不在岗。

以下是下一代存储如何直接影响业务收益:

  1. 面向 GPU 工作负载的自动优化:当存储能够持续提供 400–650+ GiB/s 吞吐量时,GPU 空转时间将减少,从而优化单位 Token 成本并缩短训练的实际时长。
  2. 消除传统系统的“性能税”:减少人工调优和检查点瓶颈,可降低工程负担,并避免在传统存储阵列上采用高成本的临时性方案。
  3. 支持混合 AI 数据管道的多协议能力:在满足推理所需的亚毫秒级延迟和高 IOPS 需求的同时,还能提供训练所需的吞吐量,从而支持数据科学、MLOps 与产品团队并行推进。
  4. 为精简型工程团队简化运维:减少在存储调优和排查不稳定问题上的时间,意味着可以将更多资源投入到推动收入增长的模型和产品项目中 - 这也与结构化工作负载基础设施支出压力上升的趋势相呼应。

此外,AI 数据的增长呈非线性。现代平台支持增量式、无中断扩展,这意味着无需规划那种人人畏惧且难以准确预算的迁移项目,也能实现持续扩展。

为什么现代存储能够直接改善 AI 经济性

现代 AI 存储不仅提升性能,更能修复失衡的成本结构。

能够持续提供 400–650+ GiB/s 吞吐量的高性能平台可持续为 GPU 提供数据,压缩训练周期,并显著减少空转时间。鉴于 46% 的 GPU 利用率不足源于数据操作,存储优化带来的收益远超其投入。

从财务角度来看,这一点至关重要。云端与本地环境的停机(包括由存储导致的性能下降)目前平均每分钟造成 8,600 至 14,000 美元的损失,在关键故障或性能退化期间,大型企业的损失往往每小时超过 100 万美元。存储不稳定会进一步放大这些损失,包括延长训练周期、推迟发布,以及迫使企业通过过度配置计算资源来弥补效率不足。

像 VSP One 这样的现代架构通过消除人工调优、脆弱的临时方案以及高故障风险的复杂性,显著降低了“性能税”。其结果是基础设施在高负载压力下仍能保持可预测的表现——而这恰恰是最关键的时刻。

弹性扩展已成为业务需求,而不再只是基础设施特性

AI 数据增长呈非线性。企业经常会因新模型、新模态或 RAG、向量搜索等新应用而出现突发性增长。对企业 IT 领导者的调查显示,超过 98% 的组织正在增加专门面向 AI 的数据技术投资,而整体 IT 预算往往并未同步增长。

现代存储平台支持增量式、无中断扩展,使组织能够在不依赖计算资源的情况下独立扩展容量与吞吐量。这种解耦通过避免采购空转 GPU 或利用率不足的存储层来改善单位经济性,同时规避了“整体替换式升级”带来的高昂停机成本。

鉴于目前每年超过 58% 的组织会遭遇停机事件,且中位恢复时间超过一小时,消除中断式扩展将对收入和企业声誉产生直接影响。

以下是现代存储平台实现弹性扩展的关键方式:

  1. 应对非线性、多模态数据增长:弹性扩展可吸收非结构化/多模态数据的激增(两年内增长约 87%),无需进行耗费预算且拖延周期的整体替换式升级。
  2. 增量式、零停机扩容:无中断横向扩展可避免高成本的停机时间,从而防止停机累积带来的收入损失与声誉影响。
  3. 计算与存储的独立扩展:解耦使您只需采购所需资源,可在无需为计算资源空转付费的情况下扩展存储(反之亦然),从而在数据规模增长时提升单位经济性。
  4. 新 AI 应用的无缝上线:随着存储不再成为瓶颈,加之在 AI 驱动下存储介质市场年复合增长率(CAGR)超过 20%,企业可快速部署 RAG/向量应用并把握市场机会窗口。

效率与可持续性已成为核心架构指标

首席技术官 (CTO) 正越来越多地在创新与环境及财务责任之间寻求平衡。电力——而非占地空间——正迅速成为 AI 数据中心的关键限制因素。根据皮尤研究中心 (Pew Research Center) 的数据,2024 年美国数据中心耗电量为 183 太瓦时 (TWh),占全国总用电量的 4%。到 2030 年,该数字预计将增长 133%,达到 426 太瓦时。

现代存储现代化通过提升存储密度、压缩数据占用空间,并以以下两种主要方式降低功耗,从而支持环境目标:

  • 面向成本治理的保障型数据缩减:如 4:1 的保障型数据缩减能力,可将存储规划从被动转向可预测。随着模型规模、数据摄取管道及数据保留需求的增长,这为长期 AI 项目提供稳定的成本基准。
  • 高密度 NVMe SSD 降低空间、功耗及散热需求:如 60TB NVMe SSD 等组件,使企业能够将基础设施整合至更少的机架中,从而同时降低能耗与空间占用。

通过提升每瓦性能,现代基于 NVMe 的存储可确保电力预算用于实际生产负载,而非空转的基础设施。

统一管理降低混合 AI 环境的隐性成本

大多数 AI 就绪型基础设施由本地系统、公有云服务及边缘环境组成。行业数据显示,超过 80% 的企业运行混合云或多云架构,近一半的工作负载分布在这些环境中。管理此类分布式架构会引入复杂性,从而推高运营成本。若缺乏统一的存储管理,运营复杂性将迅速成为成本放大器。

以下是简化混合云管理通常带来的成本节约措施:

  1. 统一操作系统:跨存储阵列的通用操作系统可降低培训需求,加快故障排查,并提升整个数据资产的可观测性。
  2. 跨阵列的通用操作系统可减少碎片化:单一、统一的操作系统提供集中式可观测性、一致的 API 行为以及精简的生命周期管理,从而降低运维复杂度,加快故障排查,并简化平台、存储及 SRE 团队的上手流程。
  3. 自动化与智能洞察:诸如 VSP 360 等解决方案提供端到端自动化——覆盖从部署到工作流编排的全过程,从而降低运维负担、减少人为错误,并使 IT 团队能够专注于更高价值的工程项目。

尽早升级的企业可避免随着 AI 项目加速推进而累积的技术债;而观望的企业则面临触及性能瓶颈、成本失控及运营脆弱性的风险。

行业应用场景:CTO 在实际应用中的预期

行业使用案例
金融服务
  • 实时欺诈检测:需要超低延迟、高 IOPS 架构,以每秒评估数百万次交易。
  • 合规保留:现代存储支持 PB 级数据保留,并提供有保障的数据缩减,从而实现可预测的合规成本。
医疗保健与生命科学
  • 医学影像与基因组学:高密度 NVMe 可加速 MRI、CT 及基因组数据集的计算管道。
  • 药物研发工作流:统一管理简化了分布在各研究机构、云平台和高性能计算 (HPC) 实验室的混合数据环境。
制造业与工业物联网
  • 预测性维护:来自数千个传感器的实时数据摄取需要稳定的吞吐能力和可扩展性。
  • 数字孪生:长时间运行的仿真需要高密度、高能效的存储,以尽可能降低基础设施占用。
零售与电子商务
  • 客户个性化:推荐引擎依赖对行为数据集的快速访问,需要稳定的亚毫秒级响应时间。
  • 库存与供应链优化:自动化洞察可减少跨混合环境的数据流程摩擦。
媒体与娱乐
  • 高分辨率制作:8K+ 工作负载的编辑与渲染得益于高密度 NVMe 和紧凑型机架设计。
  • AI 驱动的内容标注:统一操作系统与自动化可加速大型媒体库的元数据生成。
能源与公用事业
  • 智能电网分析:实时需求建模需要持续的吞吐能力和高性能的数据摄取。
  • 环境监测:数据缩减和高效密度可直接支持减排目标。

摘要:首席技术官 (CTO) 关于现代 AI 存储的核心要点

现代 AI 存储并非简单的基础设施升级,而是提高 AI 投资回报率 (ROI)、可持续性和组织敏捷性的战略杠杆。

数据表明:

  • GPU 成本高昂,且常因存储与数据瓶颈而处于闲置状态;实现 AI 就绪需要现代化的存储基础,而非通过渐进式修补来最大化投资回报。
  • 电力与运营效率已成为可扩展性的关键约束,因此必须在架构设计中纳入可持续性与成本治理。
  • 统一且针对 AI 优化的存储可直接提高利用率、成本可预测性和价值实现速度,并降低跨混合生态系统的运营复杂度
  • 高密度存储和有保障的数据缩减技术可维持长期的经济效益

存储现代化并非简单的基础设施更新,而是一项 AI 加速决策。尽早推进现代化的组织可避免技术债持续累积;而推迟的组织,则在 AI 成为竞争差异化核心的关键阶段面临性能瓶颈、成本失控及运营脆弱性的风险。

如果不加以解决,您的 GPU 将持续空转——安静、耐心,但成本极其高昂。

了解 Hitachi Vantara 如何通过AI 驱动的运营管理,帮助您的组织实现 IT 敏捷性与创新



Liam Yu

Liam Yu 是 Hitachi Vantara 数据管理高级产品营销经理。