首席技术官需要了解的现代 AI 存储

Liam Yu
Hitachi Vantara 数据管理高级产品营销经理

2026 年 3 月 20 日

随着组织将其人工智能计划从实验阶段扩展到生产阶段，首席技术官 (CTO) 正面临一项关键的架构挑战：存储正成为最常见且成本最高的瓶颈之一。尽管组织持续加大对 GPU 计算的投入，但研究一致表明，GPU 之外的基础设施低效才是 AI 支出浪费的主要来源。

向高吞吐、实时数据管道的转变，要求存储基础设施不仅在吞吐量和延迟方面进行优化，还需兼顾运维简化、可持续性以及可预测的成本控制。换句话说：数据更快、意外更少，也更少需要向首席财务官 (CFO) 解释预算超支。

微软对 400 多个生产级深度学习任务的分析发现，GPU 平均利用率仅为 50% 或更低，其中近一半的利用率不足源于 I/O、预处理和数据传输等数据操作，而非模型设计。在基于 Kubernetes 的大型 AI 集群中，实际利用率往往仅为 15–25%，这意味着约 60–70% 的 GPU 预算实际上因等待基础设施跟进而被浪费。

现代化不再是周期性的更新换代，而是对组织长期 AI 就绪能力的战略性投资。对于 CTO 而言，这也重新定义了存储的讨论：数据管道中的每一个瓶颈，都会直接转化为 GPU 空转、更长的训练周期，以及更高的单位 Token 成本。

AI 工作负载暴露出传统存储架构的局限性

AI 训练和推理对数据的需求极高。谷歌和微软的研究表明，高达 70% 的模型训练时间可能消耗在 I/O 和数据传输上。这意味着原本设计用于高速运行的加速器，往往会因等待数据而被迫停滞。

与此同时，为这些管道提供数据的数据在规模和复杂性上都呈爆发式增长。在图像、视频、传感器数据和嵌入等多模态 AI 输入的推动下，非结构化数据前约占企业数据的 80–90%，其增长速度可达结构化数据集的 4 倍。

传统存储平台是为可预测的事务型工作负载而设计的。要求其在亚毫秒级延迟下持续提供数百 GiB/s 的并行吞吐量，充其量也只是过于乐观。最糟糕的情况是，这会导致高强度的人工调优、脆弱的临时性解决方案，以及只有少数人真正理解的基础设施——而那个人很可能正好不在岗。

以下是下一代存储如何直接影响业务收益：

面向 GPU 工作负载的自动优化：当存储能够持续提供 400–650+ GiB/s 吞吐量时，GPU 空转时间将减少，从而优化单位 Token 成本并缩短训练的实际时长。
消除传统系统的“性能税”：减少人工调优和检查点瓶颈，可降低工程负担，并避免在传统存储阵列上采用高成本的临时性方案。
支持混合 AI 数据管道的多协议能力：在满足推理所需的亚毫秒级延迟和高 IOPS 需求的同时，还能提供训练所需的吞吐量，从而支持数据科学、MLOps 与产品团队并行推进。
为精简型工程团队简化运维：减少在存储调优和排查不稳定问题上的时间，意味着可以将更多资源投入到推动收入增长的模型和产品项目中 - 这也与结构化工作负载基础设施支出压力上升的趋势相呼应。

此外，AI 数据的增长呈非线性。现代平台支持增量式、无中断扩展，这意味着无需规划那种人人畏惧且难以准确预算的迁移项目，也能实现持续扩展。

为什么现代存储能够直接改善 AI 经济性

现代 AI 存储不仅提升性能，更能修复失衡的成本结构。

能够持续提供 400–650+ GiB/s 吞吐量的高性能平台可持续为 GPU 提供数据，压缩训练周期，并显著减少空转时间。鉴于 46% 的 GPU 利用率不足源于数据操作，存储优化带来的收益远超其投入。

从财务角度来看，这一点至关重要。云端与本地环境的停机（包括由存储导致的性能下降）目前平均每分钟造成 8,600 至 14,000 美元的损失，在关键故障或性能退化期间，大型企业的损失往往每小时超过 100 万美元。存储不稳定会进一步放大这些损失，包括延长训练周期、推迟发布，以及迫使企业通过过度配置计算资源来弥补效率不足。

像 VSP One 这样的现代架构通过消除人工调优、脆弱的临时方案以及高故障风险的复杂性，显著降低了“性能税”。其结果是基础设施在高负载压力下仍能保持可预测的表现——而这恰恰是最关键的时刻。

弹性扩展已成为业务需求，而不再只是基础设施特性

AI 数据增长呈非线性。企业经常会因新模型、新模态或 RAG、向量搜索等新应用而出现突发性增长。对企业 IT 领导者的调查显示，超过 98% 的组织正在增加专门面向 AI 的数据技术投资，而整体 IT 预算往往并未同步增长。

现代存储平台支持增量式、无中断扩展，使组织能够在不依赖计算资源的情况下独立扩展容量与吞吐量。这种解耦通过避免采购空转 GPU 或利用率不足的存储层来改善单位经济性，同时规避了“整体替换式升级”带来的高昂停机成本。

鉴于目前每年超过 58% 的组织会遭遇停机事件，且中位恢复时间超过一小时，消除中断式扩展将对收入和企业声誉产生直接影响。

以下是现代存储平台实现弹性扩展的关键方式：

应对非线性、多模态数据增长：弹性扩展可吸收非结构化/多模态数据的激增（两年内增长约 87%），无需进行耗费预算且拖延周期的整体替换式升级。
增量式、零停机扩容：无中断横向扩展可避免高成本的停机时间，从而防止停机累积带来的收入损失与声誉影响。
计算与存储的独立扩展：解耦使您只需采购所需资源，可在无需为计算资源空转付费的情况下扩展存储（反之亦然），从而在数据规模增长时提升单位经济性。
新 AI 应用的无缝上线：随着存储不再成为瓶颈，加之在 AI 驱动下存储介质市场年复合增长率（CAGR）超过 20%，企业可快速部署 RAG/向量应用并把握市场机会窗口。

效率与可持续性已成为核心架构指标

首席技术官 (CTO) 正越来越多地在创新与环境及财务责任之间寻求平衡。电力——而非占地空间——正迅速成为 AI 数据中心的关键限制因素。根据皮尤研究中心 (Pew Research Center) 的数据，2024 年美国数据中心耗电量为 183 太瓦时 (TWh)，占全国总用电量的 4%。到 2030 年，该数字预计将增长 133%，达到 426 太瓦时。

现代存储现代化通过提升存储密度、压缩数据占用空间，并以以下两种主要方式降低功耗，从而支持环境目标：

面向成本治理的保障型数据缩减：如 4:1 的保障型数据缩减能力，可将存储规划从被动转向可预测。随着模型规模、数据摄取管道及数据保留需求的增长，这为长期 AI 项目提供稳定的成本基准。
高密度 NVMe SSD 降低空间、功耗及散热需求：如 60TB NVMe SSD 等组件，使企业能够将基础设施整合至更少的机架中，从而同时降低能耗与空间占用。

通过提升每瓦性能，现代基于 NVMe 的存储可确保电力预算用于实际生产负载，而非空转的基础设施。

统一管理降低混合 AI 环境的隐性成本

大多数 AI 就绪型基础设施由本地系统、公有云服务及边缘环境组成。行业数据显示，超过 80% 的企业运行混合云或多云架构，近一半的工作负载分布在这些环境中。管理此类分布式架构会引入复杂性，从而推高运营成本。若缺乏统一的存储管理，运营复杂性将迅速成为成本放大器。

以下是简化混合云管理通常带来的成本节约措施：

统一操作系统：跨存储阵列的通用操作系统可降低培训需求，加快故障排查，并提升整个数据资产的可观测性。
跨阵列的通用操作系统可减少碎片化：单一、统一的操作系统提供集中式可观测性、一致的 API 行为以及精简的生命周期管理，从而降低运维复杂度，加快故障排查，并简化平台、存储及 SRE 团队的上手流程。
自动化与智能洞察：诸如 VSP 360 等解决方案提供端到端自动化——覆盖从部署到工作流编排的全过程，从而降低运维负担、减少人为错误，并使 IT 团队能够专注于更高价值的工程项目。

尽早升级的企业可避免随着 AI 项目加速推进而累积的技术债；而观望的企业则面临触及性能瓶颈、成本失控及运营脆弱性的风险。

行业应用场景：CTO 在实际应用中的预期

行业	使用案例
金融服务	实时欺诈检测：需要超低延迟、高 IOPS 架构，以每秒评估数百万次交易。合规保留：现代存储支持 PB 级数据保留，并提供有保障的数据缩减，从而实现可预测的合规成本。
医疗保健与生命科学	医学影像与基因组学：高密度 NVMe 可加速 MRI、CT 及基因组数据集的计算管道。药物研发工作流：统一管理简化了分布在各研究机构、云平台和高性能计算 (HPC) 实验室的混合数据环境。
制造业与工业物联网	预测性维护：来自数千个传感器的实时数据摄取需要稳定的吞吐能力和可扩展性。数字孪生：长时间运行的仿真需要高密度、高能效的存储，以尽可能降低基础设施占用。
零售与电子商务	客户个性化：推荐引擎依赖对行为数据集的快速访问，需要稳定的亚毫秒级响应时间。库存与供应链优化：自动化洞察可减少跨混合环境的数据流程摩擦。
媒体与娱乐	高分辨率制作：8K+ 工作负载的编辑与渲染得益于高密度 NVMe 和紧凑型机架设计。 AI 驱动的内容标注：统一操作系统与自动化可加速大型媒体库的元数据生成。
能源与公用事业	智能电网分析：实时需求建模需要持续的吞吐能力和高性能的数据摄取。环境监测：数据缩减和高效密度可直接支持减排目标。