多年来,企业基础设施一直将安全、存储、网络和计算视为彼此独立的运营层。颠覆性技术往往会打破这些界限。我们曾在备份与恢复、虚拟化以及如今的 AI 领域看到这一趋势。随着每一次技术变革,企业很快意识到,推动这些颠覆性技术(例如 AI)的专家往往比各自为政的基础设施团队更了解整个运营技术栈,因为他们必须理解整个工作负载端到端的运行方式。
随着 AI 系统演变为跨分布式数据源运行的大规模推理模型和智能体工作流(agentic workflows),基础设施面临的挑战已不再仅仅是原始算力。安全性、数据局部性、编排、上下文记忆协调以及系统间的数据流动,正逐渐成为统一运营战略的一部分,并且对于构建可扩展、安全且高效的 AI 至关重要。这也是 NVIDIA Vera BlueField-4 STX 安全公告备受关注的原因之一。
在所有产品和平台宣传信息背后,隐藏着一个重要的架构层面认知:AI 工作流的瓶颈正是数据移动本身。NVIDIA 在其表述中直接指出了这一点,将这一转变描述为从“人机交互(human interaction)转向机器推理与数据移动(machine reasoning and data movement)”。
多年来,大多数关于 AI 的讨论都与传统 HPC(高性能计算)领域的讨论十分相似,几乎完全围绕 GPU、FLOPS 和计算扩展展开。区别主要体现在模型参数规模以及集中式 AI 服务器加载训练数据的速度上。与此同时,我们中的一些人长期以来一直认为,真正的长期挑战最终将集中在内存架构、编排效率、数据局部性以及分布式 AI 系统中的数据移动成本上。必须承认,数据移动始终是任何 IT 战略中成本最高的项目之一。有时这种成本体现为延迟,有时则体现为更大、更快的存储平台、更高速的网络,或者是在整个环境中高效传输海量数据所需的基础设施。
但与 20 世纪 90 年代末和 21 世纪初所面临的挑战不同,如今的问题已不再只是如何足够快速地从存储中获取数据,而是如何让上下文、嵌入向量(embeddings)、推理管道、内存状态以及编排层在 GPU、DPU、CPU、内存层级、网络和分布式系统之间高效流转,同时避免为工作流本身引入不必要的延迟或效率损耗。
这也是数据局部性正成为重要架构考量因素的原因之一。将数据及其相关服务部署到更靠近执行环境的位置,能够提升整个系统的整体效率。
NVIDIA 在 Vera BlueField-4 STX 所描述的是计算、网络、存储、内存协调和安全性之间更紧密的集成,这些组件在更接近中所描述的,是计算、网络、存储、内存协调与安全能力之间更紧密的融合,并使这些能力更贴近 AI 执行管道本身运行。您可能会疑惑,为何安全性会成为此次发布的重要组成部分。坦率地说,安全性本应是基础要求。强调这一点的原因在于,一旦 AI 数据遭到破坏,其影响便会迅速在分布式系统中扩散。在大规模环境下,即便是少量受污染的数据,也可能在推理管道、智能体、工作流和数据源之间以远高于传统企业应用的速度传播。
这也是为什么这些要素必须被整体看待。安全性、数据局部性、编排、治理以及运行时可观测性,已不再是彼此独立的运营议题。就连 NVIDIA 的安全理念也体现了这一转变,其重点已转向直接在 AI 数据路径中实施内联策略执行(inline enforcement),而非完全依赖传统的边界防护模型。
这一方向是合理的,因为 AI 工作负载的运行方式与传统企业应用程序,甚至经典 HPC 环境都有显著差异。这些系统正变得越来越动态、分布式且高度依赖编排,具有不断增长的上下文窗口、日益增加的代理间通信,以及推理管道、API、向量数据库、工具、外部数据源和其他模型之间持续进行的实时交互。随着这些交互规模不断扩大,在整个环境中移动数据的运营成本正逐渐成为整体性能表现中越来越重要的组成部分。
Vera BlueField-4 STX 方向中较为有趣的一点是,NVIDIA 讨论的并不仅仅是存储吞吐量,或是在 GPU 周边增加另一个基础设施组件。该架构专注于减少摩擦。在系统设计和架构中,我们关注摩擦存在的位置,以及如何最大限度地减少这种摩擦,或将其从运营工作流中抽离出来。NVIDIA Vera BlueField-4 STX 所解决的摩擦直接存在于 AI 执行管道内部,它将数据服务、编排、网络、安全强制执行和内存协调带到更接近实际进行推理和推断的计算环境的位置。如果您了解网络路由器的工作原理,可以将其理解为减少网络跳数。
此次发布在安全层面的内容同样值得关注,因为它反映出 AI 正在改变企业安全架构的传统设计理念。NVIDIA 将存储定义为“一个实时系统,用于管理智能体如何访问、信任并基于数据采取行动”。
在许多方面,这开始类似于我们在实时系统中看到的一些运营问题。在这些系统中,受信任的数据、治理、访问控制和决策完整性变得至关重要,因为系统本身正在积极参与运营决策。如果底层系统受到损害、被操纵,或基于错误数据运行,就可能直接影响所作出的决策。
同样的挑战也越来越适用于大规模企业 AI 环境。这与大多数企业环境最初设计时所采用的基于边界的方法有着截然不同的运营模式。
传统企业应用程序相对可预测且具有确定性。而智能体 AI 系统并非如此,事实上远非如此。自主系统持续与分布式数据源、API、工具、模型、推理管道以及其他智能体进行交互,而在各次交互之间几乎没有人工干预。随着这些交互规模不断扩大,运行时可见性、治理、内联检查和策略执行在运营层面都变得愈发重要。借助 NVIDIA Vera BlueField-4 STX 和 NVIDIA DOCA,基础设施本身成为安全模型的一部分,而不再只是 AI 应用程序运行其上的环境。
NVIDIA Vera BlueField-4 STX 公告中更广泛的架构融合,最终可能才是最大的启示。企业 AI 基础设施不再只是部署在环境中的硬件组件集合,并由彼此孤立的基础设施团队分别管理。它正在演变为一种协调统一的系统解决方案,其中计算、内存、网络、编排、局部性、治理和安全性作为同一执行环境的一部分协同运行。这与传统 IT 截然不同,而我认为整个行业直到现在才开始真正认识到这一转变的重要性。这也是 Hitachi Vantara 专注于帮助客户携手 NVIDIA 构建负责任企业 AI 环境的原因。
借助 Hitachi IQHitachi Vantara 面向现代工作负载打造的 AI 解决方案套件,加速您的数字化转型。