多年來,企業基礎架構將安全性、儲存空間、網路和運算視為大致獨立的營運層。顛覆性技術往往會模糊以上界線。我們在備份與復原、虛擬化,目前在 AI 環境都發現這一點。隨著每一次轉變,組織很快就意識到,推動這些顛覆性技術:例如 AI 的專家,往往比各自為政的基礎架構團隊更加了解完整的營運堆疊,原因是他們必須了解整個工作負載如何執行端到端作業。
隨著 AI 系統不斷演化,能在分散式資料來源上執行更大型推理模型、代理程式工作流程,基礎架構挑戰不再只是處理原始運算能力問題。安全性、資料在地性、編排、內容記憶體協調和系統之間的資料移動,都儼然成為同一營運策略的一環,對於提供可擴充、安全高效的 AI 來說,相當重要。這也是 NVIDIA Vera BlueField-4 STX 安全性公告如此引人注目的原因。
在所有產品、平台訊息的背後,擁有架構認知相當重要,也就是指 AI 工作流程可能遇到的瓶頸主要在於資料移動本身。NVIDIA 在公司訊息中直指這一點,說明從「人類互動到機器推理、資料移動」的轉型過程。
多年來,大多數關於 AI 的話題聽起來很像傳統高效能運算 (HPC) 討論,幾乎完全集中在 GPU、FLOPS 和擴充運算上。主要差異演變成模型參數數量,還有集中式 AI 伺服器載入訓練資料的速度。同時,我們有些人早就主張,長期挑戰終將成為記憶體架構、編排效率、資料在地性,以及在分散式 AI 系統中移動資料的成本。終將得面對現實,移動資料一直都是任何 IT 策略中最昂貴的專案之一。有時候,這種成本表現會有點延遲。有時則會顯示更大、更快速的儲存空間平台、更高速度的網路,或者為了在環境中高效移動大量資料所需的基礎架構。
但與我們在 90 年代末和 2000 年代初面臨的挑戰不同,問題不再僅僅是足夠快地從儲存裝置中獲取資料,而是內容、嵌入、推論管線、記憶體狀態和編排層如何在 GPU、DPU、CPU、記憶體層級、網路和分散式系統之間高效移動,且不會在工作流程本身引入不必要的延遲或效率低落。
這就是部分原因說明為何在地性如此重要,成為架構的考量因素。可把資料、對資料進行操作的服務移到更靠近執行環境的地方,可以提升整體系統效率。
NVIDIA 透過 Vera BlueField-4 STX 描述的就是如何在運算、網路、儲存空間、記憶體協調和安全性之間,更緊密地整合在一起,這類運作更貼近 AI 執行管道本身。您可能會好奇為何安全性是這份公告中如此重要的一環,原因坦白說,安全性應該已經是基本門檻。強調這一點的原因在於,當 AI 資料遭入侵時,影響層面可能會非常迅速,會在分散式系統中擴散開來。在規模化運作之下,即使是少量的中毒資料,在推論管道、代理程式、工作流程和資料來源之間的擴散速度,也遠比傳統企業應用程式還要快許多。
這就是為何會將所有以上類別綜合起來如此重要的原因。安全性、在地性、編排、治理和執行階段能見度,早已不再是獨立營運問題。即使是 NVIDIA 的安全性訊息也能反映出這種轉變,討論話題圍繞著如何才能直接在 AI 資料路徑內部的線上執行,而不是完全依賴傳統邊界模型。
這個方向是有道理的,原因是 AI 工作負載的行為和傳統企業應用程式相比,甚至連經典 HPC 環境都很不一樣。上述系統日益動態、分散,高度依賴編排作業,具有不斷成長的內容視窗、日益增加的代理程式之間通訊,還有推論管道、API、向量資料庫、工具,在外部資料來源和其他模型之間,也會即時持續保持互動。隨著以上互動的規模逐漸擴大,在環境中移動資料的營運成本,開始成為組成整體效能方程式中更重要的一環。
Vera BlueField-4 STX 方向中比較有趣的部分就是,NVIDIA 不只是在談論儲存空間吞吐量,或在 GPU 周圍增加其他基礎架構組件。該架構專注於減少摩擦。在系統設計和架構中,我們會觀察摩擦可能來自何方,還有我們可以做些什麼,來將營運工作流程中的摩擦因子最小化或抽象化。NVIDIA Vera BlueField-4 STX 正在解決的摩擦問題,直接位於 AI 執行管道內部,可透過將資料服務、編排、網路、安全性執行和記憶體協調,帶往更貼近推理、推論實際發生的運算環境。如果您了解網路路由器如何運作,就可將此視為減少躍點。
公告中的安全性方面也很有趣,原因是會反映出 AI 如何改變圍繞企業安全性架構的傳統假設因子。NVIDIA 將儲存空間描述為逐漸成為「單一即時系統,管理代理程式如何存取、信任資料,然後採取行動。」
在許多方面,這開始類似於可能會在即時系統中看到一些相同營運問題,其中受信任的資料、治理、存取控制和決策完整性變得相當重要,只因系統本身正在積極參與營運決策。如果底層系統可能遭入侵、人為操縱,或者在錯誤資料上運作,很可能會直接影響到做出的決策。
同樣的擔憂也逐漸適用於大規模運作的企業級 AI。這和大多數企業環境最初設計時採用的邊界導向方法,擁有截然不同的營運模式。
傳統企業應用程式相對可以預測,具備可確定性。代理式 AI 系統則不然,甚至相去甚遠。自主系統持續會和分散式資料來源、API、工具、模型、推論管道和其他代理程式互動,在交易之間幾乎沒有人類介入。隨著這些互動規模日益擴大,執行階段的能見度、治理、內嵌檢查和政策執行,在營運上變得更加重要。透過 NVIDIA Vera BlueField-4 STX 和 NVIDIA DOCA,基礎架構本身成為安全模型的一環,而不單只是 AI 應用程式在其中執行的環境。
NVIDIA Vera BlueField-4 STX 公告中更能廣泛容入架構融合,最終可能成為最重要的收穫。企業 AI 基礎架構不再只會部署在環境中,再由各自獨立的基礎架構團隊管理的硬體元件集合。逐漸成為一種協調的系統解決方案,其中的運算、記憶體、網路、協調、位置、治理和安全性皆可作為同一執行環境的一環,可以共同運作。這和傳統 IT 環境不盡相同,我認為業界才剛開始了解這種轉變的重大意義。這正是 Hitachi Vantara 致力於協助客戶和 NVIDIA 共同打造盡責企業 AI 環境的主要原因。
使用 Hitachi IQ,也就 Hitachi Vantara 會針對現代化工作負載的 AI 解決方案套件,加速帶動企業轉型。