NVIDIA 的 Spe私家侦探,侦探公司,调查公司,查人找物,商务调查,出轨外遇调查,婚外情调查,私人调查,19209219596ctrum-X 将 AI 存储带宽提高了 48

 人参与 | 时间:2026-03-24 01:12:03

2025年2月6日 — AI工厂不仅仅依赖于计算结构。除了连接GPU的东西向网络对于AI应用程序至关重要外,连接高速存储阵列的存储结构也同样重要。存储性能在AI生命周期中各个阶段都发挥着关键作用,包括训练检查点检索增强生成(RAG)等推理技术。

为了满足这些要求,NVIDIA 和生态系统正在将NVIDIA Spectrum-X 网络平台扩展到数据存储结构中,从而为AI带来更高性能以及更快时间。由于Spectrum-X 自适应路由能够缓解流冲突并增加有效带宽,因此存储性能远超过RoCE v2,后者是数据中心用于AI计算和存储结构的以太网网络协议中的一种以太网协议标准。

NVIDIA 的 Spectrum-X 将 AI 存储带宽提高了 48%

Spectrum-X 加载带宽提升至原有带宽的 48%,而写入带宽则增加了 41%。这种显著的带宽增加使 AI 工作流更加快速,以完成存储任务,从而大幅缩短训练和推理的时间,降低令牌间的延迟。

主要存储的是Spectrum-X的伙伴集成数据库

随着AI工作的规模与复杂性持续增强,现代的存储解决方案需不断扩展以满足这些需求。包括DDN、VAST Data和WEKA等领先供应商都在NVIDIA的支持下进行合作,集成及优化其Spectrum-X解决方案来提供尖端功能,为AI存储架构带来革新性的变化。

利用以色列超级计算机 Israel-1 实现了 Spectrum-X 项目的庞大规模效应

NVIDIA 已经构建了超大规模 AI 超级计算机以色列1号(Israel-1),它使用了一套预先测试和验证的蓝图来优化Spectrum-X 性能,以此简化网络部署的工作流程。这一举措使得以色列1号成为试验台,用来展示Spectrum-X 对存储工作的实际影响,在真实运行条件下的性能表现如何影响数据处理系统。

为了解析Spectrum-X对存储网络的影响以色列-1团队测量了NVIDIA HGX H100 GPU服务器客户端访问存储的读写带宽。这次测试是采用标准RoCE v2架构进行的一次基准测试,在开启Spectrum-X的自适应路由和拥塞控制后再次运行。

这些测试采用不同数量的GPU服务器作为客户端运行,从40个到800个不等。无论每种情况下Spectrum-X的表现如何,改进范围均在20%和48%之间。对于带宽读取,改进范围从9%到41%,而对于写入则为9%到41%。这些结果与合作伙伴生态系统针对DDN、VAST和WEKA实现的加速相当。

存储网络性能对于人工智能表现至关重要

要了解Spectrum-X为何能产生如此巨大差异,考虑为什么存储是AI的一个重要因素会有所帮助。AI性能并不是仅仅由大型语言模型(LLM)执行时间决定,私家侦探,侦探公司,调查公司,查人找物,商务调查,出轨外遇调查,婚外情调查,私人调查,19209219596而是涉及多个其他因素的影响。比如由于模型的培训通常需要数天、数周或数月才能完成,因此在训练过程中每隔几个小时将部分已训练好的模型检查点或保存到存储中是有意义的。这就意味着,在系统崩溃的情况下,不会丢失训练进度。

借助数十亿与万亿个参数模型,这些检查点状态变得足够大(对于当今最大的 LLM 来说可达数 TB 的数据),以至于保存或恢复它们会产生“大象流”。这些是大量数据,可能会使交换机缓冲区和链路不堪重负,网络必须保证为训练工作负载提供最佳利用率。

存储结构决定了RAG的性能并有助于解决负载问题,与LLM结合使RAG中的内容更加丰富和具体,从而为模型提供了更多的功能,以提供更好的响应,而无需额外的训练或微调。

当推理指导被触发时,解析(嵌入)提示并搜索数据库中的内容,这些内容会根据上下文被附加到提示中,以帮助模型确定最佳答案。矢量数据库是多维的,而且在涉及包括图片和视频在内的复杂知识库的情况下,可能会非常大。

这些数据库利用存储结构与推理节点相连接,并且网络需要能高效地进行数据传输以便能在最低限度内减少延迟。这对于多租户生成性AI工厂特别关键,因为处理每秒请求量非常大。

将自适应路由策略应用到数据存储中,并同时考虑到拥塞控制规则。

在Spectrum-X平台中引入了InfiniBand的关键性革新包括RoCE自适应路由以及RoCE拥塞控制功能。借助于这些革命性的技术创新,NVIDIA能够将存储工作负载的整体性能与利用率提升到一个新的水平。

自适应路由

为了消除大象流冲突并减少检查点期间产生的网络流量, Spectrum-4 交换机采用了动态路由技术来在网络上的每一个数据包中逐个进行负载均衡。它根据实时的拥塞数据来选择最少拥塞的路径,并且因为数据包是通过网络传输的,在传统的以太网下,这会需要重新传输大量的数据包。

借助Spectrum-X,目标主机中的SuperNIC 或 数据处理单元(DPU)能够准确识别并顺序存储数据包,并且还能确私家侦探,侦探公司,调查公司,查人找物,商务调查,出轨外遇调查,婚外情调查,私人调查,19209219596保这些数据包在主机内存中保持自适应路由,从而为应用程序提供透明的端到端传输。这样有助于提高整体系统的结构利用率,从而获得更高效的数据带宽,为检查点、数据获取等任务提供了更可靠和一致的结果。

拥塞控制

检查点和其他存储节点会导致 Incast 拥塞,也称为多对一拥塞。当多个客户端试图写入单个存储节点时,可能产生这种情况。 Spectrum-X 引进了基于遥测的技术,该技术依靠来自交换机的硬件遥测信息,向 SuperNIC 或 DPU 通知它们应该减缓从发送方注入的数据速率(即在 Incast 中的 RDM 写入和读取)。这一举措可以防止出现拥塞热点,这些热点可能向前传播并影响到相邻的工作流程或进程。

【弹性增强功能】

由于通常由大量交换机、电缆和收发器组成,任何中断的链路都可能造成性能急剧下降,因此网络弹性对于维持健康的基础设施至关重要,Spectrum-X 全局自适应路由可实现链路断开时最佳且快速的重聚合,从而保持存储结构的良好利用。

与 NVIDIA 堆栈集成

除了Spectrum-X对存储架构所做出的创新,NVIDIA还推荐了多套SDK、库以及相关软件产品的应用,以优化GPU与存储之间的数据传输路径。其中包括但不限于以下项目: 1. Spectrum-X 2. NVIDIA存储架构 SDK 3. GPU 中间文件存储和检索库 4. 针对存储读写效率的工具和技术

NVIDIA Air是一个基于云端的网络模拟工具,用于对交换机、SuperNIC和存储进行建模,以便更快地完成第0天、第1天和第2天的数据结构创建任务。NVIDIA Cumulus Linux围绕自动化和API构建的网络操作系统确保大规模数据运营管理和顺利运作。NVIDIA DOCA是一个适用于NVIDIA SuperNIC和DPU的SDK,可提供比以往任何时候都更强大的编程能力和性能,特别是在存储、安全性等领域。NVIDIA NetQ是一个网络验证工具集,与交换机遥测集成,以实时呈现交换矩阵的状态。NVIDIA GPUDirect 存储是一种在存储和GPU内存之间实现直接数据路径的技术,从而提高数据传输效率。

顶: 35891踩: 3298