找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 94|回复: 0

技术解析|英伟达推出新一代GPU Rubin CPX

[复制链接]

2087

主题

0

回帖

6449

积分

管理员

积分
6449
发表于 2025-9-14 15:03:43 | 显示全部楼层 |阅读模式
芝能智芯出品

英伟达推新产品的速度,是很快的,特别是现在需要不断证明自己领先的位置。

英伟达Rubin CPX 是 GPU 设计新的思路,采用了解耦推理的方式,把长上下文处理和生成任务拆分开来,还搭配大容量 GDDR7 显存打造了新的 GPU。

这种设计考虑到了算力和内存需求的差异,能给百万 Token 推理、长视频生成以及复杂软件开发带来更高的效率和扩展性。



Part 1

Rubin CPX  架构设计与技术特点

Rubin CPX 是专门针对大模型推理中 “上下文阶段” 和 “生成阶段” 的不同需求来设计的。

传统 GPU 靠 HBM 显存同时处理计算和带宽任务,但碰到百万 Token 的输入序列时,单一架构就显得有些吃力了。



Rubin CPX 会把长上下文处理交给专用的 GPU 来做,具体有这几个特点:

显存方面:单芯片搭载 128GB GDDR7 显存,相比 HBM 显存性价比更高,适合在机架级进行大规模部署。

算力表现:在 NVFP4 精度下能提供 30 PFLOPS 的算力,专门优化了高吞吐的上下文解析任务。

视频处理能力:内置了四个 NVENC 和 NVDEC 引擎,很适合多模态 AI 的应用场景。

系统互联:能和 Vera CPU、Rubin HBM GPU 以及 ConnectX-9 SuperNIC 配合使用,在 NVL144 CPX 机架内可以实现 12.8Tbps 的网络吞吐。



这个新的产品采用了单芯片设计,这样能减少延迟,保持性能的一致性,但在制造和散热方面会面临一些难度。看得出来,NVIDIA 在规模训练、推理之间,一直在平衡成本和性能。



软件层面,Dynamo 平台会协调上下文处理和生成处理这两部分工作。

解耦推理需要快速的 KV 缓存传输和灵活的内存管理,而 Dynamo 平台刚好能支持这套体系。

Rubin CPX 负责处理长序列输入,Rubin GPU 负责逐 Token 生成,两者通过高速连接和统一的软件栈配合,就能完成整个任务。



Part 2

性能提升与应用价值

在 Vera Rubin NVL144 CPX 平台上,36 颗 Vera CPU、144 颗 Rubin GPU 和 144 颗 Rubin CPX 搭配使用,总算力能达到 8 EFLOPS(NVFP4 精度),比 GB300 NVL72 高出 7.5 倍。

再加上 100TB 的存储和 1.7PB/s 的内存带宽,这个配置已经接近当前的极限水平了。



Rubin CPX 的性能优势很突出,主要体现在这三个方面:

长上下文推理:注意力机制的处理速度比 GB300 NVL72 快 3 倍,在百万 Token 的场景下,延迟和效率都有明显改善。

视频与多模态处理:专用的编解码单元能适配长视频生成需求,很适合 AI 内容生产的场景。

推理经济性:解耦设计减少了对 HBM 显存的依赖,预计投资回报率(ROI)能达到 30-50 倍,投资效率大幅提高。



应用场景上,它不只是能用于 AI 推理,还能支持复杂的软件开发。

长序列处理能力可以从代码生成扩展到软件工程优化,在科研和视频生成领域,也能满足持续处理的需求。



从路线图来看,

Rubin CPX 会在 2026 年底推出,之后会和 Rubin GPU、Vera CPU 组成异构生态。

到 2027 年,Rubin Ultra 会加入 12 堆 HBM4;

2028 年,新架构 Feyman 也会跟进。

能看出 NVIDIA 一直在推进分层解耦和持续扩展的策略。





小结

Rubin CPX 算是 GPU 发展的一个新方向,通过解耦和协作分工,来适应 AI 推理的需求,这体现出了设计上的灵活性和前瞻性。

百万 Token 推理从设想变成了现实,能为生成式 AI 应用的发展铺路。从 2026 年开始,随着 Rubin CPX 的落地,异构架构和解耦推理或许会成为未来的主流方向。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|花享网 ( 琼ICP备2024046163号-1 )

GMT+8, 2025-12-1 12:35 , Processed in 0.217564 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表