每块GPU对应16TB SSD，英伟达KV缓存虹吸高性能TLC SSD

作者：发布时间：2026-02-11 01:01:34 浏览量：

作者：黄晶晶

不久前，英伟达宣布其Vera Rubin平台将采用搭载BlueField-4芯片的ICMS架构，通过卸载KV Cache突破内存瓶颈、提升AI推理性能。该架构单台服务器每个GPU需额外配置16TB TLC SSD，花旗预计2026年、2027年将分别带来占全球NAND需求总量2.8%、9.3%的新增需求。

三星电子在 2025Q4 财报电话会议上透露，除了计划在本季度启动 HBM4 内存量产交付之外，三星存储器业务计划全方面积极应对AI相关需求，重点提升面向 AI KV（键值）存储需求的高性能 TLC SSD的销售。

KV缓存对SSD存储的需求

花旗最新报告指出，大规模AI推理面临显著的内存瓶颈。Transformer模型的核心内存优化机制——KV Cache，通过存储已计算的键值对来避免重复运算，并根据性能与容量需求分层存储：活跃KV缓存存放于GPU HBM（G1），过渡/溢出KV缓存置于系统DRAM（G2），热KV缓存则分配至本地SSD（G3）。

为针对性优化这一架构，英伟达推出了推理上下文内存存储（ICMS）方案。该方案并非替代现有存储层级，而是在本地SSD（G3）与企业共享存储（G4）之间新增一个G3.5层级的专用KV Cache。这一层级能够高效地将G4中的冷KV上下文数据转换为G2中的暖KV缓存，并与HBM协同工作，从而显著提升数据传输效率与整体AI推理性能。

在硬件实现上，Vera Rubin平台采用16TB TLC SSD作为ICMS存储介质，结合KV缓存管理器与拓扑感知调度机制，目标实现三大性能突破：每秒处理令牌数最高提升5倍、能效比最高提升5倍以及更低的延迟。具体配置方面，每台服务器搭载72块GPU，每块GPU对应16TB ICMS专用NAND容量，使得单台服务器的总NAND需求达到1152TB。

与传统训练场景不同，推理过程依赖于大量的上下文数据存储与快速调用能力。这一技术路径的转变，为NAND闪存开辟了全新的应用场景，有望成为继数据中心和智能手机之后的重要需求增长点。

包括闪迪、美光、三星等存储厂商都瞄准了KV缓存所需SSD这一增量市场。

闪迪

面对推理场景下高并发、低延迟的严苛IO需求通用存储方案往往力不从心。SANDISK DC SN861NVMe SSD正是针对此类计算密集型工作负载进行的专项优化。SN861容量高达16TB，其基础是PCle Gen5接口，提供了翻倍的理论带宽。

SanDisk DC SN861 NVMe SSD，凭借其卓越的性能和可靠性，获得NVIDIA GB200 NVL72系统认证，为AI模型的训练和推理提供强有力的支持。

美光科技

美光 9550 NVMe固态硬盘专为处理对速度、扩展性和能效有极高要求的关键工作负载而设计，例如人工智能（AI）、高性能数据库、缓存、在线事务处理（OLTP）以及高频交易等场景。美光 9550 固态硬盘能够支持上述及更多类型的工作负载，可灵活部署于云、数据中心、原始设备制造商（OEM）及系统集成商的设计方案中。其可用存储容量最高可达 30.72TB，有助于确保实现最优的存储密度。

9550 PCIe 5.0 E1.S 形态数据中心固态硬盘已纳入英伟达针对 GB200 NVL72 系统及衍生型号的推荐供应商名录（RVL）。GB200 NVL72 系统搭载英伟达 GB200 格蕾丝・布莱克韦尔超级芯片，打造出机架级、高能效的 AI 基础设施。该系统对 PCIe 5.0 存储的兼容适配，让美光 9550 固态硬盘成为优化 AI 工作负载性能与功耗效率的理想选择，可支撑大规模 AI 模型训练、万亿参数大模型实时推理，以及高性能计算（HPC）等核心场景。

三星电子

如前所述，三星电子在 2025Q4 财报电话会议上透露，计划重点提升面向 AI KV（键值）存储需求的高性能 TLC SSD的销售。

韩媒消息称，三星电子已正式重启其平泽P4工厂的NAND闪存生产线投资，开始搬入生产设备。此前，该投资因市场低迷而推迟。作为2026年大规模投资计划的一部分，三星计划追加约10万亿韩元资本支出，重点提升DRAM、NAND闪存及晶圆代工产能。平泽基地扩产后，预计每月将增加NAND芯片产能6万片，DRAM产能3万片，晶圆代工产能2万片。

绿算技术

近日，本土高性能存储厂商绿算技术（ForinnBase）宣布，其旗舰产品GP7000系列全闪存储平台已通过英伟达适配，成为全球首批、也是唯一支持G3级KV Cache分层存储的国产化解决方案，为下一代AI工厂建设提供了关键的基础设施支撑。

绿算技术GP7000系列采用以太网闪存簇（EBOF）设计，单系统配备24个PCIe 5.0 NVMe U.2盘位，通过双主控板实现冗余。其核心指标精准匹配G3层需求。

单机提供6480万IOPS、288GB/s带宽与20μs级延迟，性能较传统存储服务器提升17倍。整机功耗<900W，每GB/s带宽功耗仅3.1W，满足AI工厂的5倍能效目标。原生支持BlueField-3/4 DPU与Spectrum-X交换机，通过NVMe-oF/RoCEv2/GDS协议实现GPU直连。

绿算技术产品总监孔维海透露：“GP7000采用DPU+ASIC+FPGA多元异构计算架构，将KV Cache的索引管理、数据压缩和网络协议栈完全硬件卸载，消除了CPU瓶颈。”其分布式KV Cache管理器可与英伟达Dynamo开源项目无缝衔接，实现跨机架的缓存一致性。

GP7000已完成广泛生态适配。硬件上支持英伟达DGX H100/H200/GB300、AMD Instinct MI300、华为昇腾910B/C、沐曦曦云C系列等。软件适配英伟达Dynamo/vLLM/TensorRT-LLM、华为UCM、Kubernetes CSI等。国产数据库支持OceanBase、TiDB、GaussDB等。

在大模型推理场景中，GP7000可通过命名空间隔离与智能冷热分层技术，为每个推理实例分配独立的KV Cache分区，并将高频数据预加载至G2层，实现成本与效率的最优平衡。

GP7000已于2025年Q3量产，并获得了某头部云厂商数千节点订单。公司正在研发基于PCIe 6.0的下一代GP8000，目标是将G3级带宽提升至1TB/s。

市场前景

花旗通过场景分析测算后认为，ICMS架构的规模化落地将为全球NAND市场带来显著且确定的需求增量。报告预计，2026年Vera Rubin服务器出货量将达到3万台，对应ICMS架构的NAND需求将达3460万TB，这一需求规模占当年全球NAND 总需求的2.8%；随着AI 推理需求的进一步释放，2027年Vera Rubin 服务器出货量有望增至10万台，届时ICMS带来的 NAN需求将飙升至1152万TB，占全球NAND总需求的比例将提升至9.3%。

报告同时指出，当前全球NAND市场本就处于供应紧张的状态，近年来AI产业的爆发式发展已推动数据存储需求持续攀升，NAND作为核心存储介质的供需平衡已较为脆弱。而英伟达 ICMS架构带来的新增需求具有刚性强、规模大的特点，将直接打破现有供需格局，导致全球NAND供应短缺的局面进一步加剧。

上一篇 : 剑指700亿美元！内卷之后海外成新战场，比亚迪、吉利等2026年全力冲刺

下一篇 : 瑞声科技与理想汽车第1000万只铂金音响扬声器下线