曦望发布新一代推理GPU芯片,单位Token推理成本降低90%
作者: 发布时间:2026-02-05 18:00:49 浏览量:
电子发烧友网报道 1月27日,国产GPU厂商曦望(Sunrise)重磅发布新一代推理GPU芯片——启望S3。这是曦望在近一年累计完成约30亿元战略融资后的首次集中公开亮相。2025年,曦望芯片交付量已突破万片。
启望S3是专为大模型推理打造的定制化GPGPU芯片。在典型推理场景下,它的整体性价比较上一代提升超10倍。在算力与存储设计方面,该芯片支持FP16至FP4精度切换,采用LPDDR6显存方案,显存容量提升4倍,有效缓解了大模型推理的显存瓶颈,成为国内首款采用此显存方案的芯片。在DeepSeek V3/R1满血版等主流大模型推理中,单位Token成本较上一代降低约90%,让“百万Token一分钱”成为可能,极大推动了大模型推理的大规模普惠应用。
曦望是国产全栈自研人工智能算力芯片企业,其前身是商汤大芯片部门,于2024年底分拆独立运营。它专注于高性能GPU及多模态场景推理芯片的研发与商业化,凭借八年技术沉淀、二十亿研发投入及两代量产芯片的工程化验证,已成为国产GPU替代的核心力量。公司致力于为千行百业提供成本降低十倍、能效比突破的智能算力基石,推动各行业智能化发展,助力实现通用人工智能(AGI)的普惠化目标。
曦望已构建起覆盖全场景需求的三代芯片产品矩阵。2020年量产的首款AI推理芯片S1,适配千余种CV模型,满足了视觉推理领域的需求。2024年量产的S2芯片,深度兼容CUDA生态,能流畅推理DeepSeek、Qwen等开源大模型,以及文生图、文生视频、文生3D主流模型,进一步拓展了应用场景。而此次推出的S3芯片,定位“推理性价比之王”,在单位Token成本、能耗表现上实现数量级突破,原生支持FP8/FP4低精度推理,为大模型推理提供核心支撑。
作为国内首家All - in推理的GPU芯片公司,曦望始终深耕推理赛道。在一年内,它顺利完成了近30亿元战略融资,投资方阵容强大。既有三一集团旗下华胥基金、范式智能等产业投资方,也有无极资本、IDG资本等国内知名VC/PE机构,还获得了诚通混改基金等国资背景资本的鼎力加持。所筹资金将专项用于下一代推理GPU的核心技术研发、规模化量产及生态共建,持续夯实其在推理算力赛道的核心竞争力。
此次发布,曦望不仅带来了启望S3芯片,还推出了一整套面向大模型推理的解决方案。寰望SC3 - 256超节点方案,面向千亿、万亿级参数多模态MoE推理,采用全液冷设计,支持大规模专家并行部署,同等算力规模下,整体交付成本从“亿元级”降至“千万元级”。“百万Token一分钱”计划,联合商汤科技等伙伴共同发起,大幅降低企业使用算力的门槛。共建推理云通过GPU池化与弹性调度,将算力整合为统一“算力池”,以MaaS为核心入口,让企业按需调用算力。
当前,AI模型训练已迈入深水区,推理环节成为AI技术商业化落地的关键。曦望以启望S3芯片为核心,通过“芯片 + 系统 + 生态”的布局,让推理算力变得更像水电一样,成为可规模化、可持续的基础设施,引领国产GPU迈向新的高度。
启望S3是专为大模型推理打造的定制化GPGPU芯片。在典型推理场景下,它的整体性价比较上一代提升超10倍。在算力与存储设计方面,该芯片支持FP16至FP4精度切换,采用LPDDR6显存方案,显存容量提升4倍,有效缓解了大模型推理的显存瓶颈,成为国内首款采用此显存方案的芯片。在DeepSeek V3/R1满血版等主流大模型推理中,单位Token成本较上一代降低约90%,让“百万Token一分钱”成为可能,极大推动了大模型推理的大规模普惠应用。
曦望是国产全栈自研人工智能算力芯片企业,其前身是商汤大芯片部门,于2024年底分拆独立运营。它专注于高性能GPU及多模态场景推理芯片的研发与商业化,凭借八年技术沉淀、二十亿研发投入及两代量产芯片的工程化验证,已成为国产GPU替代的核心力量。公司致力于为千行百业提供成本降低十倍、能效比突破的智能算力基石,推动各行业智能化发展,助力实现通用人工智能(AGI)的普惠化目标。
曦望已构建起覆盖全场景需求的三代芯片产品矩阵。2020年量产的首款AI推理芯片S1,适配千余种CV模型,满足了视觉推理领域的需求。2024年量产的S2芯片,深度兼容CUDA生态,能流畅推理DeepSeek、Qwen等开源大模型,以及文生图、文生视频、文生3D主流模型,进一步拓展了应用场景。而此次推出的S3芯片,定位“推理性价比之王”,在单位Token成本、能耗表现上实现数量级突破,原生支持FP8/FP4低精度推理,为大模型推理提供核心支撑。
作为国内首家All - in推理的GPU芯片公司,曦望始终深耕推理赛道。在一年内,它顺利完成了近30亿元战略融资,投资方阵容强大。既有三一集团旗下华胥基金、范式智能等产业投资方,也有无极资本、IDG资本等国内知名VC/PE机构,还获得了诚通混改基金等国资背景资本的鼎力加持。所筹资金将专项用于下一代推理GPU的核心技术研发、规模化量产及生态共建,持续夯实其在推理算力赛道的核心竞争力。
此次发布,曦望不仅带来了启望S3芯片,还推出了一整套面向大模型推理的解决方案。寰望SC3 - 256超节点方案,面向千亿、万亿级参数多模态MoE推理,采用全液冷设计,支持大规模专家并行部署,同等算力规模下,整体交付成本从“亿元级”降至“千万元级”。“百万Token一分钱”计划,联合商汤科技等伙伴共同发起,大幅降低企业使用算力的门槛。共建推理云通过GPU池化与弹性调度,将算力整合为统一“算力池”,以MaaS为核心入口,让企业按需调用算力。
当前,AI模型训练已迈入深水区,推理环节成为AI技术商业化落地的关键。曦望以启望S3芯片为核心,通过“芯片 + 系统 + 生态”的布局,让推理算力变得更像水电一样,成为可规模化、可持续的基础设施,引领国产GPU迈向新的高度。
