AI推理芯片需求爆发,OpenAI欲寻求新合作伙伴
作者: 发布时间:2026-02-05 04:00:36 浏览量:
电子发烧友网综合报道,在人工智能迅猛发展的当下,AI推理芯片需求正呈爆发式增长。
AI推理,即支撑如ChatGPT这类AI模型响应用户问题和请求的计算过程。过去,英伟达在训练大型AI模型所需芯片领域占据主导,其GPU凭借强大的海量数据处理能力,成为全球AI爆炸式增长的重要基石。但随着AI不断演进,重点正从大规模训练转向对已训练模型的推理和推断,推理已然成为新的竞争战场。业内普遍分析,到2026年,全球AI推理需求将超越AI训练场景。
推理与训练对芯片要求差异明显。训练侧重海量数据处理,推理则对内存需求更高,因芯片需花更多时间从内存获取数据。英伟达和AMD的GPU依赖外部内存,这会增加处理时间,降低用户与聊天机器人交互速度。以OpenAI为例,其用于生成计算机代码且大力推广的产品Codex,部分性能不足就归因于基于英伟达GPU的硬件。OpenAI首席执行官Sam Altman称,使用其编程模型的客户愿为编码速度支付高溢价,为满足需求,OpenAI最近与Cerebras达成合作。
自去年起,OpenAI积极寻找GPU替代方案,重点关注在同一块硅片上集成大量内存(SRAM)的芯片制造商。在每颗芯片上集成更多昂贵的SRAM,能在聊天机器人等AI系统处理海量用户请求时带来速度优势。
面对推理市场的巨大潜力,其他企业也纷纷布局。Anthropic的Claude和谷歌的Gemini等竞争产品,更多依赖谷歌自研的TPU进行部署。TPU专为推理计算设计,性能可能优于英伟达GPU这类通用型AI芯片。
英伟达也未坐视不理。不久前,它以200亿美元收购一家AI推理芯片初创企业Groq的技术授权,并将核心团队招入麾下。Groq专注极致推理,其创始人Jonathan Ross带领谷歌TPU原班人马,耗时七年打造出LPU(语言处理单元)架构,曾宣称推理性能是英伟达H100 GPU的10倍,成本仅为其十分之一。
国内企业同样在积极布局。曦望董事长徐冰预计,到2030年,AI推理在整个AI计算市场将占80%份额,聚焦极致推理的AI芯片未来爆发性更强。1月27日,国产GPU厂商曦望发布新一代推理GPU芯片——启望S3。这款专为大模型推理打造的定制化GPGPU芯片,在典型推理场景下,整体性价比较上一代提升超10倍。在算力与存储设计上,支持FP16至FP4精度切换,采用LPDDR6显存方案,显存容量提升4倍,有效缓解大模型推理的显存瓶颈,成为国内首款采用此显存方案的芯片。在主流大模型推理中,单位Token成本较上一代降低约90%,极大推动了大模型推理的大规模普惠应用。
云天励飞自2014年成立便持续投入AI推理芯片研发,已推出四代基于深度神经网络架构的自研NPU,并基于最新NPU架构推出多款芯片,应用于端侧与边缘侧AI推理场景。公司副总裁郑文先表示,正在研发的新一代芯片采用GPNPU架构,既适应GPU的CUDA生态,方便客户模型牵引,又兼顾NPU的高效灵活,成本更具优势,符合未来大模型在端侧与边缘侧规模化落地的需求。董事长陈宁博士称,未来AI需求转向推理,对AI芯片需求也将从训练芯片转向推理芯片,GPNPU架构是通用型大算力云端推理芯片架构的最优解,公司将全力投入大算力AI推理芯片研发,打造极致推理效率和性价比的大模型云推理芯片。
AI推理,即支撑如ChatGPT这类AI模型响应用户问题和请求的计算过程。过去,英伟达在训练大型AI模型所需芯片领域占据主导,其GPU凭借强大的海量数据处理能力,成为全球AI爆炸式增长的重要基石。但随着AI不断演进,重点正从大规模训练转向对已训练模型的推理和推断,推理已然成为新的竞争战场。业内普遍分析,到2026年,全球AI推理需求将超越AI训练场景。
推理与训练对芯片要求差异明显。训练侧重海量数据处理,推理则对内存需求更高,因芯片需花更多时间从内存获取数据。英伟达和AMD的GPU依赖外部内存,这会增加处理时间,降低用户与聊天机器人交互速度。以OpenAI为例,其用于生成计算机代码且大力推广的产品Codex,部分性能不足就归因于基于英伟达GPU的硬件。OpenAI首席执行官Sam Altman称,使用其编程模型的客户愿为编码速度支付高溢价,为满足需求,OpenAI最近与Cerebras达成合作。
自去年起,OpenAI积极寻找GPU替代方案,重点关注在同一块硅片上集成大量内存(SRAM)的芯片制造商。在每颗芯片上集成更多昂贵的SRAM,能在聊天机器人等AI系统处理海量用户请求时带来速度优势。
面对推理市场的巨大潜力,其他企业也纷纷布局。Anthropic的Claude和谷歌的Gemini等竞争产品,更多依赖谷歌自研的TPU进行部署。TPU专为推理计算设计,性能可能优于英伟达GPU这类通用型AI芯片。
英伟达也未坐视不理。不久前,它以200亿美元收购一家AI推理芯片初创企业Groq的技术授权,并将核心团队招入麾下。Groq专注极致推理,其创始人Jonathan Ross带领谷歌TPU原班人马,耗时七年打造出LPU(语言处理单元)架构,曾宣称推理性能是英伟达H100 GPU的10倍,成本仅为其十分之一。
国内企业同样在积极布局。曦望董事长徐冰预计,到2030年,AI推理在整个AI计算市场将占80%份额,聚焦极致推理的AI芯片未来爆发性更强。1月27日,国产GPU厂商曦望发布新一代推理GPU芯片——启望S3。这款专为大模型推理打造的定制化GPGPU芯片,在典型推理场景下,整体性价比较上一代提升超10倍。在算力与存储设计上,支持FP16至FP4精度切换,采用LPDDR6显存方案,显存容量提升4倍,有效缓解大模型推理的显存瓶颈,成为国内首款采用此显存方案的芯片。在主流大模型推理中,单位Token成本较上一代降低约90%,极大推动了大模型推理的大规模普惠应用。
云天励飞自2014年成立便持续投入AI推理芯片研发,已推出四代基于深度神经网络架构的自研NPU,并基于最新NPU架构推出多款芯片,应用于端侧与边缘侧AI推理场景。公司副总裁郑文先表示,正在研发的新一代芯片采用GPNPU架构,既适应GPU的CUDA生态,方便客户模型牵引,又兼顾NPU的高效灵活,成本更具优势,符合未来大模型在端侧与边缘侧规模化落地的需求。董事长陈宁博士称,未来AI需求转向推理,对AI芯片需求也将从训练芯片转向推理芯片,GPNPU架构是通用型大算力云端推理芯片架构的最优解,公司将全力投入大算力AI推理芯片研发,打造极致推理效率和性价比的大模型云推理芯片。
