Arm率先适配腾讯混元HY-1.8B-2Bit模型
随着人工智能 (AI) 加速向智能手机、PC 与物联网终端等渗透,如何在边缘设备上实现高性能、低功耗的智能体验,已成为行业共同关注的核心议题。
腾讯混元今日发布了 HY-1.8B-2Bit,这是一款等效参数量仅有 0.3B 的极低比特压缩模型,有助于移动设备厂商和开发者加速实现生成式 AI 的创新落地。作为全球应用最为广泛的高性能、高能效计算平台,Arm 率先完成了对该模型的成功适配。HY-1.8B-2Bit 现已能够在搭载启用第二代可伸缩矩阵扩展 (SME2) 技术的 Armv9 计算平台的移动设备上实现高效运行。
在资源受限的边缘设备上部署与运行生成式 AI,普遍面临性能、能效、内存等诸多挑战。通过有效缩减模型规模,是将生成式 AI 用例拓展至更广泛设备的行之有效的方法之一。规模更小的模型在与原始模型保持相近推理精度的前提下,能在端侧实现更出色的性能表现与能效水平,进而在兼顾设备续航表现的同时,为用户带来响应更迅捷、运行更流畅的端侧 AI 体验。
腾讯混元此次推出的 HY-1.8B-2Bit 通过对 HY‑1.8B‑Instruct 模型进行 2 比特量化感知训练 (QAT) 产出,对比原始精度模型等效参数量降低了 6 倍,可以在边缘设备上灵活部署,并保持了与 INT4-PTQ 方法相当的模型性能。同时,该模型沿用了 HY-1.8B-Instruct 的全思考能力,用户可以根据其应用的复杂性和资源限制,灵活地选择推理模式。得益于上述优势,HY-1.8B-2Bit 在实时性要求高、资源受限的场景中依然能够提供快速且可靠的推理表现。
而在此基础上,Arm SME2 技术使得移动端开发者能更轻松获取端侧 AI 加速功能。SME2 是 Armv9 架构中的高级 CPU 指令,能够在 AI 异构计算框架下,高效支持各类实时移动端推理任务。实际测试结果显示,HY-1.8B-2Bit 运行在启用 SME2 技术的移动设备上时,对比 HY-1.8B-Q4 模型,在不同窗口大小下的首词元延迟 (TTFT) 和生成速度均实现了显著提升。这将有助于在资源受限的场景中,实现更卓越、流畅、智能的使用体验。例如,通用聊天机器人和 AI 助手能够在端侧实现更复杂、自然的语言处理能力。与此同时,SME2 已被集成至多个主流框架中,深度嵌入软件栈。开发者可通过 llama.cpp 直接在启用 SME2 技术的硬件上部署 HY-1.8B-2Bit 模型,加速实现生成式 AI 应用的性能跃升。
模型地址:
https://huggingface.co/AngelSlim/HY-1.8B-2Bit
https://huggingface.co/AngelSlim/HY-1.8B-2Bit-GGUF
各位开发者们,也可点击阅读原文,跳转模型地址,了解更多关于 HY-1.8B-2Bit 的信息及如何部署!
SME2 技术已获得业界领先生态伙伴的广泛采用与认可。vivo、OPPO 等手机厂商已推出集成启用 SME2 的 Arm C1 CPU 与 Mali G1-Ultra GPU 的旗舰智能手机,为端侧 AI 带来了实际的体验提升;此外,SME2 也已在 iOS 中大幅启用。而开发者们正借助 SME2 技术,加速语言模型推理、图像处理、音频生成等核心能力,为各类主流应用打造出更迅捷的实时体验。与此同时,Arm 也正积极将 SME2 技术扩展至更广泛的 CPU 平台。预计到 2030 年,SME 与 SME2 技术将为超过 30 亿台设备新增超 100 亿 TOPS 的计算能力,持续降低端侧 AI 的部署成本与隐私风险。
Arm 与腾讯混元持续依托技术创新,携手推动端侧应用功能与用户体验的优化升级,助力本土开发者更高效、顺畅地开展端侧 AI 创新开发。
