Google正式发布LLM评测基准Android Bench
作者 / 产品副总裁、Android 开发者 Matthew McCullough
我们希望帮助您更快速、更轻松地构建高质量的 Android 应用,而提升生产力的方式之一,就是让 AI 触手可及。我们知道您希望 AI 真正理解 Android 平台的细微差异,因此我们一直在评估 LLM 在 Android 开发任务中的表现。现在,我们发布了Android Bench的首个版本,这是 Google 官方专门针对 Android 开发打造的 LLM 排行榜。
我们的目标是为模型开发者提供一个基准,用于评估 LLM 在 Android 开发方面的能力。通过为高质量的 Android 开发建立清晰、可靠的基准,我们致力于帮助模型开发者识别能力差距并加速改进。这将使开发者能够更高效地工作,并在更多优质模型中选择适合的 AI 辅助工具,最终推动 Android 生态系统的应用质量全面提升。
以现实世界的Android 开发任务为设计基础
我们通过整理一系列涵盖常见 Android 开发领域的任务来创建基准测试。该基准由不同难度的实际挑战组成,任务来源于公开的 GitHub Android 库。测试场景包括: 解决 Android 版本升级带来的破坏性更改、处理可穿戴设备上的网络连接等特定领域任务,以及迁移到最新版本的 Jetpack Compose 等。
在每次评估中,我们都会引导 LLM 尝试修复任务中报告的问题,并通过单元测试或插桩测试进行验证。这种与模型无关的方法,使我们能够衡量模型在复杂代码库中导航、理解依赖关系,以及解决开发者日常遇到的各类实际问题的能力。
我们已与多家 LLM 研发厂商 (包括 JetBrains) 共同验证了这一方法论。
JetBrains AI 集成负责人 Kirill Smelov:“衡量 AI 对 Android 的影响是一项巨大的挑战,因此很高兴看到这样一个完善且实用的框架。虽然我们自身也在积极进行基准测试,但 Android Bench 这一独特的且备受期待的补充方案确实很有意义。这种方法正是当前 Android 开发者所需要的严谨评估体系。”
首批 Android Bench 测试结果
在本次初始发布中,我们旨在纯粹评估模型性能,并未侧重智能体能力或工具的使用。结果显示,各模型任务完成率在 16% 至 72% 之间。这一较大的差距表明,部分 LLM 已经具备较强的 Android 开发基础能力,而另一些模型仍有较大的提升空间。无论当前表现如何,我们都期待 LLM 开发者持续优化其模型以更好地支持 Android 开发,并在此过程中不断地提升性能。
在本次首发评测中,平均得分最高的 LLM 是 Gemini 3.1 Pro,紧随其后的是 Claude Opus 4.6。您可以在最新稳定版本的Android Studio中配置 API 密钥,体验我们评测的所有模型,为您的 Android 项目提供 AI 辅助支持。

为开发者与 LLM 研发厂商提供信息透明度
我们秉持开放与透明的原则,因此我们的评测方法、数据集以及自动化测试框架已经在 GitHub 上公开。
任何公开基准都会面临一个挑战——数据污染的风险,即模型可能在训练过程中已经接触过评测任务。为确保评测结果反映的是真实推理能力,而非记忆或猜测,我们采取了多项措施,包括对智能体轨迹进行严格的人工审查,以及引入 Canary 字符串以劝阻模型对测试数据的训练学习。
展望未来,我们将持续优化评测方法,以维护数据集的完整性,同时不断改进基准的后续版本,例如增加任务数量和复杂度。
我们期待Android Bench在长远角度提升 AI 辅助开发能力;我们的愿景是缩小创意与高质量代码之间的差距,为未来奠定基础——助力您在 Android 上轻松构建出您心中所想。也欢迎您关注 "谷歌开发者" 微信公众号,及时了解更多开发技术和产品更新等资讯动态!
