Google正式发布LLM评测基准Android Bench

作者：发布时间：2026-03-14 22:00:10 浏览量：

作者 / 产品副总裁、Android 开发者 Matthew McCullough

我们希望帮助您更快速、更轻松地构建高质量的 Android 应用，而提升生产力的方式之一，就是让 AI 触手可及。我们知道您希望 AI 真正理解 Android 平台的细微差异，因此我们一直在评估 LLM 在 Android 开发任务中的表现。现在，我们发布了Android Bench的首个版本，这是 Google 官方专门针对 Android 开发打造的 LLM 排行榜。

我们的目标是为模型开发者提供一个基准，用于评估 LLM 在 Android 开发方面的能力。通过为高质量的 Android 开发建立清晰、可靠的基准，我们致力于帮助模型开发者识别能力差距并加速改进。这将使开发者能够更高效地工作，并在更多优质模型中选择适合的 AI 辅助工具，最终推动 Android 生态系统的应用质量全面提升。

以现实世界的Android 开发任务为设计基础

我们通过整理一系列涵盖常见 Android 开发领域的任务来创建基准测试。该基准由不同难度的实际挑战组成，任务来源于公开的 GitHub Android 库。测试场景包括: 解决 Android 版本升级带来的破坏性更改、处理可穿戴设备上的网络连接等特定领域任务，以及迁移到最新版本的 Jetpack Compose 等。

在每次评估中，我们都会引导 LLM 尝试修复任务中报告的问题，并通过单元测试或插桩测试进行验证。这种与模型无关的方法，使我们能够衡量模型在复杂代码库中导航、理解依赖关系，以及解决开发者日常遇到的各类实际问题的能力。

我们已与多家 LLM 研发厂商 (包括 JetBrains) 共同验证了这一方法论。

JetBrains AI 集成负责人 Kirill Smelov：“衡量 AI 对 Android 的影响是一项巨大的挑战，因此很高兴看到这样一个完善且实用的框架。虽然我们自身也在积极进行基准测试，但 Android Bench 这一独特的且备受期待的补充方案确实很有意义。这种方法正是当前 Android 开发者所需要的严谨评估体系。”

首批 Android Bench 测试结果

在本次初始发布中，我们旨在纯粹评估模型性能，并未侧重智能体能力或工具的使用。结果显示，各模型任务完成率在 16% 至 72% 之间。这一较大的差距表明，部分 LLM 已经具备较强的 Android 开发基础能力，而另一些模型仍有较大的提升空间。无论当前表现如何，我们都期待 LLM 开发者持续优化其模型以更好地支持 Android 开发，并在此过程中不断地提升性能。

在本次首发评测中，平均得分最高的 LLM 是 Gemini 3.1 Pro，紧随其后的是 Claude Opus 4.6。您可以在最新稳定版本的Android Studio中配置 API 密钥，体验我们评测的所有模型，为您的 Android 项目提供 AI 辅助支持。

为开发者与 LLM 研发厂商提供信息透明度

我们秉持开放与透明的原则，因此我们的评测方法、数据集以及自动化测试框架已经在 GitHub 上公开。

任何公开基准都会面临一个挑战——数据污染的风险，即模型可能在训练过程中已经接触过评测任务。为确保评测结果反映的是真实推理能力，而非记忆或猜测，我们采取了多项措施，包括对智能体轨迹进行严格的人工审查，以及引入 Canary 字符串以劝阻模型对测试数据的训练学习。

展望未来，我们将持续优化评测方法，以维护数据集的完整性，同时不断改进基准的后续版本，例如增加任务数量和复杂度。

我们期待Android Bench在长远角度提升 AI 辅助开发能力；我们的愿景是缩小创意与高质量代码之间的差距，为未来奠定基础——助力您在 Android 上轻松构建出您心中所想。也欢迎您关注 "谷歌开发者" 微信公众号，及时了解更多开发技术和产品更新等资讯动态！

上一篇 : 施耐德电气以AI技术驱动绿氢绿氨生产模式变革

下一篇 : 华为携手产业伙伴推动Ambient IoT规模商用