2025年4月5日
📌 **1. 谷歌 DeepMind 推出新 AI 模型,助力机器人在未明确训练的情况下执行物理任务**
🔗 [原文链接](https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models)
谷歌 DeepMind 近日发布了两款创新的人工智能模型,旨在显著提升机器人执行现实世界任务的能力,即使是在面对此前未曾明确训练过的场景时也能应对自如。
第一款名为 **Gemini Robotics**,它基于谷歌强大的 Gemini 模型家族,是一个先进的视觉-语言-行动 (vision-language-action) 模型。其核心优势在于能够理解复杂的自然语言指令,并将其转化为机器人可以执行的多步骤物理动作。更重要的是,Gemini Robotics 具备出色的泛化能力,能够理解并适应新的、未曾明确训练过的环境和指令。例如,它可以理解“拿起桌子上的红苹果”这样的指令,并规划执行抓取动作,即使它之前没有在完全相同的场景下训练过。此外,该模型还显著提高了机器人的灵活性和操作精度 (dexterity),使其能够完成诸如精确抓取特定物体、插拔电线,甚至像折叠一张纸这样更精细的操作。这使得机器人在与物理世界交互时更加智能和高效。
另一款同期发布的模型名为 **AutoRT**。这并非直接控制机器人的模型,而是一个用于大规模、自动化收集机器人训练数据的系统。AutoRT 利用大型基础模型(如大型语言模型 LLMs 和视觉语言模型 VLMs)的理解和推理能力,来指导部署在不同环境中的多个机器人。系统会评估环境、选择合适的机器人,并为其分配合适的任务以收集多样化的训练数据。这种方式大大提高了数据收集的效率和多样性,从而加速机器人学习新技能的过程。
值得特别关注的是,AutoRT 系统内置了一套基于谷歌内部“机器人宪法”的安全协议。这套协议旨在从源头上确保机器人的操作安全,例如,阻止机器人执行可能对人类、动物或易碎物体造成伤害的任务,或者避免与电力相关的危险操作。
这两款模型(Gemini Robotics 和 AutoRT)的结合,展示了谷歌 DeepMind 在推动通用型机器人发展方面的努力:一方面通过 Gemini Robotics 提升机器人的理解、推理和执行能力,使其更适应现实世界的复杂性;另一方面通过 AutoRT 高效、安全地获取训练数据,加速机器人的学习和迭代。这些进展预示着未来机器人有望在工业自动化、家庭服务、物流仓储等更多领域扮演更重要的角色,执行更复杂、更精细的任务。