2025年3月12日
📌 1. **Google DeepMind发布新型AI模型,赋能机器人执行现实世界任务,无需额外训练**
🔗 [原文链接](https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models)
Google DeepMind 近日发布了两款旨在提升机器人能力的新型 **AI** 模型,使其能够“执行比以往更广泛的现实世界任务”,标志着 AI 从数字世界向物理世界交互迈出了重要一步。
其中核心的是 **Gemini Robotics**,这是一个先进的 **Vision-Language-Action (VLA)** 模型系列。VLA 模型是当前机器人 AI 领域的一个重要研究方向,其核心能力在于能够深度融合视觉感知、自然语言理解和物理动作规划。具体来说,Gemini Robotics 不仅能“看到”周围的环境,理解人类通过自然语言下达的复杂指令(例如,“帮我找一个放在桌子上的红苹果,并递给我”),还能将这些高级指令分解为一系列机器人可以执行的具体物理动作序列。
Gemini Robotics 最显著的特点之一是其**泛化能力**。即使面对之前从未进行过专门训练的新环境或新任务,搭载该模型的机器人也能展现出理解和适应能力。这得益于其强大的 **reasoning capabilities (推理能力)**,能够处理模糊指令,并根据环境反馈实时调整动作策略。例如,如果指令是“整理一下桌子”,机器人需要自行判断哪些物品需要被移动、如何移动以及移动到哪里。
除了理解和推理,该模型还显著提升了机器人的 **dexterity (灵巧性)**。在演示中,配备了 Gemini Robotics 的机器人能够完成更精密的任务,如小心翼翼地拿起并折叠一张纸,或者以更快的速度和更高的精度执行分类、抓取等操作。这意味着 AI 不仅能让机器人“思考”,还能让它们“做得更好”。
为了支撑 Gemini Robotics 的高效运作和持续学习,Google DeepMind 同时推出了另外两项关键技术:
1. **AutoRT 系统**: 这是一个创新的机器人数据收集系统。它利用 **Large Language Models (LLMs)** 和 **Vision-Language Models (VLMs)** 来指导机器人在多样化的现实环境中自主探索和收集训练数据。AutoRT 能够帮助机器人理解环境、设定有意义的探索目标,并遵循安全规则进行操作,从而高效地积累经验,加速学习过程,使其能更快地适应新任务。
2. **SARA-RT (Self-Adaptive Robust Attention for Robotics Transformers)**: 这是一种针对基于 **Transformer** 架构的机器人 AI 模型进行优化的新技术。SARA-RT 采用了一种新颖的**自适应注意力机制**,能够更有效地处理和融合机器人传感器(如摄像头、力传感器)传来的多模态数据,在保持甚至提升模型性能的同时,显著降低了计算资源的消耗,提高了模型的运行效率。
Google DeepMind 特别强调了在发展先进机器人技术的同时,必须高度重视**安全和伦理**问题。他们借鉴了为大型语言模型开发的 **Constitutional AI** 方法(即为 AI 设定一套核心原则或“宪法”以约束其行为),正在积极探索为机器人建立类似的“机器人宪法”。这套规则旨在确保机器人在执行任务时,始终将安全放在首位,避免执行可能导致自身损坏、对人类或环境造成伤害的操作,为智能机器人赋予基本的“道德指南针”。
这些技术的结合,展示了 Google DeepMind 在打造更通用、更智能、更能适应复杂非结构化环境的机器人系统方面的决心和进展。通过让 AI 具备更强的物理世界理解和交互能力,未来机器人有望在家庭、工业、医疗等更多领域扮演重要角色。
据了解,Google 目前正与多家领先的机器人公司展开合作,共同测试和推进这些 AI 模型的应用,合作伙伴包括开发人形机器人的 Agility Robotics、知名的 Boston Dynamics 以及法国的 Enchanted Tools 等公司。