2025年4月9日
📌 **1. Google DeepMind发布Gemini Robotics:赋能机器人执行更广泛现实世界任务的新AI模型**
🔗 [原文链接](https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models)
Google DeepMind 近日发布了两款旨在显著提升机器人与物理世界交互能力的新型 AI 模型,标志着 AI 在具身智能(Embodied AI)领域的重要进展。
其中,核心模型 **Gemini Robotics** 是基于 Google 强大的 Gemini 大语言模型家族特别优化构建的 **vision-language-action (VLA)** 模型。它不仅能理解自然语言指令(例如,“请帮我把桌子上的苹果拿过来”),还能结合摄像头捕捉到的视觉信息进行场景理解,并据此规划和生成机器人需要执行的一系列物理动作。
Gemini Robotics 最引人注目的突破在于其强大的泛化能力和推理能力。即使面对训练数据中未曾明确包含的新任务指令或处于全新的、非结构化的物理环境中,该模型也能进行有效的理解和“举一反三”式的推理,实现类似 **zero-shot learning** 的任务执行能力。这意味着机器人不再需要为每一个细微变化的场景或任务进行重新、大量的专门训练,大大提高了它们在现实世界中部署的适应性和灵活性。
除了提升“大脑”的理解与决策能力,该模型还显著增强了机器人的物理操作精细度(dexterity)。演示表明,搭载 Gemini Robotics 的机器人能够完成更复杂、更需要技巧的任务,例如灵巧地折叠一件 T 恤、准确地将电线插入插座,甚至与人进行简单的互动游戏(如井字游戏)。
同时,DeepMind 还推出了名为 **RT-MoE** (Robotics Transformer with Mixture-of-Experts) 的模型。该模型采用了 **Mixture-of-Experts** 架构,这种架构允许模型在处理不同任务时仅激活部分“专家”网络,从而在保持高性能的同时,显著提高了训练和推理的速度与效率,这对于需要实时反应的机器人应用至关重要。
Google 强调,这些先进的 AI 模型并非仅仅停留在实验室阶段。它们正积极与多家行业领先的机器人公司(如研发双足人形机器人的 Agility Robotics 和 Boston Dynamics,以及法国的 Enchanted Tools 等)展开合作,将 Gemini Robotics 和 RT-MoE 集成到各种机器人平台中进行测试和应用。
这一系列的技术进展预示着,具备更强通用性、适应性和操作能力的智能机器人,正加速从特定、受限场景走向更广泛、更复杂的现实世界应用,未来有望在工业自动化、物流仓储、家庭服务乃至更广泛的领域扮演重要角色,真正成为能够协助人类完成各种物理任务的得力助手。