2025-04-10T06:02:25.042-04:00

2025年4月9日

📌 **1. Google DeepMind发布Gemini Robotics：赋能机器人执行更广泛现实世界任务的新AI模型**
🔗 [原文链接](https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models)

Google DeepMind 近日发布了两款旨在显著提升机器人与物理世界交互能力的新型 AI 模型，标志着 AI 在具身智能（Embodied AI）领域的重要进展。

其中，核心模型 **Gemini Robotics** 是基于 Google 强大的 Gemini 大语言模型家族特别优化构建的 **vision-language-action (VLA)** 模型。它不仅能理解自然语言指令（例如，“请帮我把桌子上的苹果拿过来”），还能结合摄像头捕捉到的视觉信息进行场景理解，并据此规划和生成机器人需要执行的一系列物理动作。

Gemini Robotics 最引人注目的突破在于其强大的泛化能力和推理能力。即使面对训练数据中未曾明确包含的新任务指令或处于全新的、非结构化的物理环境中，该模型也能进行有效的理解和“举一反三”式的推理，实现类似 **zero-shot learning** 的任务执行能力。这意味着机器人不再需要为每一个细微变化的场景或任务进行重新、大量的专门训练，大大提高了它们在现实世界中部署的适应性和灵活性。

除了提升“大脑”的理解与决策能力，该模型还显著增强了机器人的物理操作精细度（dexterity）。演示表明，搭载 Gemini Robotics 的机器人能够完成更复杂、更需要技巧的任务，例如灵巧地折叠一件 T 恤、准确地将电线插入插座，甚至与人进行简单的互动游戏（如井字游戏）。

同时，DeepMind 还推出了名为 **RT-MoE** (Robotics Transformer with Mixture-of-Experts) 的模型。该模型采用了 **Mixture-of-Experts** 架构，这种架构允许模型在处理不同任务时仅激活部分“专家”网络，从而在保持高性能的同时，显著提高了训练和推理的速度与效率，这对于需要实时反应的机器人应用至关重要。

Google 强调，这些先进的 AI 模型并非仅仅停留在实验室阶段。它们正积极与多家行业领先的机器人公司（如研发双足人形机器人的 Agility Robotics 和 Boston Dynamics，以及法国的 Enchanted Tools 等）展开合作，将 Gemini Robotics 和 RT-MoE 集成到各种机器人平台中进行测试和应用。

这一系列的技术进展预示着，具备更强通用性、适应性和操作能力的智能机器人，正加速从特定、受限场景走向更广泛、更复杂的现实世界应用，未来有望在工业自动化、物流仓储、家庭服务乃至更广泛的领域扮演重要角色，真正成为能够协助人类完成各种物理任务的得力助手。

作者kelvin

作者 kelvin

相关文章

2025-04-13T06:23:44.946-04:00

2025-04-13T06:23:44.423-04:00

2025-04-11T08:02:10.282-04:00

发表回复取消回复

You missed