2025-04-13T06:23:44.423-04:00

2025年3月13日

📌 1. **谷歌 DeepMind 发布新型 AI 模型 Gemini Robotics，提升机器人现实世界任务执行能力**
🔗 [原文链接](https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models)

谷歌 (Google) 旗下的人工智能研究实验室 DeepMind 近日发布了两款旨在显著提升机器人能力的新型 AI 模型，使其能够“执行比以往更广泛的现实世界任务”，进一步推动 AI 技术在物理世界中的应用。

其中一款核心模型名为 **Gemini Robotics**。这并非单一模型，而是一个基于谷歌强大的 Gemini 系列模型构建的 **vision-language-action (VLA) 模型** 家族。VLA 模型的关键在于融合了视觉理解 (vision)、自然语言指令遵循 (language) 和物理动作执行 (action) 的能力。Gemini Robotics 的突出特点在于其强大的理解和泛化能力：即使面对此前 **未经过专门训练 (specific training)** 的全新情景或指令，它也能进行理解并规划出相应的动作序列来完成任务。这体现了 **zero-shot learning** 或 **few-shot learning** 的潜力，极大降低了为每个新任务重新训练模型的成本和时间，使机器人能更快地适应复杂多变、非结构化的现实环境。

根据 DeepMind 的介绍，Gemini Robotics 不仅提高了机器人的认知和决策能力，还显著增强了它们的 **dexterity（灵活性和操作精度）**。这意味着机器人能够执行更加精细和复杂的操作，例如演示中提到的精确折叠一张纸，或者更流畅地处理易碎或形状不规则的物体。这种能力的提升，预示着 AI 驱动的机器人在精密制造业、自动化仓储物流、家庭助理服务、医疗辅助乃至科学探索等更广泛领域的应用潜力将得到进一步释放。

此外，DeepMind 还强调了这些模型能够帮助机器人进行更快速的 **skill acquisition (技能习得)**。通过结合 VLA 能力和可能的 **Reinforcement Learning (强化学习)** 技术，机器人有望在更短的时间内掌握新技能。

总而言之，Gemini Robotics 系列模型的推出，标志着 **Embodied AI (具身智能)** 领域的重要进展，展示了将大型基础模型的强大认知能力赋予物理实体的潜力，为开发更通用、更智能、更能与人类协作的机器人开辟了新的道路。

作者kelvin

作者 kelvin

相关文章

2025-04-13T06:23:44.946-04:00

2025-04-11T08:02:10.282-04:00

2025-04-11T08:02:10.034-04:00

发表回复取消回复

You missed