2025年3月13日
📌 1. **谷歌 DeepMind 发布新型 AI 模型 Gemini Robotics,提升机器人现实世界任务执行能力**
🔗 [原文链接](https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models)
谷歌 (Google) 旗下的人工智能研究实验室 DeepMind 近日发布了两款旨在显著提升机器人能力的新型 AI 模型,使其能够“执行比以往更广泛的现实世界任务”,进一步推动 AI 技术在物理世界中的应用。
其中一款核心模型名为 **Gemini Robotics**。这并非单一模型,而是一个基于谷歌强大的 Gemini 系列模型构建的 **vision-language-action (VLA) 模型** 家族。VLA 模型的关键在于融合了视觉理解 (vision)、自然语言指令遵循 (language) 和物理动作执行 (action) 的能力。Gemini Robotics 的突出特点在于其强大的理解和泛化能力:即使面对此前 **未经过专门训练 (specific training)** 的全新情景或指令,它也能进行理解并规划出相应的动作序列来完成任务。这体现了 **zero-shot learning** 或 **few-shot learning** 的潜力,极大降低了为每个新任务重新训练模型的成本和时间,使机器人能更快地适应复杂多变、非结构化的现实环境。
根据 DeepMind 的介绍,Gemini Robotics 不仅提高了机器人的认知和决策能力,还显著增强了它们的 **dexterity(灵活性和操作精度)**。这意味着机器人能够执行更加精细和复杂的操作,例如演示中提到的精确折叠一张纸,或者更流畅地处理易碎或形状不规则的物体。这种能力的提升,预示着 AI 驱动的机器人在精密制造业、自动化仓储物流、家庭助理服务、医疗辅助乃至科学探索等更广泛领域的应用潜力将得到进一步释放。
此外,DeepMind 还强调了这些模型能够帮助机器人进行更快速的 **skill acquisition (技能习得)**。通过结合 VLA 能力和可能的 **Reinforcement Learning (强化学习)** 技术,机器人有望在更短的时间内掌握新技能。
总而言之,Gemini Robotics 系列模型的推出,标志着 **Embodied AI (具身智能)** 领域的重要进展,展示了将大型基础模型的强大认知能力赋予物理实体的潜力,为开发更通用、更智能、更能与人类协作的机器人开辟了新的道路。