2024年5月16日
📌 **1. 谷歌 DeepMind 发布新款 AI 模型,助力机器人执行更广泛物理任务,无需专门训练**
🔗 [原文链接](https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models)
谷歌(Google)旗下的人工智能研究实验室 DeepMind 近日发布了两款旨在提升机器人能力的新型 AI 模型,使其能够“执行比以往任何时候都更广泛的现实世界任务”。
其中一款核心模型名为 **Gemini Robotics**。这是一款先进的**视觉-语言-行动 (vision-language-action, VLA)** 模型。其突出特点在于能够理解和适应全新的、未曾专门训练过的场景与任务。这意味着基于 Gemini Robotics 的机器人不再局限于预先编程或在特定数据集上反复训练过的固定任务,而是能够展现出更强的泛化能力和即时适应性。
根据 DeepMind 的介绍,Gemini Robotics 的设计目标是赋予机器人更深层次的理解力。它不仅仅是识别物体或环境,更能结合视觉信息、自然语言指令(例如人类给出的口头或文字要求)以及对可能行动的理解,来做出决策并执行物理操作。这种 VLA 架构是实现更通用、更智能机器人的关键一步,它模仿了人类结合感知、理解和行动来与世界互动的方式。
该模型的引入显著增强了机器人的**灵活性 (dexterity)**。这使得机器人能够执行更精细、更复杂的操作。报告中给出的一个实例是,搭载 Gemini Robotics 的机器人能够完成像**折叠一张纸**这样需要精确控制和理解物体物理属性的任务。这表明该模型在提升机器人操纵细微物体、进行复杂组装或完成需要精巧手眼协调任务方面具有巨大潜力。
更重要的是,Gemini Robotics 使机器人能够在**没有针对性训练 (even without training)** 的情况下处理新任务。这可能借鉴了**零样本学习 (zero-shot learning)** 或**少样本学习 (few-shot learning)** 的概念,即模型利用其从大规模多样化数据中学到的广泛知识和推理能力,来应对前所未见的情况。这种能力对于机器人在动态变化、不可预测的真实世界环境(如家庭、工厂、仓库或户外)中有效工作至关重要。
这两款新模型的发布,标志着谷歌 DeepMind 在推动 AI 从数字世界走向物理世界互动方面取得了重要进展。通过提升机器人的适应性、灵活性和任务执行范围,Gemini Robotics 等技术有望加速通用机器人的发展,为自动化、人机协作以及辅助人类日常生活等领域开辟新的可能性。虽然距离完全自主、像人类一样灵活的机器人还有很长的路要走,但 Gemini Robotics 代表了朝着这个目标迈出的坚实一步,展示了先进 AI 模型在赋能下一代智能机器人方面的巨大潜力。