2025年3月12日
📌 **1. Google DeepMind推出新AI模型,助力机器人在无训练情况下执行物理任务**
🔗 [原文链接](https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models)
Google DeepMind 近日发布了两项重要的 AI 创新,旨在显著提升机器人在现实世界中执行物理任务的能力,即使在面对**未经专门训练**的新颖场景时也能有效应对。这一进展有望推动机器人技术从预编程的自动化向更具适应性和智能化的方向发展,是 AI 与机器人融合领域的一大步。
核心发布之一是 **Gemini Robotics** 模型。这是一款先进的**视觉-语言-行动 (vision-language-action, VLA)** AI 模型。与传统机器人控制系统通常需要针对特定任务进行大量编程和数据训练不同,Gemini Robotics 能够融合多模态信息:它通过**计算机视觉 (Computer Vision)** 理解周围环境,通过**自然语言处理 (Natural Language Processing)** 理解人类下达的指令或目标描述,并基于这些理解生成具体的行动序列。其最突出的特点在于**泛化能力**——能够理解和应对**全新的情境**,并进行有效的推理和规划,即使先前没有针对该特定、精确的任务进行过专门训练。这意味着机器人不再仅仅是重复执行预设程序的机器,而是具备了一定程度的自主学习和适应能力,可以基于通用的物理世界知识和推理能力来执行更广泛、更复杂的物理操作。例如,它可以让机器人在一个从未见过的厨房里根据指令“找到那个红色的苹果并递给我”来执行任务。
该模型不仅提升了机器人的认知和决策能力,还显著增强了其物理操作的**灵巧性 (dexterity)**。在 Google DeepMind 展示的案例中,搭载了新模型的机器人能够完成诸如精确折叠一件衣物、将插头插入插座、甚至整理桌面等需要高度精细控制和手眼协调的任务。这种灵巧性的提升对于机器人在制造业(如复杂装配)、物流(如精细分拣)、医疗辅助(如辅助病人)以及家庭服务等领域的实际应用至关重要,大大拓展了机器人的应用边界。
据介绍,这些新模型的研发可能整合了**大规模多模态模型 (Large Multimodal Models)** 的最新成果,并可能运用了**强化学习 (Reinforcement Learning)** 等先进的机器学习技术进行训练和优化,使其能够在模拟环境和现实世界中不断学习和改进。
Google DeepMind 强调,他们并非闭门造车,而是积极与多家行业领先的机器人公司展开合作,共同探索将这些先进 AI 模型集成到实际机器人硬件中的可能性和效果。合作伙伴包括研发先进双足机器人的 Agility Robotics 和 Boston Dynamics,以及法国的创新机器人公司 Enchanted Tools 等。这种产学研的紧密结合,有助于加速技术从实验室走向实际应用的进程。
此次发布标志着通用人工智能 (Artificial General Intelligence, AGI) 的研究成果正加速向物理世界渗透和赋能。通过赋予机器人更强的通用理解、推理、适应和操作能力,我们距离能够真正自主学习、适应复杂多变环境并在各种现实场景(如智能制造、家庭服务、物流仓储、危险环境作业、灾难救援)中安全、高效地提供帮助的通用智能机器人又近了一步。这不仅是机器人技术自身发展的一个重要突破,更是 AI 驱动现实世界变革潜力的有力证明。