2025年4月8日
📌 **1. 谷歌 DeepMind 发布新 AI 模型,助力机器人无需专门训练即可执行物理任务**
🔗 [原文链接](https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models)
谷歌旗下的人工智能研究实验室 DeepMind 近日发布了两款突破性的人工智能模型,旨在显著提升机器人在现实世界中执行任务的能力。这两款模型的核心目标是让机器人能够应对更广泛、更复杂的物理操作场景,甚至在没有针对特定任务进行直接训练的情况下也能完成工作。
其中最引人注目的模型是 **Gemini Robotics**。这是一款先进的 **vision-language-action (VLA) model**(视觉-语言-行动模型)。该模型的独特之处在于其强大的泛化能力:即使面对全新的、之前未曾遇到过的情境或任务指令,Gemini Robotics 也能够理解并尝试执行。这得益于其融合了视觉信息处理、自然语言理解以及物理行动规划的能力。传统机器人通常需要针对每一项具体任务进行大量的数据收集和专门训练,而 Gemini Robotics 的出现有望大幅降低这一门槛,使得机器人部署更加灵活高效。
根据 DeepMind 的介绍,这些新模型不仅提升了机器人的“理解力”,还增强了它们的物理操作灵巧性(dexterity)。这意味着机器人将能够执行更加精细、要求更高准确度的任务,例如演示中提到的折叠一张纸。这种能力的提升对于将机器人应用于更广泛的工业制造、物流分拣乃至家庭服务场景至关重要。
这项研究代表了将大型基础模型(如谷歌的 Gemini 系列)的能力从数字世界延伸到物理世界的重要一步。通过让机器人具备更好的零样本(zero-shot)或少样本(few-shot)学习能力,即在无需或只需少量示例的情况下学习新任务,DeepMind 正试图解决长期以来困扰机器人领域的核心挑战之一:如何让机器人在动态、非结构化的真实环境中具备足够的适应性和通用性。这标志着向更自主、更通用的机器人助手迈出了坚实的一步,未来有望看到这些技术被整合到各种机器人平台中,执行日益复杂的现实世界任务。