2025年3月12日

📌 1. **Google DeepMind发布新型AI模型,助力机器人无需专门训练即可执行物理任务**
🔗 [原文链接](https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models)

Google DeepMind 近日发布了两款旨在革新机器人能力的新型 AI 模型,核心目标是让机器人能够“执行比以往更广泛的现实世界任务”,并且在很多情况下,即使面对之前未经过专门训练的新任务,也能有效应对。

其中关键的模型名为 **Gemini Robotics**。这是一种先进的 **vision-language-action (视觉-语言-行动)** 模型。这意味着该模型能够整合来自摄像头的视觉信息和人类下达的自然语言指令,进行复杂的推理,最终规划并输出机器人需要执行的物理动作序列。其突出优势在于强大的泛化能力(generalization capability),能够理解并适应新的、未曾明确学习过的情境和任务要求。这得益于其底层的强大基础模型,使其能够处理长序列的、多模态的数据输入,并进行有效的规划。

这项技术显著提升了机器人的 **dexterity (灵巧性)** 和智能水平。例如,搭载 Gemini Robotics 的机器人可以更精确地执行细微操作,如报道中提及的折叠纸张,或者根据语音指令理解并完成物品整理、传递等任务。这不仅仅是简单的指令跟随,更包含了对环境的理解、对任务目标的分解以及对自身动作的精确控制。Gemini Robotics 的引入,使得机器人在处理需要精细操作和环境适应性的任务时,表现出更高的鲁棒性和效率。

另一款模型(报道中未明确命名,但属于 DeepMind 的机器人技术栈,可能关联如 SARA-RT 或 RT-Trajectory 等自回归或基于轨迹优化的技术)则专注于帮助机器人更好地将高层次、抽象的人类指令(例如“整理书桌”、“打扫房间”或“把玩具放回箱子”)转化为一系列具体、有序且可执行的物理动作步骤。这涉及到复杂的任务规划和策略生成能力。

Google DeepMind 的这项工作展示了将前沿 AI 大模型(如 Google 的 Gemini 系列)的强大理解和推理能力,成功延伸并应用于物理世界的巨大潜力。通过让机器人具备更强的感知(perception)、理解(understanding)、推理(reasoning)和行动(action)能力,尤其是在显著降低对每个特定任务进行大量、繁琐的专门训练数据依赖的情况下,这项技术有望大幅加速机器人在各种复杂环境中的部署和应用。这预示着未来机器人将在家庭服务、工业自动化、物流仓储、医疗辅助乃至科学探索等更多领域扮演日益重要的角色,推动人机协作进入一个崭新的、更智能化的阶段。

作者 kelvin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注