2025年4月9日
📌 **1. 谷歌 DeepMind 发布新 AI 模型,赋能机器人执行未训练过的物理任务**
🔗 [原文链接](https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models)
谷歌旗下的人工智能研究实验室 DeepMind 近日推出了两款专为机器人设计的创新 AI 模型,旨在显著提升机器人处理现实世界任务的能力,使其能够应对更广泛、更复杂的场景。
其中,核心模型名为 **Gemini Robotics**。这是一款先进的 **Vision-Language-Action (VLA)** 模型,其突出特点在于能够理解和应对全新的、未曾专门训练过的情境。这意味着机器人不再局限于预设的、重复性的任务,而是能够基于视觉感知(Vision)和自然语言指令(Language)进行理解和推理,并自主规划和执行相应的物理动作(Action)。
Gemini Robotics 的引入,不仅提高了机器人的通用性和适应性,还增强了其操作的**灵活性 (dexterity)**。例如,搭载该模型的机器人能够执行更加精细、需要更高技巧的任务,如准确地折叠一张纸,这展示了其在理解空间关系和进行精细操控方面的潜力。
此外,DeepMind 还提到了配套的技术,如 **AutoRT** 系统,用于帮助机器人在新环境中安全地收集训练数据;以及 **SARA-RT (Self-Adaptive Robust Attention for Robotics Transformers)**,这是一种新的模型微调技术,旨在提高基于 Transformer 的机器人策略的效率和鲁棒性。
这些模型的发布标志着 AI 技术在具身智能(Embodied AI)领域的重要进展,推动机器人从简单的自动化工具向能够更智能、更灵活地与物理世界交互的智能体演进。这不仅为工业自动化、物流、家庭服务等领域带来了新的可能性,也为未来更高级的人机协作奠定了技术基础。虽然距离通用机器人还有很长的路要走,但 DeepMind 的这些成果无疑是朝着这个方向迈出的坚实一步。