今天是2025年4月9日。
📌 **1. Google DeepMind推出新型AI模型,助力机器人在未经训练情况下执行物理任务**
🔗 [原文链接](https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models)
**Google DeepMind 近日发布了两款旨在提升机器人执行现实世界任务能力的新型 AI 模型。** 这两款模型旨在帮助机器人执行比以往更广泛、更复杂的物理任务,即使在面对未曾专门训练过的场景时也能有效应对。
**第一款模型名为 Gemini Robotics**,它是一种先进的 **vision-language-action (VLA)** 模型。其核心优势在于强大的泛化能力,即使在没有针对特定场景进行专门训练的情况下,也能够理解新的环境和指令,并规划执行相应的动作。这意味着机器人可以更快地适应新任务和未知环境。Gemini Robotics 不仅能理解文本或语音指令,还能结合视觉信息进行多模态理解,从而实现更复杂的交互和操作。根据发布信息,该模型显著提升了机器人的灵活性和精细操作能力,使其能够完成此前难以实现的精确任务,例如流畅地将一张纸折叠起来。这种能力对于机器人在非结构化环境中执行精细任务至关重要。
**第二款模型名为 AutoRT**,其设计目标是构建一个能够让机器人更安全、更符合伦理地运行的系统,相当于赋予机器人一定的“道德罗盘”或决策框架。AutoRT 系统结合了大型语言模型 (**LLM**) 的理解与推理能力和 Google DeepMind 自研的机器人基础模型(如 RT-1、RT-2),使机器人能够更好地理解人类的指令意图,评估当前环境状态与潜在风险,并遵守预设的安全规则。例如,AutoRT 可以指导机器人避免接触人类、易碎物品或带电物体,或者在执行任务前判断自身状态是否适合(如电量是否充足)。这有助于确保机器人在自主执行任务时的安全性与可靠性,降低意外发生的风险。
**这两项技术的结合代表了具身智能 (Embodied AI) 领域的重要进展**,推动 AI 从纯粹的数字信息处理向与物理世界交互迈进。通过 Gemini Robotics 的强适应性与 AutoRT 的安全决策框架,未来的机器人有望在制造、物流、仓储、家庭服务乃至更复杂的科学探索任务中,展现出更高的自主性、智能性和安全性。这项工作凸显了将前沿 AI 模型(如 Gemini)与机器人硬件深度融合所带来的巨大潜力,为开发能够理解并安全操作物理世界的通用型机器人奠定了更坚实的基础。这预示着机器人将不仅仅是预编程的自动化工具,而是能真正理解环境并作出智能决策的物理智能体。