今天是2024年6月15日

📌 **1. Google DeepMind发布新AI模型,助力机器人在未经训练下执行物理任务**
🔗 [原文链接](https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models)

Google DeepMind 近期发布了两款具有里程碑意义的人工智能(AI)模型,旨在显著提升机器人在现实世界中执行各种复杂物理任务的能力,使其应用范围达到前所未有的广度。

其中,首款模型被命名为 **Gemini Robotics**。它并非一个单一的模型,而是一个模型家族,其核心基于先进的 **vision-language-action (VLA)** 架构。VLA模型能够融合视觉信息、自然语言指令和具体行动指令,使机器人能够更好地理解环境和任务要求。Gemini Robotics 的突出亮点在于其强大的泛化能力和 **zero-shot learning**(零样本学习)潜力。这意味着,即使机器人在其训练数据中从未见过某个特定的场景或任务指令,Gemini Robotics 也能帮助其理解新的情况并规划出合理的行动序列来完成任务。这标志着机器人智能从依赖大量特定任务数据和预编程指令,向具备更通用的理解、推理和适应未知环境的能力迈出了关键一步。

具体来说,Gemini Robotics 的引入显著增强了机器人的灵巧性(dexterity)和对指令的理解深度。例如,实验展示了搭载该模型的机器人能够更精确地执行如整理桌面物品、开门、甚至精确折叠一张纸这样需要精细操作和环境理解的任务。这得益于模型能够将高级指令(如“请把桌子收拾干净”)分解为一系列具体的物理动作。

另一款与 Gemini Robotics 协同工作的模型(虽然原文未明确其具体名称,但强调了其作用)专注于提升机器人的基础操作技能和安全性。它可能包含了一套预训练的基础行为模块,并结合了如 **Reinforcement Learning from Human Feedback (RLHF)** 等技术,确保机器人在执行任务时的安全性和可靠性,避免潜在的危险动作。

这两款模型的结合,不仅提高了机器人的“智商”,让它们能更好地“理解”世界和指令,也提升了它们的“情商”和操作技巧,使其在执行任务时更加安全和高效。Google DeepMind 的这项研究成果,预示着未来机器人将能够更广泛、更深入地融入我们的生活和工作,无论是在高度动态的制造车间、复杂的物流仓储环境,还是在多变的家庭服务场景,甚至是执行更具挑战性的科学探索任务,都将展现出更高的自主性和适应性,有效处理各种非结构化和动态变化的挑战。这为通用机器人技术的发展和应用开辟了新的可能性。

作者 kelvin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注