今天是2025年3月12日,以下是最新的AI行业新闻。

📌 **1. Google DeepMind发布新型AI模型,助力机器人执行复杂物理任务**
🔗 [原文链接](https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models)

Google 旗下顶尖人工智能研究实验室 DeepMind 近日发布了两款旨在显著提升机器人能力的创新 AI 模型,使其能够“执行比以往任何时候都更广泛的现实世界任务”。这两款模型的推出,标志着 AI 技术在理解和交互物理世界方面迈出了重要一步,有望加速通用型机器人的发展。

第一款模型名为 **Gemini Robotics**,它是一个强大的 **vision-language-action (VLA) model**。与传统机器人模型不同,Gemini Robotics 具备出色的情境理解能力,即使面对此前从未遇到过的新情况,也能进行有效的推理和决策。这意味着机器人不再仅仅依赖于预先编程或在特定环境中进行的大量训练,而是能够更灵活地适应动态变化的环境。更重要的是,Gemini Robotics 赋予了机器人更高的灵巧性(dexterity),使其能够完成更精密的任务,例如精确地抓取和操作物体,甚至完成像折叠一张纸这样需要细致协调的动作。这得益于该模型整合了视觉信息、自然语言指令和行动执行能力,让机器人能够更好地“理解”任务要求并规划执行路径。

第二套系统包含两个关键部分:**AutoRT** 和 **SARA-RT**。AutoRT 系统利用大型语言模型 (LLM) 和 VLA 模型的结合,旨在安全、高效地指导机器人在新环境中收集训练数据。它可以帮助机器人理解目标、评估环境风险,并自主规划数据收集任务,从而加速机器人学习新技能的过程,同时确保操作的安全性。

**SARA-RT (Self-Adaptive Robust Attention for Robotics Transformers)** 则是对现有机器人 Transformer 模型的一种优化。它采用了一种新颖的自适应注意力机制,能够更有效地处理输入数据,显著提升了计算效率和决策速度,同时保持甚至提升了模型的性能和鲁棒性。这使得基于 Transformer 架构的机器人在资源有限或需要快速响应的场景下也能表现出色。

Google DeepMind 的这些新进展,特别是 Gemini Robotics 的 VLA 能力和 AutoRT 的自主数据收集框架,以及 SARA-RT 的效率提升,共同推动了机器人技术的发展。它们使得机器人不仅能更好地理解指令和环境,还能在缺乏针对性训练的情况下执行更广泛、更复杂的物理任务,并具备了更强的适应性和安全性。这为未来机器人在家庭服务、工业自动化、物流仓储乃至更复杂的未知探索等领域的广泛应用奠定了坚实的技术基础。

作者 kelvin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注