今天是2025年4月5日,以下是最新的AI行业新闻。
📌 **1. 谷歌 DeepMind 发布新型机器人 AI 模型,赋予机器人更强物理任务处理与自主决策能力**
🔗 [原文链接](https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models)
谷歌旗下顶尖人工智能研究机构 DeepMind 近日发布了两款旨在显著提升机器人能力的创新 AI 模型,目标是让机器人能够“执行比以往更广泛的真实世界任务”,即使在缺乏针对性训练数据的情况下也能展现出色的适应性和智能。这一进展标志着 AI 技术从纯粹的数字领域向复杂的物理世界迈出了重要一步。
**主要发布内容:**
* **Gemini Robotics 模型:**
* 这是一款基于谷歌强大的 Gemini 系列模型构建的 **视觉-语言-行动 (Vision-Language-Action, VLA)** 模型。它不仅能理解文本和图像信息,还能将这种理解转化为具体的物理动作指令。
* **核心优势:** 该模型的核心突破在于其强大的 **泛化能力**。即使面对从未明确训练过的全新场景或任务指令,Gemini Robotics 也能进行有效的推理和理解,从而指导机器人完成任务。例如,它可以理解“把那张纸对折”这样的自然语言指令,并控制机械臂执行精确的折叠动作,展现出更高的灵巧度和环境适应性。这大大降低了为特定任务收集和标注大量训练数据的需求。
* **技术基础:** 利用了 Gemini 模型的多模态理解能力和强大的零样本/少样本学习 (Zero-shot/Few-shot Learning) 潜力。
* **AutoRT (AutoRobotic Transformer) 系统:**
* AutoRT 是一个更宏观的系统框架,它结合了 VLA 模型(如 Gemini Robotics)和 **大型语言模型 (Large Language Models, LLMs)** 的能力,赋予机器人高级的 **决策制定** 和 **环境导航** 能力。
* **运作方式:** LLMs 负责进行高层次的任务规划和推理(例如,判断在特定环境下执行何种任务是合适的、安全的),而 VLA 模型则负责将这些规划转化为底层的机器人控制信号。
* **安全优先:** AutoRT 特别强调 **机器人操作的安全性**。它内置了一套“机器人宪法 (robot constitution)”,借鉴了阿西莫夫的机器人三定律以及谷歌自身的 AI 原则,旨在确保机器人在执行任务时优先考虑人类安全,避免潜在风险。例如,系统被设计为会主动规避涉及人类、动物或尖锐物体的任务。
* **应用场景:** 主要用于指导机器人在复杂、动态和非结构化的环境中自主收集数据或执行多步骤任务,同时确保其行为符合安全规范。
* **SARA-RT (Scalable Adaptive Rectified Attention for Robotics Transformers) 技术:**
* 这是一种针对 **Transformer** 架构的 **优化技术**。Transformer 模型在处理序列数据方面表现出色,但也因其计算复杂度(尤其是注意力机制部分)而闻名。
* **主要贡献:** SARA-RT 通过一种新的注意力机制调整方法,显著提高了基于 Transformer 的机器人模型的 **效率和速度**,使其在资源受限的机器人硬件上也能更高效地运行,同时不牺牲性能。
**意义与影响:**
DeepMind 的这些新进展,特别是 Gemini Robotics 和 AutoRT,展示了将最先进的 AI 理解能力与物理世界交互相结合的巨大潜力。通过赋予机器人更好的理解力、适应性、决策能力和安全性,谷歌正在为通用型机器人的发展奠定基础。这些技术有望推动机器人在家庭助理、物流仓储、工业自动化、甚至科学探索等领域实现更广泛、更智能的应用。虽然距离真正意义上的通用机器人还有很长的路要走,但 DeepMind 的这些模型无疑是朝着这个方向迈出的坚实步伐。谷歌也提到正与 Agility Robotics、Boston Dynamics 等知名机器人公司合作,共同探索这些技术的实际应用。