今天是2025年4月5日
📌 **1. 谷歌 DeepMind 发布新款 AI 模型,助力机器人在无特定训练下执行物理任务**
🔗 [原文链接](https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models)
谷歌旗下顶尖人工智能研究机构 DeepMind 近日发布了两款旨在显著提升机器人能力的新型 AI 模型,其核心目标是让机器人能够“执行比以往任何时候都更广泛的现实世界任务”,进一步弥合数字智能与物理世界操作之间的鸿沟。
第一款重点推出的模型名为 **Gemini Robotics**。这并非一个简单的程序,而是一个复杂的**视觉-语言-行为 (vision-language-action)** 模型。这意味着该模型能够像人类一样,综合处理视觉信息(看到周围环境)、理解自然语言指令或描述(听懂或读懂要求),并将这些信息转化为具体的物理动作(执行任务)。
Gemini Robotics 最令人瞩目的突破在于其强大的**泛化能力**。根据 DeepMind 的介绍,搭载该模型的机器人能够理解和应对全新的、此前从未进行过专门训练的**新情境 (new situations)**。这与传统机器人需要针对特定任务进行大量预编程或**强化学习 (Reinforcement Learning)** 训练形成鲜明对比。这种“零样本”或“少样本”学习能力,极大地增强了机器人在复杂多变、非结构化环境中的适应性和自主性,是迈向通用型机器人的关键一步。
除了“认知”层面的提升,Gemini Robotics 还显著增强了机器人的**物理操作精度**。报告中提到,该模型能让机器人变得更加**灵巧 (dexterous)**,足以执行以往难以完成的精细任务,例如**精确地折叠一张纸**。这表明该 AI 模型不仅优化了机器人的高级决策能力,也深化了其对底层物理交互和精细运动控制的理解与执行力,有效提升了机器人在现实世界中的实用价值。
虽然报道中未详细阐述第二款模型的具体功能,但这两款模型的同步推出,清晰地展示了 Google DeepMind 在推动 AI 技术从虚拟走向现实、赋能物理实体方面的持续投入和最新成果。通过融合先进的**视觉理解 (visual understanding)**、**自然语言处理 (Natural Language Processing – NLP)** 以及**机器人控制 (robotics control)** 技术,DeepMind 正努力让机器人变得更智能、更通用、更能胜任现实世界中的复杂工作,为自动化、人机协作等领域带来新的可能性。这项进展对于制造业、物流、家庭服务乃至科学探索等多个依赖物理操作的行业都具有潜在的深远影响。