今天是2025年3月12日,以下是最新的AI行业新闻。

📌 **1. Google DeepMind 发布新型 AI 模型,赋能机器人执行更广泛物理任务**
🔗 [原文链接](https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models)

Google DeepMind 近日发布了两款突破性的 AI 模型,旨在显著提升机器人在现实世界中执行任务的能力,使其能够应对前所未有的广泛、复杂的场景,即使是在未经特定训练的情况下。

第一款核心模型名为 **Gemini Robotics**,这是一个先进的 **vision-language-action (视觉-语言-行动) 模型**。该模型基于谷歌强大的 Gemini 系列 AI,使其具备了理解自然语言指令、通过视觉感知理解周围环境,并据此规划和执行相应物理动作的能力。其最显著的优势在于强大的**泛化能力**:即使面对之前未经过专门针对性训练的新情境或任务,Gemini Robotics 也能进行有效的理解和推理,从而成功执行操作。这标志着机器人智能正从依赖于大量预编程指令或特定任务训练,向着更具适应性和自主决策能力的方向迈进一大步。

根据 DeepMind 的展示,Gemini Robotics 能够显著提升机器人的灵活性和精细操作能力(dexterity)。例如,机器人能够在该模型的驱动下,更精确地完成诸如**折叠一张纸**这样的精细任务。这充分展示了该模型在提升机器人操控精度、处理复杂物理交互任务方面的巨大潜力,为机器人在需要精巧操作的场景(如装配、护理等)中的应用打开了新的可能性。

除了提升任务执行能力,DeepMind 同时推出了第二款模型,专注于解决机器人安全与伦理问题。该模型引入了一种名为 **“constitutional AI”** 的安全框架。这个框架旨在为机器人内置一套行为准则或“宪法”,确保其行为始终符合预设的安全规范和道德标准,能够主动识别并拒绝执行可能导致伤害或违反伦理原则的指令。随着 AI 能力日益增强,确保其在物理世界中的行为安全可控变得至关重要,这一安全框架的提出,是构建可信赖、负责任机器人系统的重要保障。

这两款模型的发布,代表了 Google DeepMind 在弥合先进 AI (如强大的语言和视觉理解能力)与物理世界交互(机器人实体操作)之间鸿沟方面取得的重大进展。这不仅有望加速通用型机器人的研发进程,也为未来机器人在家庭服务、工业自动化、物流仓储、医疗辅助乃至更广泛领域的实际部署铺平了道路。通过集成 Gemini Robotics 等先进模型,未来的机器人将不再仅仅是执行简单重复性任务的工具,而有望成为能够理解复杂指令、适应多变环境并能安全与人类协作的智能伙伴。谷歌也透露,目前正与包括 Agility Robotics、Boston Dynamics 在内的多家知名机器人公司展开合作,共同探索和推进这些先进 AI 模型在机器人产品上的应用落地。

作者 kelvin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注