今天是2025年3月12日,以下是最新的AI行业新闻。

📌 **1. Google DeepMind 发布新型 AI 模型,助力机器人无需专门训练即可处理物理任务**
🔗 [原文链接](https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models)

Google DeepMind 近日发布了两款突破性的 AI 新模型,旨在显著提升机器人执行真实世界任务的能力范围和复杂性。

其中一款名为 **Gemini Robotics**,它是一种先进的 **视觉-语言-行动 (vision-language-action)** 模型。该模型的独特之处在于,即使面对训练数据中从未出现过的新情境或新指令(例如,“捡起那个红色的苹果”或“把垃圾分类丢掉”),它也能进行理解和推理。Gemini Robotics 有效结合了 Google 强大的 **Gemini** 模型的文本与图像理解能力,以及其他专门用于将高级规划转化为具体机器人动作的 specialized AI models。

这意味着搭载该模型的机器人将能够执行以往难以完成的、需要更高灵巧性的复杂任务。例如,它们可以精准地折叠一件衣物,使用此前从未明确学习过的工具(如锤子或螺丝刀),甚至与人类进行更自然的物理交互,比如根据口头指令递送物品。这得益于模型强大的泛化能力和对物理世界规则的隐式理解。

另一款模型则专注于实现简单、高频任务的实时、**低延迟 (low-latency)** 控制,确保机器人在执行快速动作(如抓取流水线上的物体)时的流畅性和响应速度。这种模型优化了计算效率,使其能在资源受限的机器人硬件上高效运行。

Google DeepMind 表示,这种结合了高级推理(来自 Gemini Robotics)与快速反应(来自低延迟控制模型)的双模型策略,将使机器人更加智能、适应性更强。它们将能够更好地理解模糊指令,处理意外情况,并在多样化的环境中安全、有效地工作。这有效弥合了 AI 的“大脑”(理解与规划)与机器人的“身体”(物理执行)之间的鸿沟,是推动通用机器人技术从实验室走向现实应用的关键一步,有望加速机器人在工业自动化、物流仓储、家庭服务等领域的部署。

作者 kelvin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注