2024年6月11日
📌 1. **Google DeepMind发布新型AI模型,无需专门训练即可助机器人执行物理任务**
🔗 [原文链接](https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models)
Google DeepMind 近期推出了两款旨在革新机器人能力的新型人工智能模型,使其能够“执行比以往任何时候都更广泛的现实世界任务”。
其中,首款模型被命名为 **Gemini Robotics**,它是一个先进的视觉-语言-行动 (vision-language-action, VLA) 模型。这种模型的关键特性在于其强大的泛化能力:即使在面对此前未专门训练过的全新情境时,它也能够通过结合视觉感知、自然语言理解和行动规划,来理解指令并有效地执行物理任务。
Gemini Robotics 不仅提升了机器人的“理解力”和对新情况的适应性,还显著增强了其物理操作的灵活性(dexterity)。这意味着机器人能够胜任更精密的任务,例如根据指令流畅地折叠一张纸、在凌乱的桌面上准确抓取特定物体,或者执行需要精细手眼协调的操作。
这项技术的突破,特别是其“零样本”或“少样本”学习能力(即无需大量针对性训练数据),预示着未来机器人将能更好地适应多变且非结构化的现实世界环境。这有望加速通用型机器人在家庭服务、工业自动化、物流分拣、医疗辅助等多个领域的应用落地,让机器人能够处理更多样化、更复杂的任务,而不仅仅局限于预先设定好的、重复性的工作流程。Google DeepMind 表示,他们正在与多家机器人公司合作,将这些模型集成到不同类型的机器人平台中,推动物理世界智能交互的发展。