今天是2025年4月4日,以下是最新的AI行业新闻。
📌 **1. Google推出Gemini Robotics AI模型,赋能机器人感知物理世界**
🔗 [原文链接](https://www.wired.com/story/googles-gemini-robotics-ai-model-that-reaches-into-the-physical-world/)
Google DeepMind发布了两款旨在帮助机器人执行更广泛现实世界任务的新型AI模型。其中,名为 **Gemini Robotics** 的模型是一个视觉-语言-动作(vision-language-action, VLA)模型,它能够理解新的情境并进行推理,即使之前没有接受过针对该特定场景的训练。这意味着机器人可以更快地学习新任务,理解更复杂的指令(例如,“捡起那个苹果”),并提高执行任务的灵活性和效率。Gemini Robotics还能让机器人拥有更强的灵巧性,执行如精确折叠纸张等需要精细操作的任务。同时,Google还推出了一个名为 **AutoRT** 的系统,利用大型基础模型帮助机器人进行决策,并内置了“机器人宪法”(robot constitution)以确保安全和道德行为。Google表示,目前正与Agility Robotics、Boston Dynamics等多家机器人公司合作,将这些技术应用于它们的机器人平台。
***
📌 **2. Databricks发布新技巧,让AI模型实现自我改进**
🔗 [原文链接](https://www.wired.com/story/databricks-has-a-trick-that-lets-ai-models-improve-themselves/)
专注于帮助大型企业构建定制化AI模型的公司Databricks,开发了一种新颖的Machine Learning技巧,可以在不需要大量完美、纯净标注数据的情况下,显著提升AI模型的性能和“智商”。这项技术结合了近期的多项创新,允许客户利用其现有的、可能并不完全“干净”的数据来优化和增强模型能力。这对于许多难以获取或清理大规模高质量训练数据的企业而言,是一个重要的突破,能够降低先进AI模型应用的门槛,并加速其在实际业务中的部署和迭代改进。
***
📌 **3. 亚马逊AGI实验室公布首项成果:高级AI Agents**
🔗 [原文链接](https://www.wired.com/story/amazon-ai-agents-nova-web-browsing/)
尽管亚马逊在通用人工智能(AGI)竞赛中被视为稍有落后,但其内部一个由前OpenAI高管领导的秘密实验室已悄然取得显著进展。该实验室专注于开发下一代具备高级决策能力的 **AI Agents**,并从物理机器人的研究中汲取灵感。近日,该实验室公布了其首项重要成果——名为 **Nova** 的AI Agent。Nova在执行复杂的网页浏览任务和在线操作方面展现了卓越性能,创下了新的行业基准。这表明亚马逊在让AI理解数字世界并代表用户执行复杂多步骤任务方面取得了重大突破,是其追赶AGI领域领先者的有力证明。
***
📌 **4. 微软为Copilot添加“深度推理”AI Agents,用于研究与数据分析**
🔗 [原文链接](https://www.theverge.com/microsoft/636089/microsoft-365-copilot-reasoning-ai-agents)
在AI领域竞争日益激烈的背景下,微软紧随Google和OpenAI之后,发布了其AI能力的最新升级。其中最引人注目的是为Microsoft 365 Copilot引入了两种具备 **“深度推理”(deep reasoning)** 能力的新型AI Agents:**Researcher** 和 **Analyst**。微软声称这是业界首创,这两个Agents被设计用来执行复杂的多步骤分析和研究任务。例如,Researcher可以深入挖掘信息并生成综合报告,而Analyst则能解读复杂数据并提供洞察。这将极大增强Copilot在专业工作场景中辅助用户进行深度思考和解决复杂问题的能力。
***
📌 **5. Google开始推送Gemini的实时AI视频分析功能**
🔗 [原文链接](https://www.theverge.com/news/634480/google-gemini-live-video-screen-sharing-astra-features-rolling-out)
Google已开始向部分 **Gemini Live** 用户(主要是Google One AI Premium订阅者)逐步推出一项强大的新AI功能。该功能允许Gemini **实时“观察”** 用户的手机屏幕内容或通过摄像头捕捉的现实世界画面,并能够理解所见内容,实时回答用户提出的相关问题。这标志着Gemini的多模态能力得到显著增强,从单纯的文本和静态图像交互,扩展到了动态、实时的视觉理解和互动,更接近于之前演示的 **Project Astra** 所展示的未来AI助手能力。