2025-04-07T12:02:38.298-04:00

今天是2025年4月4日，以下是最新的AI行业新闻。

📌 **1. Google推出Gemini Robotics AI模型，赋能机器人感知物理世界**
🔗 [原文链接](https://www.wired.com/story/googles-gemini-robotics-ai-model-that-reaches-into-the-physical-world/)
Google DeepMind发布了两款旨在帮助机器人执行更广泛现实世界任务的新型AI模型。其中，名为 **Gemini Robotics** 的模型是一个视觉-语言-动作（vision-language-action, VLA）模型，它能够理解新的情境并进行推理，即使之前没有接受过针对该特定场景的训练。这意味着机器人可以更快地学习新任务，理解更复杂的指令（例如，“捡起那个苹果”），并提高执行任务的灵活性和效率。Gemini Robotics还能让机器人拥有更强的灵巧性，执行如精确折叠纸张等需要精细操作的任务。同时，Google还推出了一个名为 **AutoRT** 的系统，利用大型基础模型帮助机器人进行决策，并内置了“机器人宪法”（robot constitution）以确保安全和道德行为。Google表示，目前正与Agility Robotics、Boston Dynamics等多家机器人公司合作，将这些技术应用于它们的机器人平台。

***

📌 **2. Databricks发布新技巧，让AI模型实现自我改进**
🔗 [原文链接](https://www.wired.com/story/databricks-has-a-trick-that-lets-ai-models-improve-themselves/)
专注于帮助大型企业构建定制化AI模型的公司Databricks，开发了一种新颖的Machine Learning技巧，可以在不需要大量完美、纯净标注数据的情况下，显著提升AI模型的性能和“智商”。这项技术结合了近期的多项创新，允许客户利用其现有的、可能并不完全“干净”的数据来优化和增强模型能力。这对于许多难以获取或清理大规模高质量训练数据的企业而言，是一个重要的突破，能够降低先进AI模型应用的门槛，并加速其在实际业务中的部署和迭代改进。

***

📌 **3. 亚马逊AGI实验室公布首项成果：高级AI Agents**
🔗 [原文链接](https://www.wired.com/story/amazon-ai-agents-nova-web-browsing/)
尽管亚马逊在通用人工智能（AGI）竞赛中被视为稍有落后，但其内部一个由前OpenAI高管领导的秘密实验室已悄然取得显著进展。该实验室专注于开发下一代具备高级决策能力的 **AI Agents**，并从物理机器人的研究中汲取灵感。近日，该实验室公布了其首项重要成果——名为 **Nova** 的AI Agent。Nova在执行复杂的网页浏览任务和在线操作方面展现了卓越性能，创下了新的行业基准。这表明亚马逊在让AI理解数字世界并代表用户执行复杂多步骤任务方面取得了重大突破，是其追赶AGI领域领先者的有力证明。

***

📌 **4. 微软为Copilot添加“深度推理”AI Agents，用于研究与数据分析**
🔗 [原文链接](https://www.theverge.com/microsoft/636089/microsoft-365-copilot-reasoning-ai-agents)
在AI领域竞争日益激烈的背景下，微软紧随Google和OpenAI之后，发布了其AI能力的最新升级。其中最引人注目的是为Microsoft 365 Copilot引入了两种具备 **“深度推理”（deep reasoning）** 能力的新型AI Agents：**Researcher** 和 **Analyst**。微软声称这是业界首创，这两个Agents被设计用来执行复杂的多步骤分析和研究任务。例如，Researcher可以深入挖掘信息并生成综合报告，而Analyst则能解读复杂数据并提供洞察。这将极大增强Copilot在专业工作场景中辅助用户进行深度思考和解决复杂问题的能力。

***

📌 **5. Google开始推送Gemini的实时AI视频分析功能**
🔗 [原文链接](https://www.theverge.com/news/634480/google-gemini-live-video-screen-sharing-astra-features-rolling-out)
Google已开始向部分 **Gemini Live** 用户（主要是Google One AI Premium订阅者）逐步推出一项强大的新AI功能。该功能允许Gemini **实时“观察”** 用户的手机屏幕内容或通过摄像头捕捉的现实世界画面，并能够理解所见内容，实时回答用户提出的相关问题。这标志着Gemini的多模态能力得到显著增强，从单纯的文本和静态图像交互，扩展到了动态、实时的视觉理解和互动，更接近于之前演示的 **Project Astra** 所展示的未来AI助手能力。

作者kelvin

作者 kelvin

相关文章

2025-04-13T06:23:44.946-04:00

2025-04-13T06:23:44.423-04:00

2025-04-11T08:02:10.282-04:00

发表回复取消回复

You missed