Agent-S官网,Simular AI 开发的开源代理框架,通过图形用户界面(GUI)实现人机交互的自动化
简介
Agent-S 是一款由Simular AI 开发的开源代理框架,旨在通过图形用户界面(GUI)实现人机交互的自动化。它能够模拟人类操作方式,使用鼠标和键盘直接与计算机互动,处理复杂的多步骤任务。Agent-S 的核心功能包括自然语言交互、多任务自动化处理、跨平台兼容性以及持续学习和记忆更新。它支持 Windows、macOS 和 Linux 等主流操作系统,适用于办公自动化、系统设置、多应用工作流等多种场景。通过经验增强的分层规划和代理-计算机接口(ACI),Agent-S 能够高效地分解复杂任务并精确执行!
Agent-S官网: https://www.simular.ai/articles/agent-s
Agent S2:一个开放、模块化和可扩展的计算机使用代理框架
计算机使用代理是自主人工智能代理,它们可以观察、推理并代表人类用户执行任务,通过直接与图形用户界面(GUI)进行交互,包括桌面、移动设备、浏览器和各种软件。它们作为人类用户和他们的数字工具之间最直观的智能中介——就像人类一样,使用鼠标和键盘控制。这种类似人类的导航和控制软件的能力标志着人工智能的一个基础性飞跃,为下一个由自主计算机使用代理推动的技术进步时代奠定了基础。
今天,我们激动地宣布我们在计算机使用代理领域的又一重大进步:Agent S2,我们代理框架的第二代。在取得初步成功的基础上,Agent S2 通过利用前沿的基础模型和专用模型,提供了更高的性能和模块化。Agent S2 实现了新的最先进的结果,能够很好地扩展到更多步骤,最重要的是,它是完全开放的!
最先进性能

Agent S2 展示了卓越的计算机和手机使用能力,在关键基准挑战中取得了显著进步。
在计算机使用方面,Agent S2 在 OSWorld 的 15 步和 50 步评估(最实用的两种真实世界使用设置)中均取得了最先进的成果,证明了我们的代理框架能够采取更精确的行动,为任务生成最佳计划,同时能够自我纠正并在长期内不断改进。值得注意的是,Agent S2 在 50 步评估中达到了 34.5%的准确率,超过了之前的 SOTA(OpenAI CUA/Operator 的 32.6%),展示了代理框架如何超越单个训练模型进行扩展。
在智能手机使用方面,Agent S2 在 AndroidWorld 中实现了 50%的准确率,超过了之前的 SOTA(UI-TARS 的 46.8%),展示了代理框架在不同视觉 UI 环境中的泛化能力。
在撰写这篇博客文章之后,我们在准备论文的过程中在 AndroidWorld 上取得了更好的结果。我们已更新此表以反映最新的性能。请参阅论文以获取详细信息。
为什么模块化框架很重要:灵感来自人脑
人类大脑是模块化设计的杰出例子——一个由专门组件协同工作的网络。不同的区域擅长不同的任务:左半球驱动分析思维,右半球激发创造力,而运动和感官区域则负责身体协调。这种模块化结构,优化了协作,启发了我们如何设计用于计算机使用的 AI 代理。

在 Simular,我们相信最有效的 AI 代理应该遵循类似的原则——无缝协调各种模型的模块化框架,而不是依赖于单一的整体系统。我们的初始代理框架 Agent S 于 2024 年 10 月 11 日推出,体现了这一愿景。以经验增强的分层规划为核心,Agent S 在当时的模型和框架中实现了更好的整体性能。
我们的最新研究进一步表明,一个设计良好的模块化框架,即使单个模型不是最优的,也能超越最好的独立模型。为什么?因为不同的模型在不同领域表现出色,每个模型都有其独特的优势和劣势。一个强大的框架优化了这些模块之间的协调,确保每个模型在其最擅长的领域发挥作用,从而实现更优越的整体效果。在基础模型快速发展的领域中,模块化是关键。我们的下一代代理框架,Agent S2,凭借其改进的模块化和灵活性,实现了显著更好的感知、规划和精细控制。
Agent S2:它的工作原理

Agent S2 是通过模块化和可扩展的方法来处理复杂数字任务的。其框架强调四个关键设计原则:
主动分层规划
Agent S2 遵循自然任务层次结构,结合<强 id=0>用于低级执行的专业模型与<强 id=1>用于高级规划的一般化模型 。低级任务,如 UI 元素选择或文本突出显示,需要高精度和特定领域的专业知识,而高级任务则需要更广泛的适应性和战略监督。此外,Agent S2 的关键进步是其从<强 id=2>反应式到主动规划的转变 。Agent S2 不是在遇到错误后才重新规划,这需要更多步骤来回溯,并可能导致更多错误,而是在每个子任务之后动态更新其计划。这种主动方法提高了对实时变化的适应性,保持了从一项子任务到下一项子任务的连续性,并优化了未来步骤。
<强 id=0>视觉定位以实现精确交互
Agent S2 通过专门的视觉定位模型实现了与图形用户界面(GUI)的高精度交互。与前辈不同,前辈依赖于可访问性树进行 UI 理解,Agent S2 仅以原始截图作为输入 ,消除了对结构化可访问性数据的需要。通过将视觉理解委托给专用模型,Agent S2 可以准确定位和操作 UI 元素,如按钮、文本、图像和单元格——实现了以前受可访问性限制而受限的精细控制。
智能代理-计算机接口与专家模块
Agent S2 通过将复杂的低级任务,如文本突出显示,卸载到专门的专家模块来改进其代理-计算机接口(ACI)。这减少了基础模型上的认知负荷 ,使它们能够专注于高级规划和战略决策。
代理记忆机制
Agent S2 采用持续学习记忆机制,能够随着经验不断进化,提高效率。之前完成任务的经验被保留下来,使 Agent S2 能够回忆先前的行动,并根据历史成功和失败来优化未来的策略。这种自适应学习能力使 Agent S2 在每次应用中变得更加熟练,为长期自适应智能和个性化自动化奠定基础。
这种模块化架构也使得扩展和适应变得轻而易举。由基础模型或专家模型提供动力的新模块可以轻松集成、移除或更换,使 Agent S2 能够轻松快速地适应新的任务领域。
《Agent S2 实战》
计算机使用
下载并调整图片大小
从谷歌驱动下载图片并使用 GIMP 进行压缩

将图片复制到文档中
从 GIMP 复制图片到 LibreOffice Writer 文档,然后导出文档

设置 Web 扩展
设置网页扩展

删除视频字幕
从视频中移除字幕并导出新的视频

计算利润
在 LibreOffice Calc 表格中计算利润

删除线段落
在 LibreOffice Writer 文档中删除线最后一段

Agent S2 在您的智能手机上
填写表格
任务:前往新联系人界面,并输入以下信息:姓名:Grace,姓氏:Taylor,电话:799-802-1530,电话标签:工作。请勿点击保存。

整理文件。
任务:将文件 holiday_photos.jpg 从同一 sdk_gphone_x86_64 存储区域内的 Podcasts 移动到同一存储区域内的 DCIM。
数据评估
本站非猪ai导航提供的Agent-S都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由非猪ai导航实际控制,在2025年4月29日 上午11:31收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,非猪ai导航不承担任何责任。