智能体 | 标签 | Breezedeus.com

#智能体

🤖Mobile-Agent-v3：新的 GUI Agents 开源王者

Mobile-Agent-v3 凭借多模态 GUI-Owl 模型、自我进化数据生成和 TRPO 强化学习，在多平台 GUI 自动化上超越主流开源方案，部分场景甚至优于 GPT-4o、Claude 3.7。

🤖MONDAY：从视频自动构建 GUI Agents 轨迹数据

本文提出了一种自动化框架，该框架利用公开可用的视频内容生成 GUI Agents 训练使用的任务轨迹数据集，无需手动标注。

🤖InfiGUI-R1：从反应式执行向推理式决策的进阶之路

InfiGUI-R1 引入一种以推理为中心的渐进式训练方法，将 GUI Agents 从反应式执行模型转变为深思熟虑的推理模型。

Reinfocement_Learning

InfiGUI-R1

Reason

🤖GUI Agent 中使用 RL 提升模型泛化能力

介绍 GUI Agent 如果利用强化学习（RL）算法训练模型，以提升模型的 OOD 泛化能力。

Reinfocement_Learning

Digi-Q

VEM

🤖UI-TARS：利用长期记忆和反思调整不断优化

来自字节跳动的 UI-TARS 基于 Qwen2-VL 微调，通过大量 grounding 和 navigation 数据，经三阶段训练，在感知能力训练加入新任务，利用特定方法迭代优化，以远超多数工作的数据规模，实现对中文图片和指令的良好支持。

🤖Aguvis：提升的不仅是 UI Agent 的规划推理能力

本文介绍来自 HKU & Salesforce 的 Aguvis。Aguvis 构建了统一的 grounding 和 reasoning 大数据集，采用两阶段训练方式提升模型在 GUI 交互中的规划推理能力。

🤖ShowUI：当前最好的 UI Agent 开源模型？

Show Lab 和微软推出 ShowUI，这是一个开源的 UI Agent 模型，在中文 APP 识别和导航能力上表现出色。通过创新的视觉 token 选择和独特的训练数据构建方法，该模型在有限的训练数据下实现了非常棒的性能

🤖GUI Agents（智能体）最新论文

近期 Claude 发布了 Compute Use，智谱发布了 Phone Use 的 AutoGLM，它们都是利用 UI Agents 技术让智能体模拟人操作电脑和手机完成指定任务。本文列出 UI Agents 相关的最新论文和资料，并持续更新中…

🤖GUI Agents（智能体）技术综述

近期 Claude 发布了 Compute Use，智谱发布了 Phone Use 的 AutoGLM，它们都是利用 UI Agents 技术让智能体模拟人操作电脑和手机完成指定任务。本次分享介绍了 UI Agents（智能体）背后使用的大模型技术。

基于大语言模型的AI Agents—Part 3

介绍由 LLM 驱动的 AI Agents 的相关技术和工具。Part 3 介绍另外几个热门的 Agent 框架：agents、AutoAgents 和 ChatDev（通过agents之间的多轮交互完成任务）。

基于大语言模型的AI Agents—Part 2

介绍由 LLM 驱动的 AI Agents 的相关技术和工具。Part 2 介绍3个热门的 Agent 框架：AutoGPT、GPT-Engineer 和 MetaGPT。

基于大语言模型的AI Agents—Part 1

介绍由 LLM 驱动的 AI Agents 的相关技术和工具。Part 1 介绍 Agent 的一般框架，背景知识和斯坦福的虚拟小镇论文。

Breezedeus