本文提出了一种自动化框架，该框架利用公开可用的视频内容生成 GUI Agents 训练使用的任务轨迹数据集，无需手动标注。

MONDAY：从视频自动构建 GUI Agents 轨迹数据

InfiGUI-R1 引入一种以推理为中心的渐进式训练方法，将 GUI Agents 从反应式执行模型转变为深思熟虑的推理模型。

InfiGUI-R1：从反应式执行向推理式决策的进阶之路

《控糖革命》的笔记，介绍了高血糖峰值对健康的负面影响，并详细介绍了通过调整饮食顺序、餐前饮醋、饭后运动、为碳水“穿衣”等实用策略来稳定血糖、促进整体健康的方法。

《控糖革命》：了解血糖影响与控糖策略

介绍 GUI Agent 如果利用强化学习（RL）算法训练模型，以提升模型的 OOD 泛化能力。

GUI Agent 中使用 RL 提升模型泛化能力

介绍 KL散度（KL Divergence）的不同预估方法。

估计KL散度的艺术：平衡偏差与方差的实用指南

来自字节跳动的 UI-TARS 基于 Qwen2-VL 微调，通过大量 grounding 和 navigation 数据，经三阶段训练，在感知能力训练加入新任务，利用特定方法迭代优化，以远超多数工作的数据规模，实现对中文图片和指令的良好支持。

UI-TARS：利用长期记忆和反思调整不断优化

本文介绍来自 HKU & Salesforce 的 Aguvis。Aguvis 构建了统一的 grounding 和 reasoning 大数据集，采用两阶段训练方式提升模型在 GUI 交互中的规划推理能力。

Aguvis：提升的不仅是 UI Agent 的规划推理能力

Show Lab 和微软推出 ShowUI，这是一个开源的 UI Agent 模型，在中文 APP 识别和导航能力上表现出色。通过创新的视觉 token 选择和独特的训练数据构建方法，该模型在有限的训练数据下实现了非常棒的性能

ShowUI：当前最好的 UI Agent 开源模型？

近期 Claude 发布了 Compute Use，智谱发布了 Phone Use 的 AutoGLM，它们都是利用 UI Agents 技术让智能体模拟人操作电脑和手机完成指定任务。本文列出 UI Agents 相关的最新论文和资料，并持续更新中…

GUI Agents（智能体）最新论文

近期 Claude 发布了 Compute Use，智谱发布了 Phone Use 的 AutoGLM，它们都是利用 UI Agents 技术让智能体模拟人操作电脑和手机完成指定任务。本次分享介绍了 UI Agents（智能体）背后使用的大模型技术。

GUI Agents（智能体）技术综述

LLaMA 3.1 发布，开源了 405B 的旗舰模型，效果达到闭源的 SOTA 🔥🔥🔥。新模型带来了工具调用、更好地支持多语言等功能。

LLaMA 3 掀桌子三部曲（二）：LLaMA 3.1 发布

Apple 的 4M 项目通过创新的多模态融合技术，成功将 21 种不同类型的数据模态嵌入统一的模型框架中，实现了跨模态检索、生成和编辑等任务。

多模态模型可以融合多少模态？Apple：≥ 21

本文介绍了图像或视频数据的 token 化技术，包括 VQ-VAE、dVAE、VQGAN、TiTok 1D Tokenizer 及 OmniTokenizer 等模型，这些技术通过编码器、向量量化器和解码器将图像转换为离散的 token 序列，以便于模型处理和生成高质量的图像。

图像 Token 化：视觉数据转换的关键技术

Scaling Laws（数据和 GPU）是 AI 发展的核心驱动力！？

别和 Scaling Laws 对抗

Pix2Text V1.1.1 新版发布，带来更好的数学公式检测模型

Pix2Text (P2T) V1.1 发布，整合了版面分析和表格识别模型，可以把复杂排版的图片甚至 pdf 文件恢复成 Markdown 格式。

Pix2Text V1.1 新版发布，支持 PDF 转 Markdown

LLaMA 3 又来掀桌子了，发布一天后排名已经到开源模型首位了，已超过早期的 GPT4 和 Gemini Pro 🔥🔥🔥。哪些因素带来了新的精度提升？

LLaMA 3 掀桌子三部曲（一）：LLaMA 3 发布

Pix2Text (P2T) V1.0 发布，其中新的公式识别模型（MFR）精度得到极大提高，是当前精度最高的开源公式识别模型。

Pix2Text V1.0 新版发布，带来了最好的开源数学公式识别模型

CnOCR V2.3 新版发布，模型都经过了重新训练和精调，精度比旧版模型更高。同时加入了分场景、大小规模不同的各种模型，可商用。

CnOCR V2.3 新版发布：模型更好、更多、更大

Coin-CLIP：硬币多模态模型，针对硬币图片具有更强的特征提取能力，可以实现更精准的以图搜图功能。

更精准的硬币识别多模态模型：Coin-CLIP

本文介绍了优化 LLM 效果的三种方法：Prompt Engineering、RAG 和 Fine-tuning。详细描述了它们的使用场景、优劣势，并基于具体示例给出了它们带来的效果提升。

OpenAI 如何优化 LLM 的效果

EffOCR 使用了切字+向量检索的方法来做文字识别，很不一样的思路，非常有趣。

非常有趣的一种OCR思路：EffOCR

介绍由 LLM 驱动的 AI Agents 的相关技术和工具。Part 3 介绍另外几个热门的 Agent 框架：agents、AutoAgents 和 ChatDev（通过agents之间的多轮交互完成任务）。

基于大语言模型的AI Agents—Part 3

CnOCR 中新加入了纯数字识别新模型，适合银行卡号识别、身份证号识别、硬币年份识别等应用场景。

CnOCR 纯数字识别新模型

详细介绍 Meta 刚刚开源的版面恢复大模型 Nougat（牛轧糖），并与我的版面恢复开源小工具 Pix2Text (P2T) 做了对比。

Meta的版面恢复大模型：Nougat 

介绍由 LLM 驱动的 AI Agents 的相关技术和工具。Part 2 介绍3个热门的 Agent 框架：AutoGPT、GPT-Engineer 和 MetaGPT。

基于大语言模型的AI Agents—Part 2

介绍使用 LLM 来解决超难问题的 Least-to-Most Prompting 框架。

解决超难问题的 Least-to-Most Prompt 框架

介绍由 LLM 驱动的 AI Agents 的相关技术和工具。Part 1 介绍 Agent 的一般框架，背景知识和斯坦福的虚拟小镇论文。

基于大语言模型的AI Agents—Part 1

《机器学习&自然语言处理》付费课程解密了。

《机器学习&自然语言处理》课程解密了

今天更新了 Pix2Text (P2T) 中的公式识别模型。新模型的精度更高，尤其是对手写公式和多行公式类的图片。

Pix2Text 新版公式识别模型

上周线下分享的文字版，介绍了多模态学习的概念、意义、模型架构、代表模型和挑战等。

比LLM更重要的多模态学习

介绍数据标注工具Label Studio，如何导入本地文件生成标注数据，如何导入模型预测结果，以及如何导出标注结果并转换成MFD模型训练所需格式。

标注工具Label Studio如何导入本地文件和模型预测结果

Pix2Text (P2T) 中的数学公式检测模型 YoloV7 开放购买了。

P2T YoloV7 数学公式检测模型开放购买

本周日下午在清华MEM大讲堂的线下科普类分享，会提到多模态学习的定义、作用、代表模型、挑战等。

本周日线下分享：《比LLM更重要的多模态学习》

今天更新了 Pix2Text (P2T) 中的公式检测模型，优化了中文图片中的公式检测效果，以及对单独公式图片的检测效果。

Pix2Text (P2T) 新版公式检测模型

OpenAI 发布了 GPT-4，本文介绍 GPT-4 带来的新超能力。

GPT-4 新的超能力

本内容仅限知识星球 CnOCR/CnSTD/P2T私享群 会员专享。内容为 CnOCR 中关于自己训练识别模型的详细介绍。大家可以从零开始训练自己的模型，也可以基于CnOCR开源的模型进行精调。

CnOCR识别模型训练详细教程

本文包含CnOCR/CnSTD的相关资料：付费行业模型、代码、文档、在线Demo、在线智能客服等信息。

CnOCR

Pix2Text: a Free Alternative to Mathpix (Pix In, Latex & Text Out). Pix2Text 识别图片中的文字和数学公式的Latex表达。

P2T详细资料

Pix2Text: an Open-Source Python3 tool for recognizing layouts, tables, math formulas (LaTeX), and text in images, converting them into Markdown format. A free alternative to Mathpix, empowering seamless conversion of visual content into text-based representations. 80+ languages are supported.

P2T Detailed Infos

Factorization Machines（FM）类模型在 CTR 和推荐系统中被广泛使用。本文对此类模型的思路做了简单梳理。

FM 类模型

本文将带你重温 Youtube 在2016年发表的DNN推荐论文 “Deep Neural Networks for YouTube Recommendations”。

你真的读懂了Youtube DNN推荐论文吗？

本文介绍了微软小冰对话机器人的构建理念和整体架构，详细阐述了小冰如何通过核心闲聊和多种技能来优化用户会话轮次（CPS）。本文还探讨了小冰的对话管理模块、话题管理策略以及如何利用知识图谱和用户画像来提升对话的连贯性和个性化体验。

Chatbot 8: 微软小冰对话机器人架构

本文介绍了一种名为 Data Purification Framework（DPF）的无监督对话数据清洗方法，通过迭代训练和筛选模型来提高数据质量，最终用于训练聊天机器人的seq2seq+attention模型。

Chatbot 7: 一种无监督的对话数据清洗方法

本文探讨了对话交互作为人机交互最高效方式的必然性，并分析了不同 bot 平台在可控性与智能性之间权衡的特点，认为技术进步将不断扩大这一权衡边界。

Chatbot 6: 对话交互时代的各种 Bot——可控性与智能性的权衡

一个AI（www.yige.ai）是免费中文聊天机器人创建平台，它利用自然语言理解技术，使小微企业和个人开发者能够轻松开发用户友好的自然语言对话交互应用，同时注重可控性和可维护性。

Chatbot 5: 创建Bot的中文平台——一个AI（yige.ai）

基于论文 “A few useful things to know about machine learning” 总结的脑图。

机器学习里需要知道的12堂课

介绍了从迭代的角度理解 EM 算法的思路。

也说说 EM

知识星球

如果工具有用，欢迎给 Breezedeus 来杯咖啡。

Buy Me Coffee

欢迎加入 Breezedeus 的开源工具交流群。

Contact Me

Breezedeus 的相关信息，以及各个平台上的账号。

About Me

大模型时代的对话机器人，都需要哪些关键技术？

Chatbot

微软小冰

对话机器人

聊天机器人

Deep Learning

对话管理

Dialogue

Chatbot 9: LLM 时代的对话机器人

模型下载

英文OCR

切字

对比学习

文字检测

文字识别

GOT OCR, 2.0?

介绍 GUI Agent 任务中如何通过自动、半自动地动态构造训练数据来迭代优化模型效果。

AI_Agent

Multi-Agents

UI Agents

Web Agents

Compute Use

Phone Use

AutoGLM

SeeClick

AppAgents

Mobile Agents

智能体

ShowUI

GUI Agents

GUI Agent 中通过自动构造训练数据优化模型

Pix2Text (P2T)  的数学公式检测模型（MFD）和数学公式识别模型（MFR）发布新版 *-1.5 系列模型，效果得到进一步提升。