Breezedeus.com | 善意的AI生产幸福❤

模型如何一边看、一边听、一边回应：实时流式音视频多模态模型技术路线

从每秒一帧的客户端采样到原生全双工 AV2AV，系统梳理实时流式音视频多模态的六条技术路线：增量 prefill 与 KV/GDN 状态、共享时间轴、显式说话触发、异步思考、模态专家，以及因果音视频生成；并拆解 Qwen3.5-Omni、MiniCPM-o、ROMA、DuplexOmni、ELLSA 与 Wan-Streamer 的实现边界与选型要点。

多模态学习

Multimodal Learning

多模态模型

模型如何一边看、一边听、一边回应：实时流式音视频多模态模型技术路线

企业 AI 转型路线图：从单点试验到可规模化能力

本文基于微软《The AI Strategy Roadmap》，总结企业 AI 从单点试验走向规模化的关键：从边界清晰、结果可测的真实业务问题开始；把数据契约、评测集、权限、监控和人工接管沉淀为可复用资产；再用清晰的组织责任与治理机制，把一次成功复制到下一个用例。真正值得规模化的，不是又上线一个 Agent，而是又验证并积累一套能重复交付业务结果的组织能力。

AI 战略路线图

企业 AI 转型

企业 AI 转型路线图：从单点试验到可规模化能力

AI Agent 中的上下文工程 (Context Engineering)

本文聚焦 AI Agents 上下文工程技术，揭秘了从静态提示词工程到动态上下文工程的进化逻辑，还拆解了 Manus 应对上下文腐烂的核心技术与简化至上的实践原则。

大语言模型

上下文工程

Context Engineering

AI Agent 中的上下文工程 (Context Engineering)

AI Agent 性能优化：核心策略与实战技巧

本文深度拆解 AI Agent 性能优化的五大核心维度，提供超多可落地的实战技巧，助力打造更智能、鲁棒且高效的 AI Agent！

大语言模型

上下文工程

Context Engineering

Prompt Engineering

AI Agent 性能优化：核心策略与实战技巧

🤖Mobile-Agent-v3：新的 GUI Agents 开源王者

Mobile-Agent-v3 凭借多模态 GUI-Owl 模型、自我进化数据生成和 TRPO 强化学习，在多平台 GUI 自动化上超越主流开源方案，部分场景甚至优于 GPT-4o、Claude 3.7。

Mobile-Agent-V3

Mobile-Agent-v3：新的 GUI Agents 开源王者

Pix2Text 新版数学公式检测和识别模型：V1.5

Pix2Text (P2T) 的数学公式检测模型（MFD）和数学公式识别模型（MFR）发布新版 V1.5 系列模型，效果得到进一步提升。

数学公式识别

Math-Formula-Recognition

数学公式检测

Pix2Text 新版数学公式检测和识别模型：V1.5

🤖MONDAY：从视频自动构建 GUI Agents 轨迹数据

本文提出了一种自动化框架，该框架利用公开可用的视频内容生成 GUI Agents 训练使用的任务轨迹数据集，无需手动标注。

MONDAY：从视频自动构建 GUI Agents 轨迹数据

🤖InfiGUI-R1：从反应式执行向推理式决策的进阶之路

InfiGUI-R1 引入一种以推理为中心的渐进式训练方法，将 GUI Agents 从反应式执行模型转变为深思熟虑的推理模型。

Reinfocement_Learning

InfiGUI-R1：从反应式执行向推理式决策的进阶之路

🧬《控糖革命》：了解血糖影响与控糖策略

《控糖革命》的笔记，介绍了高血糖峰值对健康的负面影响，并详细介绍了通过调整饮食顺序、餐前饮醋、饭后运动、为碳水“穿衣”等实用策略来稳定血糖、促进整体健康的方法。

碳水化合物

《控糖革命》：了解血糖影响与控糖策略

🤖GUI Agent 中使用 RL 提升模型泛化能力

介绍 GUI Agent 如果利用强化学习（RL）算法训练模型，以提升模型的 OOD 泛化能力。

Reinfocement_Learning

GUI Agent 中使用 RL 提升模型泛化能力

♾️估计KL散度的艺术：平衡偏差与方差的实用指南

介绍 KL散度（KL Divergence）的不同预估方法。

Machine Learning

估计KL散度的艺术：平衡偏差与方差的实用指南

🤖UI-TARS：利用长期记忆和反思调整不断优化

来自字节跳动的 UI-TARS 基于 Qwen2-VL 微调，通过大量 grounding 和 navigation 数据，经三阶段训练，在感知能力训练加入新任务，利用特定方法迭代优化，以远超多数工作的数据规模，实现对中文图片和指令的良好支持。

UI-TARS：利用长期记忆和反思调整不断优化

1 2 3 4 5

Breezedeus

Breezedeus

知识星球

最新发布

模型如何一边看、一边听、一边回应：实时流式音视频多模态模型技术路线

企业 AI 转型路线图：从单点试验到可规模化能力

AI Agent 中的上下文工程 (Context Engineering)

GUI Agents（智能体）最新论文

AI Agent 性能优化：核心策略与实战技巧

Mobile-Agent-v3：新的 GUI Agents 开源王者

公告

🎉Pix2Text V1.1.1 新版发布🎉

-- 新版本特性 ---

V1.1.1 发布，带来全新的数学公式检测（MFD）模型

详见：Pix2Text V1.1.1 新版发布，带来更好的数学公式检测模型