🤖ShowUI:当前最好的 UI Agent 开源模型?技术分享Show Lab 和微软推出 ShowUI,这是一个开源的 UI Agent 模型,在中文 APP 识别和导航能力上表现出色。通过创新的视觉 token 选择和独特的训练数据构建方法,该模型在有限的训练数据下实现了非常棒的性能2024-12-5 AI_Agent Multi-Agents UI Agents Web Agents Compute Use Phone Use AutoGLM SeeClick AppAgents Mobile Agents VLM LLM 智能体 ShowUI
🤖UI Agents(智能体)最新论文技术分享近期 Claude 发布了 Compute Use,智谱发布了 Phone Use 的 AutoGLM,它们都是利用 UI Agents 技术让智能体模拟人操作电脑和手机完成指定任务。本文列出 UI Agents 相关的最新论文和资料,并持续更新中…2024-11-9 AI_Agent Multi-Agents UI Agents Web Agents Compute Use Phone Use AutoGLM SeeClick AppAgents Mobile Agents VLM LLM 智能体
🤖UI Agents(智能体)技术综述技术分享近期 Claude 发布了 Compute Use,智谱发布了 Phone Use 的 AutoGLM,它们都是利用 UI Agents 技术让智能体模拟人操作电脑和手机完成指定任务。本次分享介绍了 UI Agents(智能体)背后使用的大模型技术。2024-11-8 AI_Agent Multi-Agents UI Agents Web Agents Compute Use Phone Use AutoGLM SeeClick AppAgents Mobile Agents VLM LLM 智能体
🦙LLaMA 3 掀桌子三部曲(二):LLaMA 3.1 发布技术分享LLaMA 3.1 发布,开源了 405B 的旗舰模型,效果达到闭源的 SOTA 🔥🔥🔥。新模型带来了工具调用、更好地支持多语言等功能。2024-7-25 LLM GPT4 Generative NLP 大语言模型 ChatGPT Meta LLaMA3 LLaMA3.1 多模态模型 GPT-4o VLM
🏞️多模态模型可以融合多少模态?Apple:≥ 21技术分享Apple 的 4M 项目通过创新的多模态融合技术,成功将 21 种不同类型的数据模态嵌入统一的模型框架中,实现了跨模态检索、生成和编辑等任务。2024-7-6 MML 多模态模型 多模态学习 ImageBind 4M Apple Meta Multimodal Learning MaskGIT Transformer
🏞️图像 Token 化:视觉数据转换的关键技术技术分享本文介绍了图像或视频数据的 token 化技术,包括 VQ-VAE、dVAE、VQGAN、TiTok 1D Tokenizer 及 OmniTokenizer 等模型,这些技术通过编码器、向量量化器和解码器将图像转换为离散的 token 序列,以便于模型处理和生成高质量的图像。2024-7-1 Multimodal Learning 多模态学习 VLP Tokenizer VAE VQVAE VQGAN TiTok MaskGIT Transformer OmniTokenizer MML
☣️别和 Scaling Laws 对抗技术分享Scaling Laws(数据和 GPU)是 AI 发展的核心驱动力!?2024-6-25 LLM Scaling-Laws AGI Stanford 大语言模型 AI_Agent GPT4 ChatGPT
Pix2Text V1.1.1 新版发布,带来更好的数学公式检测模型开源工具2024-6-19 Pix2Text P2T LaTeX-OCR Math-OCR 数学公式检测 工具 版面恢复 LaTeX 版面分析 表格识别 pdf-to-markdown pdf-to-word Math-Formula-Recognition
Pix2Text V1.1 新版发布,支持 PDF 转 Markdown开源工具Pix2Text (P2T) V1.1 发布,整合了版面分析和表格识别模型,可以把复杂排版的图片甚至 pdf 文件恢复成 Markdown 格式。2024-5-8 数学公式识别 Math-Formula-Recognition MFR Pix2Text P2T LaTeX-OCR Math-OCR 数学公式检测 工具 版面恢复 LaTeX Nougat Texify 版面分析 表格识别 pdf-to-markdown pdf-to-word
🦙LLaMA 3 掀桌子三部曲(一):LLaMA 3 发布技术分享LLaMA 3 又来掀桌子了,发布一天后排名已经到开源模型首位了,已超过早期的 GPT4 和 Gemini Pro 🔥🔥🔥。哪些因素带来了新的精度提升?2024-4-19 LLM GPT4 Generative NLP 大语言模型 ChatGPT Meta LLaMA3
Pix2Text V1.0 新版发布,带来了最好的开源数学公式识别模型开源工具Pix2Text (P2T) V1.0 发布,其中新的公式识别模型(MFR)精度得到极大提高,是当前精度最高的开源公式识别模型。2024-2-26 数学公式识别 Math-Formula-Recognition MFR Pix2Text P2T LaTeX-OCR Math-OCR 数学公式检测 工具 版面恢复 LaTeX Nougat Texify
CnOCR V2.3 新版发布:模型更好、更多、更大开源工具CnOCR V2.3 新版发布,模型都经过了重新训练和精调,精度比旧版模型更高。同时加入了分场景、大小规模不同的各种模型,可商用。2023-12-24 模型下载 CnOCR 数字识别 OCR 文字识别 中文识别 英文识别 CnOCR V2.3