type
status
date
slug
summary
tags
category
icon
password
URL
Rating
Pix2Text (P2T) 识别图片中文字和数学公式,输出对应的文本和 Latex 表达式;其目标是成为 Mathpix 的免费开源 Python 替代工具。Pix2Text 差不多是两年半前发布的初版,当前 GitHub stars 突破了 2500🌟,这是个典型的缓慢积累的项目。
如我之前所说,Pix2Text 是坚持走 小模型+开源 的路线,模型大小得保证在一般的 CPU 机器上能跑得动,代码和基础模型都开源,同时也提供精度更高的付费模型供购买后个人或商业使用。Pix2Text 整合了版面分析和表格识别模型,可以识别图片中的版面、表格、图片、文字、数学公式等内容,并整合所有内容后以 Markdown 格式输出。P2T 也可以把一整个 PDF 文件(PDF 的内容可以是扫描图片或者其他任何格式)转换为 Markdown 格式。具体原理说明见 Pix2Text V1.1 新版发布,支持 PDF 转 Markdown。
一年前我发布了新架构的 MFD 和 MFR 模型,它们一直是同体量模型中效果最好的数学公式检测和识别模型。目前 MFR 的开源模型下载量已经超过了
600K,这个数字对我个人来说是个很大的激励。这些模型我称之为 V1.0 版本。这次新发布的 MFD 和 MFR 模型我称之为
V1.5 版本。接下来介绍下新版本模型的差异点和效果吧。注意:新发布的模型版本为
V1.5,pix2text Python 库的版本依旧是 V1.1.*。<ins/>
MFD V1.5 模型
之前的 MFD V1.0 版本模型是基于 yolo8 架构训练得到的检测模型。而新版的 1.5 版本模型使用了新的 yolo11 架构。
同时,我们也增加了检测模型的训练数据,让模型相较于其他开源模型更能适应非标准排版图片(如 PPT,手机拍照图片)。
以下是 MFD 新旧模型的对比:
模型名称 | 模型架构 | 模型说明 |
MFD-1.0 (MFD) | yolov8m | 开源 |
MFD-1.5 | yolo11m | 开源 |
MFD-ADVANCED-1.5 | yolo11l | 知识星球会员专享 |
MFD-PRO-1.5 | yolo11x | 付费可购买 |
各模型参数量如下:

以下是模型在验证集上的效果:


可见,新版的 V1.5(yolo11 系列)模型,相较于 V1.0 模型,效果有较显著的提升。
MFR V1.5 模型
和之前的 MFR 模型(V1.0)一样,MFR V1.5 也包含 MFR-1.5 和 MFR-PRO-1.5 两个模型。
MFR V1.5 使用的模型架构和 V1.0 相同,但训练过程做了以下优化:
- V1.0 模型对根号公式图片(如下图)识别效果一般,V1.5 针对此问题做了优化,专门加入了对应的训练数据。

- V1.0 模型能识别的最大 tokens 数量为 512,V1.5 模型这个数字提升为 1024,以便更好地识别复杂的多行公式。
- V1.5 加入了更多来自真实场景的图片标注数据,进一步提升了模型效果。
以下是各个模型在人工选定的测试数据集上的 CER(字错误率,越小越好)。

由于 LaTeX 表达具有多样性(同样的公式可以使用不同的 LaTeX 表达式渲染得到),我们也对生成结果做了人工评测。对于一个模型结果,只要它渲染成图片后的结果和原始图片相同即视为成功(得分 1.0),否则视为失败(得分 0.0)。以下是不同模型在测试集上的整体得分(得分越高越好):

由上图可见,相较于 V1.0 的模型,MFR V1.5 的模型效果得到进一步提升。
本地使用方式
安装
如果已安装旧版 pix2text,使用以下命令更新相应的 Python 包:
如果未安装过 pix2text,可以直接使用以下命令安装最新的 pix2text 包即可:
使用
新版 pix2text 默认会使用数学公式检测模型
mfd-1.5 和 数学公式识别模型 mfr-1.5:推理使用时用到的模型文件会自动下载,文件默认从 Huggingface 网站下载。如果没有梯子,请多等待一会,系统会自动切换到 Huggingface 镜像站下载。
P2T 网页版
所有人都可以免费使用 P2T网页版,每人每天可以免费识别 10000 个字符,正常使用应该够用了。请不要批量调用接口,机器资源有限,批量调用会导致其他人无法使用服务。
受限于机器资源,网页版支持的文本 OCR 语言有限。如果要尝试其他语言上的效果,请使用以下的在线 Demo。
<ins/>
在线 Demo
可以使用此 在线 Demo 尝试 P2T 在不同语言上的效果。但在线 Demo 使用的硬件配置较低,速度会较慢。如果是简体中文或者英文图片,建议使用 P2T网页版。
如果无法科学上网,可以访问此地址:https://hf-mirror.com/spaces/breezedeus/Pix2Text-Demo 。
付费版模型购买
购买链接
除免费开源版模型
MFD-1.5 和 MFR-1.5 外,我们也提供了一些 V1.5 的付费版模型。以下是各付费模型的购买链接。购买仅包含模型的 ONNX 版本,不包含 PyTorch 版本。个人购买后的模型仅限个人使用,不可商用,不可开发票。企业购买后可开发票(receipt),使用范围说明具体见对应的购买页面。识别模型版本 | 企业购买 | 个人购买 | 对星球会员 | 免费可下载 |
MFD-Advanced-1.5 | ✖️ | ✔️ 免费获取 | ✖️ | |
MFD-Pro-1.5 | ✔️ 个人购买八折 | ✖️ | ||
MFR-Pro-1.5 | ✔️ 个人购买八折 | ✖️ |
Pix2Text V1.0+ 包含两种企业版。它们的权益差异见下图。企业 Pro 版 是一次性购买,之后有新模型需要重新购买。企业 Pro 版 只允许企业内部使用或者对外提供免费的服务(如教育机构),不允许对外提供付费服务。企业 Plus 版 购买后一年内可以免费获取所有的新模型。企业 Plus 版 除了提供 Pro 模型外也提供 Plus 版 模型,同时提供所有模型的 PyTorch 版本,企业可以基于这些模型利用自己的数据进行模型精调,或者转换为需要的其他模型格式(如 CoreML等)。企业 Plus版 允许企业对外提供付费服务。
更详细说明请见 模型购买商店(进入商品的详情页有具体说明)。

购买链接见:模型购买商店(进入商品的详情页有具体说明)。
使用说明
通过模型购买商店购买企业 Basic 版后,可以下载模型对应的 2 个压缩文件,其中以
*-mfd- 开头的文件为 MFD(数学公式检测)模型,以*-mfr- 开头的文件为 MFR(数学公式识别)模型。MFD 模型压缩文件解压后会看到一个名为 *-onnx 的文件夹,里面的文件即为模型文件,比如叫 pix2text-mfd-pro-1.5.onnx 。假定文件 pix2text-mfd-pro-1.5.onnx 的路径为 abc/def/mfd-pro-1.5-onnx/pix2text-mfd-pro-1.5.onnx。MFR 模型压缩文件解压后会看到一个名为 mfr-pro-1.5-onnx 的文件夹,其中包含模型文件以及相关的配置文件。假定文件夹 mfr-pro-1.5-onnx 的路径为 abc/def/mfr-pro-1.5-onnx。那在初始化 Pix2Text 时应该如下传入参数。初始化后的使用方式和开源模型完全一样,检测和识别结果的结构也是一样的。
如果购买的是企业 Pro 订阅版,可以下载的模型文件会更多(当前是 5 个),除了包含 MFR 的 PyTorch 版本外,也会包含 CnOCR(文本 OCR)中的最新付费模型(ONNX 和 PyTorch 版本),它对中英文文本的识别效果比免费模型更好。可以使用如下方式传入对应的模型。
注意:CnOCR 的文本模型只支持英文和简体中文,如果要识别其他语言的文本,请勿使用 CnOCR 模型。只需把上面代码中的
text_config 去掉即可。- 作者:Breezedeus
- 链接:https://www.breezedeus.com/article/pix2text-model-1.5
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章

Pix2Text 新版数学公式检测和识别模型:V1.5








