Pix2Text 新版数学公式检测和识别模型：V1.5

type

status

date

slug

summary

MFD V1.5 模型

之前的 MFD V1.0 版本模型是基于 yolo8 架构训练得到的检测模型。而新版的 1.5 版本模型使用了新的 yolo11 架构。

同时，我们也增加了检测模型的训练数据，让模型相较于其他开源模型更能适应非标准排版图片（如 PPT，手机拍照图片）。

以下是 MFD 新旧模型的对比：

模型名称	模型架构	模型说明
MFD-1.0 (MFD)	yolov8m	开源
MFD-1.5	yolo11m	开源
MFD-ADVANCED-1.5	yolo11l	知识星球会员专享
MFD-PRO-1.5	yolo11x	付费可购买

各模型参数量如下：

以下是模型在验证集上的效果：

可见，新版的 V1.5（yolo11 系列）模型，相较于 V1.0 模型，效果有较显著的提升。

MFR V1.5 模型

和之前的 MFR 模型（V1.0）一样，MFR V1.5 也包含 MFR-1.5 和 MFR-PRO-1.5 两个模型。

MFR V1.5 使用的模型架构和 V1.0 相同，但训练过程做了以下优化：

V1.0 模型对根号公式图片（如下图）识别效果一般，V1.5 针对此问题做了优化，专门加入了对应的训练数据。

V1.0 模型能识别的最大 tokens 数量为 512，V1.5 模型这个数字提升为 1024，以便更好地识别复杂的多行公式。

V1.5 加入了更多来自真实场景的图片标注数据，进一步提升了模型效果。

以下是各个模型在人工选定的测试数据集上的 CER（字错误率，越小越好）。

由于 LaTeX 表达具有多样性（同样的公式可以使用不同的 LaTeX 表达式渲染得到），我们也对生成结果做了人工评测。对于一个模型结果，只要它渲染成图片后的结果和原始图片相同即视为成功（得分 1.0），否则视为失败（得分 0.0）。以下是不同模型在测试集上的整体得分（得分越高越好）：

由上图可见，相较于 V1.0 的模型，MFR V1.5 的模型效果得到进一步提升。

本地使用方式

安装

如果已安装旧版 pix2text，使用以下命令更新相应的 Python 包：

如果未安装过 pix2text，可以直接使用以下命令安装最新的 pix2text 包即可：

使用

新版 pix2text 默认会使用数学公式检测模型 mfd-1.5 和数学公式识别模型 mfr-1.5：

推理使用时用到的模型文件会自动下载，文件默认从 Huggingface 网站下载。如果没有梯子，请多等待一会，系统会自动切换到 Huggingface 镜像站下载。

P2T 网页版

Pix2Text (P2T) - Free Mathpix Alternative

Use Pix2Text (P2T) to convert math formulas in images to text. Pix2Text is a free alternative to Mathpix that supports math formula recognition, LaTeX rendering, and export to various formats.

https://p2t.breezedeus.com/

所有人都可以免费使用 P2T网页版，每人每天可以免费识别 10000 个字符，正常使用应该够用了。请不要批量调用接口，机器资源有限，批量调用会导致其他人无法使用服务。

受限于机器资源，网页版支持的文本 OCR 语言有限。如果要尝试其他语言上的效果，请使用以下的在线 Demo。

<ins/>

在线 Demo

Pix2Text - a Hugging Face Space by breezedeus

Discover amazing ML apps made by the community

https://huggingface.co/spaces/breezedeus/Pix2Text-Demo

可以使用此 在线 Demo 尝试 P2T 在不同语言上的效果。但在线 Demo 使用的硬件配置较低，速度会较慢。如果是简体中文或者英文图片，建议使用 P2T网页版。

📌

如果无法科学上网，可以访问此地址：https://hf-mirror.com/spaces/breezedeus/Pix2Text-Demo 。

付费版模型购买

购买链接

MFR-Pro-1.5 【个人版】购买链接：bilibili 商城。此链接购买后的模型仅限个人使用，不可商用，不可开发票。此商品仅包含模型的 ONNX 版本，不包含 PyTorch 版本。企业商用或开发票请见以下说明。MFD-Pro-1.5【个人版】购买链接：bilibili 商城 。

Pix2Text V1.0+ 包含两种企业版。它们的权益差异见下图。企业 Pro 版 是一次性购买，之后有新模型需要重新购买。企业 Pro 版 只允许企业内部使用或者对外提供免费的服务（如教育机构），不允许对外提供付费服务。企业 Plus 版 购买后一年内可以免费获取所有的新模型。企业 Plus 版 除了提供 Pro 模型外也提供 Plus 版 模型，同时提供所有模型的 PyTorch 版本，企业可以基于这些模型利用自己的数据进行模型精调，或者转换为需要的其他模型格式（如 CoreML等）。企业 Plus版 允许企业对外提供付费服务。

更详细说明请见 模型购买商店（进入商品的详情页有具体说明）。

购买链接见：模型购买商店（进入商品的详情页有具体说明）。

使用说明

首先，请确保你用开源的模型跑通了 Pix2Text，否则你下载完付费模型也跑不起来。详细安装和使用说明看 Pix2Text 项目文档就行。遇到问题可以在这里评论，或者加入群聊与我沟通，但请注意帮你跑通代码不在星主的服务范围之内（参考星球说明）。

通过模型购买商店购买企业 Basic 版后，可以下载模型对应的 2 个压缩文件，其中以 *-mfd- 开头的文件为 MFD（数学公式检测）模型，以*-mfr- 开头的文件为 MFR（数学公式识别）模型。MFD 模型压缩文件解压后会看到一个名为 *-onnx 的文件夹，里面的文件即为模型文件，比如叫 pix2text-mfd-pro-1.5.onnx 。假定文件 pix2text-mfd-pro-1.5.onnx 的路径为 abc/def/mfd-pro-1.5-onnx/pix2text-mfd-pro-1.5.onnx。MFR 模型压缩文件解压后会看到一个名为 mfr-pro-1.5-onnx 的文件夹，其中包含模型文件以及相关的配置文件。假定文件夹 mfr-pro-1.5-onnx 的路径为 abc/def/mfr-pro-1.5-onnx。

那在初始化 Pix2Text 时应该如下传入参数。初始化后的使用方式和开源模型完全一样，检测和识别结果的结构也是一样的。

如果购买的是企业 Pro 订阅版，可以下载的模型文件会更多（当前是 5 个），除了包含 MFR 的 PyTorch 版本外，也会包含 CnOCR（文本 OCR）中的最新付费模型（ONNX 和 PyTorch 版本），它对中英文文本的识别效果比免费模型更好。可以使用如下方式传入对应的模型。

📌

注意：CnOCR 的文本模型只支持英文和简体中文，如果要识别其他语言的文本，请勿使用 CnOCR 模型。只需把上面代码中的 text_config 去掉即可。

Pix2Text V1.0 新模型已部署到 P2T网页版，欢迎免费使用。有问题可以在这里评论，或者加入群聊与我沟通，谢谢。