type
status
date
slug
summary
tags
category
icon
password
URL
Rating
Pix2Text (P2T) 识别图片中文字和数学公式,输出对应的文本和 Latex 表达式;其目标是成为 Mathpix 的免费开源 Python 替代工具。Pix2Text 是 2023 年 2 月份发布的初版,距离现在差不多刚一年,GitHub stars 也突破了 2500🌟,这是个典型的缓慢积累的项目。
如我之前所说,Pix2Text 是坚持走 小模型+开源 的路线,模型大小得保证在一般的 CPU 机器上能跑得动,代码和基础模型都开源,同时也提供精度更高的付费模型供购买后个人或商业使用。Pix2Text 整合了版面分析和表格识别模型,可以识别图片中的版面、表格、图片、文字、数学公式等内容,并整合所有内容后以 Markdown 格式输出。P2T 也可以把一整个 PDF 文件(PDF 的内容可以是扫描图片或者其他任何格式)转换为 Markdown 格式。具体原理说明见 Pix2Text V1.1 新版发布,支持 PDF 转 Markdown。
一年前我发布了新架构的 MFD 和 MFR 模型,它们一直是同体量模型中效果最好的数学公式检测和识别模型。目前 MFR 的开源模型下载量已经超过了
600K
,这个数字对我个人来说是个很大的激励。这些模型我称之为 V1.0
版本。这次新发布的 MFD 和 MFR 模型我称之为
V1.5
版本。接下来介绍下新版本模型的差异点和效果吧。注意:新发布的模型版本为
V1.5
,pix2text Python 库的版本依旧是 V1.1.*
。<ins/>
MFD V1.5 模型
之前的 MFD V1.0 版本模型是基于 yolo8 架构训练得到的检测模型。而新版的 1.5 版本模型使用了新的 yolo11 架构。
同时,我们也增加了检测模型的训练数据,让模型相较于其他开源模型更能适应非标准排版图片(如 PPT,手机拍照图片)。
以下是 MFD 新旧模型的对比:
模型名称 | 模型架构 | 模型说明 |
MFD-1.0 (MFD) | yolov8m | 开源 |
MFD-1.5 | yolo11m | 开源 |
MFD-ADVANCED-1.5 | yolo11l | 知识星球会员专享 |
MFD-PRO-1.5 | yolo11x | 付费可购买 |
各模型参数量如下:

以下是模型在验证集上的效果:


可见,新版的 V1.5(yolo11 系列)模型,相较于 V1.0 模型,效果有较显著的提升。
MFR V1.5 模型
和之前的 MFR 模型(V1.0)一样,MFR V1.5 也包含 MFR-1.5 和 MFR-PRO-1.5 两个模型。
MFR V1.5 使用的模型架构和 V1.0 相同,但训练过程做了以下优化:
- V1.0 模型对根号公式图片(如下图)识别效果一般,V1.5 针对此问题做了优化,专门加入了对应的训练数据。

- V1.0 模型能识别的最大 tokens 数量为 512,V1.5 模型这个数字提升为 1024,以便更好地识别复杂的多行公式。
- V1.5 加入了更多来自真实场景的图片标注数据,进一步提升了模型效果。
以下是各个模型在人工选定的测试数据集上的 CER(字错误率,越小越好)。

由于 LaTeX 表达具有多样性(同样的公式可以使用不同的 LaTeX 表达式渲染得到),我们也对生成结果做了人工评测。对于一个模型结果,只要它渲染成图片后的结果和原始图片相同即视为成功(得分 1.0),否则视为失败(得分 0.0)。以下是不同模型在测试集上的整体得分(得分越高越好):

由上图可见,相较于 V1.0 的模型,MFR V1.5 的模型效果得到进一步提升。
本地使用方式
安装
如果已安装旧版 pix2text,使用以下命令更新相应的 Python 包:
如果未安装过 pix2text,可以直接使用以下命令安装最新的 pix2text 包即可:
使用
新版 pix2text 默认会使用数学公式检测模型
mfd-1.5
和 数学公式识别模型 mfr-1.5
:推理使用时用到的模型文件会自动下载,文件默认从 Huggingface 网站下载。如果没有梯子,请多等待一会,系统会自动切换到 Huggingface 镜像站下载。
P2T 网页版
所有人都可以免费使用 P2T网页版,每人每天可以免费识别 10000 个字符,正常使用应该够用了。请不要批量调用接口,机器资源有限,批量调用会导致其他人无法使用服务。
受限于机器资源,网页版支持的文本 OCR 语言有限。如果要尝试其他语言上的效果,请使用以下的在线 Demo。
<ins/>
在线 Demo
可以使用此 在线 Demo 尝试 P2T 在不同语言上的效果。但在线 Demo 使用的硬件配置较低,速度会较慢。如果是简体中文或者英文图片,建议使用 P2T网页版。
如果无法科学上网,可以访问此地址:https://hf-mirror.com/spaces/breezedeus/Pix2Text-Demo 。
付费版模型购买
购买链接
MFR-Pro-1.5 【个人版】购买链接:bilibili 商城。此链接购买后的模型仅限个人使用,不可商用,不可开发票。此商品仅包含模型的 ONNX 版本,不包含 PyTorch 版本。企业商用或开发票请见以下说明。MFD-Pro-1.5【个人版】购买链接:bilibili 商城 。
Pix2Text V1.0+ 包含两种企业版。它们的权益差异见下图。企业 Pro 版 是一次性购买,之后有新模型需要重新购买。企业 Pro 版 只允许企业内部使用或者对外提供免费的服务(如教育机构),不允许对外提供付费服务。企业 Plus 版 购买后一年内可以免费获取所有的新模型。企业 Plus 版 除了提供 Pro 模型外也提供 Plus 版 模型,同时提供所有模型的 PyTorch 版本,企业可以基于这些模型利用自己的数据进行模型精调,或者转换为需要的其他模型格式(如 CoreML等)。企业 Plus版 允许企业对外提供付费服务。
更详细说明请见 模型购买商店(进入商品的详情页有具体说明)。

购买链接见:模型购买商店(进入商品的详情页有具体说明)。
使用说明
通过模型购买商店购买企业 Basic 版后,可以下载模型对应的 2 个压缩文件,其中以
*-mfd-
开头的文件为 MFD(数学公式检测)模型,以*-mfr-
开头的文件为 MFR(数学公式识别)模型。MFD 模型压缩文件解压后会看到一个名为 *-onnx
的文件夹,里面的文件即为模型文件,比如叫 pix2text-mfd-pro-1.5.onnx
。假定文件 pix2text-mfd-pro-1.5.onnx
的路径为 abc/def/mfd-pro-1.5-onnx/pix2text-mfd-pro-1.5.onnx
。MFR 模型压缩文件解压后会看到一个名为 mfr-pro-1.5-onnx
的文件夹,其中包含模型文件以及相关的配置文件。假定文件夹 mfr-pro-1.5-onnx
的路径为 abc/def/mfr-pro-1.5-onnx
。那在初始化 Pix2Text 时应该如下传入参数。初始化后的使用方式和开源模型完全一样,检测和识别结果的结构也是一样的。
如果购买的是企业 Pro 订阅版,可以下载的模型文件会更多(当前是 5 个),除了包含 MFR 的 PyTorch 版本外,也会包含 CnOCR(文本 OCR)中的最新付费模型(ONNX 和 PyTorch 版本),它对中英文文本的识别效果比免费模型更好。可以使用如下方式传入对应的模型。
注意:CnOCR 的文本模型只支持英文和简体中文,如果要识别其他语言的文本,请勿使用 CnOCR 模型。只需把上面代码中的
text_config
去掉即可。- 作者:Breezedeus
- 链接:https://www.breezedeus.com/article/pix2text-model-1.5
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章