type
status
date
slug
summary
tags
category
icon
password
URL
Rating
[中文] | [English]
Pix2Text (P2T) 是 Mathpix 的开源免费替代工具,支持将图片转换成可编辑的文本表示,支持80多种语言。可识别 PDF 或图像中的复杂版面、表格、数学公式和文本,并将它们合并转换为 Markdown 格式。最近刚发布了新版 V1.1.1,带来了更好的数学公式检测模型(MFD)。
Pix2Text V1.1 于 2024 年 4月发布, 带来了完整的版面恢复能力,可以把扫描件的 PDF 直接转换成 Markdown 格式,借助外部工具(如 Pandoc)还可以把 Markdown 格式转换成 Word、Html 等其他格式。
V1.1 具体说明:Pix2Text V1.1 新版发布,支持 PDF 转 Markdown 。
而新发布的 Pix2Text V1.1.1 ,则带来了精度更高的数学公式检测(MFD)模型。
- 新的数学公式检测模型(MFD):ONNX → breezedeus/pix2text-mfd (国内镜像);CoreML → breezedeus/pix2text-mfd-coreml (国内镜像)。
新模型在提升数学公式召回率的同时,降低了误检率。下面给出一些具体的指标。
V1.1.1 新版 MFD
V1.1.1 新版 MFD 包含了 3 个模型:
mfd
:免费开源,下载地址为 breezedeus/pix2text-mfd (国内镜像)。只要把 pix2text Python 包更新到>=1.1.1
:pip install pix2text>=1.1.1
。使用时会自动下载新模型。新模型默认会存储在~/.pix2text/1.1/mfd-onnx
目录中。初始化时使用默认配置即可,使用接口与之前相同。
mfd-advanced
:特供知识星球会员,星球会员可免费下载,具体见星球“精华”区。
mfd-pro
:付费版模型。
以下是 3 个模型训练时在测试集上的各个指标(值越大越好)。各个指标都表明:
mfd-pro
> mfd-advanced
> mfd
。
在线 Demo
在线 Demo 已适配到 V1.1.1,大家可以去这里尝试不同模型的效果。(网页版改版中,还没适配新版模型。)
可以使用此 在线 Demo 尝试 P2T 在不同语言上的效果。但在线 Demo 使用的硬件配置较低,速度会较慢。
如果无法科学上网,可以访问此地址:https://hf.qhduan.com/spaces/breezedeus/Pix2Text-Demo。
新旧 MFD 模型对比
接下来在 mAP (mean Average Precision) 指标上对比下新旧 MFD 模型。下图中灰色对应之前 Pix2Text 版本最好的付费版 MFD 模型,其他颜色对应不同的新版 MFD 模型。可见新版模型相对于旧版获得了很大的提升。
关于 mAP 的详细介绍,可以参考:深度学习-检测器的评价指标 mAP | YixiaoZhou's blog,写的很详细👍。

<ins/>
付费版模型购买
V1.1.1 兼容之前的MFR、CnOCR等模型,只有 MFD 是新模型,不兼容旧版模型。
购买链接和具体说明见:P2T详细资料 | Breezedeus.com 。
使用说明
请安装 Pix2Text V1.1.1 及以上版本:
pip install pix2text>=1.1.1
。通过模型购买商店购买 企业 Pro 版 后,可以下载模型对应的 2 个压缩文件,其中以
p2t-mfd-
开头的文件为 MFD(数学公式检测)模型,以p2t-mfr-
开头的文件为 MFR(数学公式识别)模型。MFD 模型压缩文件解压后会看到一个名为 mfd-*
的文件夹,里面的文件即为模型文件,比如叫 mfd-pro-v20240618.onnx
。假定文件 p2t-mfr-20230702.pth
的路径为 abc/def/yolov7-model/p2t-mfr-20230702.pth
。MFR 模型压缩文件解压后会看到一个名为 mfr-pro-onnx
的文件夹,其中包含模型文件以及相关的配置文件。假定文件夹 mfr-pro-onnx
的路径为 abc/def/mfr-pro-onnx
。那在初始化 Pix2Text 时应该如下传入参数。初始化后的使用方式和开源模型完全一样,检测和识别结果的结构也是一样的。
如果购买的是 企业 Plus 版,可以下载的模型文件会更多,除了包含 MFD (pro)、MFR (plus & pro) 的各种模型的不同版本外,也会包含 CnOCR(文本 OCR)中的最新付费模型(ONNX 和 PyTorch 版本),它对中英文文本的识别效果比免费模型更好。可以使用如下方式传入对应的模型。
注意:CnOCR 的文本模型只支持英文和简体中文,如果要识别其他语言的文本,请勿使用 CnOCR 模型。只需把上面代码中的
text
对应的配置去掉即可。欢迎大家试用,提供反馈~。
<ins/>
- 作者:Breezedeus
- 链接:https://www.breezedeus.com/article/p2t-mfd-v1.1.1
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章