Pix2Text (P2T) 新版公式检测模型

type

Post

status

Published

date

Jun 13, 2023

slug

p2t-mfd-20230613

summary

今天更新了 Pix2Text (P2T) 中的公式检测模型，优化了中文图片中的公式检测效果，以及对单独公式图片的检测效果。

Pix2Text (P2T) 介绍

Pix2Text (P2T) 期望成为 Mathpix 的免费开源 Python 替代工具，目前已经可以完成 Mathpix 的核心功能。P2T 自 V0.2 开始，支持识别既包含文字又包含公式的混合图片，返回效果类似于 Mathpix。P2T 的核心原理见下图（文字识别支持中文和英文）：

P2T 使用开源工具 CnSTD 检测出图片中数学公式所在位置，再交由 LaTeX-OCR 识别出各对应位置数学公式的Latex表示。图片的剩余部分再交由 CnOCR 进行文字检测和文字识别。最后 P2T 合并所有识别结果，获得最终的图片识别结果。感谢这些开源工具。

更多介绍参考 Pix2Text 。对于不想本地部署，只想使用公式识别功能的朋友，可以直接使用 P2T网页版 。

数学公式检测模型更新 (2023/06/13)

数学公式检测（Mathematical Formula Detection，简称 MFD）其实是放在 CnSTD 项目中的，P2T 只是调用 CnSTD 的这个模型罢了。所以本次更新也是 CnSTD 模型的更新。

加入混合图片

P2T网页版 自发布以来，其实已经积累了很多用户的真实调用图片。前两周我花了不少时间，对其中的部分做了标注。标注对象主要针对中文图片。之前的MFD模型其实对英文的检测效果已经相当不错了，但是中文比较差。当时训练的中文数据只有我自己合成的 CnMFD Dataset，缺乏真实图片。所以之前的模型对中文真实图片效果一般，尤其是中学试题类的图片。

这次新标注的数据，主要是既包含文字又包含数学公式的混合图片，其中又会重点关注中文的文字图片。以下是一些代表性图片：

代表性混合图片