Pix2Text 新版公式识别模型

type

Post

status

Published

date

Jul 2, 2023

slug

p2t-mfd-20230702

summary

今天更新了 Pix2Text (P2T) 中的公式识别模型。新模型的精度更高，尤其是对手写公式和多行公式类的图片。

新公式识别模型 `version-20230702`

因为使用了不同的训练和测试数据，所以没法在Latex-OCR原始的测试数据上对比效果。但可以在我的测试数据上看到两个模型的大致效果对比。下图是新模型（version-20230702）训练时在测试集上的效果，其中 val/bleu 和 val/token_acc 都是越大越好，而 val/edit_distance 则是越小越好。

新模型的训练是以Latex-OCR开源模型为初始值的，所以初始位置的效果基本就是Latex-OCR开源模型在此测试集上的效果。此测试集中包含了一些手写和多行公式的图片，所以Latex-OCR开源模型的效果不是很好。

从下图中可见，通过训练后，新模型（version-20230702）相较于Latex-OCR开源模型在三个指标上都有了比较大的改善。

另外，新模型对手写公式和多行公式类的图片，识别精度有显著提升。提升的主要原因是训练过程加入了很多相关的数据。

新旧模型示例对比

下图展示了新旧模型在一些示例图片上的效果对比。最左列为待识别的原始图片，中间列为旧模型效果（Latex-OCR开源模型），最右列为新模型效果（version-20230702）。

📌

旧模型的识别结果中存在格式错误（渲染失败）的概率还挺高的，这个问题在新模型上也好了很多。

模型购买

购买链接

链接如下，更多说明见这里。

识别模型版本	企业购买	个人购买	对星球会员	免费可下载
`Latex-OCR开源模型`	✖️	✖️	✔️	✔️
`version-20230702`	✔️ Lemon Squeezy	✔️ B站工房 Gumroad	✔️ 八折	✖️

为感谢星球会员的支持，星球会员购买所有的个人版模型一律八折。通过下面表格中的链接购买并确认收货后，加小助手为好友，小助手会把折扣金额返现。注意：企业版不提供折扣。

使用说明

首先，请确保你用开源的模型跑通了 Pix2Text，否则你下载完付费模型也跑不起来。详细安装和使用说明看 Pix2Text 项目文档就行。遇到问题可以在这里评论，或者加入群聊与我沟通，但请注意帮你跑通代码不在星主的服务范围之内（参考星球说明）。

通过前面的购买链接下载模型文件，解压后会看到一个名为 p2t-mfr-model 的文件夹，里面的文件即为模型文件，比如叫 p2t-mfr-20230702.pth 。假如文件 p2t-mfr-20230702.pth 的路径为 abc/def/p2t-mfr-model/p2t-mfr-20230702.pth，那在初始化 Pix2Text 时应该如下传入参数。初始化后的使用方式和开源模型完全一样，检测和识别结果也没有差别。

如果既要设定检测模型的路径，又要设定识别模型的路径，可以使用如下方式：

新模型 version-20230702 已部署到 P2T网页版，欢迎免费使用。有问题可以在这里评论，或者加入群聊与我沟通，谢谢。

<ins/>