type
status
date
slug
summary
tags
category
icon
password
URL
Rating
Pix2Text (P2T) 识别图片中文字和数学公式,输出对应的文本和 Latex 表达式;其目标是成为 Mathpix 的免费开源 Python 替代工具。Pix2Text 是 2023 年 2 月份发布的初版,距离现在差不多刚一年,GitHub stars 也突破了 2500🌟,这是个典型的缓慢积累的项目。
如我之前所说,Pix2Text 是坚持走 小模型+开源 的路线,模型大小得保证在一般的 CPU 机器上能跑得动,代码和基础模型都开源,同时也提供精度更高的付费模型供购买后个人或商业使用。Pix2Text 整合了版面分析和表格识别模型,可以识别图片中的版面、表格、图片、文字、数学公式等内容,并整合所有内容后以 Markdown 格式输出。P2T 也可以把一整个 PDF 文件(PDF 的内容可以是扫描图片或者其他任何格式)转换为 Markdown 格式。具体原理说明见 Pix2Text V1.1 新版发布,支持 PDF 转 Markdown
 
一年前我发布了新架构的 MFD 和 MFR 模型,它们一直是同体量模型中效果最好的数学公式检测和识别模型。目前 MFR 的开源模型下载量已经超过了 600K,这个数字对我个人来说是个很大的激励。这些模型我称之为 V1.0 版本。
这次新发布的 MFD 和 MFR 模型我称之为 V1.5 版本。接下来介绍下新版本模型的差异点和效果吧。
📌
注意:新发布的模型版本为 V1.5,pix2text Python 库的版本依旧是 V1.1.*
<ins/>
 

MFD V1.5 模型

之前的 MFD V1.0 版本模型是基于 yolo8 架构训练得到的检测模型。而新版的 1.5 版本模型使用了新的 yolo11 架构。
同时,我们也增加了检测模型的训练数据,让模型相较于其他开源模型更能适应非标准排版图片(如 PPT,手机拍照图片)。
 
以下是 MFD 新旧模型的对比:
模型名称
模型架构
模型说明
MFD-1.0 (MFD)
yolov8m
开源
MFD-1.5
yolo11m
开源
MFD-ADVANCED-1.5
yolo11l
知识星球会员专享
MFD-PRO-1.5
yolo11x
付费可购买
 
各模型参数量如下:
notion image
 
以下是模型在验证集上的效果:
notion image
notion image
 
可见,新版的 V1.5(yolo11 系列)模型,相较于 V1.0 模型,效果有较显著的提升。
 

MFR V1.5 模型

和之前的 MFR 模型(V1.0)一样,MFR V1.5 也包含 MFR-1.5MFR-PRO-1.5 两个模型。
 
MFR V1.5 使用的模型架构和 V1.0 相同,但训练过程做了以下优化:
  • V1.0 模型对根号公式图片(如下图)识别效果一般,V1.5 针对此问题做了优化,专门加入了对应的训练数据。
    • notion image
  • V1.0 模型能识别的最大 tokens 数量为 512,V1.5 模型这个数字提升为 1024,以便更好地识别复杂的多行公式。
  • V1.5 加入了更多来自真实场景的图片标注数据,进一步提升了模型效果。
 
以下是各个模型在人工选定的测试数据集上的 CER(字错误率,越小越好)
notion image
 
由于 LaTeX 表达具有多样性(同样的公式可以使用不同的 LaTeX 表达式渲染得到),我们也对生成结果做了人工评测。对于一个模型结果,只要它渲染成图片后的结果和原始图片相同即视为成功(得分 1.0),否则视为失败(得分 0.0)。以下是不同模型在测试集上的整体得分(得分越高越好):
notion image
 
由上图可见,相较于 V1.0 的模型,MFR V1.5 的模型效果得到进一步提升。
 
 

本地使用方式

安装

如果已安装旧版 pix2text,使用以下命令更新相应的 Python 包:
 
如果未安装过 pix2text,可以直接使用以下命令安装最新的 pix2text 包即可:
 

使用

新版 pix2text 默认会使用数学公式检测模型 mfd-1.5 和 数学公式识别模型 mfr-1.5
 
推理使用时用到的模型文件会自动下载,文件默认从 Huggingface 网站下载。如果没有梯子,请多等待一会,系统会自动切换到 Huggingface 镜像站下载。

P2T 网页版

 
所有人都可以免费使用 P2T网页版,每人每天可以免费识别 10000 个字符,正常使用应该够用了。请不要批量调用接口,机器资源有限,批量调用会导致其他人无法使用服务。
 
受限于机器资源,网页版支持的文本 OCR 语言有限。如果要尝试其他语言上的效果,请使用以下的在线 Demo
<ins/>

在线 Demo

 
可以使用此 在线 Demo 尝试 P2T 在不同语言上的效果。但在线 Demo 使用的硬件配置较低,速度会较慢。如果是简体中文或者英文图片,建议使用 P2T网页版
📌
如果无法科学上网,可以访问此地址:https://hf-mirror.com/spaces/breezedeus/Pix2Text-Demo

付费版模型购买

购买链接

MFR-Pro-1.5个人版】购买链接:bilibili 商城。此链接购买后的模型仅限个人使用,不可商用,不可开发票。此商品仅包含模型的 ONNX 版本,不包含 PyTorch 版本。企业商用或开发票请见以下说明。MFD-Pro-1.5【个人版】购买链接:bilibili 商城
 
Pix2Text V1.0+ 包含两种企业版。它们的权益差异见下图。企业 Pro 版 是一次性购买,之后有新模型需要重新购买。企业 Pro 版 只允许企业内部使用或者对外提供免费的服务(如教育机构),不允许对外提供付费服务。企业 Plus 版 购买后一年内可以免费获取所有的新模型。企业 Plus 版 除了提供 Pro 模型外也提供 Plus 版 模型,同时提供所有模型的 PyTorch 版本,企业可以基于这些模型利用自己的数据进行模型精调,或者转换为需要的其他模型格式(如 CoreML等)。企业 Plus版 允许企业对外提供付费服务。
更详细说明请见 模型购买商店(进入商品的详情页有具体说明)。
notion image
 
购买链接见:模型购买商店(进入商品的详情页有具体说明)。
 

使用说明

首先,请确保你用开源的模型跑通了 Pix2Text,否则你下载完付费模型也跑不起来。详细安装和使用说明看 Pix2Text 项目文档就行。遇到问题可以在这里评论,或者加入群聊与我沟通,但请注意帮你跑通代码不在星主的服务范围之内(参考 星球说明)。
 
通过模型购买商店购买企业 Basic 版后,可以下载模型对应的 2 个压缩文件,其中以 *-mfd- 开头的文件为 MFD(数学公式检测)模型,以*-mfr- 开头的文件为 MFR(数学公式识别)模型。MFD 模型压缩文件解压后会看到一个名为 *-onnx 的文件夹,里面的文件即为模型文件,比如叫 pix2text-mfd-pro-1.5.onnx 。假定文件 pix2text-mfd-pro-1.5.onnx 的路径为 abc/def/mfd-pro-1.5-onnx/pix2text-mfd-pro-1.5.onnx。MFR 模型压缩文件解压后会看到一个名为 mfr-pro-1.5-onnx 的文件夹,其中包含模型文件以及相关的配置文件。假定文件夹 mfr-pro-1.5-onnx 的路径为 abc/def/mfr-pro-1.5-onnx
 
那在初始化 Pix2Text 时应该如下传入参数。初始化后的使用方式和开源模型完全一样,检测和识别结果的结构也是一样的。
 
如果购买的是企业 Pro 订阅版,可以下载的模型文件会更多(当前是 5 个),除了包含 MFR 的 PyTorch 版本外,也会包含 CnOCR(文本 OCR)中的最新付费模型(ONNX 和 PyTorch 版本),它对中英文文本的识别效果比免费模型更好。可以使用如下方式传入对应的模型。
📌
注意:CnOCR 的文本模型只支持英文简体中文,如果要识别其他语言的文本,请勿使用 CnOCR 模型。只需把上面代码中的 text_config 去掉即可。
 
Pix2Text V1.0 新模型已部署到 P2T网页版,欢迎免费使用。有问题可以在这里评论,或者加入群聊与我沟通,谢谢。
 
About MeMONDAY:从视频自动构建 GUI Agents 轨迹数据
Loading...