type
status
date
slug
summary
tags
category
icon
password
URL
Rating
Pix2Text V1.0 发布,MFR 精度大幅提升。🔥🔥🔥
Pix2Text (P2T) 利用最新的OCR技术识别图片中的数学公式和文字,把数学公式转换为Latex纯文字表示。Pix2Text (P2T) 期望成为 Mathpix 的免费开源 Python 替代工具,目前已经可以完成 Mathpix 的核心功能,支持识别既包含文字又包含公式的混合图片,返回效果类似于 。P2T 的文字识别引擎已支持
80+
种语言,如英文、简体中文、繁体中文、越南语等。P2T 网页版
所有人都可以免费使用 P2T网页版,每人每天可以免费识别 10000 个字符,正常使用应该够用了。请不要批量调用接口,机器资源有限,批量调用会导致其他人无法使用服务。
受限于机器资源,网页版当前只支持简体中文和英文,要尝试其他语言上的效果,请使用以下的在线 Demo。
在线 Demo
可以使用 在线 Demo 尝试 P2T 在不同语言上的效果。但在线 Demo 使用的硬件配置较低,速度会较慢。如果是简体中文或者英文图片,建议使用 P2T网页版。
<ins/>
付费模型
P2T 中包含数学公式检测(MFD)和数学公式识别(MFR)两种模型,细节参见 项目说明。P2T 默认会使用免费的开源模型,使用时进行自动下载。但免费模型之外,我也会持续优化模型。最新的模型需要购买才可下载使用。如果不做本地部署,建议直接使用 P2T网页版,网页版会一直使用最新的模型。
当前网页版模型为:
- MFD:
version-20230613
- MFR:
version-1.0
(updated: 2024-02-26)
P2T网页版使用的付费模型效果比开源模型好。如果你需要自己部署P2T服务,建议你购买网页版同款模型。
购买前注意事项:
个人使用请参考以下表格中的“个人购买”列;企业购买请参考以下表格中的“企业购买”列,或者 联系作者。
购买数学公式检测(MFD)模型
如果只购买 MFD 模型,请使用以下链接购买。如果同时也需要购买 MFR 模型,请进入 模型购买商店 同时购买 2 个模型,不需要再单独购买 MFD 模型。
当前可用的检测模型见下表,具体说明见:P2T YoloV7 数学公式检测模型开放购买 。
检测模型版本 | 企业购买 | 个人购买 | 对星球会员 | 免费可下载 |
YoloV7_Tiny 开源模型 | ✖️ | ✖️ | ✔️ | ✔️ |
version-20230208 | ✖️ | ✔️ B站工房 | ✔️ 免费 | ✖️ |
version-20230613 | ✔️ 八折 | ✖️ |
购买后的使用说明见 这里。
购买数学公式识别(MFR)模型
V1.0 MFR 【个人版】购买链接:bilibili 工房 或 Lemon Squeezy。此链接购买后的模型仅限个人使用,不可商用,bilibili 工房 购买不支持开发票,Lemon Squeezy 购买平台支持开发票。此商品仅包含模型的 ONNX 版本,不包含 PyTorch 版本。企业商用或开发票请见以下说明。关于 P2T V1.0 的更多说明,请见:Pix2Text V1.0 新版发布:最好的开源公式识别模型。
Pix2Text V1.0 包含两种企业版。它们的权益差异见下图。企业 Basic 版是一次性购买,之后有新模型需要重新购买。企业 Basic 版只允许企业内部使用或者对外提供免费的服务(如教育机构),不允许对外提供付费服务。企业 Pro 订阅版是按年订阅,订阅期内可以免费获取所有的新模型。企业 Pro 订阅版也提供模型的 PyTorch 版本,企业可以基于此模型利用自己的数据进行模型精调。企业 Pro 订阅版允许企业对外提供付费服务。
更详细说明请见 模型购买商店(进入商品的详情页有具体说明)。
购买链接见:模型购买商店(进入商品的详情页有具体说明)。
购买后使用说明
通过模型购买商店购买企业 Basic 版后,可以下载模型对应的 2 个压缩文件,其中以
p2t-mfd-
开头的文件为 MFD(数学公式检测)模型,以p2t-mfr-
开头的文件为 MFR(数学公式识别)模型。MFD 模型压缩文件解压后会看到一个名为 yolov7-model
的文件夹,里面的文件即为模型文件,比如叫 mfd-yolov7-20230613.pt
。假定文件 p2t-mfr-20230702.pth
的路径为 abc/def/yolov7-model/p2t-mfr-20230702.pth
。MFR 模型压缩文件解压后会看到一个名为 mfr-pro-onnx
的文件夹,其中包含模型文件以及相关的配置文件。假定文件夹 mfr-pro-onnx
的路径为 abc/def/mfr-pro-onnx
。那在初始化 Pix2Text 时应该如下传入参数。初始化后的使用方式和开源模型完全一样,检测和识别结果的结构也是一样的。
如果购买的是企业 Pro 订阅版,可以下载的模型文件会更多(当前是 5 个),除了包含 MFR 的 PyTorch 版本外,也会包含 CnOCR(文本 OCR)中的最新付费模型(ONNX 和 PyTorch 版本),它对中英文文本的识别效果比免费模型更好。可以使用如下方式传入对应的模型。
注意:CnOCR 的文本模型只支持英文和简体中文,如果要识别其他语言的文本,请勿使用 CnOCR 模型。只需把上面代码中的
text_config
去掉即可。<ins/>
代码库
- (国内)Gitee:https://gitee.com/breezedeus/pix2text
- 作者:Breezedeus
- 链接:https://breezedeus.com/article/pix2text_cn
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章