type
status
date
slug
summary
tags
category
icon
password
URL
Rating
 
[中文] | [English]
 
 
🥳
Pix2Text V1.0 发布,MFR 精度大幅提升。🔥🔥🔥
 
Pix2Text (P2T) 利用最新的OCR技术识别图片中的数学公式和文字,把数学公式转换为Latex纯文字表示。Pix2Text (P2T) 期望成为 Mathpix免费开源 Python 替代工具,目前已经可以完成 Mathpix 的核心功能,支持识别既包含文字又包含公式的混合图片,返回效果类似于 。P2T 的文字识别引擎已支持 80+ 种语言,如英文、简体中文、繁体中文、越南语等。
 

P2T 网页版

 
所有人都可以免费使用 P2T网页版,每人每天可以免费识别 10000 个字符,正常使用应该够用了。请不要批量调用接口,机器资源有限,批量调用会导致其他人无法使用服务。
 
受限于机器资源,网页版当前只支持简体中文和英文,要尝试其他语言上的效果,请使用以下的在线 Demo
 

在线 Demo

可以使用 在线 Demo 尝试 P2T 在不同语言上的效果。但在线 Demo 使用的硬件配置较低,速度会较慢。如果是简体中文或者英文图片,建议使用 P2T网页版
<ins/>

付费模型

P2T 中包含数学公式检测(MFD)数学公式识别(MFR)两种模型,细节参见 项目说明。P2T 默认会使用免费的开源模型,使用时进行自动下载。但免费模型之外,我也会持续优化模型。最新的模型需要购买才可下载使用。如果不做本地部署,建议直接使用 P2T网页版,网页版会一直使用最新的模型。
 
当前网页版模型为:
  • MFD: version-20230613
  • MFR: version-1.0 (updated: 2024-02-26)
P2T网页版使用的付费模型效果比开源模型好。如果你需要自己部署P2T服务,建议你购买网页版同款模型。
 
为感谢星球会员的支持,星球会员购买所有的个人版模型一律八折。通过下面表格中的链接购买并确认收货后,加小助手为好友,小助手会把折扣金额返现。注意:企业版不提供折扣。
 
购买前注意事项:
📌
请确保你用开源的模型跑通了 Pix2Text,否则你下载完付费模型可能跑不起来。详细安装和使用说明看 Pix2Text 项目文档就行。遇到问题可以在这里评论,或者加入群聊与我沟通,但请注意帮你跑通代码不在作者的服务范围之内(参考 星球说明)。
📌
个人使用请参考以下表格中的“个人购买”列;企业购买请参考以下表格中的“企业购买”列,或者 联系作者

购买数学公式检测(MFD)模型

如果只购买 MFD 模型,请使用以下链接购买。如果同时也需要购买 MFR 模型,请进入 模型购买商店 同时购买 2 个模型,不需要再单独购买 MFD 模型。
当前可用的检测模型见下表,具体说明见:P2T YoloV7 数学公式检测模型开放购买
检测模型版本
企业购买
个人购买
对星球会员
免费可下载
YoloV7_Tiny 开源模型
✖️
✖️
✔️
✔️
version-20230208
✖️
✔️ B站工房
✔️ 免费
✖️
version-20230613
✔️ 八折
✖️
 
购买后的使用说明见 这里
 

购买数学公式识别(MFR)模型

V1.0 MFR个人版】购买链接:bilibili 工房 Lemon Squeezy。此链接购买后的模型仅限个人使用,不可商用,bilibili 工房 购买不支持开发票,Lemon Squeezy 购买平台支持开发票。此商品仅包含模型的 ONNX 版本,不包含 PyTorch 版本。企业商用或开发票请见以下说明。关于 P2T V1.0 的更多说明,请见:Pix2Text V1.0 新版发布:最好的开源公式识别模型
 
Pix2Text V1.0 包含两种企业版。它们的权益差异见下图。企业 Basic 版是一次性购买,之后有新模型需要重新购买。企业 Basic 版只允许企业内部使用或者对外提供免费的服务(如教育机构),不允许对外提供付费服务。企业 Pro 订阅版是按年订阅,订阅期内可以免费获取所有的新模型。企业 Pro 订阅版也提供模型的 PyTorch 版本,企业可以基于此模型利用自己的数据进行模型精调。企业 Pro 订阅版允许企业对外提供付费服务。
更详细说明请见 模型购买商店(进入商品的详情页有具体说明)。
notion image
 
购买链接见:模型购买商店(进入商品的详情页有具体说明)。
 

购买后使用说明

通过模型购买商店购买企业 Basic 版后,可以下载模型对应的 2 个压缩文件,其中以 p2t-mfd- 开头的文件为 MFD(数学公式检测)模型,以p2t-mfr- 开头的文件为 MFR(数学公式识别)模型。MFD 模型压缩文件解压后会看到一个名为 yolov7-model 的文件夹,里面的文件即为模型文件,比如叫 mfd-yolov7-20230613.pt 。假定文件 p2t-mfr-20230702.pth 的路径为 abc/def/yolov7-model/p2t-mfr-20230702.pth。MFR 模型压缩文件解压后会看到一个名为 mfr-pro-onnx 的文件夹,其中包含模型文件以及相关的配置文件。假定文件夹 mfr-pro-onnx 的路径为 abc/def/mfr-pro-onnx
 
那在初始化 Pix2Text 时应该如下传入参数。初始化后的使用方式和开源模型完全一样,检测和识别结果的结构也是一样的。
 
如果购买的是企业 Pro 订阅版,可以下载的模型文件会更多(当前是 5 个),除了包含 MFR 的 PyTorch 版本外,也会包含 CnOCR(文本 OCR)中的最新付费模型(ONNX 和 PyTorch 版本),它对中英文文本的识别效果比免费模型更好。可以使用如下方式传入对应的模型。
📌
注意:CnOCR 的文本模型只支持英文简体中文,如果要识别其他语言的文本,请勿使用 CnOCR 模型。只需把上面代码中的 text_config 去掉即可。
 
<ins/>

代码库

 
📌
P2T 利用 CnOCREasyOCR 识别图片中的文字部分,CnOCR 相关内容参考 这里
 
CnOCRP2T Detailed Infos
Loading...