type
status
date
slug
summary
tags
category
icon
password
URL
Rating
 
[中文] | [English]
 
Pix2Text (P2T) 期望成为 Mathpix 的免费开源 Python 替代工具,目前已经可以完成 Mathpix 的核心功能。 Pix2Text (P2T) 可以识别图片中的版面、表格、图片、文字、数学公式等内容,并整合所有内容后以 Markdown 格式输出。P2T 也可以把一整个 PDF 文件(PDF 的内容可以是扫描图片或者其他任何格式)转换为 Markdown 格式。P2T 的文字识别引擎已支持 80+ 种语言,如英文、简体中文、繁体中文、越南语等。
 
Pix2Text 当前整合了以下模型:
  • 文字识别引擎:支持 80+ 种语言,如英文、简体中文、繁体中文、越南语等。其中,英文简体中文识别使用的是开源 OCR 工具 CnOCR ,其他语言的识别使用的是开源 OCR 工具 EasyOCR 。
  • 数学公式检测模型(MFD):来自 CnSTD 的数学公式检测模型(MFD)。
其中多个模型来自其他开源作者, 非常感谢他们的贡献。
notion image
 
具体说明请参考 可用模型

P2T 网页版

 
所有人都可以免费使用 P2T网页版,每人每天可以免费识别 10000 个字符,正常使用应该够用了。请不要批量调用接口,机器资源有限,批量调用会导致其他人无法使用服务。
 
受限于机器资源,网页版当前只支持简体中文和英文,要尝试其他语言上的效果,请使用以下的在线 Demo
 

在线 Demo

可以使用 在线 Demo 尝试 P2T 在不同语言上的效果。但在线 Demo 使用的硬件配置较低,速度会较慢。如果是简体中文或者英文图片,建议使用 P2T网页版

在线文档

<ins/>

付费模型

P2T 中包含数学公式检测(MFD)数学公式识别(MFR)两种模型,细节参见 项目说明。P2T 默认会使用免费的开源模型,使用时进行自动下载。但免费模型之外,我也会持续优化模型。最新的模型需要购买才可下载使用。如果不做本地部署,建议直接使用 P2T网页版,网页版会一直使用最新的模型。
 
当前网页版模型(Pix2Text V1.1V1.0 都可使用)为:
  • MFD: version-20230613
  • MFR: version-1.0 (updated: 2024-02-26)
P2T网页版使用的付费模型效果比开源模型好。如果你需要自己部署P2T服务,建议你购买网页版同款模型。
 
为感谢星球会员的支持,星球会员购买B站所有的个人版模型一律八折。通过下面表格中的链接购买并确认收货后,加小助手为好友,小助手会把折扣金额返现。注意:企业版不提供折扣。
 
购买前注意事项:
📌
请确保你用开源的模型跑通了 Pix2Text,否则你下载完付费模型可能跑不起来。详细安装和使用说明看 Pix2Text 项目文档就行。遇到问题可以在这里评论,或者加入群聊与我沟通,但请注意帮你跑通代码不在作者的服务范围之内(参考 星球说明)。
📌
个人使用请参考以下表格中的“个人购买”列;企业购买请参考以下表格中的“企业购买”列,或者 联系作者

购买数学公式检测(MFD)模型

如果只购买 MFD 模型,请使用以下链接购买。如果同时也需要购买 MFR 模型,请进入 模型购买商店 同时购买 2 个模型,不需要再单独购买 MFD 模型。
当前可用的检测模型见下表,具体说明见:P2T YoloV7 数学公式检测模型开放购买
检测模型版本
企业购买
个人购买
对星球会员
免费可下载
YoloV7_Tiny 开源模型
✖️
✖️
✔️
✔️
version-20230208
✖️
✔️ B站工房
✔️ 免费
✖️
version-20230613
✔️ B站购买八折
✖️
 
购买后的使用说明见 这里
📌
以上模型兼容 Pix2Text V1.1 和 V1.0 。

购买数学公式识别(MFR)模型

V1.1/V1.0 MFR个人版】购买链接:bilibili 工房 Lemon Squeezy。此链接购买后的模型仅限个人使用,不可商用,bilibili 工房 购买不支持开发票,Lemon Squeezy 购买平台支持开发票。此商品仅包含模型的 ONNX 版本,不包含 PyTorch 版本。企业商用或开发票请见以下说明。
 
Pix2Text V1.0 包含两种企业版。它们的权益差异见下图。企业 Basic 版是一次性购买,之后有新模型需要重新购买。企业 Basic 版只允许企业内部使用或者对外提供免费的服务(如教育机构),不允许对外提供付费服务。企业 Pro 订阅版是按年订阅,订阅期内可以免费获取所有的新模型。企业 Pro 订阅版也提供模型的 PyTorch 版本,企业可以基于此模型利用自己的数据进行模型精调。企业 Pro 订阅版允许企业对外提供付费服务。
更详细说明请见 模型购买商店(进入商品的详情页有具体说明)。
notion image
 
购买链接见:模型购买商店(进入商品的详情页有具体说明)。
📌
以上模型兼容 Pix2Text V1.1 和 V1.0 。

购买后使用说明

 
<ins/>

代码库

 
📌
P2T 利用 CnOCREasyOCR 识别图片中的文字部分,CnOCR 相关内容参考 这里
 
CnOCRP2T Detailed Infos
Loading...