type
status
date
slug
summary
tags
category
icon
password
URL
Rating
Pix2Text (P2T) 期望成为 Mathpix 的免费开源 Python 替代工具,目前已经可以完成 Mathpix 的核心功能。 Pix2Text (P2T) 可以识别图片中的版面、表格、图片、文字、数学公式等内容,并整合所有内容后以 Markdown 格式输出。P2T 也可以把一整个 PDF 文件(PDF 的内容可以是扫描图片或者其他任何格式)转换为 Markdown 格式。P2T 的文字识别引擎已支持
80+
种语言,如英文、简体中文、繁体中文、越南语等。Pix2Text 当前整合了以下模型:
- 版面分析模型:breezedeus/pix2text-layout (国内地址)。
- 表格识别模型:breezedeus/pix2text-table-rec (国内地址)。
- 文字识别引擎:支持
80+
种语言,如英文、简体中文、繁体中文、越南语等。其中,英文和简体中文识别使用的是开源 OCR 工具 CnOCR ,其他语言的识别使用的是开源 OCR 工具 EasyOCR 。
- 数学公式检测模型(MFD):来自 CnSTD 的数学公式检测模型(MFD)。
- 数学公式识别模型(MFR):breezedeus/pix2text-mfr (国内地址)。
其中多个模型来自其他开源作者, 非常感谢他们的贡献。
具体说明请参考 可用模型。
P2T 网页版
所有人都可以免费使用 P2T网页版,每人每天可以免费识别 10000 个字符,正常使用应该够用了。请不要批量调用接口,机器资源有限,批量调用会导致其他人无法使用服务。
受限于机器资源,网页版当前只支持简体中文和英文,要尝试其他语言上的效果,请使用以下的在线 Demo。
在线 Demo
可以使用 在线 Demo 尝试 P2T 在不同语言上的效果。但在线 Demo 使用的硬件配置较低,速度会较慢。如果是简体中文或者英文图片,建议使用 P2T网页版。
在线文档
<ins/>
付费模型
P2T 中包含数学公式检测(MFD)和数学公式识别(MFR)两种模型,细节参见 项目说明。P2T 默认会使用免费的开源模型,使用时进行自动下载。但免费模型之外,我也会持续优化模型。最新的模型需要购买才可下载使用。如果不做本地部署,建议直接使用 P2T网页版,网页版会一直使用最新的模型。
当前网页版模型(Pix2Text V1.1 和 V1.0 都可使用)为:
- MFD:
version-20230613
- MFR:
version-1.0
(updated: 2024-02-26)
P2T网页版使用的付费模型效果比开源模型好。如果你需要自己部署P2T服务,建议你购买网页版同款模型。
购买前注意事项:
个人使用请参考以下表格中的“个人购买”列;企业购买请参考以下表格中的“企业购买”列,或者 联系作者。
购买数学公式检测(MFD)模型
如果只购买 MFD 模型,请使用以下链接购买。如果同时也需要购买 MFR 模型,请进入 模型购买商店 同时购买 2 个模型,不需要再单独购买 MFD 模型。
当前可用的检测模型见下表,具体说明见:P2T YoloV7 数学公式检测模型开放购买 。
检测模型版本 | 企业购买 | 个人购买 | 对星球会员 | 免费可下载 |
YoloV7_Tiny 开源模型 | ✖️ | ✖️ | ✔️ | ✔️ |
version-20230208 | ✖️ | ✔️ B站工房 | ✔️ 免费 | ✖️ |
version-20230613 | ✔️ 八折 | ✖️ |
购买后的使用说明见 这里。
以上模型兼容 Pix2Text V1.1 和 V1.0 。
购买数学公式识别(MFR)模型
V1.1/V1.0 MFR 【个人版】购买链接:bilibili 工房 或 Lemon Squeezy。此链接购买后的模型仅限个人使用,不可商用,bilibili 工房 购买不支持开发票,Lemon Squeezy 购买平台支持开发票。此商品仅包含模型的 ONNX 版本,不包含 PyTorch 版本。企业商用或开发票请见以下说明。
- 关于 P2T V1.1 的更多说明,请见:Pix2Text V1.1 新版发布,支持 PDF 转 Markdown。
- 关于 P2T V1.0 的更多说明,请见:Pix2Text V1.0 新版发布:最好的开源公式识别模型。
Pix2Text V1.0 包含两种企业版。它们的权益差异见下图。企业 Basic 版是一次性购买,之后有新模型需要重新购买。企业 Basic 版只允许企业内部使用或者对外提供免费的服务(如教育机构),不允许对外提供付费服务。企业 Pro 订阅版是按年订阅,订阅期内可以免费获取所有的新模型。企业 Pro 订阅版也提供模型的 PyTorch 版本,企业可以基于此模型利用自己的数据进行模型精调。企业 Pro 订阅版允许企业对外提供付费服务。
更详细说明请见 模型购买商店(进入商品的详情页有具体说明)。
购买链接见:模型购买商店(进入商品的详情页有具体说明)。
以上模型兼容 Pix2Text V1.1 和 V1.0 。
购买后使用说明
- 如果安装的是 Pix2Text V1.1,使用说明见 Pix2Text V1.1 新版发布,支持 PDF 转 Markdown。
- 如果安装的是 Pix2Text V1.0,使用说明见 Pix2Text V1.0 新版发布:最好的开源公式识别模型。
<ins/>
代码库
- (国内)Gitee:https://gitee.com/breezedeus/pix2text
- 作者:Breezedeus
- 链接:https://www.breezedeus.com/article/pix2text_cn
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章