本文介绍了优化 LLM 效果的三种方法:Prompt Engineering、RAG 和 Fine-tuning。详细描述了它们的使用场景、优劣势,并基于具体示例给出了它们带来的效果提升。
EffOCR 使用了切字+向量检索的方法来做文字识别,很不一样的思路,非常有趣。
介绍由 LLM 驱动的 AI Agents 的相关技术和工具。Part 3 介绍另外几个热门的 Agent 框架:agents、AutoAgents 和 ChatDev(通过agents之间的多轮交互完成任务)。
CnOCR 中新加入了纯数字识别新模型,适合银行卡号识别、身份证号识别、硬币年份识别等应用场景。
详细介绍 Meta 刚刚开源的版面恢复大模型 Nougat(牛轧糖),并与我的版面恢复开源小工具 Pix2Text (P2T) 做了对比。
介绍由 LLM 驱动的 AI Agents 的相关技术和工具。Part 2 介绍3个热门的 Agent 框架:AutoGPT、GPT-Engineer 和 MetaGPT。
介绍使用 LLM 来解决超难问题的 Least-to-Most Prompting 框架。
介绍由 LLM 驱动的 AI Agents 的相关技术和工具。Part 1 介绍 Agent 的一般框架,背景知识和斯坦福的虚拟小镇论文。
《机器学习&自然语言处理》付费课程解密了。
今天更新了 Pix2Text (P2T) 中的公式识别模型。新模型的精度更高,尤其是对手写公式和多行公式类的图片。
上周线下分享的文字版,介绍了多模态学习的概念、意义、模型架构、代表模型和挑战等。
介绍数据标注工具Label Studio,如何导入本地文件生成标注数据,如何导入模型预测结果,以及如何导出标注结果并转换成MFD模型训练所需格式。