宣布我们的 LlamaCloud 全面上线(以及我们获得了 1900 万美元的 A 轮融资)!
LlamaIndex

LlamaIndex 2025-02-20

LlamaParse 更新:新增及即将推出的功能

在过去的几周里,有很多关于使用大型视觉模型 (LVM) 解析文档的讨论(例如,此处此处此处)。这些讨论引起了我们的共鸣。

我们一直认为文档解析对开发者来说是一个巨大的痛点,并且从未得到彻底解决。我们决心为此做些什么。2023 年,我们意识到大型语言模型 (LLM) 可以用于解析文档,于是我们开始构建 LlamaParse。我们的理念很简单

  • 首先,我们可以使用传统技术从文档中提取文本和截图
  • 然后,我们可以将其输入到 LLM 或 LVM,让模型将文档重构为结构化形式(我们使用 Markdown),以便正确提取表格、标题等。

起初,由于模型幻觉和/或丢失内容,我们难以获得满意的结果。但随着时间的推移,我们的方法在通用性方面被证明优于以往构建文档解析器的方法,后者利用多个模型训练来提取文档的不同部分,从而导致系统过于复杂。我们的方法在异常和意外的边缘案例上也表现更好

自从我们构建 LlamaParse 以来,它已被用于解析数亿份文档,并受到数万名开发者的信任,满足他们的解析需求。

LlamaParse 的变化

为了更透明地说明 LlamaParse 的工作原理,我们决定重新命名我们的解析模式。现在我们提供三种简化的选择

  • 快速 — 最便宜、最快速的解析
  • 平衡 — 最佳的成本/速度/准确性权衡
  • 高级 — 始终使用我们最准确的解析技术

但对于那些想要更多控制权的用户,我们将允许您指定解析文档的方式。以下是这些选项的描述

无 AI 解析

有时,文档的结构并不那么重要。在这种情况下,我们输出文档中的原始文本,采用 LLM 最易于理解的非结构化格式:布局文本。

我们尝试保持文本在空间上与原始文档相同的布局。我们的提取器在这个层面上拥有数十种优秀功能,包括

  • 支持数百种文件格式,以及
  • 提取文档中包含的所有图像
  • 使用 OCR 转录文档中所有非机器可读的文本内容
  • 修复常见问题,如字体损坏、文档损坏
  • 还有更多!

使用 LLM 解析

在此模式下,我们首先使用内部解析器提取文本,然后将其输入到大型语言模型中以重构文档结构。我们在尽可能提高效率的同时,对 LLM 输出进行纠错以改进结果。

使用 LVM 解析

此方法使用我们的内部解析器截取文档屏幕截图,并将其输入到 LVM。我们目前支持多个外部 LVM 模型供应商,例如 OpenAI、Azure、Anthropic 和 Google,未来还将添加更多。如果您愿意,可以提供自己的 API 密钥,我们仅收取象征性的费用来处理解析。

使用代理解析

在我们最先进的模式下,我们使用代理工作流程尽最大能力解析提供的文档。这包括在需要时使用 LVM 和 LLM。这为我们提供了最高的准确性,尽管这需要更多时间和成本。

其他更改

在本次发布中,我们还废弃了旧的“解析指令”系统,并将其替换为更清晰的系统提示和用户提示组合,这让您可以更好地控制文档的解析方式。

未来展望

我们正在努力进一步改进 LlamaParse。我们致力于构建更快、更便宜、更准确的解析堆栈,并希望能够达到一个无需再与解析工具纠结的境界。为此,我们将不断突破界限:整合和开发新模型,力求一劳永逸地解决这个问题。

尽管目前大多数工具都专注于逐页解析文档,但我们认为应该将文档作为一个整体来处理。我们在这方面迈出了第一步,推出了所谓的“连续模式”(现称为“使用 LLM 解析”),并正在努力改进我们的整个文档解析能力。表格是否跨页分割不应影响解析,并且应保持标题的层级结构。我们将在所有解析模式中添加选项,以考虑整个文档(而不仅仅是页面)。

目前,我们仅在 LVM 模式下提供使用您自己模型的功能。我们很快就会开始将此功能添加到其他模式中,首先是基于 Gemini 2.0 构建的代理系统。我们预计将在本周晚些时候发布此功能,进一步改进我们目前的 Premium 模式。

您今天就可以免费试用 LlamaParse!此外,如果您有兴趣帮助我们应对这一挑战,我们正在招聘 LlamaParse 团队的工程师