
LlamaIndex • 2024-11-01
LlamaParse 新功能:多页表格(测试版)和 Excel 电子表格输出
在 LlamaIndex,我们不断改进 LlamaParse,这是我们世界级的文档解析器,用于处理 PDF、Word 文件、Excel 电子表格和 PowerPoint 演示文稿等复杂文档格式。我们始终倾听用户反馈,寻找可以解决的新痛点。今天,我们很高兴推出两项新功能:Excel 文件输出和用于处理多页表格的连续模式。
连续模式(测试版)
我们的最新创新解决了多页表格的问题:正如 Sacha 在这段视频中演示的那样,解析跨越多页的单个表格过去会带来几个麻烦的问题
- 表格的两部分在输出中显示为独立的表格
- 第一页表格中的表头不一定在后续页面上保留或正确
- 这种不一致性在 LlamaParse 的原始 JSON 输出中重复出现
通过新的连续模式,我们可以通过单击解决这一限制:只需将其打开,即使跨越多页的表格也可以快速合并成一个易于解析和操作的单个表格。
此功能处于测试版:我们主要在小型文档(< 10 页)上进行了测试,其中包含相对简单的格式化表格。它的运行速度会比我们其他解析模式慢一些,解析一份完整的 80 页 10K 报告可能需要约 30 分钟。
Excel 电子表格输出
我们观察到的另一个常见用例是将表格数据直接解析成电子表格格式,以便在 Microsoft Excel 等程序中进行操作。现在,在 LlamaParse 中只需单击即可实现!
要获取 Excel 工作表输出,请在精确模式、高级模式或连续模式下解析文档。文档准备就绪后,选择新的“XLSX”输出格式,然后单击“导出”按钮,您的 Excel 文件将自动下载。

是的,这两项功能可以无缝结合!如果您在连续模式下解析一个超大表格,您可以将其作为 Excel 工作表输出。