
Jerry Liu • 2025-04-23
超越聊天机器人:企业采用智能体式文档工作流
今年早些时候,我们介绍了智能体式文档工作流(ADW)架构。本文将开启一系列深入探讨的文章,从基本问题开始:如何实现ADW,以及何时应该这样做?
什么是ADW?
2025年是智能体之年。自2023年以来,我们一直认为朴素的RAG本身不足以满足企业需求,因此我们无需再次论证这一点。相反,我们希望描绘一个积极的愿景:现实世界中的智能体应用是什么样的,尤其是在处理企业数据挑战时。
企业的工作模式以PDF、PowerPoint、HTML和Excel电子表格等文件格式为主。这些文件设计用于供人类阅读和编写,过去一直是自动化的障碍。
随着LLMs的出现,这一障碍已经消失。LLMs非常擅长处理企业文件中的非结构化和半结构化数据,这开启了创建智能体应用以自动化先前手动流程主要部分的可能性。
一直以来缺少的是一种清晰的参考架构,能够帮助企业超越“与文档聊天”的原型,转向能够解决我们客户遇到的现实世界用例的完全集成、自动化的流程。智能体式文档工作流正是缺失的参考架构。
ADW的四个阶段
一个最简的ADW包含四个阶段,它们通过正式的数据契约连接
阶段 | 职责 | 典型技术 |
---|---|---|
解析 (Parse) | 将原始文件转换为无损的、类型化的对象(文本块、表格、图像、元数据) | LlamaParse、多模态OCR、自定义提取器 |
检索 (Retrieve) | 仅呈现与任务相关的上下文片段,并追溯到来源 | 混合BM25 + 密集向量搜索、元数据过滤器、递归查找 |
推理 (Reason) | 应用策略和多步逻辑;在轮次间保持状态 | ReAct / 函数调用循环、声明式工作流DSL、安全护栏 |
行动 (Act) | 将结果提交到下游系统;生成审计日志 | Webhooks、SQL写入、ERP/CRM适配器、消息机器人 |
ADW模式的力量源于用于将每个阶段的输出传递给下一个阶段的类型化消息(例如 Pydantic 模型)。这使得每个阶段都能自信地期望其输入,从而实现更好的错误处理和重试。这些正式契约将ADW与早期更临时的RAG和智能体实现区分开来。
这些正式的交接点也促进了通常至关重要的人工参与。人工专业知识并非在每个阶段都必需,但对于某些应用,人工审查对于处理异常、质量控制和提供监督至关重要。
ADW的构建块
为了有效实现ADW模式,您需要四个协同工作的关键组件
- 解析引擎 – 一个 VLM 原生解析器,能够理解复杂布局和表格,并能提取为结构化输出。这是允许LLMs理解您的数据的关键基础层。
- 知识层 – 一个索引和检索系统,可以为您的智能体提供工具(例如通过MCP服务器)来访问您的各种数据源
- 智能体编排 – 一个系统,允许您将完全确定性步骤和LLM媒介步骤相结合,以利用智能体的灵活性,同时保持安全护栏。
- 行动连接器 – 连接企业系统(如 ERP、CRM、数据库和通信渠道)的类型化接口,允许您的智能体将其输出连接到您的软件生态系统的其余部分。
在这些组件中的每一个阶段,人工参与都可以提供审批机制和反馈循环,使人类专家能够审查、覆盖并改进系统输出。
为了有效实现ADW,您的智能体框架需要访问高质量数据、一种将灵活性与确定性相结合的清晰机制,以及各种高质量的输入和输出数据接口。
ADW在现实世界中的应用:合同风险分析
让我们来看一个我们已经实现的客户用例:夜间审查收到的供应商合同,标记暴露公司于不可接受风险的条款,并在合同生命周期管理系统中创建可操作的任务。
阶段 | 行动 | 输出工件 | 人工参与(可选) |
---|---|---|---|
解析 / 提取 | LlamaParse 将 PDF 转换为 Markdown 和包含位置元数据的条款块 JSON 列表 | 带有 ID、页码、原始文本的 clauses[] |
审查条款 |
检索 / 匹配 | 使用混合搜索和关键字过滤器,将每个条款与包含禁止或可协商术语的策略知识库进行匹配 | 将 clause‑ID 链接到 policy rule+score 的 matches[] |
验证匹配项 |
推理 / 合成 | 智能体构建一个结构化摘要,包含严重性评分、违规条款片段和建议的备用措辞 | red_flag_report {risk_level, offending_clauses[], suggestions} |
批准摘要 |
行动 / 连接 | 连接到 CLM 系统(如 Ironclad、Icertis、Coupa)并通过 Slack 发送通知 | tool_call {task_id, input} |
签字确认行动 |
此实现突出了一些设计原则
- 智能体工作流对业务逻辑进行编码:您希望在智能体工作流中定义明确的约束(例如,先解析,然后检索),同时为LLMs留出推理和采取行动的空间(例如,构建摘要),以反映实际的业务流程。
- 结构化输出实现自动化:下游系统可以解析JSON载荷,而不是试图从散文中提取意义
同样的模式可以应用于许多领域,从隐私审计到财务尽职调查。您只需替换策略知识库和连接器,核心架构保持不变。
何时采用ADW模式
并非所有以文档为中心的任务都需要这种级别的结构。这里有一个快速决策框架
场景 | 是否合适? | 理由 |
---|---|---|
“搜索此手册” | ❌ | 简单RAG更便宜且速度足够快 |
总结单个PDF供人工审查 | ⚠️ | 简单链模式效果很好;无需自动化 |
解析500张发票,与采购订单核对,安排支付 | ✅ | 多种文档类型、业务规则和有状态操作需要ADW |
每晚运行合同风险评分并创建工单 | ✅ | 需要计划的编排和系统集成 |
关键决策因素是
- 工作流是否跨越多种文档类型?
- 是否需要应用复杂的业务规则?
- 流程是否需要更新记录系统?
- 是否需要计划性或高吞吐量处理?
当这些因素一致时,实施完整ADW架构的投资回报率就变得引人注目。我们的企业客户通常从简单的RAG聊天机器人开始,但随着需求和复杂性的增加,会升级到ADW。
ADW是超越文档问答的必要下一步
RAG聊天机器人证明LLMs可以理解文档。智能体式文档工作流则展示了它们可以安全、重复、大规模地在企业环境中处理文档。
LlamaIndex 提供了构建这些工作流的端到端技术栈,从 LlamaCloud(我们的文档智能层)到我们的开源 智能体框架,支持事件驱动的编排。
如果您的组织正在处理大量文档流程,但仍需要人工处理,请查看我们以下的资源,联系我们,或加入我们的 Discord。
祝您构建愉快!
资源:ADW参考实现
我们汇集了一系列不断增加的参考实现,它们基于ADW在我们的客户和开源用户中发挥作用的实际应用。在每个案例中,组织最初都从简单的文档问答开始,但在人工集成成为瓶颈时,演进到了这些更复杂的流程。
- 发票智能体 – 批量处理发票,提取抬头和行项目,根据采购订单验证总金额,过账到财务系统,并标记差异。Notebook。
- 合同风险智能体 – 识别与赔偿和数据隐私相关的问题条款,路由到法律团队,并跟踪解决方案。Notebook。
- 财务尽职调查助手 – 分析财务文档和模型,突出同比风险变化,并生成结构化报告。(相关的报告生成Notebook)。