Jerry Liu • 2025-04-23

超越聊天机器人：企业采用智能体式文档工作流

2025年是智能体之年，但在实践中会是什么样子？

今年早些时候，我们介绍了智能体式文档工作流（ADW）架构。本文将开启一系列深入探讨的文章，从基本问题开始：如何实现ADW，以及何时应该这样做？

什么是ADW？

2025年是智能体之年。自2023年以来，我们一直认为朴素的RAG本身不足以满足企业需求，因此我们无需再次论证这一点。相反，我们希望描绘一个积极的愿景：现实世界中的智能体应用是什么样的，尤其是在处理企业数据挑战时。

企业的工作模式以PDF、PowerPoint、HTML和Excel电子表格等文件格式为主。这些文件设计用于供人类阅读和编写，过去一直是自动化的障碍。

随着LLMs的出现，这一障碍已经消失。LLMs非常擅长处理企业文件中的非结构化和半结构化数据，这开启了创建智能体应用以自动化先前手动流程主要部分的可能性。

一直以来缺少的是一种清晰的参考架构，能够帮助企业超越“与文档聊天”的原型，转向能够解决我们客户遇到的现实世界用例的完全集成、自动化的流程。智能体式文档工作流正是缺失的参考架构。

一个最简的ADW包含四个阶段，它们通过正式的数据契约连接

阶段	职责	典型技术
解析 (Parse)	将原始文件转换为无损的、类型化的对象（文本块、表格、图像、元数据）	LlamaParse、多模态OCR、自定义提取器
检索 (Retrieve)	仅呈现与任务相关的上下文片段，并追溯到来源	混合BM25 + 密集向量搜索、元数据过滤器、递归查找
推理 (Reason)	应用策略和多步逻辑；在轮次间保持状态	ReAct / 函数调用循环、声明式工作流DSL、安全护栏
行动 (Act)	将结果提交到下游系统；生成审计日志	Webhooks、SQL写入、ERP/CRM适配器、消息机器人

ADW模式的力量源于用于将每个阶段的输出传递给下一个阶段的类型化消息（例如 Pydantic 模型）。这使得每个阶段都能自信地期望其输入，从而实现更好的错误处理和重试。这些正式契约将ADW与早期更临时的RAG和智能体实现区分开来。

这些正式的交接点也促进了通常至关重要的人工参与。人工专业知识并非在每个阶段都必需，但对于某些应用，人工审查对于处理异常、质量控制和提供监督至关重要。

为了有效实现ADW模式，您需要四个协同工作的关键组件

在这些组件中的每一个阶段，人工参与都可以提供审批机制和反馈循环，使人类专家能够审查、覆盖并改进系统输出。

为了有效实现ADW，您的智能体框架需要访问高质量数据、一种将灵活性与确定性相结合的清晰机制，以及各种高质量的输入和输出数据接口。

让我们来看一个我们已经实现的客户用例：夜间审查收到的供应商合同，标记暴露公司于不可接受风险的条款，并在合同生命周期管理系统中创建可操作的任务。

阶段	行动	输出工件	人工参与（可选）
解析 / 提取	LlamaParse 将 PDF 转换为 Markdown 和包含位置元数据的条款块 JSON 列表	带有 ID、页码、原始文本的 `clauses[]`	审查条款
检索 / 匹配	使用混合搜索和关键字过滤器，将每个条款与包含禁止或可协商术语的策略知识库进行匹配	将 clause‑ID 链接到 policy rule+score 的 `matches[]`	验证匹配项
推理 / 合成	智能体构建一个结构化摘要，包含严重性评分、违规条款片段和建议的备用措辞	`red_flag_report {risk_level, offending_clauses[], suggestions}`	批准摘要
行动 / 连接	连接到 CLM 系统（如 Ironclad、Icertis、Coupa）并通过 Slack 发送通知	`tool_call {task_id, input}`	签字确认行动

此实现突出了一些设计原则

智能体工作流对业务逻辑进行编码：您希望在智能体工作流中定义明确的约束（例如，先解析，然后检索），同时为LLMs留出推理和采取行动的空间（例如，构建摘要），以反映实际的业务流程。
结构化输出实现自动化：下游系统可以解析JSON载荷，而不是试图从散文中提取意义

同样的模式可以应用于许多领域，从隐私审计到财务尽职调查。您只需替换策略知识库和连接器，核心架构保持不变。

并非所有以文档为中心的任务都需要这种级别的结构。这里有一个快速决策框架