宣布 LlamaCloud 全面上线(以及我们的 1900 万美元 A 轮融资)!
LlamaIndex

Ravi Theja 2023-06-26

LlamaIndex 更新 — 2023年6月26日

问候各位 LlamaIndex 社区成员!

我们很高兴推出新的博客系列《LlamaIndex 更新》。认识到我们的开源项目快速发展,本系列将作为您的持续指南,追踪功能、网络研讨会、黑客马拉松和社区活动的最新进展。

我们的目标很简单:让您及时了解最新信息、保持参与并受到启发。无论您是长期贡献者还是新加入者,这些更新都将帮助您与我们的进展保持同步。

那么,让我们一起探索第一期《LlamaIndex 更新》中的最新动态吧。

功能与集成

  1. 支持知识图谱的 LLM,由 NebulaGraph 提供支持。这个新栈支持独特的检索增强生成技术。我们的知识图谱索引引入了 GraphStore 抽象,作为对现有数据存储类型的补充。 文档, 推文
  2. 改进的 LLM 应用用户体验支持对其来源进行内联引用,增强了可解释性和可追溯性。我们的新 CitationQueryEngine 实现了这些引用,并确保它们与检索到的文档相对应。此功能标志着 LlamaIndex 应用在提高透明度方面迈进了一大步。 文档, 推文
  3. LlamaIndex 与 Microsoft Guidance 集成,以确保 LLM 输出结构化内容。它允许直接提示 JSON 键,并促进将 Pydantic 对象转换为 Guidance 格式,从而增强结构化交互。它可以独立使用,也可以与 SubQuestionQueryEngine 一起使用。 文档, 推文
  4. GuidelineEvaluator 模块允许用户设置文本指南,从而有助于评估 LLM 生成的文本响应。这为自动化错误纠正功能铺平了道路。 Notebook, 推文
  5. 我们现在包含了一个简单的 OpenAIAgent,提供了一个能够顺序使用工具和进行异步回调的代理接口。这一集成得益于 OpenAI 函数 API 和 LangChain 抽象的帮助。 推文
  6. OpenAIPydanticProgram 在 LlamaIndex 中增强了结构化输出提取功能。这个独立模块允许将任何 LLM 输入转换为 Pydantic 对象,提供了一种简化数据结构化的方法。 文档, 推文
  7. 我们现在引入了 FLARE 技术,用于知识增强的长文本生成。FLARE 使用迭代检索来构建扩展内容,并在每个句子处决定是否进行检索。与传统的向量索引方法不同,我们的 FLARE 实现迭代地构建模板,通过检索填充空白以获得更相关的响应。请注意,这是一个测试版功能,与 GPT-4 配合使用效果最佳。 文档, 推文
  8. 我们现在采用最大边际相关性 (MMR) 算法来增强检索结果的多样性并最大程度地减少冗余。该技术测量候选文档与查询之间的相似性,同时根据用户指定的阈值最小化与先前文档的相似性。请注意,需要仔细校准以确保增加多样性不会引入不相关的上下文。阈值是平衡多样性和相关性的关键。 文档, 推文
  9. 我们现在支持递归 Pydantic 对象用于复杂的模式提取。此增强功能受目录树解析启发,结合使用了递归(节点)和非递归(DirectoryTree)Pydantic 模型,从而促进更复杂的代理工具交互。 推文
  10. 我们开发了能够使用 Function API 和 Pydantic 在数据上执行高级查询规划的代理。这些代理在查询规划工具的函数签名中输入完整的 Pydantic 图,然后执行该图。该系统可以与任何工具配合使用,并有潜力构建复杂的查询计划。但是,它也存在一些限制,例如难以产生深层嵌套以及可能输出无效响应。 文档, 推文
  11. OpenAIAgent 能够进行高级数据检索和分析,例如自动向量数据库检索以及文本到 SQL 和语义搜索的联合操作。我们还构建了一个查询规划工具接口,允许代理生成结构化/嵌套的查询计划,然后可以针对任何工具集执行这些计划,从而实现高级推理和分析。文档: OpenAI Agent + Query EngineRetrieval Augmented OpenAI AgentOpenAI Agent Query Planning推文
  12. 新的多路由功能支持对复杂数据集合进行问答,其中答案可能分散在多个来源中。它使用“MultiSelector”对象根据查询选择相关选项。路由器最多可以选择指定数量的选项。它可以使用原始 LLM 完成 API 或 OpenAI 函数 API。如果使用函数 API,可以强制执行模式有效性。一个简单的使用示例涉及 RouterQueryEngine,其中 PydanticMultiSelector 选择相关的向量和关键字索引来合成答案。 文档, 推文
  13. 我们对令牌跟踪功能进行了重大升级。用户现在可以通过平台的 callback handler 轻松跟踪提示、完成和嵌入令牌。此次升级旨在使令牌计数更加高效和用户友好。 文档, 推文
  14. 我们发布了一份指南,演示如何在 LLM RAG 系统中构建一个结合向量相似性搜索与知识图谱的自定义检索器。这涉及构建向量索引和知识图谱索引,并在查询时合并两者的结果。这种方法可以通过为实体提供额外的上下文来改进结果。但是,这可能会导致延迟略有增加。 文档, 推文
  15. 在 LLM 工作流程中,管理大量数据,包括 PDF、代理工具、SQL 表模式等,需要高效的索引。为了解决这个问题,我们引入了 Object Index,它是对现有索引数据结构的封装。这允许将任何对象转换为可索引的文本格式,提供了一个统一的接口,增强了我们索引在各种数据类型上的功能。 推文
  16. OpenBB 金融终端是一个出色的投资研究平台,并且完全开源。它现在包含一个名为 AskOBB 的功能,由 Llama Index 提供支持,允许用户通过自然语言轻松访问任何金融数据。 推文
  17. TruLens 团队在其最新版本中为基于 LlamaIndex 的 LLM 应用引入了追踪功能。这项新功能允许开发者更有效地评估和跟踪他们的实验。它自动评估应用堆栈的各种组件,包括应用输入和输出、LLM 调用、从索引中检索到的上下文块以及延迟。这是 LlamaIndex 和 TruLens 团队之间正在进行的合作的一部分,旨在改进 LLM 应用的开发、评估和迭代。 Notebook, 博客文章
  18. Prem App 已成功与 Llama Index 集成,增强了 AI 开发中的隐私性。这种结合使开发者能够轻松将自定义数据源连接到大型语言模型,简化了数据摄入、索引和查询。要使用此集成,请下载 Prem App 并通过 Llama Index 平台连接您的数据源。这有助于实现高效的数据管理并促进 AI 应用开发,为开发者提供更多控制和灵活性。 Notebook, 博客文章
  19. 我们现在支持从非结构化文本中提取表格数据框。这项功能由 OpenAI 函数 API 和 Pydantic 模型驱动,简化了结构化数据工作流程中的文本到 SQL 或文本到 DF 转换。请注意,有效使用可能需要显著的提示优化。 文档, 推文

教程

  1. 关于将 LlamaIndex 与 Pinecone 结合使用的James Brigg’s tutorial教程。
  2. 关于将 LlamaIndex 与 Weaviate 结合使用的Jerry Liu's tutorial教程。
  3. 关于 LlamaIndex 概览、用例以及与 LangChain 集成的Sophia Yang tutorial教程。
  4. Anil Chandra Naidu 正在构建一个关于 LlamaIndex 的课程。该课程目前涵盖了入门、基础知识和数据连接器等主题。
  5. 由 Simon 编写的OpenAI cookbook by Simon,介绍如何使用 LlamaIndex 进行金融分析。

网络研讨会与播客

  1. 与 Omar Khattab 关于 Demonstrate-Search-Predict (DSP) 的网络研讨会
  2. 与 Sam Yu 关于在您的 PDF 上构建法律聊天机器人的实际挑战的网络研讨会
  3. 与 Jerry Liu 的MaML 播客

黑客马拉松

LlamaIndex 团队在加州大学伯克利分校黑客马拉松和印度 Stellaris VP 黑客马拉松上进行了展示。社区对 LlamaIndex 表示热烈欢迎,参与这些黑客马拉松的团队开发了许多有趣的用例——紧急情况下的客户支持、理解法律文件。

活动

  1. Jerry Liu 在 Arize — LlamaIndex 活动上就构建和排查 AI 搜索 & 检索系统发表了演讲。
  2. Ravi Theja 在印度的 Together 活动中介绍了 LlamaIndex 及其应用。

以上就是本期《LlamaIndex 更新》的全部内容。希望您觉得这些信息有用,并和我们一样对我们正在取得的进展感到兴奋。我们感谢社区的持续支持和贡献。请记住,您的反馈和建议对我们来说非常宝贵,请随时与我们联系。

敬请关注下一期更新,我们将分享 LlamaIndex 项目更多令人兴奋的进展。在那之前,祝您索引愉快!