宣布 LlamaCloud 全面上线(以及我们获得 1900 万美元 A 轮融资)!
LlamaIndex

Ravi Theja 2023-09-06

LlamaIndex 更新 — 2023 年 9 月 3 日

各位 LlamaIndex 社区成员!大家好!

我们非常高兴为您带来 LlamaIndex 更新系列的最新一期。无论您是从一开始就陪伴我们,还是最近才加入我们,您的参与和意见对我们都至关重要。

在此次更新中,我们很高兴能发布一些重要的进展。我们将全面介绍 LlamaIndex 的 Python 和 TypeScript 版本的新功能。此外,我们还将分享一些不容错过的 RAG 技巧专家见解。为了让您保持领先地位,我们还精选了一系列网络研讨会、教程、活动和演示。

话不多说,让我们深入了解最新的进展吧。

新功能

LlamaIndex

  1. LlamaIndex 推出了用于 RAG 应用的 Sweep AI 代码分割器,解决了传统代码分割的挑战。该工具具有递归分割功能,并结合了 100 多种语言的 CST,增强了 LlamaIndex 的体验。 博客文章, 推文
  2. LlamaIndex 现在支持流式数据 ETL,通过 OpenAI Function API 增强了结构化数据提取能力。用户可以在 LlamaIndex 中输入一个 Pydantic 对象类,即可从 OpenAI 接收单独的流式数据对象。 文档, 推文
  3. LlamaIndex 与 Neo4j 合作,增强了大型语言模型的知识图谱能力。这项集成不仅允许将 LlamaIndex 中创建的任何知识图谱直接存储在 Neo4j 中,还为 Neo4j 用户引入了专门的 text-to-cypher 提示词。 文档, 推文
  4. LlamaIndex 与 Mendable AI 和 Nomic AI 合作,推出了 Nomic Atlas 可视化地图,详细展示了 Mendable AI 机器人收集的用户问题。这个创新工具将相似问题分组,为改进应用部署、提示词控制、语言支持和文档提供了见解。新用户可以在 LlamaIndex 的文档网站上找到有用的 Mendable AI 机器人。 推文
  5. LlamaIndex 与 Predibase 合作,提供了一种优化 LLM 操作的方式。通过在您的 VPC 内的托管基础设施上私有托管开源 LLM,体验顶级的 RAG。 文档, 推文
  6. LlamaIndex playground 应用 增强了 RAG 体验。更新包括新的 Temperature 和 Top P 选项,以及提供通俗易懂解释的直观工具提示。
  7. LlamaIndex 技巧💡:通过向原始文本添加结构化数据来增强您的 RAG 系统。这有助于更轻松地进行元数据过滤和优化嵌入偏差。深入了解我们的指南,了解如何利用 HuggingFace span marker 进行有针对性的实体提取。 文档, 推文
  8. LlamaIndex 现在有了 Semantic Scholar 加载器。用户可以借此快速建立基于引用的问答系统。 文档, 推文
  9. LlamaIndex 强调了文本块大小在 LLM 问答系统中的重要性。为了在无需人工干预的情况下确定最佳块大小,我们建议对不同大小进行集成,并在查询期间使用重排序器来评估上下文相关性。此方法涉及同时查询各种大小的检索器,并整合结果进行重排序。尽管是实验性的方法,但旨在识别最佳块大小策略。 文档, 推文
  10. LlamaIndex 的客户支持机器人可与 Shopify 的 5 万行 GraphQL API 规范无缝对接。通过智能工具和 LlamaIndex 功能,即使规范规模巨大,它也能快速提供诸如 退款订单 等见解。高效的索引确保对用户查询做出精确响应。 文档, 推文
  11. LlamaIndex 与 Xinference 集成后,用户可以轻松扩展 llama 2、chatglm 和 vicuna 等模型,以纳入 RAG 和代理功能。 文档, 推文
  12. LlamaIndex 推出了 一键可观测性。只需一行代码,即可将 LlamaIndex 与 Weights & Biases、ArizeAI 和 TruEra 等合作伙伴提供的高级可观测性工具集成,从而简化 LLM 应用的生产调试。 文档, 推文
  13. LlamaIndex 已将 LLM 的默认温度值更新为 0.1。 推文
  14. LlamaIndex 与 Zep 集成,增强了 LLM 应用的内存层。它不仅提供存储功能,还能通过摘要、元数据等丰富数据。 博客文章, 推文
  15. LlamaIndex 已更新其默认设置!现在,gpt-3.5-turbo 是首选的 LLM,具有增强的提示词和更优秀的文本分割器。此外,如果未设置 OpenAI 的密钥,它还提供使用 llama.cpp 的备用选项。同时增加了新的嵌入功能。 推文
  16. LlamaIndex 现在可与 lmsysorg 的 FastChat 无缝集成。提升您的 Vicuna 和 Llama 2 等 LLM 部署,作为 OpenAI 的替代方案。 推文
  17. LlamaIndex 提供与 Azure AI 服务 的无缝集成。深入探索更丰富的 AI 工具生态系统,包括计算机视觉、翻译和语音功能,以增强您的多模态 AI 交互。 文档 1, 文档 2, 文档 3, 推文
  18. LlamaIndex 发布了 Graph RAG — 一种利用图数据库上下文增强 LLM 的方法。从任何知识图谱中提取有价值的子图,以获得卓越的问答能力。 文档, 推文
  19. LlamaIndex 扩展了原生异步支持,增强了全栈 LLM 应用的可伸缩性。我们现在提供异步代理、工具执行和回调支持,并在向量存储中引入了异步方法。 推文
  20. LlamaIndex 通过数据代理跟踪可观测性增强了调试功能。此外,现在可以将系统提示词添加到任何查询引擎,并且我们已开始将 LLM 和嵌入模块过渡到 Pydantic。 文档, 推文
  21. LlamaIndex 的 递归文档代理 通过基于摘要进行检索并根据需要调整块检索来增强 RAG。这提高了跨各种文档的查询能力,在文档中提供问答和摘要功能。 文档, 推文
  22. LlamaIndex 与 Metaphor 集成,为数据代理赋能。这项集成提供了一个专为 LLM 定制的专业搜索引擎,允许进行超越 RAG 的动态数据查找,并回答更广泛的问题。 博客文章, 推文
  23. LlamaIndex 现在支持通过 OpenAI 的新端点与他们的微调模型集成。将这些模型无缝集成到您的 RAG 管道中。 文档, 推文
  24. LlamaIndex 推出了 OpenAIFineTuningHandler,用于简化使用 GPT-4 输出微调 gpt-3.5-turbo 的数据收集。使用 GPT-4 运行 RAG,并轻松生成数据集来训练更具成本效益的模型。 Notebook, 推文
  25. LlamaIndex 发布了 有原则的开发实践 指南,详细介绍了 LLM 应用开发的可观测性、评估和监控的最佳实践。 文档, 推文
  26. LlamaIndex 推出了一个优化的提示词系统。只需三个核心类:PromptTemplateChatPromptTemplateSelectorPromptTemplate,用户即可轻松将提示词格式化为聊天消息或文本,并根据模型条件调整提示词。 文档, 推文
  27. LlamaIndex 深入研究了 块梦境,这是一个受 Thomas H. Chapin IV 启发的概念。通过自动从文本块中提取元数据,它可以识别潜在问题并为相邻节点提供摘要。这种丰富的上下文提升了 RAG 的性能。 文档, 推文
  28. LlamaIndex 已与 BagelDB 集成,使开发者能够轻松利用存储在 BagelDB 上的向量数据。 推文
  29. LlamaIndex 现在允许 LLM 在用于语义查询的向量搜索和用于特定关键词查询的 BM25 检索器之间进行选择。 文档, 推文
  30. LlamaIndex 推出了 AutoMergingRetriever,该工具借鉴了 Jason 和 ChatGPT 的见解。这项技术能够获取精确的上下文块并无缝合并它们,从而优化 LLM 的响应。通过使用 HierarchicalNodeParser,我们确保了块之间的互连性,增强了上下文的清晰度。 文档, 推文
  31. LlamaIndex 推出了嵌入微调功能,以优化检索性能。除了增强 RAG 外,我们还通过从文本自动生成 QA 数据集来简化检索评估,从而简化了微调和评估流程。 文档, 推文
  32. LlamaIndex 现在直接集成 Airbyte 数据源,包括 Gong、Hubspot、Salesforce、Shopify、Stripe、Typeform 和 Zendesk Support。通过将这些平台实现为数据加载器,轻松增强您的 LlamaIndex 应用。 博客文章, 推文
  33. LlamaIndex 与 DeepEval 集成,DeepEval 是一个用于评估 LLM 和 RAG 应用的全面库。基于四个关键指标进行评估:相关性、事实一致性、答案相似性和偏差/毒性。 文档, 推文
  34. LlamaIndex 建议逐步评估 LLM + RAG,特别是检索部分。使用 LLM 从文本块创建合成检索数据集。此方法不仅可以评估检索,还可以微调嵌入。 文档, 推文
  35. LlamaIndex 发布了一个托管索引抽象层,通过 Vectara 简化了 RAG 的摄取和存储过程。 文档, 推文
  36. LlamaIndex 大幅增强了其回调处理支持,包括追溯、LLM token 计数、模板以及详细的代理工具信息等功能。这些改进为与评估和可观测性应用的更顺畅集成铺平了道路。 推文
  37. LlamaIndex 已与 AskMarvinAI 集成,实现了从文本语料库中自动提取元数据。只需标注一个 Pydantic 模型,即可轻松记录所有关联文本块的元数据。 文档, 推文
  38. LlamaIndex 已与 JinaAI 的 RunGPT 集成,RunGPT 是一个出色的框架,可以一键部署各种开源模型,如 Llama、Vicuna、Pythia 等。结合 LlamaIndex 原生的聊天/流式传输功能,用户现在可以无缝部署和利用 Llama-7B 等强大的模型。 文档, 推文

LlamaIndex.TS

  1. LITS 已完全集成 Azure OpenAI。 推文
  2. LITS 增强了 Llama2 支持,新增默认温度 (0.1),并集成了 GPT 聊天功能。 推文
  3. LITS 帮助使用 fromDocuments 时无需重复检查;自动进行 SHA256 比较。 推文
  4. LITS 现在支持 OpenAI v4、Anthropic 0.6 和 Replicate 0.16.1.,CSV 加载器,合并了 NodeWithEmbeddings 和 BaseNode。 推文
  5. LITS 现在支持用于数学的 PapaCSVLoader。 推文
  6. LITS 现已与 LiteLLM 集成。 推文
  7. LITS 现在具有额外的会话选项,支持代理服务器,OpenAI 的默认超时时间重置为 60 秒。 推文
  8. LITS 现在集成了 Pinecone。 推文
  9. LITS 优化了 ChatGPT 提示词,修复了元数据 rehydration 问题,并推出了支持微调模型的 OpenAI Node v4.1.0。 推文
  10. LITS 引入了增强的文本分割功能,包括针对中文、日文和韩文的专用分词器,以及对 SentenceSplitter 处理小数进行了改进。 推文
  11. LITS 具有 Markdown 加载器和响应合成器中的元数据支持。 推文
  12. LITS 重塑了可用性:ListIndex 现改为 SummaryIndex 以提高清晰度,并且提示词已类型化和可定制,以增强用户控制和体验。 推文
  13. LITS 具有 Notion Reader。现在,用户可以轻松地将其文档直接导入 LITS 中的 RAG 或数据代理应用程序。 推文

RAG 技巧

LlamaIndex 分享了提升 RAG 管道性能的四种策略

1️⃣ 使用摘要进行检索,并使用更广泛的上下文进行合成。

2️⃣ 对于大型文档,使用元数据进行结构化检索。

3️⃣ 部署 LLM 以实现基于任务的动态检索。

4️⃣ 微调嵌入以获得更好的检索性能。

教程

  1. Jason 关于如何向 GPT 知识检索应用添加图像响应的教程
  2. Wenqi Glantz 关于使用 LlamaIndex 构建生产就绪型 LLM 应用的教程:文档元数据可提高检索准确性
  3. Streamlit 关于如何使用 LlamaIndex 构建带有自定义数据源的聊天机器人的教程
  4. Wenqi Glantz 关于使用 LlamaIndex 构建生产就绪型 LLM 应用的教程:递归文档代理实现动态检索。
  5. Erika Cardenas 讲解了如何在构建 RAG 应用时使用 LlamaIndex
  6. Argilla 关于使用 LlamaIndex 通过人工反馈微调和评估用于 RAG 的 GPT-3.5 的博客文章。
  7. KDNuggests 关于使用 LlamaIndex 构建自己的 PandasAI 的博客文章。

来自 LlamaIndex 团队

  1. Jerry Liu 关于为 Text-to-SQL 应用微调 Llama 2 的教程。
  2. Jerry Liu 关于使用合成数据微调用于 RAG 的嵌入 的教程。
  3. Ravi Theja 关于结合 Text2SQL 和 RAG 使用 LlamaIndex 分析产品评论 的教程。
  4. Ravi Theja 关于 LlamaIndex 不同索引、存储上下文和服务上下文 的教程。
  5. Ravi Theja 关于 LlamaIndex 中自定义检索器和混合搜索 的教程。
  6. Adam 关于开发者数据代理入门 的教程。
  7. Ravi Theja 关于使用 LlamaIndex 为代码库生成自动知识迁移 (KT) 的教程。

网络研讨会

  1. 与 Docugami 成员一起举办的关于使用文档元数据和本地模型实现更好、更快检索的网络研讨会
  2. 与 Shaun 和 Piaoyang 一起举办的关于使用 RealChar 构建个性化 AI 角色的网络研讨会
  3. 与 Bob (Weaviet)、Max (sid.ai) 和 Tuana (HayStack) 一起举办的关于使 RAG 达到生产就绪状态的网络研讨会
  4. Wey Gu 关于使用知识图谱构建 RAG研讨会
  5. 与 Jo Bergum 和 Shishir Patil 一起举办的关于微调和 RAG 的网络研讨会

活动

  1. Jerry Liu纽交所 Floor Talk 上谈论了 LlamaIndex。
  2. Ravi Theja 在印度班加罗尔举行的第五头象大会上谈论了 LlamaIndex。
  3. Ravi Theja 在印度班加罗尔举办了一场关于 LlamaIndex 的研讨会

演示和论文

  1. 题为ChatGPT、人类放射科医生和情境感知 ChatGPT 在识别放射报告中 AO 代码方面的表现 的论文是一项引人入胜的医学研究。它利用 LlamaIndex 和 ChatGPT 来识别放射报告中的 AO 代码,从而增强骨折分类。这是技术与医学的绝佳融合!
  2. SEC Insights AI 使用 LlamaIndex 进行 SEC 文档分析,在 Product Hunt 上被评为当日第 5 名产品。
  3. RentEarth:一个代理,可以使用出色的 3D 界面和 LlamaIndex 构建您自己的初创公司。

在结束本期 LlamaIndex 更新系列时,我们再次体会到协作和创新的力量。从新功能到集成和教程,我们革新 AI 领域的使命正持续推进。衷心感谢社区的每一位成员给予我们坚定的支持和热情。让我们一起继续提升 AI 的世界!