
Ravi Theja • 2023-09-06
LlamaIndex 更新 — 2023 年 9 月 3 日
各位 LlamaIndex 社区成员!大家好!
我们非常高兴为您带来 LlamaIndex 更新系列的最新一期。无论您是从一开始就陪伴我们,还是最近才加入我们,您的参与和意见对我们都至关重要。
在此次更新中,我们很高兴能发布一些重要的进展。我们将全面介绍 LlamaIndex 的 Python 和 TypeScript 版本的新功能。此外,我们还将分享一些不容错过的 RAG 技巧专家见解。为了让您保持领先地位,我们还精选了一系列网络研讨会、教程、活动和演示。
话不多说,让我们深入了解最新的进展吧。
新功能
LlamaIndex
- LlamaIndex 推出了用于 RAG 应用的 Sweep AI 代码分割器,解决了传统代码分割的挑战。该工具具有递归分割功能,并结合了 100 多种语言的 CST,增强了 LlamaIndex 的体验。 博客文章, 推文。
- LlamaIndex 现在支持流式数据 ETL,通过 OpenAI Function API 增强了结构化数据提取能力。用户可以在 LlamaIndex 中输入一个 Pydantic 对象类,即可从 OpenAI 接收单独的流式数据对象。 文档, 推文。
- LlamaIndex 与 Neo4j 合作,增强了大型语言模型的知识图谱能力。这项集成不仅允许将 LlamaIndex 中创建的任何知识图谱直接存储在 Neo4j 中,还为 Neo4j 用户引入了专门的 text-to-cypher 提示词。 文档, 推文。
- LlamaIndex 与 Mendable AI 和 Nomic AI 合作,推出了 Nomic Atlas 可视化地图,详细展示了 Mendable AI 机器人收集的用户问题。这个创新工具将相似问题分组,为改进应用部署、提示词控制、语言支持和文档提供了见解。新用户可以在 LlamaIndex 的文档网站上找到有用的 Mendable AI 机器人。 推文。
- LlamaIndex 与 Predibase 合作,提供了一种优化 LLM 操作的方式。通过在您的 VPC 内的托管基础设施上私有托管开源 LLM,体验顶级的 RAG。 文档, 推文。
- LlamaIndex playground 应用 增强了 RAG 体验。更新包括新的 Temperature 和 Top P 选项,以及提供通俗易懂解释的直观工具提示。
- LlamaIndex 技巧💡:通过向原始文本添加结构化数据来增强您的 RAG 系统。这有助于更轻松地进行元数据过滤和优化嵌入偏差。深入了解我们的指南,了解如何利用 HuggingFace span marker 进行有针对性的实体提取。 文档, 推文。
- LlamaIndex 现在有了 Semantic Scholar 加载器。用户可以借此快速建立基于引用的问答系统。 文档, 推文。
- LlamaIndex 强调了文本块大小在 LLM 问答系统中的重要性。为了在无需人工干预的情况下确定最佳块大小,我们建议对不同大小进行集成,并在查询期间使用重排序器来评估上下文相关性。此方法涉及同时查询各种大小的检索器,并整合结果进行重排序。尽管是实验性的方法,但旨在识别最佳块大小策略。 文档, 推文。
- LlamaIndex 的客户支持机器人可与 Shopify 的 5 万行 GraphQL API 规范无缝对接。通过智能工具和 LlamaIndex 功能,即使规范规模巨大,它也能快速提供诸如
退款订单
等见解。高效的索引确保对用户查询做出精确响应。 文档, 推文。 - LlamaIndex 与 Xinference 集成后,用户可以轻松扩展 llama 2、chatglm 和 vicuna 等模型,以纳入 RAG 和代理功能。 文档, 推文。
- LlamaIndex 推出了
一键可观测性
。只需一行代码,即可将 LlamaIndex 与 Weights & Biases、ArizeAI 和 TruEra 等合作伙伴提供的高级可观测性工具集成,从而简化 LLM 应用的生产调试。 文档, 推文。 - LlamaIndex 已将 LLM 的默认温度值更新为 0.1。 推文。
- LlamaIndex 与 Zep 集成,增强了 LLM 应用的内存层。它不仅提供存储功能,还能通过摘要、元数据等丰富数据。 博客文章, 推文。
- LlamaIndex 已更新其默认设置!现在,gpt-3.5-turbo 是首选的 LLM,具有增强的提示词和更优秀的文本分割器。此外,如果未设置 OpenAI 的密钥,它还提供使用 llama.cpp 的备用选项。同时增加了新的嵌入功能。 推文。
- LlamaIndex 现在可与 lmsysorg 的 FastChat 无缝集成。提升您的 Vicuna 和 Llama 2 等 LLM 部署,作为 OpenAI 的替代方案。 推文。
- LlamaIndex 提供与 Azure AI 服务 的无缝集成。深入探索更丰富的 AI 工具生态系统,包括计算机视觉、翻译和语音功能,以增强您的多模态 AI 交互。 文档 1, 文档 2, 文档 3, 推文。
- LlamaIndex 发布了
Graph RAG
— 一种利用图数据库上下文增强 LLM 的方法。从任何知识图谱中提取有价值的子图,以获得卓越的问答能力。 文档, 推文。 - LlamaIndex 扩展了原生异步支持,增强了全栈 LLM 应用的可伸缩性。我们现在提供异步代理、工具执行和回调支持,并在向量存储中引入了异步方法。 推文。
- LlamaIndex 通过数据代理跟踪可观测性增强了调试功能。此外,现在可以将系统提示词添加到任何查询引擎,并且我们已开始将 LLM 和嵌入模块过渡到 Pydantic。 文档, 推文。
- LlamaIndex 的
递归文档代理
通过基于摘要进行检索并根据需要调整块检索来增强 RAG。这提高了跨各种文档的查询能力,在文档中提供问答和摘要功能。 文档, 推文。 - LlamaIndex 与 Metaphor 集成,为数据代理赋能。这项集成提供了一个专为 LLM 定制的专业搜索引擎,允许进行超越 RAG 的动态数据查找,并回答更广泛的问题。 博客文章, 推文。
- LlamaIndex 现在支持通过 OpenAI 的新端点与他们的微调模型集成。将这些模型无缝集成到您的 RAG 管道中。 文档, 推文。
- LlamaIndex 推出了
OpenAIFineTuningHandler
,用于简化使用 GPT-4 输出微调 gpt-3.5-turbo 的数据收集。使用 GPT-4 运行 RAG,并轻松生成数据集来训练更具成本效益的模型。 Notebook, 推文。 - LlamaIndex 发布了
有原则的开发实践
指南,详细介绍了 LLM 应用开发的可观测性、评估和监控的最佳实践。 文档, 推文。 - LlamaIndex 推出了一个优化的提示词系统。只需三个核心类:
PromptTemplate
、ChatPromptTemplate
和SelectorPromptTemplate
,用户即可轻松将提示词格式化为聊天消息或文本,并根据模型条件调整提示词。 文档, 推文。 - LlamaIndex 深入研究了
块梦境
,这是一个受 Thomas H. Chapin IV 启发的概念。通过自动从文本块中提取元数据,它可以识别潜在问题并为相邻节点提供摘要。这种丰富的上下文提升了 RAG 的性能。 文档, 推文。 - LlamaIndex 已与 BagelDB 集成,使开发者能够轻松利用存储在 BagelDB 上的向量数据。 推文。
- LlamaIndex 现在允许 LLM 在用于语义查询的向量搜索和用于特定关键词查询的 BM25 检索器之间进行选择。 文档, 推文。
- LlamaIndex 推出了
AutoMergingRetriever
,该工具借鉴了 Jason 和 ChatGPT 的见解。这项技术能够获取精确的上下文块并无缝合并它们,从而优化 LLM 的响应。通过使用 HierarchicalNodeParser,我们确保了块之间的互连性,增强了上下文的清晰度。 文档, 推文。 - LlamaIndex 推出了嵌入微调功能,以优化检索性能。除了增强 RAG 外,我们还通过从文本自动生成 QA 数据集来简化检索评估,从而简化了微调和评估流程。 文档, 推文。
- LlamaIndex 现在直接集成 Airbyte 数据源,包括 Gong、Hubspot、Salesforce、Shopify、Stripe、Typeform 和 Zendesk Support。通过将这些平台实现为数据加载器,轻松增强您的 LlamaIndex 应用。 博客文章, 推文。
- LlamaIndex 与 DeepEval 集成,DeepEval 是一个用于评估 LLM 和 RAG 应用的全面库。基于四个关键指标进行评估:相关性、事实一致性、答案相似性和偏差/毒性。 文档, 推文。
- LlamaIndex 建议逐步评估 LLM + RAG,特别是检索部分。使用 LLM 从文本块创建合成检索数据集。此方法不仅可以评估检索,还可以微调嵌入。 文档, 推文。
- LlamaIndex 发布了一个托管索引抽象层,通过 Vectara 简化了 RAG 的摄取和存储过程。 文档, 推文。
- LlamaIndex 大幅增强了其回调处理支持,包括追溯、LLM token 计数、模板以及详细的代理工具信息等功能。这些改进为与评估和可观测性应用的更顺畅集成铺平了道路。 推文。
- LlamaIndex 已与 AskMarvinAI 集成,实现了从文本语料库中自动提取元数据。只需标注一个 Pydantic 模型,即可轻松记录所有关联文本块的元数据。 文档, 推文。
- LlamaIndex 已与 JinaAI 的 RunGPT 集成,RunGPT 是一个出色的框架,可以一键部署各种开源模型,如 Llama、Vicuna、Pythia 等。结合 LlamaIndex 原生的聊天/流式传输功能,用户现在可以无缝部署和利用 Llama-7B 等强大的模型。 文档, 推文。
LlamaIndex.TS
- LITS 已完全集成 Azure OpenAI。 推文。
- LITS 增强了 Llama2 支持,新增默认温度 (0.1),并集成了 GPT 聊天功能。 推文。
- LITS 帮助使用
fromDocuments
时无需重复检查;自动进行 SHA256 比较。 推文。 - LITS 现在支持 OpenAI v4、Anthropic 0.6 和 Replicate 0.16.1.,CSV 加载器,合并了 NodeWithEmbeddings 和 BaseNode。 推文。
- LITS 现在支持用于数学的 PapaCSVLoader。 推文。
- LITS 现已与 LiteLLM 集成。 推文。
- LITS 现在具有额外的会话选项,支持代理服务器,OpenAI 的默认超时时间重置为 60 秒。 推文。
- LITS 现在集成了 Pinecone。 推文。
- LITS 优化了 ChatGPT 提示词,修复了元数据 rehydration 问题,并推出了支持微调模型的 OpenAI Node v4.1.0。 推文。
- LITS 引入了增强的文本分割功能,包括针对中文、日文和韩文的专用分词器,以及对 SentenceSplitter 处理小数进行了改进。 推文。
- LITS 具有 Markdown 加载器和响应合成器中的元数据支持。 推文。
- LITS 重塑了可用性:
ListIndex
现改为SummaryIndex
以提高清晰度,并且提示词已类型化和可定制,以增强用户控制和体验。 推文。 - LITS 具有 Notion Reader。现在,用户可以轻松地将其文档直接导入 LITS 中的 RAG 或数据代理应用程序。 推文。
RAG 技巧
LlamaIndex 分享了提升 RAG 管道性能的四种策略
1️⃣ 使用摘要进行检索,并使用更广泛的上下文进行合成。
2️⃣ 对于大型文档,使用元数据进行结构化检索。
3️⃣ 部署 LLM 以实现基于任务的动态检索。
4️⃣ 微调嵌入以获得更好的检索性能。
教程
- Jason 关于如何向 GPT 知识检索应用添加图像响应的教程。
- Wenqi Glantz 关于使用 LlamaIndex 构建生产就绪型 LLM 应用的教程:文档元数据可提高检索准确性
- Streamlit 关于如何使用 LlamaIndex 构建带有自定义数据源的聊天机器人的教程。
- Wenqi Glantz 关于使用 LlamaIndex 构建生产就绪型 LLM 应用的教程:递归文档代理实现动态检索。
- Erika Cardenas 讲解了如何在构建 RAG 应用时使用 LlamaIndex。
- Argilla 关于使用 LlamaIndex 通过人工反馈微调和评估用于 RAG 的 GPT-3.5 的博客文章。
- KDNuggests 关于使用 LlamaIndex 构建自己的 PandasAI 的博客文章。
来自 LlamaIndex 团队
- Jerry Liu 关于为 Text-to-SQL 应用微调 Llama 2 的教程。
- Jerry Liu 关于使用合成数据微调用于 RAG 的嵌入 的教程。
- Ravi Theja 关于结合 Text2SQL 和 RAG 使用 LlamaIndex 分析产品评论 的教程。
- Ravi Theja 关于 LlamaIndex 不同索引、存储上下文和服务上下文 的教程。
- Ravi Theja 关于 LlamaIndex 中自定义检索器和混合搜索 的教程。
- Adam 关于开发者数据代理入门 的教程。
- Ravi Theja 关于使用 LlamaIndex 为代码库生成自动知识迁移 (KT) 的教程。
网络研讨会
- 与 Docugami 成员一起举办的关于使用文档元数据和本地模型实现更好、更快检索的网络研讨会。
- 与 Shaun 和 Piaoyang 一起举办的关于使用 RealChar 构建个性化 AI 角色的网络研讨会。
- 与 Bob (Weaviet)、Max (sid.ai) 和 Tuana (HayStack) 一起举办的关于使 RAG 达到生产就绪状态的网络研讨会。
- Wey Gu 关于使用知识图谱构建 RAG 的研讨会。
- 与 Jo Bergum 和 Shishir Patil 一起举办的关于微调和 RAG 的网络研讨会。
活动
- Jerry Liu 在纽交所 Floor Talk 上谈论了 LlamaIndex。
- Ravi Theja 在印度班加罗尔举行的第五头象大会上谈论了 LlamaIndex。
- Ravi Theja 在印度班加罗尔举办了一场关于 LlamaIndex 的研讨会。
演示和论文
- 题为ChatGPT、人类放射科医生和情境感知 ChatGPT 在识别放射报告中 AO 代码方面的表现 的论文是一项引人入胜的医学研究。它利用 LlamaIndex 和 ChatGPT 来识别放射报告中的 AO 代码,从而增强骨折分类。这是技术与医学的绝佳融合!
- SEC Insights AI 使用 LlamaIndex 进行 SEC 文档分析,在 Product Hunt 上被评为当日第 5 名产品。
- RentEarth:一个代理,可以使用出色的 3D 界面和 LlamaIndex 构建您自己的初创公司。
在结束本期 LlamaIndex 更新系列时,我们再次体会到协作和创新的力量。从新功能到集成和教程,我们革新 AI 领域的使命正持续推进。衷心感谢社区的每一位成员给予我们坚定的支持和热情。让我们一起继续提升 AI 的世界!