
LlamaIndex • 2023-12-19
LlamaIndex 新闻通讯 2023–12–19
各位 Llama 追随者 🦙,大家好,
我们很高兴为您带来又一周的最新更新、新功能、精彩社区演示、深度教程、指南和网络研讨会。本周,不要错过我们在 12 月 21 日举办的特别节日研讨会,我们将与 Google Gemini 团队一起深入探讨创新的 LLM + RAG 用例。
您有开创性的项目、引人入胜的文章或迷人的视频吗?我们洗耳恭听!请通过 news@llamaindex.ai 联系我们。记得通过我们的网站订阅我们的新闻通讯,将所有这些精彩动态直接发送到您的收件箱。
🤩 首先,亮点:
- Google Gemini 合作:现在在 LlamaIndex 上提供 Gemini API 的首日支持,并附有全面的手册,用于高级 RAG 功能。推文。
- MistralAI 集成:引入了与 MistralAI LLM 和 Embedding 模型的零日集成,用于在 LlamaIndex 上构建 RAG 解决方案。Notebook,推文。
- Docugami 多文档 Llama 数据集:发布了 Taqi Jaffri 的 Multi-Doc SEC 10Q 数据集,为高级 RAG 研究提供了各种复杂性的问题。文档,推文。
- 基于命题的检索:实现了一个基于命题的新检索单元,增强了 LLM 的 QA 性能。文档,推文。
- RAG Pipeline 增强指南:引入了一份指南,介绍了路由、查询重写和智能体推理等模块,用于处理文档中更复杂的问答。文档。
✨ 新功能发布和增强
- 我们与 Google Gemini 建立了合作关系,在 LlamaIndex 上提供 Gemini API 的首日支持,包括对 Gemini(文本和多模态)和 Semantic Retriever API 的全功能支持,并配有三份全面的手册:Gemini LLM、Gemini 多模态和 Semantic Retriever API,有望实现高级 RAG 功能和多模态集成。推文。
- 我们引入了与 MistralAI LLM(mistral-tiny、mistral-small、mistral-medium)和 MistralAI Embedding 模型的零日集成,用于在 LlamaIndex 上构建 RAG 解决方案,支持 Python 和 Typescript 版本。Notebook,推文。
- 我们在 LlamaHub 上发布了 COVID-QA 数据集,这是一个由人工标注的大量关于 COVID 的问答对(300+),来源于各种网络文章,并附有源 URL,以便轻松集成到 RAG pipeline 中,提供了充足的改进空间。文档,推文。
- 我们在 Create-llama 中发布了一个新的多模态模板,可以使用 OpenAI 最新的 GPT-4-vision 模型实现图像输入和输出生成,扩展了各种用例的可能性。文档,推文。
- 我们在 LlamaIndex 中引入了基于命题的检索:实现了一个基于命题的新检索单元,正如“Dense X Retrieval”论文中介绍的那样,通过索引命题并链接到基础文本来增强 LLM 的问答性能。文档,推文。
- 我们与 Docugami 合作,发布了由 Taqi Jaffri 制作的新 Multi-Doc SEC 10Q 数据集,旨在推进用于 RAG 评估的问答数据集。该数据集提供了一系列复杂性的问题:单文档单块 RAG;单文档多块 RAG;以及多文档 RAG,满足了 RAG 研究中对更复杂数据集的需求。文档,推文。
- 我们发布了一个 SharePoint 数据加载器,可以直接将 SharePoint 文件集成到 LLM/RAG pipeline 中。文档,推文。
👀 社区演示:
- MemoryCache: Mozilla 的新实验项目,它使用 PrivateGPT_AI 和 LlamaIndex 将您的在线体验整理成一个私有的、设备上的 RAG 应用,在维护隐私的同时增强个人知识管理。网站,仓库。
- OpenBB Finance 在 Terminal Pro 中展示了其增强的聊天小部件功能,利用 LlamaIndex 的数据分块结合 Cursor AI,以改进大型上下文管理和准确性。推文
- AI Chatbot Starter(来自 DataStax 团队),一个由 AstraDB 和 LlamaIndex 驱动的 Web 服务器,可以轻松设置用于与 Web 文档聊天。它可以作为独立服务使用,或集成到全栈应用中,具有简单的凭据设置和文档摄取功能。仓库,推文。
- Na2SQL(作者:Harshad)在 Streamlit 上构建端到端 SQL 分析应用,特点包括交互式数据库查看、SQL 查询显示以及与 Llama Index 的集成。博客,仓库。
- LionAGI(作者:Ocean Li)是一个用于高效数据操作的智能体框架,支持与 OpenAI 的并发调用和 JSON 模式。了解如何将其与 Llama Index RAG pipeline 集成,构建自动化的 AI 助手,例如 ArXiv 研究助手。文档,仓库。
- Windows 本地 RAG(作者:Marklysze):一个全面资源,介绍如何使用 Windows Subsystem for Linux 将高级 LLM 集成到 RAG 工作流中,包含五份详细手册。
🗺️ 指南
- 通过查询理解层增强 RAG pipeline 的指南,介绍了路由、查询重写、子问题创建和智能体推理等模块,所有这些都旨在实现更复杂和“智能体化”的文档问答。
- 使用 Gemini 构建餐厅推荐问答系统的指南,用于提取结构化的图像数据并利用多模态检索增强生成来增强查询响应。
- 构建具有安全防护的高级 RAG 的指南,使用 Gemini API 的语义搜索、安全功能和 Google Semantic Retriever 集成创建受限的 RAG 系统。
- 关于Qdrant 的多租户与 LlamaIndex 集成的指南,介绍如何在向量服务中设置基于 payload 的分区以实现用户数据隔离。
- 关于使用 Prometheus 的指南 — 一个用于 RAG 评估的开源 13B LLM,将其与 GPT-4 评估进行比较,并深入分析其在成本效益、准确性和评分偏差方面的表现。
✍️ 教程
- Laurie 的 高级查询和检索技术全面代码级教程,涵盖 7 种高级查询和检索技术,包括 SubQuestionQuery Engine、从小到大检索、元数据过滤、混合搜索、递归检索、Text to SQL 和多文档智能体。
- Hubel Labs 的高级 RAG 视频教程,结合 Llamaindex 和 OpenAI GPT:句子窗口检索 vs 基础分块。
- Developers Digest 关于 llamaindex.ts 入门的视频教程。
- Anil 的关于如何使用 EmbedAI + LlamaIndex 在您的数据上训练自定义 GPT 的教程。
🎥 网络研讨会:
- Tony Kipkemboi (Streamlit) 和 Yi Ding (LlamaIndex) 关于使用 LlamaIndex 揭秘 RAG 应用的网络研讨会!
🏢 致所有企业
您正在使用 LlamaIndex 构建应用吗?我们正在努力使 LlamaIndex 更具企业级能力,并向合作伙伴提供即将推出的产品的预览。感兴趣吗?请联系我们。