
LlamaIndex • 2024-05-21
LlamaIndex 通讯 2024-05-21
各位 LlamaIndex 社区成员大家好!🦙
欢迎来到 LlamaIndex 的又一周精彩更新!上周是 AI 世界引人注目的一周,GPT-4o 和 Gemini 模型都发布了重要更新。我们很高兴能为您带来一系列出色的集成更新、指南、教程、网络研讨会和活动。
🤩 亮点:
- Vertex AI (Google Cloud) 上的 LlamaIndex: 推出基于 Vertex AI (Google Cloud) 上先进 LlamaIndex 模块构建的新 RAG API。 文档, 推文.
- 使用 GPT-4o 增强文档解析: 在 LlamaParse 中集成 GPT-4o 以实现更优的文档解析。 Notebook, 推文.
- 使用 GPT-4o 进行结构化图像提取 Cookbook: 查看我们关于使用 GPT-4o 进行结构化图像提取的新 cookbook。 Notebook, 推文.
✨ 功能发布和增强
- 我们已在 Vertex AI (Google Cloud) 上发布 LlamaIndex,以推出由 LlamaIndex 高级模块增强的新 RAG API。此集成简化了设置,并增强了开发者连接各种数据源和文件类型的灵活性。它完全支持最新的 LLM,包括 Gemini 1.5 Flash、Gemini 1.5 Pro 和 Gemini 1.0 模型。 文档, 推文.
- 我们在 LlamaParse 中引入了 GPT-4o,提供了增强的文档解析功能,可将复杂文件解析为 Markdown 格式,确保您的 RAG pipeline 具有更高的数据质量。请注意,每页费用增加至 0.60 美元,而标准费用为每页 0.003 美元。 Notebook, 推文.
- 我们发布了关于使用 GPT-4o 进行结构化图像提取的 cookbook,展示了如何将图像转换为结构化 JSON,实现了 0% 的失败率和比 GPT-4V 更高的质量。 Notebook, 推文.
- LlamaParse 与 Quivr 集成,增强文档解析能力。现在,您可以轻松处理 PDF、PPTX 和 Markdown 文件等复杂文档,确保在个性化 AI 助手中实现清晰的数据存储和准确检索。 文档, 推文.
🗺️ 指南
- 使用 LlamaParse 增强复杂表格(如火车时刻表)的 QA 指南。这种方法利用文本的空间布局和 GPT-4o 来保留关键信息,确保数据解释准确无误。
- 使用 Jina Embeddings 加速向量搜索并最大限度减少精度损失的指南,在仅牺牲 4% 精度的情况下实现 32 倍的向量搜索性能提升。这涉及将数据编码为二进制数字,显着减少存储和计算需求。
✍️ 教程
- Kate Silverstein 关于构建本地研究助手的教程,使用 Mozilla 的 llamafile 在您的笔记本电脑上轻松设置本地、私人的研究助手。教程涵盖从下载和激活模型,到通过 LlamaIndex 连接和管理数据的所有内容。
- Plaban Nayak 关于使用 Llama-Index 和 Mistral 进行多文档 Agentic RAG 的教程。
- Diptiman Raichaudhuri 关于使用 DuckDB 作为数据库、Ollama + Mixtral-8x7B 作为模型以及 LlamaIndex 进行 Text-to-SQL 协调的完全本地 Text-to-SQL 教程。
- Mandar Karhade 关于展示一个端到端实验流程的教程,用于迭代 chunk 大小、生成合成数据集以及衡量其对评估指标的影响。
📹 网络研讨会
本周四太平洋时间上午 9 点加入我们的“自主智能体的开源长期记忆”网络研讨会,我们将与 Julian Saks、Kevin Li、Seyeong Han 以及 memary 团队的其他成员一起探讨 memary 架构,深入研究自主系统的长期记忆所面临的挑战和未来。
📅 活动
我们将在旧金山的新办公室举办首次线下聚会!加入我们,与我们的团队以及来自 Activeloop 和 Tryolabs 的朋友们交流,共同讨论生成式 AI 的最新进展。