宣布 LlamaCloud 正式发布(以及我们的 1900 万美元 A 轮融资)!
LlamaIndex

Jerry Liu 2023-06-06

为大型语言模型构建数据框架

今天对 LlamaIndex 来说是令人兴奋的一天,也是我个人在生成式人工智能领域的旅程中的一个重要里程碑。在我大部分的学术/职业生涯中,我一直关注生成模型——从我对 GANs/传感器压缩的研究到关注Transformer/GPT发展。越来越清楚的是,随着这些模型变得越来越大/越来越好,它们正从知识生成器演变为能够在新信息上进行推理/行动的智能引擎。

我更具体地形式化了一些关键直觉

  • LLMs 是出色的推理引擎,能够进行问答、总结、规划等。它们有望成为人工智能赋能软件新时代核心的“神经”计算单元。
  • 然而,LLMs 本身对您自己的数据一无所知。
  • 没有人真正知道将您的数据输入 LLM 的最佳实践。模型的上下文窗口有限,并且微调成本高昂。

如果我们能提供一个工具包来帮助设置 LLM 应用的数据架构,那么我们就可以赋能任何人构建由 LLM 驱动的知识工作者,并改变在私有数据上编写软件的方式。LLM 赋能的软件需要在您的数据之上构建新的基础设施工具,这对现代软件数据堆栈具有重要意义。

为了应对这一挑战,我构建了 GPT Index(后来更名为 LlamaIndex),这是利用 LLM 组织和检索信息的初步探索性尝试。(我的第一条推文在此!)

这发生在最恰当的时机。自去年 11 月以来,开发者对于在 LLM 之上构建应用的兴趣呈爆炸式增长。大多数开发者正在探索如何利用 LLM 的推理能力处理他们自己的私有数据。短短两个月内,我与我的前同事、杰出的人工智能技术专家 Simon Suo 联手,我们将 LlamaIndex 从一个探索性项目发展成为一个全面的框架,旨在连接用户的私有数据与 LLM。它在人工智能社区内获得了认可,吸引了黑客、开发者和行业专家的关注。在仅仅六个月内,该项目获得了令人瞩目的追随者,包括 1.6 万 Github Star2 万 Twitter 关注者每月 20 万次下载以及 6 千活跃 Discord 用户。Instabase、Front 和 Uber 等公司开始在他们的数据上试验 LlamaIndex。

一些初步的堆栈开始涌现——例如,构建问答系统和聊天机器人的常见范例是使用简单的检索机制(从向量数据库中进行 top-k 查询)与 LLM 结合。LlamaIndex 被视为新兴 LLM 软件图景中的一个关键数据编排组件

然而,很明显,LLM 和数据领域仍然存在重大的技术挑战,而且没有人有正确的答案。即使我们开发了功能强大的工具包,我们也只是刚刚开始触及从数据中释放价值的表面。

我们很高兴地宣布,LlamaIndex 已获得 Greylock 领投的 850 万美元种子轮融资,以进一步推动这些努力。我们很高兴与 Greylock 团队的 Jerry Chen、Saam Motamedi 和 Jason Risch 合作。与我们一起踏上这段激动人心旅程的还有 Jack Altman(Lattice 首席执行官)、Lenny Rachitsky(Lenny 的时事通讯)、Mathilde Collin(Front 首席执行官)、Raquel Urtasun(Waabi 首席执行官)、Joey Gonzalez(伯克利)以及许多其他人。他们对我们愿景以及 LlamaIndex 对人工智能未来的影响的信念,激发了我们解决这些数据 + 人工智能问题的热情。

为什么选择 LlamaIndex?

调用 LLM API 很容易。搭建一个能够从您的私有数据中提取洞察的软件系统则更难。

LlamaIndex 是您的 LLM 应用的高级数据框架。它包含了让您能够同时管理和查询数据的基本功能。

  • 数据管理:数据摄取、数据解析/切片、数据存储/索引。
  • 数据查询:数据检索、响应合成、跨数据进行多步交互。

LlamaIndex 允许您将个人或企业数据(包括文件、办公应用和数据库)与 LLM 应用无缝集成。我们还提供与各种其他存储提供商和下游应用的广泛集成。

  • 100+ 数据加载器
  • 13+ 向量数据库提供商
  • 与可观测性和实验框架的集成(例如,提示追踪和系统追踪)
  • 作为 ChatGPT 检索插件或与 Poe 的集成

最终结果是,您可以构建各种令人惊叹的知识密集型 LLM 应用。这包括基于您的数据的搜索引擎、聊天机器人风格的界面、结构化分析助手,以及自主知识代理。

接下来是什么?

我们还有多工作要做,以便更全面地实现我们在您的数据之上释放 LLM 能力的愿景。我们将大致将其分为两类:1)我们对开源开发者社区的持续承诺,以及 2)为企业解决规模化数据问题。

构建最好的开源数据框架和开发者社区

从宏观层面看,我们希望继续迭代核心功能,提高可靠性,并满足初级用户和高级用户的需求。

  • 处理复杂查询: 我们希望继续推进“查询您的数据”这一理念,无论是通过利用代理式交互进行数据检索和合成,还是通过程序合成/DSL。
  • 多模态数据管理: 基础模型的未来是多模态的,不仅仅局限于 LLM。有许多类型的半结构化数据(例如,JSON、yaml 文件等)以及“复杂”的非结构化数据(音频、图像、视频),我们非常希望为其提供原生支持。
  • 更好地评估 LLM 数据系统: 正确评估 LLM 调用本身就很难(如何最好地评估生成输出的质量?有一些可以处理这个问题)。当您在整个数据系统中串联 LLM 调用时,这变得更加困难。我们希望在此领域投入精力,为用户提供更大的透明度。
  • 延迟/成本优化: 用户在构建数据驱动的 LLM 应用时面临着众多的选择:LLM 模型、嵌入模型、向量数据库等的选择。他们必须根据延迟、成本、隐私等多种因素进行选择。
  • 初级用户和高级用户的易用性: 我们的目标是让所有技能水平的用户都能轻松便捷地使用 LLM 功能。我们将开发清晰的教程、示例和工具,以简化学习曲线,并传达我们所有功能的价值。

为企业解决规模化数据问题

在我们迭代开源项目的同时,我们还希望识别构建和部署数据驱动的 LLM 应用到生产环境中的周边痛点。我们的解决方案将建立在我们开源项目的成功基础之上,并自然地演进到企业环境中。

  • 生产级数据摄取和管理: 我们希望处理数据更新、数据一致性以及扩展到更大规模的数据解析。我们还希望继续扩展适用于多模态数据的正确存储抽象。
  • 扩展到大规模数据量: 与个人相比,企业通常拥有量级更大的数据。我们希望在我们核心软件包周边投资托管基础设施/部署解决方案,以便您不必自己动手。
  • 领域特定 LLM 解决方案: 我们希望提供打包的解决方案,使用户能够轻松地在不同领域构建 LLM 应用,从医疗保健到金融再到法律。

如果您正在企业环境中构建 LLM 应用,我们非常乐意与您交流,了解更多关于痛点和所需功能的信息!请在此填写我们的表格

加入 Llama 帮!🦙

加入 Llama(Index) 帮,与我们一起踏上解决 LLM 与数据交叉领域问题的旅程。我们不仅是在为机器学习从业者/研究人员构建工具;新兴的 LLM + 数据架构堆栈对所有软件开发都具有影响。因此,我们正在解决来自各种不同领域中极其有趣且富有挑战性的问题

  • 基础模型开发
  • 信息检索 + 推荐系统
  • 数据系统
  • MLOps
  • DevOps

对项目感兴趣?

另外,我们正在招聘!

  • 我们正在寻找创始工程师——具备人工智能、数据系统和全栈/前端中一项或多项经验者优先,但不是必需条件。
  • 如果您感兴趣,请在此填写我们的表格