宣布 LlamaCloud 全面上市(以及我们的 1900 万美元 A 轮融资)!
LlamaIndex

Anil Chandra Naidu Matcha 2023-12-14

如何使用 EmbedAI + LlamaIndex 在您的数据上训练定制化 GPT

由 OpenAI 开发的 ChatGPT 改变了我们在网上互动的方式。作为一种通用聊天机器人,ChatGPT 只能回答通用查询。但如果您能让它回答针对您业务的特定问题,它就会变得更加有用。为此,您需要用您的数据来训练 ChatGPT。

EmbedAI 是一个无代码平台,用于创建基于您的业务数据训练的 AI 聊天机器人。这包括来自网页、PDF、Notion 文档或 YouTube 视频的数据,使 EmbedAI 能够适应各种信息来源。

在这篇博客文章中,我们将向您展示如何使用 LlamaIndexEmbedAI 在您自己的数据上训练 ChatGPT,帮助您创建针对您的业务需求量身定制的定制化且高效的 AI 聊天机器人。

基于您的数据进行聊天的用例

基于您的数据训练的聊天机器人有很多种用途,包括:

  1. 客户支持机器人:管理有关产品的常见问题,高效处理客户支持咨询。
  2. 公司搜索引擎:快速查找公司内部文档和信息,提高工作效率。
  3. 个性化学习助手:根据特定课程内容提供量身定制的教育支持和学习指导。
  4. 技术支持助手:为复杂的软件问题提供深入帮助,从故障排除到使用技巧。
  5. 医疗保健助手:基于医学文献和常见问题,提供一般健康建议和信息。
  6. 金融聊天机器人:协助处理财务查询,通过训练财务数据,提供关于产品、市场趋势和投资策略的建议

让我们深入探讨如何创建与 PDF、Notion 文档、视频、网页等各种数据源集成的聊天应用。

案例 1:为您网站定制 ChatGPT

要使用您的网站内容训练 ChatGPT,我们需要抓取所有相关网页的内容。步骤如下:

  • 提取您网站上的所有 URL,例如来自您的站点地图
  • 只包含您需要训练的相关 URL
  • 使用 LlamaIndex 的 SimpleWebPageReader 下载这些 URL 的内容

这里是一些实现此功能的示例代码

数据准备好后,可以使用 LlamaIndex 的 VectorStoreIndex 类来训练一个 AI 聊天机器人。

要在您的网站上无需编码创建 ChatGPT 聊天机器人,您可以使用下面概述的 EmbedAI,它内部使用了 LlamaIndex

案例 2:为您 PDF 文档定制 ChatGPT

如果您的业务特定数据存储在 PDF 文档中,并且您希望创建一个能够提取其中信息的聊天机器人,我们可以使用 LlamaIndex 和 PDFMiner 库来实现。这次的步骤如下:

  • 上传您的 PDF 并存储在云端
  • 安装 PDFMiner 库
  • 获取已上传的 PDF 并使用 LlamaIndex 加载器提取文档文本

这里是使用 LlamaIndex 创建基于 PDF 文档训练的 AI 聊天机器人的代码

如果您想无需编码在您的 PDF 内容上创建 ChatGPT 聊天机器人,您可以使用下面的 EmbedAI 演示,它内部使用了 LlamaIndex

案例 3:为您视频定制 ChatGPT

通常,有价值的信息嵌入在视频中,这对于搜索信息的用户来说并不容易访问。然而,通过使用这些内容训练 AI 聊天机器人,它可以成为用户的极其丰富的资源,显著提升他们的体验。

让我们看看如何从我们的 YouTube 视频中获取信息,以便使用 LlamaIndex 训练 AI 聊天机器人。步骤如下:

  • 找到您的频道 ID
  • 安装 scrapetube 并将您的频道 ID 传递给它以获取您的视频列表
  • 安装 Youtube 字幕 api 并将上述视频 URL 传递给 LlamaIndex 加载器以获取文档列表

代码如下所示

现在您可以使用 LlamaIndex 的 SimpleVectorIndex 在这些文档上训练一个 AI 聊天机器人,从而创建一个基于您的 YouTube 视频训练的 ChatGPT 机器人。与之前一样,您可以使用 EmbedAI 创建一个无代码的聊天机器人。

案例 4:为您 Notion 定制 ChatGPT

在许多现代公司中,其很大一部分内容存储在 Notion 中。随着内容增长,快速定位特定信息变得越来越困难。为了解决这个问题,我们可以开发一个 Notion 聊天机器人来简化查找所需信息的过程。

准备数据的步骤

  • 按照他们的说明从 Notion 获取访问令牌
  • 使用 Notion API,从 Notion 解析数据并生成 LlamaIndex 文档
  • 使用 VectorStoreIndex 在这些数据上训练聊天机器人

如果您更喜欢无需编码的方式来训练基于您的 Notion 文档的聊天机器人,您可以使用下面的 EmbedAI 演示,它内部使用了 LlamaIndex

但这还不止于此。使用 EmbedAI,您甚至可以连接来自 Google Docs、Shopify 等更多来源的数据,或者使用 Zapier 连接 6000 多种工具并与其数据进行聊天。您可以通过从LlamaHub 中选择您特定的数据连接器来实现这一点。

构建 EmbedAI 时的挑战

  • 在 EmbedAI 中,连接像 Notion 这样的数据源时,数据可能会定期变化,需要自动刷新。因此,数据需要定期刷新以添加新文档或编辑现有文档,这需要在内部处理。同样,在索引网站数据时,也可以定期刷新。LlamaIndex 使处理这些场景变得容易。LlamaIndex 有一个关于处理连续摄取数据的指南。
  • 在 EmbedAI 中查询表格数据是处理包含表格的 PDF 内容时的主要问题。简单的分块可能会导致次优结果甚至幻觉。LlamaIndex 提供了一个指南,介绍如何处理包含文本和表格的 PDF,并在查询时获得最佳结果。
  • EmbedAI 中的 Shopify 集成需要混合搜索,因为我们不仅需要搜索产品描述,还需要搜索产品元数据。因此,需要结合语义搜索和关键词搜索才能获得最佳结果。LlamaIndex 提供了一个简单的框架来构建混合搜索应用,例如在这个示例中。

定制训练的聊天机器人可以帮助您的业务

使用您自己的数据训练 ChatGPT 为您的业务带来了显著优势。从通过基于特定产品知识训练的机器人增强客户支持,到创建复杂的公司搜索引擎,其应用场景多种多样且影响深远。LlamaIndex 提供了许多抽象层,有助于构建基于您的数据训练的定制聊天机器人,我们在 EmbedAI 中大量使用了这些抽象层。对于那些寻求无代码解决方案来开发针对其数据量身定制的 AI 聊天机器人的人来说,从 EmbedAI 入手是一个简单的选择,我们鼓励您试用