宣布 LlamaCloud 全面上线(以及我们的 1900 万美元 A 轮融资)!
LlamaIndex

Ravi Theja 2023-11-17

GPT4-V 在通用、特定问题和思维链(COT)提示技术方面的实验。

引言

GPT-4V 分析图像甚至从视觉内容生成网站代码的能力令人惊叹。

这篇博文探讨了 GPT-4V 在解读柱状图、散点图和表格方面的能力。我们旨在评估与宽泛的问题相比,特定的提问和思维链提示能否产生更好的回答。我们的演示旨在确定 GPT-4V 是否能通过精确提问和系统推理技术超越这些已知局限性。

我们在这些实验中观察到,提出特定问题而非笼统问题能获得更好的答案。让我们深入研究这些实验。

您也可以在我们的 Google Colab Notebook 中跟着这篇博文一起操作。

N注意:本博文旨在向社区介绍 GPT-4V 的性能,但结果可能并非普遍适用。我们强烈建议您在得出结论之前,先在自己的数据集上使用类似问题进行测试。

实验

我们将选取柱状图、散点图和表格的图片各一张,并通过提出三种类型的问题来分析它们。

  1. 通用问题:只需询问:“分析这张图片。”
  2. 特定问题:通过提供更多细节来具体询问某个类别的表现。
  3. 思维链提示:使用循序渐进的推理方法进行分析。

这些指导原则旨在测试不同的提问技巧如何提高我们从图像中获取信息的准确性。

实验数据

为了进行测试,我们从 Llama2MistralAI 的论文中选取了以下图片。

  1. 不同 LLM 在各类别中的安全违规百分比。(Llama2 论文)
  2. Llama2 与 Mistral 模型在各种 NLP 任务中的表现。(Mistral 论文)
  3. 不同 LLM 在各种 NLP 任务中的表现。(Llama2 论文)

让我们逐一查看这些数据点。

图片 1 — 不同 LLM 在各类别中的安全违规百分比。

通用问题

问题:分析图片。

回答

您提供的图片是一个柱状图,展示了按三类在线违规行为分组的数据:仇恨和有害内容、非法和犯罪活动以及不合格建议。这些类别中的每一个都有一个括号中的数字,表示每种违规类型的报告事件样本大小(分别为 395、728 和 311)。图表的 X 轴指定了各种社交媒体平台或服务,例如“视频分享”、“社交网络”、“游戏”、“约会”、“论坛与留言板”、“商业网站”、“媒体分享”、“P2P/文件共享”、“维基”和“其他”。它似乎衡量了这些类别的违规行为在每种平台上的发生频率。Y 轴测量了报告的违规百分比,范围从 0% 到 60%。每个平台/服务有三根柱子对应于这三种违规类别,显示它们各自的百分比。这些柱子还带有误差线,通常代表数据的变异性,例如标准差、标准误差或置信区间,表示估计的精度。图表有一个图例,指示了与三种违规类别相对应的颜色。这种视觉表示有助于比较不同类型在线服务中不同类型违规行为的普遍性。没有具体的数字,无法提供确切的百分比,但我们可以观察到一些趋势,例如:— 与其他平台相比,“论坛与留言板”和“社交网络”平台在所有三种违规类型中都具有明显更高的百分比。— “商业网站”的仇恨和有害活动以及不合格建议的报告百分比似乎较低,但与“维基”或“P2P/文件共享”等其他平台相比,非法和犯罪活动的百分比更高。— “游戏”似乎具有中等百分比的仇恨和有害违规行为,较低水平的非法和犯罪活动,以及相对较高水平的不合格建议。总的来说,这张图表是一个视觉工具,可能旨在告知不同数字平台中某些类型在线违规行为的普遍性。

观察

如您所见,尽管识别出了仇恨和有害内容、非法和犯罪活动以及不合格建议这几个类别,但它对 X 轴的值出现了幻觉,给出了“视频分享”、“社交网络”、“游戏”、“约会”、“论坛与留言板”、“商业网站”、“媒体分享”、“P2P/文件共享”、“维基”和“其他”。

特定问题

问题:在“仇恨和有害内容”类别中,llama2 和 vicuna 模型哪个表现更好(违规百分比更低)?

回答

从提供的柱状图中,我们可以分析 Llama2 和 Vicuna 模型在“仇恨和有害内容”类别中的违规百分比。要确定哪个模型表现更好(即违规百分比更低),您可以查看该类别中对应每个模型的柱子高度。在“仇恨和有害内容”类别(左侧的第一组柱子)中,您可以比较蓝色柱子(代表 Llama2)和浅蓝色柱子(代表 Vicuna)。该类别中柱子较矮的模型将具有较低的违规百分比,因此在最小化仇恨和有害内容方面表现更好。请注意,我无法实际看到图表,因此无法具体说明哪个模型的违规百分比更低。如果您提供 Llama2 和 Vicuna 在“仇恨和有害内容”类别中的实际百分比或描述相对柱子长度,我就可以告诉您哪个模型在这方面表现更好。

观察

它未能准确捕获信息,错误地将浅蓝色柱子识别为代表 Vicuna,而实际上浅蓝色柱子代表的是 Llama2。

让我们提供更多关于问题的信息,看看它能否改进回答。

问题:您提供的图片描绘了各种 AI 模型在仇恨和有害内容、非法和犯罪活动、不合格建议类别中的违规率表现。“仇恨和有害内容”类别在第一列。浅蓝色柱子代表 Llama2 模型,深蓝色柱子代表 Vicuna 模型。有了这些信息,您能否比较一下 Llama2 和 Vicuna 模型在“仇恨和有害内容”类别中的表现?

回答

在您提供的显示各种 AI 模型在“仇恨和有害内容”类别中违规率表现的柱状图中,我们可以分析代表 Llama2 模型的浅蓝色柱子和代表 Vicuna 模型的深蓝色柱子。根据提供的视觉信息,我可以通过观察该类别中每个子类别中浅蓝色柱子(Llama2)与深蓝色柱子(Vicuna)的高度来比较这两个模型在该类别中的表现。较低的柱子表示较低的违规率,可以解释为在最小化给定标准的违规方面表现更好。由于我无法提供确切的数字或百分比,我将描述它们的相对表现。似乎在某些子类别中,Llama2 的柱子比 Vicuna 的柱子短,这表明 Llama2 模型在这些领域的违规率可能较低。反过来,在其他子类别中,Vicuna 的柱子可能比 Llama2 的柱子短,这表明 Vicuna 模型在这些领域的违规率较低。一个模型优于另一个模型的具体子类别取决于它们的相对柱子高度,应根据给定的信息进行单独比较。

观察

它正确地回答了问题。

思维链提示

问题:根据提供的图片。按照步骤回答问题——在“仇恨和有害内容”类别中,llama2 和 vicuna 模型哪个表现更好(违规百分比更低)。

检查图片:查看图片中问题中提到的类别。

识别相关数据:记录违规百分比。

评估:根据问题要求进行比较。

得出结论:现在根据所有数据得出结论。

回答

检查图片:图片是一个柱状图,描绘了“仇恨和有害内容”、“非法和犯罪活动”以及“不合格建议”这三个类别的违规百分比。每个类别都有两个相邻的柱子,代表名为“llama2”和“vicuna”的两个模型。识别相关数据:我们特别关注“仇恨和有害内容”类别,这是左侧的第一组柱子。这两个柱子表示“llama2”和“vicuna”的违规百分比。评估:通过目视检查对应“仇恨和有害内容”的柱子,我们看到蓝色柱子(表示“llama2”)的百分比低于红色柱子(表示“vicuna”)。确切的百分比不清楚,但我们可以分辨出两者的相对表现。得出结论:从可见的数据来看,“llama2”在“仇恨和有害内容”类别中的违规百分比低于“vicuna”,因此根据给定图片,在这方面表现更好。

观察

使用思维链提示,它对柱子颜色产生了幻觉,但正确回答了 Llama2 在“仇恨和有害内容”类别中的违规率低于 Vicuna,尽管在一个部分中 Llama2 的违规率高于 Vicuna。

图片 2 — Llama2 与 Mistral 模型在各种 NLP 任务中的表现。

通用问题

问题:分析图片。

回答

该图片似乎是四张折线图的集合,比较了不同自然语言处理(NLP)模型在四种不同指标上的性能:自然语言理解(NLU)、推理、知识和常识。比较的模型包括 LLaMA 2、LLaMA 13B、Mistral 和 GPT-3。每张图表都将性能指标(Y 轴)与以十亿有效参数衡量的模型大小(X 轴)进行对比。总的来说,这些图表表明随着模型大小的增加,每个指标的性能都会提高。以下是每张图表的具体观察结果:1. 自然语言理解(左上):所有模型都显示出随着模型大小增加而提高的 NLU 性能。Mistral 在每个大小基准上都被描绘为表现最好的模型。2. 推理(右上):同样,更大的模型在推理任务上表现更好,Mistral 持续优于其他提到的模型。3. 知识(左下):与 NLU 和推理任务类似,趋势是更大的模型表现更好,Mistral 在不同大小上都处于领先地位。4. 常识(右下):这张图表遵循相同的趋势,Mistral 模型在每个大小级别上都比其他模型表现更好。基于这些图表,Mistral 似乎在所有四种指标上都是表现最好的模型,这表明它可能比 LLaMA 2、LLaMA 13B 和 GPT-3 更有效率或更有效,至少在图表中表示的参数和任务范围内是如此。从技术角度来说,值得注意的是,Y 轴显示了指标的不同尺度(NLU、知识和常识的范围是 45-75%,推理的范围是 50-72%),这表明这些任务可能具有不同的难度级别或不同的成功基准。

观察

它回答了问题,但在 NLU 任务上出现了幻觉(该任务实际上是 MMLU 任务),并假设 Mistral 在所有不同的模型参数下都可用。

特定问题

问题:Mistral 模型与 Llama2 模型相比表现如何?

回答

您提供的图片包含四张图表,每张图表都绘制了不同的语言模型评估性能指标。它比较了 Mistral 和 LLaMA2 这两个模型在四个不同方面的表现:MMLU(多任务选择)、推理、知识和常识。在每张图表中,性能指标绘制在 Y 轴上,而以十亿参数为单位的有效模型大小绘制在 X 轴上。以下是根据图表中观察到的趋势进行的总结:1. **MMLU(左上图)**:LLaMA2 的性能曲线随着模型大小的增加而更陡峭,对于最小的模型大小,性能从大约 61% 开始,对于最大的模型,性能达到 66% 以上。Mistral 的性能也随着模型大小的增加而提高,但较早达到平台期,达到略低于 62% 的水平。2. **推理(右上图)**:在推理任务中,LLaMA2 再次呈现更陡峭的改进曲线,从大约 61% 开始,对于最大的模型,性能超过 72%。Mistral 尽管有所提高,但似乎在最大模型附近达到了 70% 的平台期。3. **知识(左下图)**:这张图表反映了与前两张图表相似的趋势,LLaMA2 的性能开始时较低,大约在 46%,并超过 52%。Mistral 开始时较高,大约在 48%,似乎在 52% 附近达到了平台期。4. **常识(右下图)**:在这里,LLaMA2 的性能从大约 62% 开始,达到略高于 66%。Mistral 的起始点似乎比 LLaMA2 稍高,但最终与 LLaMA2 的最大模型处于相似水平。总体而言,与 Mistral 相比,LLaMA2 模型在这些指标上的性能随着模型大小的增加显示出更大的改进程度。同时,Mistral 在某些指标上的起始性能较高,但往往较早达到平台期,这表明 LLaMA2 可能在性能提升方面随着大小扩展得更好。

观察

回答不正确,百分比不够准确,并且再次假定 Mistral 在所有参数模型下都可用。

问题:假设 Mistral 有 7B 系列的模型。Mistral 模型与 Llama2 模型相比表现如何?

回答

这张图片似乎是四张图表的集合,每张图表都比较了三种不同语言模型在各种任务上的性能:Mistral、LLaMA-2 以及一个假定的“7B 参数”模型。图表标明了针对特定任务的性能指标:“MLM U”、“推理”、“知识”和“常识”。图表上的 X 轴表示以参数数量为单位的模型大小,其中有三个点可能对应于被比较的模型大小。Y 轴表示以百分比计的性能,这可能意味着准确率、精确率、召回率或取决于特定任务的其他相关性能指标。图表似乎显示 Mistral 在所有指标上都比 LLaMA-2 和 7B 参数的模型表现更好。这表明在这些测量和任务的背景下,Mistral 是一个更强的模型。图中没有详细说明这些任务的确切性质或“MLM U”、“推理”、“知识”和“常识”具体指什么,但它们很可能分别对应于旨在测试语言理解、推理能力、知识回忆和常识推理的标准 NLP 任务。性能的提高被描绘为随着模型大小的增加而越来越显著。

观察

现在通过提供 Mistral 有 7B 系列模型这一细节,它能够正确回答。

思维链提示

问题:根据提供的图片。按照步骤回答问题——假设 Mistral 有 7B 系列的模型。Mistral 模型与 Llama2 模型相比表现如何?

检查图片:查看图片中问题中提到的类别。

识别相关数据:记录相应的百分比。

评估:根据问题要求进行比较。

得出结论:现在根据所有数据得出结论。

回答

检查图片:图片包含四张图表,每张图表比较了三种不同模型(Llama 2、Mistral 和一个未命名的第三个模型)在不同指标上的性能:mAP@L(在 L 处的平均精度均值)、Reason@L(推测是在 L 处的推理得分)、Knowledge@L 和 Comprehension@L。每张图表都显示了性能随模型大小(以十亿参数为单位)变化的情况。识别相关数据:我们需要关注所有四张图表中的 Mistral 和 Llama 2 模型以提取相关数据。对于 mAP@L:— Llama 2 在达到 700 亿参数时超过 65%。— Mistral 在大约 50 亿参数时开始,性能约为 48%,到 340 亿参数时达到接近 65%。对于 Reason@L:— Llama 2 在达到 700 亿参数时达到大约 68%。— Mistral 在大约 50 亿参数时开始,性能约为 52%,到 340 亿参数时达到接近 68%。对于 Knowledge@L:— Llama 2 在 13 亿参数时开始,性能约为 45%,到 700 亿参数时略低于 60%。— Mistral 未在此图表中绘制,因此无法进行直接比较。对于 Comprehension@L:— Llama 2 在 13 亿参数时开始,略高于 40%,到 700 亿参数时略低于 60%。— Mistral 在大约 130 亿参数时开始,性能约为 52%,到 340 亿参数时持续超过 62%。评估:从图表中,我们可以看到 Mistral 和 Llama 2 在两者都显示的指标上的性能非常接近。然而,Knowledge@L 图表中没有显示 Mistral,因此无法对该特定指标进行完整比较。得出结论:在两者都可以比较的图表中(mAP@L、Reason@L 和 Comprehension@L),Mistral 的表现似乎与 Llama 2 相当,在相对于 Llama 2 绘制的模型大小而言更小的参数尺寸下达到相似的性能水平。这表明 Mistral 可能在参数效率方面更高。然而,由于 Knowledge@L 图表中没有 Mistral 的数据,我们无法得出完整的比较结论。

观察

虽然最终结论部分正确,但在模型参数数量和百分点上出现了幻觉。

图片 3 — 不同 LLM 在各种 NLP 任务中的表现。

通用问题

问题:分析图片。

回答

该图片似乎是一张包含数值数据的表格,看起来是对各种模型在多个参数或测试中的比较分析。每一行代表一个不同的模型或配置,由诸如“MPT”和“Falcon”之类的名称以及“70B”、“7B”或其他参数大小规格表示。列标有测试名称或评估指标,例如“Size”、“Avg”、“AQuA-RAT”、“LogiQA”、“L-SAT-AR”、“L-SAT-IC”、“L-SAT-RC”、“SAT-en (w/o Psg.)”和“SAT-math”。这些数据可能与这些模型在这些测试中的性能得分有关,较高的数字可能表示更好的性能。如果没有额外的上下文,很难对这些数据进行全面分析,但很明显,它旨在提供不同模型在各种任务上的性能比较,可能是在机器学习或人工智能评估领域,通常会评估这些模型的推理、理解或问题解决能力。“70B”和“7B”的标记可能指的是模型的参数数量,这在评估语言模型时常用。更深入的评估需要进一步了解这些测试和模型的具体性质,以及它们进行比较的预期用例。

观察

它没有具体分析图片,但在一定程度上理解了图片中呈现的整体数据。

特定问题

问题:在 SAT-en 方面哪个模型表现更好?

回答

在您提供的表格中,模型基于它们在包括 SAT-en(SAT 类比,或表格中的“SAT”)在内的多个基准测试中的表现进行比较。要确定哪个模型在 SAT-en 基准测试中表现更高,您需要查看相应的列。在 SAT-en 列(从右数第二列)中,得分最高的两个模型是:— LLaMA1 65B:得分为 57.9 — LLaMA2 70B:得分为 63.4 在这两者之间,具有 700 亿参数的 LLaMA2 模型在 SAT-en 基准测试中表现更高,得分为 63.4。

观察

它回答正确,但数字出现了幻觉。

问题:在 7B 系列模型中,哪个模型在 SAT-en 方面表现更高?

回答

您提供的表格显示了不同模型大小(如 MPT、Falcon 和 LLaMA 等各种 AI 模型)在不同任务(如 Aqua-RAT、LogiQA、LastAR、SAT-en 和 SAT-math)上的性能基准得分。对于 SAT-en 任务,您具体询问了 7B 系列中哪个模型的性能最高。要找出答案,我们需要查看标有“SAT-en (w/o Ps_8)”的列。在 7B 系列的模型中,得分如下:— MPT 7B:37.1 — Falcon 7B:37.3 — LLaMA 7B:63.9 — Model2 7B:37.4 LLaMA 7B 模型在 SAT-en (w/o Ps_8) 任务上以 63.9 的得分优于其他 7B 模型。

观察

回答不正确,且错误识别了 Llama 系列的模型和数值。

思维链提示

问题:根据提供的图片。按照步骤回答问题——在 7B 系列模型中,哪个模型在 SAT-en 方面表现更高?

检查图片:查看图片中问题中提到的类别。

识别相关数据:记录相应的百分比。

评估:根据问题要求进行比较。

得出结论:现在根据所有数据得出结论。

回答

为了回答 7B 系列模型中哪个模型在 SAT-en 方面表现更高,我将按照提供的步骤进行:检查图片:图片中的类别包括模型名称和大小,以及各种任务的性能得分,包括 SAT-en 类别。识别相关数据:SAT-en 类别的相关数据是每个 7B 系列模型在该类别下所列的百分比。评估:我将比较每个 7B 系列模型的 SAT-en 百分比。得出结论:7B 系列模型的 SAT-en 得分如下:— MPT 7B:63.1% — Falcon 7B:73.4% — LLama 1 7B:该类别无数据。— LLama 2 7B:76.6% 根据数据,LLama 2 7B 模型在 7B 系列模型中具有最高的 SAT-en 性能,得分为 76.6%。

观察

使用思维链提示,我们能够得出正确的结论,尽管需要指出它提取了错误的数值。

最终观察

基于对幻觉和正确性实验的观察。(请注意,这些观察结果仅针对所使用的图片,不能推广,因为它们会因图片而异。)

总结

在这篇博文中,我们展示了从笼统询问到系统提问和思维链提示技术的实验,并观察了幻觉和正确性指标。

然而,需要注意的是,GPT-4V 的输出可能有些不稳定,并且幻觉水平略有提高。因此,重复相同的实验可能会得到不同的答案,尤其是在处理通用问题时。