ReadCai财经资讯
当前位置:首页 » 13. 科技 » 人工智能

研究显示大模型在多轮对话中性能显著下降

2025-06-11

数据:

大模型在多轮对话中的性能明显低于单轮对话,平均下降了39%。一旦模型的第一轮答案出现偏差,建议重新开始新对话,而不是尝试修正。

线索:

研究表明,多轮对话的显著性能下降揭示了现有大模型在实际应用中潜在的风险。用户在面对模型的偏差时,如何调整对话策略以减少信息损失,将成为重要的投资和技术发展方向。此外,此研究可能推动对大模型进行更深入的场景适应评估,并开发出针对多轮对话的优化算法,以改善用户体验。

正文:

最近的一项研究报告显示,经过20万次模拟实验,预算5000美元,验证了在多轮对话中,大模型表现明显低于单轮对话。在实验中,15个顶级的大语言模型(LLM)在多轮和单轮对话场景下的性能对比显示,所有模型在多轮对话中平均性能下降了39%。研究指出,若初始答案有偏差,用户最好重新开启对话,不要试图对其进行纠正。

ChatGPT的兴起推动了对话应用场景的快速发展,用户可通过逐步完善提问来引导对话,催生了如“与AI通话”的应用设计。然而,当前大模型的评估标准依然基于单轮对话,未能很好地评估其在真实多轮对话中的表现。

研究表明,大模型在首次回答时往往形成定论,从而影响后续的回答,研究者称之为“对话迷失”。一旦模型在多轮对话中偏离目标,再进行信息补充也难以纠正错误的方向。

为评估大语言模型在多轮对话中的表现,研究人员对现有的单轮基准测试任务进行了重新设计,形成了多个多轮对话场景进行测试。实验使用了600条指令,从八大模型家族中选拔出15种,针对三种主要对话模拟类型(完全指定、分片、合并)进行了综合实验。

总的来说,所有模型在完全指定的单轮对话中表现优异,但在分片的多轮场景中,性能普遍下降。相较于合并设置,模型在合并对话中的表现较好,显示分片对话性能降低的原因并非信息丢失,而是来自于对话的多轮性质和不明确性。

此外,实验还观察到,模型的大小直接影响性能,较小的模型在合并对话中表现不佳,表明其泛化能力较差。增加计算量并未能有效帮助模型适应多轮对话,反而可能导致混淆,强调了模型设计与应用场景匹配的重要性。

发布时间:

2025-06-09 17:34:48

相关推荐

评论 ( 0 )

2.9 W

文章

42.4 W

点赞

回顶部