数据:
Qwen模型的上下文长度扩展至1M,处理长文本任务性能超越GPT-4o-mini。
线索:
Qwen的新模型为长文本处理拓展了市场选择,尤其是它在性能上的显著提升,带来了可能的行业应用机会。企业可以利用该模型处理大规模数据,如文档分析、代码理解等。然而,模型的快速演化也可能引发市场竞争加剧,尤其是在开源AI领域。
正文:
阿里云Qwen近期推出了其开源模型的最新版本,成功将上下文长度扩展至1M。这一新模型包括两个版本:Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M。它们在处理长文本任务时表现优异,能够在处理百万级别长文本输入的情况下实现近7倍的速度提升。这一扩展相当于10本长篇小说或150小时的演讲稿,甚至是3万行代码。
研究团队分析了Qwen2.5-1M系列模型在长上下文和短文本任务中的表现。在Passkey Retrieval密钥检索任务中,该模型可以从1M长度的文档中准确提取隐藏信息。需要注意的是,在整个系列中,只有7B模型偶尔出现错误。对于更复杂的长任务,该团队使用了RULER、LV-Eval和LongbenchChat等测试集来评估性能。
综合评估结果显示,Qwen2.5-1M系列模型在多数长上下文任务中相较于之前的128K版本有显著进步,特别是在处理超过64K长度的任务时表现出极佳的适应性。在与其他主流模型比较中,Qwen2.5-14B-Instruct-1M模型显示出更强的优势。尽管如此,各模型仍需根据具体需求进行选择。
在短文本任务上,Qwen2.5-1M系列保持了与128K版本相当的性能,且在短文本任务方面的表现与GPT-4o-mini相近,同时支持更长上下文。这说明其在多任务处理能力上的平衡与可靠性。
Qwen新模型的训练过程主要包括三个步骤:长上下文训练、长度外推和稀疏注意力机制。长序列训练需大量计算资源,因此团队逐步将上下文长度扩展至256K,保证短任务性能也得以维持。同时,采用了Dual Chunk Attention技术,以解决长上下文任务中相对位置距离过大的问题。
最终,该团队在推理速度上也进行了优化,通过基于MInference的稀疏注意力机制,显著提升了1M长度输入序列的处理速度。
该项目现已提供在线体验,用户可通过HuggingFace和魔塔社区进行尝试。还提供了详尽的技术报告,供感兴趣的开发者参考。
发布时间:
2025-01-27 14:37:00



评论 ( 0 )