阿里巴巴发布开源视觉理解模型Qwen2.5-VL

2025-02-04

数据：

杭州领先AI开源，阿里Qwen在2025年1月28日发布视觉理解模型Qwen2.5-VL，开源的版本有3B、7B和72B，7B模型在多个任务中超越GPT-4o-mini。

线索：

阿里Qwen推出的视觉理解模型具有强大的性能提升，对AI视觉识别、视频理解和文档解析等方面的应用具有深远影响，投资者应关注涉及图像识别、视频处理和文档解析领域的技术公司，以及可能面临的竞争和技术变革带来的市场风险。

正文：

在即将迎来新年的时刻，杭州再一次展现了其在人工智能领域的创新活力。2025年1月28日，阿里巴巴通义Qwen发布了新春节礼第二弹，即视觉理解模型Qwen2.5-VL，并且该模型已全面开源。Qwen2.5-VL被视为“旗舰视觉语言模型”，同时推出了3个版本，分别是模型参数为3B、7B和72B的版本。

Qwen2.5-VL能够支持多种视觉理解任务，包括长视频理解、事件捕捉、视觉定位和结构化输出。官方指出，其中7B型号的Qwen2.5-VL-7B-Instruct在许多任务中超越了GPT-4o-mini。此外，通义Qwen团队还将3B型号称为“端侧AI的潜力股”，这款3B模型在多个指标上超越了前一代的Qwen2-VL-7B。

Qwen2.5-VL展示了卓越的文档与图表理解能力，并且能够作为视觉Agent操作而无需进行专门的任务微调。根据官方数据，Qwen2.5-VL在视觉定位、图像识别、文档解析、设备操作、视频理解和文字理解等多个方面展现了出色的能力。具体而言，它使得用户可以通过矩形框和坐标精确定位图像中的物体，并根据要求输出规范化的JSON格式数据。

相较于先前的模型Qwen2-VL，Qwen2.5-VL在多方面都有所增强，不仅提升了对时间和空间的感知能力，还简化了网络架构，提高了模型的效率。其在视频理解方面，可以处理时长超过1小时的视频，并快速定位相关事件。

Qwen2.5-VL的开源版已经在多个社区内发布，且其旗舰版Qwen2.5-VL-72B-Instruct被认为在多个评测中表现优异，具有潜力成为行业标准。团队表示，未来将进一步提升模型的问题解决和推理能力，以推动向更智能和全能的综合模型发展。

发布时间：

2025-01-28 13:12:00

阿里巴巴发布开源视觉理解模型Qwen2.5-VL

相关推荐

评论 ( 0 )

取消回复

阿里巴巴发布开源视觉理解模型Qwen2.5-VL

相关推荐

评论 ( 0 )

取消回复

ReadCai财经资讯站