数据:
杭州领先AI开源,阿里Qwen在2025年1月28日发布视觉理解模型Qwen2.5-VL,开源的版本有3B、7B和72B,7B模型在多个任务中超越GPT-4o-mini。
线索:
阿里Qwen推出的视觉理解模型具有强大的性能提升,对AI视觉识别、视频理解和文档解析等方面的应用具有深远影响,投资者应关注涉及图像识别、视频处理和文档解析领域的技术公司,以及可能面临的竞争和技术变革带来的市场风险。
正文:
在即将迎来新年的时刻,杭州再一次展现了其在人工智能领域的创新活力。2025年1月28日,阿里巴巴通义Qwen发布了新春节礼第二弹,即视觉理解模型Qwen2.5-VL,并且该模型已全面开源。Qwen2.5-VL被视为“旗舰视觉语言模型”,同时推出了3个版本,分别是模型参数为3B、7B和72B的版本。
Qwen2.5-VL能够支持多种视觉理解任务,包括长视频理解、事件捕捉、视觉定位和结构化输出。官方指出,其中7B型号的Qwen2.5-VL-7B-Instruct在许多任务中超越了GPT-4o-mini。此外,通义Qwen团队还将3B型号称为“端侧AI的潜力股”,这款3B模型在多个指标上超越了前一代的Qwen2-VL-7B。
Qwen2.5-VL展示了卓越的文档与图表理解能力,并且能够作为视觉Agent操作而无需进行专门的任务微调。根据官方数据,Qwen2.5-VL在视觉定位、图像识别、文档解析、设备操作、视频理解和文字理解等多个方面展现了出色的能力。具体而言,它使得用户可以通过矩形框和坐标精确定位图像中的物体,并根据要求输出规范化的JSON格式数据。
相较于先前的模型Qwen2-VL,Qwen2.5-VL在多方面都有所增强,不仅提升了对时间和空间的感知能力,还简化了网络架构,提高了模型的效率。其在视频理解方面,可以处理时长超过1小时的视频,并快速定位相关事件。
Qwen2.5-VL的开源版已经在多个社区内发布,且其旗舰版Qwen2.5-VL-72B-Instruct被认为在多个评测中表现优异,具有潜力成为行业标准。团队表示,未来将进一步提升模型的问题解决和推理能力,以推动向更智能和全能的综合模型发展。
发布时间:
2025-01-28 13:12:00
评论 ( 0 )