当前位置：首页 » 文章

阿里巴巴推出全球首个开源视觉推理模型QVQ

阿里巴巴推出了基于Qwen2-VL-72B构建的开源多模态推理模型QVQ，这可能是全球第一个用于视觉推理的开源权重模型。QVQ模型的主要目标是模仿人类将语言和视觉紧密交织以感知和理解世界的方式，它通过读取图像和指令来开始思考、推理，并得出预测。

QVQ在人工智能的视觉理解和复杂问题解决能力方面取得了重大突破。在MMMU评测中，QVQ取得了70.3的优异成绩，并且在各项数学相关基准测试中相比Qwen2-VL-72B-Instruct都有显著提升。QVQ在视觉推理任务中展现出增强的能力，尤其在需要复杂分析思维的领域表现出色。

QVQ在四个数据集上进行了评估，包括MMMU、MathVista、MathVision和OlympiadBench，这些数据集涵盖了多学科多模态评测、数学相关视觉推理测试、多模态数学推理测试以及奥林匹克竞赛级别的双语多模态科学基准测试。QVQ在这些测试中表现出色，有效缩小了与领先模型之间的差距。

尽管QVQ展示了令人惊叹的能力，但它仍有一些局限性值得关注，包括语言混合与切换问题、递归推理问题、安全与伦理问题以及性能与基准限制。例如，在多步视觉推理中，模型可能逐渐失去对图像内容的关注，产生“幻觉”结果。

QVQ模型的开源，为研究人员和开发者提供了一个强大的工具，以探索和推动视觉推理领域的进一步发展。模型的试用链接已在Hugging Face、ModelScope和Kaggle上提供，供有兴趣的用户试用和研究。

-=||=-收藏赞 (0)