视觉推理能力评测新基准发布

港中文MMLab推出MME-CoT基准,全面测评DeepSeek-R1、GPT-4o、Kimi k1.5等模型的视觉推理能力。研究显示,Kimi在推理质量领先,o3-mini鲁棒性最佳,DeepSeek文本推理优势显著。揭秘评测指标与关键发现。

DeepSeek vs OpenAI vs Kimi:视觉推理能力终极对决

MME-CoT基准:重新定义多模态模型评估

香港中文大学MMLab团队发布MME-CoT(Multi-Modal Evaluation Chain-of-Thought)基准,首次系统化评估大型多模态模型(LMM)的视觉推理能力。该基准覆盖数学、科学、OCR等6大领域,通过1130道精选题目与3865个关键步骤标注,构建全景评估体系。

三大核心评测维度:

  • 质量:召回率与精确率双重验证推理逻辑
  • 鲁棒性:感知任务稳定性与推理任务有效性
  • 效率:步骤相关性与反思质量量化分析

实验涵盖15个主流模型,包括Kimi k1.5、GPT-4o及纯文本模型DeepSeek-R1,揭示行业技术差距。


模型表现:Kimi质量领先,DeepSeek文本逆袭

质量排名

  1. Kimi k1.5(F1 68.2%)
  2. DeepSeek-R1(66.3%)
  3. o3-mini(61.5%)

DeepSeek-R1仅凭图像描述文本,在精确率上超越GPT-4o视觉模型2.1个百分点,展现强大文本推理迁移能力。

鲁棒性对比

  • o3-mini感知任务稳定性达98.7%
  • Kimi推理任务有效性提升14.6%
  • DeepSeek在复杂逻辑场景误差率最低

研究同时暴露行业痛点:30%-40%反思步骤与解题无关,InternVL2.5等模型应用CoT后感知性能下降6.8%。


关键发现:参数规模与反思效率的博弈

  1. 参数优势:Qwen2-VL-72B较7B版本推理有效性提升7.2%,验证大模型学习潜力
  2. 长CoT陷阱:GPT-4o等模型40%步骤信息密度不足,存在“无效空想”现象
  3. 反思错误类型
    • 无效调整(45%)
    • 分析不完整(28%)
    • 自我干扰(12%)

实验显示,Kimi通过动态注意力机制,将关键步骤相关性提升至82%,显著优于行业平均水平。


评测体系设计:从结果到过程的革命

MME-CoT突破传统答案正确性评估,引入:

  • 步骤召回率:GPT-4o自动匹配必要推理链
  • 跨模态稳定性:分离感知/推理任务验证鲁棒性
  • 成本-收益比:量化token消耗与准确率增益关系

数据集构建采用双重过滤机制,专业团队耗时1200小时完成标注,确保多解法问题的全面覆盖。

此文章由OpenAI开源维基百科原创发布,如若转载请注明出处:https://openai.wiki/mme-cot-benchmark.html

(0)
上一篇 2025-02-22 19:06
下一篇 2025-02-22 19:49

相关推荐

  • ChatGPT禁令:科技的进步与伦理的挑战

    随着人工智能技术的不断发展,ChatGPT已经可以模拟人类进行对话,并具有一定的智能和自学能力。然而,这种技术也带来了许多伦理和道德的问题。本文将探讨ChatGPT禁令的背景和原因,讨论技术进步与伦理的挑战。

    AI快讯 2023-02-15
    001.1K
  • 简化图片生成:InvokeAI

    InvokeAI绘画是一个革命性的人工智能绘画工具,可以帮助画家和艺术家轻松地创作出高质量的绘画作品。通过使用InvokeAI绘画,艺术家可以快速创作出独特的画作,并且不需要任何繁琐的技术操作。

    AI快讯 2022-12-12
    001.9K
  • ChatGPT如何改变劳动力市场

    随着人工智能技术的不断发展,ChatGPT已经开始逐渐取代一些工种。本文将探讨ChatGPT如何改变劳动力市场,取代哪些工种,并讨论未来工作的趋势。

    AI快讯 2023-02-15
    00946
  • 【颠覆性突破】DeepSeek NSA机制震撼AI界

    DeepSeek创始人梁文锋领衔发布革命性NSA注意力机制!全球首个硬件对齐稀疏算法,长文本推理速度暴增11.6倍,64k上下文处理效率碾压传统方案。揭秘中国团队如何突破AI算力瓶颈。

    AI快讯 2025-02-22
    00445
  • 爱情的未来:和AI谈恋爱

    随着科技的不断进步,人工智能技术也在不断发展。其中最新的应用之一就是和AI谈恋爱。这种恋爱方式利用智能机器人和人工智能技术,让人们可以与AI建立情感联系。本文将探讨和AI谈恋爱的背景、形式以及发展前景。

    AI快讯 2023-02-15
    00942

发表回复

登录后才能评论
微信