视觉推理能力评测新基准发布

港中文MMLab推出MME-CoT基准,全面测评DeepSeek-R1、GPT-4o、Kimi k1.5等模型的视觉推理能力。研究显示,Kimi在推理质量领先,o3-mini鲁棒性最佳,DeepSeek文本推理优势显著。揭秘评测指标与关键发现。

DeepSeek vs OpenAI vs Kimi:视觉推理能力终极对决

MME-CoT基准:重新定义多模态模型评估

香港中文大学MMLab团队发布MME-CoT(Multi-Modal Evaluation Chain-of-Thought)基准,首次系统化评估大型多模态模型(LMM)的视觉推理能力。该基准覆盖数学、科学、OCR等6大领域,通过1130道精选题目与3865个关键步骤标注,构建全景评估体系。

三大核心评测维度:

  • 质量:召回率与精确率双重验证推理逻辑
  • 鲁棒性:感知任务稳定性与推理任务有效性
  • 效率:步骤相关性与反思质量量化分析

实验涵盖15个主流模型,包括Kimi k1.5、GPT-4o及纯文本模型DeepSeek-R1,揭示行业技术差距。


模型表现:Kimi质量领先,DeepSeek文本逆袭

质量排名

  1. Kimi k1.5(F1 68.2%)
  2. DeepSeek-R1(66.3%)
  3. o3-mini(61.5%)

DeepSeek-R1仅凭图像描述文本,在精确率上超越GPT-4o视觉模型2.1个百分点,展现强大文本推理迁移能力。

鲁棒性对比

  • o3-mini感知任务稳定性达98.7%
  • Kimi推理任务有效性提升14.6%
  • DeepSeek在复杂逻辑场景误差率最低

研究同时暴露行业痛点:30%-40%反思步骤与解题无关,InternVL2.5等模型应用CoT后感知性能下降6.8%。


关键发现:参数规模与反思效率的博弈

  1. 参数优势:Qwen2-VL-72B较7B版本推理有效性提升7.2%,验证大模型学习潜力
  2. 长CoT陷阱:GPT-4o等模型40%步骤信息密度不足,存在“无效空想”现象
  3. 反思错误类型
    • 无效调整(45%)
    • 分析不完整(28%)
    • 自我干扰(12%)

实验显示,Kimi通过动态注意力机制,将关键步骤相关性提升至82%,显著优于行业平均水平。


评测体系设计:从结果到过程的革命

MME-CoT突破传统答案正确性评估,引入:

  • 步骤召回率:GPT-4o自动匹配必要推理链
  • 跨模态稳定性:分离感知/推理任务验证鲁棒性
  • 成本-收益比:量化token消耗与准确率增益关系

数据集构建采用双重过滤机制,专业团队耗时1200小时完成标注,确保多解法问题的全面覆盖。

此文章由OpenAI开源维基百科原创发布,如若转载请注明出处:https://openai.wiki/mme-cot-benchmark.html

(0)
上一篇 2025-02-22 19:06
下一篇 2025-02-22 19:49

相关推荐

  • 百度3月16日发布”文心一言”

    百度一直以来都是中国最大的搜索引擎公司之一,其搜索引擎在中国市场占有率高达80%以上。然而,近年来,随着BAT的崛起,百度的市场地位逐渐被动摇。为了应对这一变化,百度在不断推出新的产品和服务来扩大市场份额。据最新消息,百度计划在3月16日发布文心一言,一款基于AI技术的文本生成工具,这将是百度近期发布的又一款新产品。

    AI快讯 2023-03-11
    01565
  • ChatGPT-4 将于下周发布

    随着科技的不断进步,人工智能已经成为我们日常生活中不可或缺的一部分。近年来,自然语言处理技术已经取得了突破性进展,从GPT-1到GPT-3,每一代的模型都为AI领域的发展带来了新的里程碑。而GPT-4的出现更是为我们带来了更多的惊喜,它引领了AI多模态模型的革命。

    AI快讯 2023-03-10
    00917
  • 简化图片生成:InvokeAI

    InvokeAI绘画是一个革命性的人工智能绘画工具,可以帮助画家和艺术家轻松地创作出高质量的绘画作品。通过使用InvokeAI绘画,艺术家可以快速创作出独特的画作,并且不需要任何繁琐的技术操作。

    AI快讯 2022-12-12
    001.5K
  • ChatGPT+微信:wechat-chatgpt

    ChatGPT 和微信结合,通过 wechat-chatgpt,提供快速、准确、方便的微信聊天服务,帮助您解决日常生活、工作、学习等各种问题。

    AI快讯 2022-12-12
    001.1K
  • 关于ChatGPT的看法

    关于ChatGPT的一些使用感想 本站所有内容几乎都是关于教程之类的,从来没有和大家谈心关于站长对ChatGPT的看法,今天和大家聊一聊关于ChatGPT的一些个人看法。 其实我最…

    AI快讯 2023-03-09
    03927

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

微信