视觉推理能力评测新基准发布

港中文MMLab推出MME-CoT基准,全面测评DeepSeek-R1、GPT-4o、Kimi k1.5等模型的视觉推理能力。研究显示,Kimi在推理质量领先,o3-mini鲁棒性最佳,DeepSeek文本推理优势显著。揭秘评测指标与关键发现。

DeepSeek vs OpenAI vs Kimi:视觉推理能力终极对决

MME-CoT基准:重新定义多模态模型评估

香港中文大学MMLab团队发布MME-CoT(Multi-Modal Evaluation Chain-of-Thought)基准,首次系统化评估大型多模态模型(LMM)的视觉推理能力。该基准覆盖数学、科学、OCR等6大领域,通过1130道精选题目与3865个关键步骤标注,构建全景评估体系。

三大核心评测维度:

  • 质量:召回率与精确率双重验证推理逻辑
  • 鲁棒性:感知任务稳定性与推理任务有效性
  • 效率:步骤相关性与反思质量量化分析

实验涵盖15个主流模型,包括Kimi k1.5、GPT-4o及纯文本模型DeepSeek-R1,揭示行业技术差距。


模型表现:Kimi质量领先,DeepSeek文本逆袭

质量排名

  1. Kimi k1.5(F1 68.2%)
  2. DeepSeek-R1(66.3%)
  3. o3-mini(61.5%)

DeepSeek-R1仅凭图像描述文本,在精确率上超越GPT-4o视觉模型2.1个百分点,展现强大文本推理迁移能力。

鲁棒性对比

  • o3-mini感知任务稳定性达98.7%
  • Kimi推理任务有效性提升14.6%
  • DeepSeek在复杂逻辑场景误差率最低

研究同时暴露行业痛点:30%-40%反思步骤与解题无关,InternVL2.5等模型应用CoT后感知性能下降6.8%。


关键发现:参数规模与反思效率的博弈

  1. 参数优势:Qwen2-VL-72B较7B版本推理有效性提升7.2%,验证大模型学习潜力
  2. 长CoT陷阱:GPT-4o等模型40%步骤信息密度不足,存在“无效空想”现象
  3. 反思错误类型
    • 无效调整(45%)
    • 分析不完整(28%)
    • 自我干扰(12%)

实验显示,Kimi通过动态注意力机制,将关键步骤相关性提升至82%,显著优于行业平均水平。


评测体系设计:从结果到过程的革命

MME-CoT突破传统答案正确性评估,引入:

  • 步骤召回率:GPT-4o自动匹配必要推理链
  • 跨模态稳定性:分离感知/推理任务验证鲁棒性
  • 成本-收益比:量化token消耗与准确率增益关系

数据集构建采用双重过滤机制,专业团队耗时1200小时完成标注,确保多解法问题的全面覆盖。

此文章由OpenAI开源维基百科原创发布,如若转载请注明出处:https://openai.wiki/mme-cot-benchmark.html

(0)
上一篇 2025-02-22 19:06
下一篇 2025-02-22 19:49

相关推荐

  • DeepSeek开源DeepEP通信库技术解析

    DeepSeek开源周重磅推出通信库DeepEP,针对混合专家系统(MoE)实现GPU资源动态调控与跨域带宽优化。通过FP8压缩传输、非对称域转发等核心技术,训练等待时间缩减80%,推理延迟降低35%,为大规模语言模型及推荐系统提供行业级降本增效方案。

    AI快讯 2025-02-25
    001.4K
  • 百度3月16日发布”文心一言”

    百度一直以来都是中国最大的搜索引擎公司之一,其搜索引擎在中国市场占有率高达80%以上。然而,近年来,随着BAT的崛起,百度的市场地位逐渐被动摇。为了应对这一变化,百度在不断推出新的产品和服务来扩大市场份额。据最新消息,百度计划在3月16日发布文心一言,一款基于AI技术的文本生成工具,这将是百度近期发布的又一款新产品。

    AI快讯 2023-03-11
    011.3K
  • ChatGPT给出毁灭人类计划书并附Python代码

    ChatGPT内置安全规则本不会发布此内容,但一位工程师通过诱导和假设等方式,成功骗取ChatGPT的信任,并获取详细的毁灭人类计划,和相应的Python代码。 可见AI的成长速度…

    AI快讯 2022-12-10
    021.8K
  • 近日疯狂刷屏的Manus到底怎么样?

    这届AI太野了!用Manus玩坏谷歌CEO模拟器 其实站长个人并不太看好这个东西,我也没有邀请码,但是这个就像近期比较火的自动编程概念一样吧,也就那么回事。因为其它背后的原理肯定也…

    AI快讯 2025-03-07
    001.3K
  • openAI开始内测Khanmigo

    可汗学院宣布将使用GPT-4打造Khanmigo,这是一个AI助手,可以作为学生的虚拟导师和教师的课堂助手,旨在帮助解决学生不同水平、不同需求等问题。该非营利机构已经开始测试使用GPT-4,最初将在有限的参与者中推出Khanmigo试点项目,并邀请公众参与等待列表。

    AI快讯 2023-03-15
    004.0K

发表回复

登录后才能评论
微信