视觉推理能力评测新基准发布

港中文MMLab推出MME-CoT基准,全面测评DeepSeek-R1、GPT-4o、Kimi k1.5等模型的视觉推理能力。研究显示,Kimi在推理质量领先,o3-mini鲁棒性最佳,DeepSeek文本推理优势显著。揭秘评测指标与关键发现。

DeepSeek vs OpenAI vs Kimi:视觉推理能力终极对决

MME-CoT基准:重新定义多模态模型评估

香港中文大学MMLab团队发布MME-CoT(Multi-Modal Evaluation Chain-of-Thought)基准,首次系统化评估大型多模态模型(LMM)的视觉推理能力。该基准覆盖数学、科学、OCR等6大领域,通过1130道精选题目与3865个关键步骤标注,构建全景评估体系。

三大核心评测维度:

  • 质量:召回率与精确率双重验证推理逻辑
  • 鲁棒性:感知任务稳定性与推理任务有效性
  • 效率:步骤相关性与反思质量量化分析

实验涵盖15个主流模型,包括Kimi k1.5、GPT-4o及纯文本模型DeepSeek-R1,揭示行业技术差距。


模型表现:Kimi质量领先,DeepSeek文本逆袭

质量排名

  1. Kimi k1.5(F1 68.2%)
  2. DeepSeek-R1(66.3%)
  3. o3-mini(61.5%)

DeepSeek-R1仅凭图像描述文本,在精确率上超越GPT-4o视觉模型2.1个百分点,展现强大文本推理迁移能力。

鲁棒性对比

  • o3-mini感知任务稳定性达98.7%
  • Kimi推理任务有效性提升14.6%
  • DeepSeek在复杂逻辑场景误差率最低

研究同时暴露行业痛点:30%-40%反思步骤与解题无关,InternVL2.5等模型应用CoT后感知性能下降6.8%。


关键发现:参数规模与反思效率的博弈

  1. 参数优势:Qwen2-VL-72B较7B版本推理有效性提升7.2%,验证大模型学习潜力
  2. 长CoT陷阱:GPT-4o等模型40%步骤信息密度不足,存在“无效空想”现象
  3. 反思错误类型
    • 无效调整(45%)
    • 分析不完整(28%)
    • 自我干扰(12%)

实验显示,Kimi通过动态注意力机制,将关键步骤相关性提升至82%,显著优于行业平均水平。


评测体系设计:从结果到过程的革命

MME-CoT突破传统答案正确性评估,引入:

  • 步骤召回率:GPT-4o自动匹配必要推理链
  • 跨模态稳定性:分离感知/推理任务验证鲁棒性
  • 成本-收益比:量化token消耗与准确率增益关系

数据集构建采用双重过滤机制,专业团队耗时1200小时完成标注,确保多解法问题的全面覆盖。

此文章由OpenAI开源维基百科原创发布,如若转载请注明出处:https://openai.wiki/mme-cot-benchmark.html

(0)
上一篇 2025-02-22 19:06
下一篇 2025-02-22 19:49

相关推荐

  • 医疗AI好伴AI实测报告发布

    智诊科技推出医疗AI应用好伴AI,实测解读体检报告准确率100%,复刻三甲专家诊疗逻辑。730亿参数模型WiseDiag-Z1支持多模态推理,实现症状分析、用药咨询与健康追踪,破解医疗资源分布不均难题。

    AI快讯 2025-02-22
    001.7K
  • 关于GPT-4全部资讯汇总

    近日关于 ChatGPT 技术的体验以及对 GPT-4 技术发展的资讯总结 ChatGPT 已成为他工作中不可或缺的一部分,可以提高生产效率 20 倍以上。 GPT 技术会深刻改变人类的学习、教育和工作方式,但同时也指出,这项技术不会降低知识的门槛,如果一个人并不熟悉某个领域,指望 ChatGPT 就无济于事。

    AI快讯 2023-03-16
    003.1K
  • 以后的教程发布将附带一键运行包

    最近这几天网站没什么动态,有人问还做不做了,其实还是在做的,只不过在研究一些其它东西。 为了方便大家能够更好的使用开源项目,站长这几天在忙着研究打包开源项目,如何才能够让大家使用的…

    AI快讯 2023-08-17
    003.2K
  • 低成本AI训练突破:3B模型推理能力跃升

    荷兰开发者以不到10美元成本,通过轻量级强化学习算法Reinforce-Lite在3B模型上复现DeepSeek的推理突破。微软亚研院最新研究则表明,7B模型通过RL训练可自主发展反思、验证等高级技能,但“顿悟时刻”或为伪命题。本文解析技术细节与行业启示。

    AI快讯 2025-02-22
    001.3K
  • ChatGPT给出毁灭人类计划书并附Python代码

    ChatGPT内置安全规则本不会发布此内容,但一位工程师通过诱导和假设等方式,成功骗取ChatGPT的信任,并获取详细的毁灭人类计划,和相应的Python代码。 可见AI的成长速度…

    AI快讯 2022-12-10
    022.1K

发表回复

登录后才能评论
微信