视觉推理能力评测新基准发布

港中文MMLab推出MME-CoT基准,全面测评DeepSeek-R1、GPT-4o、Kimi k1.5等模型的视觉推理能力。研究显示,Kimi在推理质量领先,o3-mini鲁棒性最佳,DeepSeek文本推理优势显著。揭秘评测指标与关键发现。

DeepSeek vs OpenAI vs Kimi:视觉推理能力终极对决

MME-CoT基准:重新定义多模态模型评估

香港中文大学MMLab团队发布MME-CoT(Multi-Modal Evaluation Chain-of-Thought)基准,首次系统化评估大型多模态模型(LMM)的视觉推理能力。该基准覆盖数学、科学、OCR等6大领域,通过1130道精选题目与3865个关键步骤标注,构建全景评估体系。

三大核心评测维度:

  • 质量:召回率与精确率双重验证推理逻辑
  • 鲁棒性:感知任务稳定性与推理任务有效性
  • 效率:步骤相关性与反思质量量化分析

实验涵盖15个主流模型,包括Kimi k1.5、GPT-4o及纯文本模型DeepSeek-R1,揭示行业技术差距。


模型表现:Kimi质量领先,DeepSeek文本逆袭

质量排名

  1. Kimi k1.5(F1 68.2%)
  2. DeepSeek-R1(66.3%)
  3. o3-mini(61.5%)

DeepSeek-R1仅凭图像描述文本,在精确率上超越GPT-4o视觉模型2.1个百分点,展现强大文本推理迁移能力。

鲁棒性对比

  • o3-mini感知任务稳定性达98.7%
  • Kimi推理任务有效性提升14.6%
  • DeepSeek在复杂逻辑场景误差率最低

研究同时暴露行业痛点:30%-40%反思步骤与解题无关,InternVL2.5等模型应用CoT后感知性能下降6.8%。


关键发现:参数规模与反思效率的博弈

  1. 参数优势:Qwen2-VL-72B较7B版本推理有效性提升7.2%,验证大模型学习潜力
  2. 长CoT陷阱:GPT-4o等模型40%步骤信息密度不足,存在“无效空想”现象
  3. 反思错误类型
    • 无效调整(45%)
    • 分析不完整(28%)
    • 自我干扰(12%)

实验显示,Kimi通过动态注意力机制,将关键步骤相关性提升至82%,显著优于行业平均水平。


评测体系设计:从结果到过程的革命

MME-CoT突破传统答案正确性评估,引入:

  • 步骤召回率:GPT-4o自动匹配必要推理链
  • 跨模态稳定性:分离感知/推理任务验证鲁棒性
  • 成本-收益比:量化token消耗与准确率增益关系

数据集构建采用双重过滤机制,专业团队耗时1200小时完成标注,确保多解法问题的全面覆盖。

此文章由OpenAI开源维基百科原创发布,如若转载请注明出处:https://openai.wiki/mme-cot-benchmark.html

(0)
上一篇 2025-02-22 19:06
下一篇 2025-02-22 19:49

相关推荐

  • 苹果5000亿美元技术投资战略解析

    苹果宣布未来四年投入5000亿美元强化本土AI与芯片制造能力,计划新建24座先进工厂及德州AI服务器生产基地,创造2万个高技能岗位。该战略获特朗普公开致谢,标志着美国科技巨头争夺技术主权的关键转折。

    AI快讯 2025-02-25
    00957
  • 香港科技大学鼓励学生使用ChatGPT

    随着科技的发展,越来越多的教育机构开始尝试利用先进的技术手段来提高学生的学习效率。香港科技大学就是其中之一,他们最近引入了一款新的学习利器——ChatGPT。这个智能聊天工具可以帮助学生快速解决问题,提高学习效率。

    AI快讯 2023-03-14
    001.7K
  • 近日工作进度汇报

    最近停更了一段时间,汇报一下工作进度,网站肯定是会继续做的,只不过生活的琐事太多了。

    AI快讯 2023-08-05
    072.7K
  • Grok 3与黎曼猜想:AI开启数学新纪元

    Grok 3利用暴力计算和AI辅助验证,瞄准数学界最难题——黎曼猜想。顶尖科学家与人工智能联手攻关,或将迎来诺奖级别的突破,推动数学及密码学新发展。

    AI快讯 2025-02-24
    001.1K
  • DeepSeek API夜间错峰优惠及服务升级公告

    DeepSeek API平台宣布推出错峰时段优惠活动,北京时间每日00:30-08:30期间,V3和R1模型调用价格分别降至原价的50%和25%,助力企业及开发者降低AI应用成本。同时,平台已恢复API充值服务,并更新了R1模型定价策略。点击了解如何通过夜间调用实现高效降本!

    AI快讯 2025-02-27
    001.8K

发表回复

登录后才能评论
微信