视觉推理能力评测新基准发布

港中文MMLab推出MME-CoT基准,全面测评DeepSeek-R1、GPT-4o、Kimi k1.5等模型的视觉推理能力。研究显示,Kimi在推理质量领先,o3-mini鲁棒性最佳,DeepSeek文本推理优势显著。揭秘评测指标与关键发现。

DeepSeek vs OpenAI vs Kimi:视觉推理能力终极对决

MME-CoT基准:重新定义多模态模型评估

香港中文大学MMLab团队发布MME-CoT(Multi-Modal Evaluation Chain-of-Thought)基准,首次系统化评估大型多模态模型(LMM)的视觉推理能力。该基准覆盖数学、科学、OCR等6大领域,通过1130道精选题目与3865个关键步骤标注,构建全景评估体系。

三大核心评测维度:

  • 质量:召回率与精确率双重验证推理逻辑
  • 鲁棒性:感知任务稳定性与推理任务有效性
  • 效率:步骤相关性与反思质量量化分析

实验涵盖15个主流模型,包括Kimi k1.5、GPT-4o及纯文本模型DeepSeek-R1,揭示行业技术差距。


模型表现:Kimi质量领先,DeepSeek文本逆袭

质量排名

  1. Kimi k1.5(F1 68.2%)
  2. DeepSeek-R1(66.3%)
  3. o3-mini(61.5%)

DeepSeek-R1仅凭图像描述文本,在精确率上超越GPT-4o视觉模型2.1个百分点,展现强大文本推理迁移能力。

鲁棒性对比

  • o3-mini感知任务稳定性达98.7%
  • Kimi推理任务有效性提升14.6%
  • DeepSeek在复杂逻辑场景误差率最低

研究同时暴露行业痛点:30%-40%反思步骤与解题无关,InternVL2.5等模型应用CoT后感知性能下降6.8%。


关键发现:参数规模与反思效率的博弈

  1. 参数优势:Qwen2-VL-72B较7B版本推理有效性提升7.2%,验证大模型学习潜力
  2. 长CoT陷阱:GPT-4o等模型40%步骤信息密度不足,存在“无效空想”现象
  3. 反思错误类型
    • 无效调整(45%)
    • 分析不完整(28%)
    • 自我干扰(12%)

实验显示,Kimi通过动态注意力机制,将关键步骤相关性提升至82%,显著优于行业平均水平。


评测体系设计:从结果到过程的革命

MME-CoT突破传统答案正确性评估,引入:

  • 步骤召回率:GPT-4o自动匹配必要推理链
  • 跨模态稳定性:分离感知/推理任务验证鲁棒性
  • 成本-收益比:量化token消耗与准确率增益关系

数据集构建采用双重过滤机制,专业团队耗时1200小时完成标注,确保多解法问题的全面覆盖。

此文章由OpenAI开源维基百科原创发布,如若转载请注明出处:https://openai.wiki/mme-cot-benchmark.html

(0)
上一篇 2025-02-22 19:06
下一篇 2025-02-22 19:49

相关推荐

  • ChatGPT-4 将于下周发布

    随着科技的不断进步,人工智能已经成为我们日常生活中不可或缺的一部分。近年来,自然语言处理技术已经取得了突破性进展,从GPT-1到GPT-3,每一代的模型都为AI领域的发展带来了新的里程碑。而GPT-4的出现更是为我们带来了更多的惊喜,它引领了AI多模态模型的革命。

    AI快讯 2023-03-10
    001.9K
  • DeepSeek开源第四弹:梁文锋与AI训练革新

    DeepSeek发布开源第四弹,两项突破性技术亮相,梁文锋亲自参与开发。DualPipe实现前向与反向计算并行,EPLB优化专家负载分配,为大模型训练提速降耗注入新动能。

    AI快讯 2025-02-27
    001.6K
  • ChatGPT的爱情观

    随着人工智能技术的不断发展,ChatGPT已经可以模拟人类进行对话,并具有一定的情感认知能力。本文将探讨ChatGPT的爱情观,以及人工智能对情感的认知,探究人机关系的意义。

    AI快讯 2023-02-15
    001.9K
  • AI自动生成3D模型和场景

    Physna公司三名工程师组成的团队,在两周的时间内用8000个模型数据集创建生成的一个AI原型。 而这恰恰是Physna的优势,Physna有世界上最大的带标签的3D数据库。接下…

    AI快讯 2022-12-10
    001.6K
  • 月之暗面发布MoBA注意力机制技术解析:长文本处理效率革新

    月之暗面最新论文提出MoBA注意力机制,通过动态块稀疏注意力与混合专家技术结合,显著提升长文本处理效率。实验显示,该架构在保持性能的同时,计算速度提升6.5倍,支持百万级上下文处理。本文深度解析其技术原理、实验表现及行业影响,为AI模型优化提供新思路。

    AI快讯 2025-02-23
    001.5K

发表回复

登录后才能评论
微信