视觉推理能力评测新基准发布

港中文MMLab推出MME-CoT基准,全面测评DeepSeek-R1、GPT-4o、Kimi k1.5等模型的视觉推理能力。研究显示,Kimi在推理质量领先,o3-mini鲁棒性最佳,DeepSeek文本推理优势显著。揭秘评测指标与关键发现。

DeepSeek vs OpenAI vs Kimi:视觉推理能力终极对决

MME-CoT基准:重新定义多模态模型评估

香港中文大学MMLab团队发布MME-CoT(Multi-Modal Evaluation Chain-of-Thought)基准,首次系统化评估大型多模态模型(LMM)的视觉推理能力。该基准覆盖数学、科学、OCR等6大领域,通过1130道精选题目与3865个关键步骤标注,构建全景评估体系。

三大核心评测维度:

  • 质量:召回率与精确率双重验证推理逻辑
  • 鲁棒性:感知任务稳定性与推理任务有效性
  • 效率:步骤相关性与反思质量量化分析

实验涵盖15个主流模型,包括Kimi k1.5、GPT-4o及纯文本模型DeepSeek-R1,揭示行业技术差距。


模型表现:Kimi质量领先,DeepSeek文本逆袭

质量排名

  1. Kimi k1.5(F1 68.2%)
  2. DeepSeek-R1(66.3%)
  3. o3-mini(61.5%)

DeepSeek-R1仅凭图像描述文本,在精确率上超越GPT-4o视觉模型2.1个百分点,展现强大文本推理迁移能力。

鲁棒性对比

  • o3-mini感知任务稳定性达98.7%
  • Kimi推理任务有效性提升14.6%
  • DeepSeek在复杂逻辑场景误差率最低

研究同时暴露行业痛点:30%-40%反思步骤与解题无关,InternVL2.5等模型应用CoT后感知性能下降6.8%。


关键发现:参数规模与反思效率的博弈

  1. 参数优势:Qwen2-VL-72B较7B版本推理有效性提升7.2%,验证大模型学习潜力
  2. 长CoT陷阱:GPT-4o等模型40%步骤信息密度不足,存在“无效空想”现象
  3. 反思错误类型
    • 无效调整(45%)
    • 分析不完整(28%)
    • 自我干扰(12%)

实验显示,Kimi通过动态注意力机制,将关键步骤相关性提升至82%,显著优于行业平均水平。


评测体系设计:从结果到过程的革命

MME-CoT突破传统答案正确性评估,引入:

  • 步骤召回率:GPT-4o自动匹配必要推理链
  • 跨模态稳定性:分离感知/推理任务验证鲁棒性
  • 成本-收益比:量化token消耗与准确率增益关系

数据集构建采用双重过滤机制,专业团队耗时1200小时完成标注,确保多解法问题的全面覆盖。

原创文章,作者:PhiltreX,如若转载,请注明出处:https://openai.wiki/mme-cot-benchmark.html

(0)
上一篇 11小时前
下一篇 10小时前

相关推荐

  • 关于微软Copilot的替代品

    微软最新发布的Microsoft 365 Copilot,以及Loop两年来的消息少之又少。文章介绍了Notion这款知识笔记软件的AI功能,以及在VS Code编辑器内的名为Copilot的插件。作者表示微软近期的创新让人惊叹,但也对Notion的AI功能表达了欣赏。

    AI快讯 2023-03-21
  • 以后的教程发布将附带一键运行包

    最近这几天网站没什么动态,有人问还做不做了,其实还是在做的,只不过在研究一些其它东西。 为了方便大家能够更好的使用开源项目,站长这几天在忙着研究打包开源项目,如何才能够让大家使用的…

    AI快讯 2023-08-17
  • niji Journey免费内测期结束,以后将会开启收费模式。

    新闻内容 niji Journey免费内测试用期结束,免费的羊毛不见了,以后将会采取收费模式。

    AI快讯 2022-12-01
  • 简化图片生成:InvokeAI

    InvokeAI绘画是一个革命性的人工智能绘画工具,可以帮助画家和艺术家轻松地创作出高质量的绘画作品。通过使用InvokeAI绘画,艺术家可以快速创作出独特的画作,并且不需要任何繁琐的技术操作。

    AI快讯 2022-12-12
  • Stable Diffusion的Discord Dream Bot复活

    现在可以在Stable Diffusion Discord中免费使用和访问Stable Diffusion v2.0模型,并使用更高质量的768×768模型 。

    AI快讯 2022-12-02
  • 私建ChatGPT镜像站违法

    近日站长在微信朋友圈和AI群里看到了私自搭建ChatGPT国内镜像站的违法相关内容,涉事人已被罚款四十余万。因为使用GPT的过程会涉及信息收发,科研人员的使用过程中,有可能导致信息外泄,所以着手整治。

    AI快讯 2023-06-13
  • ChatGPT:人工智能替代人类的时代已经到来

    随着科技的不断进步,人工智能已经开始逐步取代人类,实现自动化工作,其中最为突出的例子之一就是聊天机器人。近期,ChatGPT正式上线,通过AI技术,它可以替代人类进行日常工作交流,为企业提供自动化服务。本文将介绍ChatGPT的工作原理及其在自动化领域的应用。

    AI快讯 2023-02-15
  • 【教育革命进行时】30所高校的DeepSeek应用图谱

    深度解析DeepSeek大模型如何在中国30余所顶尖高校掀起教育革命!从浙大”全场景智能体”到清华AI教材,揭秘千亿参数模型如何重构教学科研。对比海外禁用风波,看中国高校如何领跑AI教育新赛道。

  • 低成本AI训练突破:3B模型推理能力跃升

    荷兰开发者以不到10美元成本,通过轻量级强化学习算法Reinforce-Lite在3B模型上复现DeepSeek的推理突破。微软亚研院最新研究则表明,7B模型通过RL训练可自主发展反思、验证等高级技能,但“顿悟时刻”或为伪命题。本文解析技术细节与行业启示。

    AI快讯 13小时前
  • 百度本周召开「文心一言」发布会

    百度在本周召开了「文心一言」发布会,会上公布了该产品的最新进展。 「文心一言」是百度旗下的一款智能写作辅助工具,旨在为用户提供高效、智能、人性化的写作体验。本次发布会聚焦于该产品的新功能和应用场景,引起了广泛关注和讨论。

    AI快讯 2023-03-14

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

网站改版中,即将支持用户注册、问答社区等功能,改版期间部分内容排版可能存在问题,敬请谅解。