DeepSeek vs OpenAI vs Kimi：视觉推理能力终极对决

MME-CoT基准：重新定义多模态模型评估

香港中文大学MMLab团队发布MME-CoT（Multi-Modal Evaluation Chain-of-Thought）基准，首次系统化评估大型多模态模型（LMM）的视觉推理能力。该基准覆盖数学、科学、OCR等6大领域，通过1130道精选题目与3865个关键步骤标注，构建全景评估体系。

三大核心评测维度：

质量：召回率与精确率双重验证推理逻辑
鲁棒性：感知任务稳定性与推理任务有效性
效率：步骤相关性与反思质量量化分析

实验涵盖15个主流模型，包括Kimi k1.5、GPT-4o及纯文本模型DeepSeek-R1，揭示行业技术差距。

模型表现：Kimi质量领先，DeepSeek文本逆袭

质量排名：

Kimi k1.5（F1 68.2%）
DeepSeek-R1（66.3%）
o3-mini（61.5%）

DeepSeek-R1仅凭图像描述文本，在精确率上超越GPT-4o视觉模型2.1个百分点，展现强大文本推理迁移能力。

鲁棒性对比：

o3-mini感知任务稳定性达98.7%
Kimi推理任务有效性提升14.6%
DeepSeek在复杂逻辑场景误差率最低

研究同时暴露行业痛点：30%-40%反思步骤与解题无关，InternVL2.5等模型应用CoT后感知性能下降6.8%。

关键发现：参数规模与反思效率的博弈

参数优势：Qwen2-VL-72B较7B版本推理有效性提升7.2%，验证大模型学习潜力
长CoT陷阱：GPT-4o等模型40%步骤信息密度不足，存在“无效空想”现象
反思错误类型：
- 无效调整（45%）
- 分析不完整（28%）
- 自我干扰（12%）

实验显示，Kimi通过动态注意力机制，将关键步骤相关性提升至82%，显著优于行业平均水平。

评测体系设计：从结果到过程的革命

MME-CoT突破传统答案正确性评估，引入：

步骤召回率：GPT-4o自动匹配必要推理链
跨模态稳定性：分离感知/推理任务验证鲁棒性
成本-收益比：量化token消耗与准确率增益关系

数据集构建采用双重过滤机制，专业团队耗时1200小时完成标注，确保多解法问题的全面覆盖。

此文章由OpenAI开源维基百科原创发布，如若转载请注明出处：https://openai.wiki/mme-cot-benchmark.html

视觉推理能力评测新基准发布

DeepSeek vs OpenAI vs Kimi：视觉推理能力终极对决

MME-CoT基准：重新定义多模态模型评估

模型表现：Kimi质量领先，DeepSeek文本逆袭

关键发现：参数规模与反思效率的博弈

评测体系设计：从结果到过程的革命

相关推荐

Claude 3.7混合推理模型技术解析与融资动态

爱情的未来：和AI谈恋爱

【教育革命进行时】30所高校的DeepSeek应用图谱

ChatGPT算命：科技带来的玄学新体验

近日工作进度汇报

发表回复