当马斯克高调宣布Grok-3数学能力碾压o3-mini时,OpenAI团队连夜放出实锤——这场看似辉煌的胜利,竟是建立在一套特殊的”答题技巧”之上。
▍技术打假核心争议点
❶ 测评机制不对等
- Grok-3采用cons@64机制:允许64次试错取最优解
- 对比模型o3-mini仅单次作答
- 相当于给Grok-3配备”无限续杯”特权
❷ 数据呈现存误导
- 柱状图浅色部分未明确标注特殊机制
- 实际单次成绩落后o3-mini达15%
- 网友实测:启用cons@64后,旧版o1性能反超Grok-3
❸ 行业标准遭破坏
- OpenAI研究员怒斥”开恶劣先例”
- 测评透明度受质疑
- 或引发AI竞赛”军备升级”
▍技术潜规则解密
▶ cons@64 vs pass@64
- cons@64:64次生成取高频正确答案(考试带草稿纸)
- pass@64:64次中只要1次正确即得分(选择题蒙答案)
▶ 马斯克团队的”技术化妆术”
- 混合使用两种测评标准
- 关键对比项采用有利算法
- 官网说明存在语义歧义
▍行业大佬激辩现场
• OpenAI应用主管:”这是对科研诚信的践踏”
• xAI工程师反击:”OpenAI去年就玩过同样把戏”
• 第三方测评机构紧急声明:将建立统一测试协议
值得关注的技术细节:
√ Grok-3预训练仅完成1个月
√ 特斯拉车载AI已接入Grok-3游戏开发模块
√ 开发者用3句提示词复刻经典打砖块游戏
【未来影响预判】
- 测评标准或将建立”奥林匹克式”监管
- Claude、DeepSeek等沉默巨头或下场参战
- 投资者开始关注模型”真实性能溢价”
这场风波暴露出AI行业野蛮生长期的深层焦虑——当技术突破进入平台期,数据呈现方式正在成为新的竞技场。正如斯坦福教授点评:”这不是简单的作弊争议,而是整个行业价值坐标的迷失。”在这场没有监考的全球大考中,谁能制定规则,谁就将掌握下一个时代的话语权。
评论 (0)