深度丨DeepSeek和Kimi双双出局首届AI国际象棋大赛中国队惜败?真正的逆袭才刚刚开始
自 8 月 5 日起,一场为期三天的 AI 国际象棋大赛正在 Google 推出的新平台 Kaggle Game Arena 激烈展开。OpenAI、Google、DeepSeek、Kimi、Anthropic、xAI 六家团队派出八款顶尖模型首次同台过招,在棋盘上正面对抗,比拼的不是谁“见得多”,而是谁“想得准、走得稳”。
至于为何选择下棋作为对抗形式?原因很简单:如今的基准测试早已被模型“刷分”刷到失去参考价值。模型能考高分,未必就意味着真正理解题目。而国际象棋作为一种高度结构化、规则公开、标准化极强的策略游戏,恰好成为检验“通用智能”的天然试炼场。如果一款语言模型真的具备推理能力与动态判断,它就该能在棋盘上做出合逻辑的决策,而不仅仅是复现它曾经“见过”的答案。
比赛的实时对局和模型思路全程公开,观众不但能看到谁赢谁输,还能看到模型下错棋时的“迷惑行为”和它们怎么试图纠正。
这里其实也藏着一个小小的“Bug”:初始对局席位是根据 Kaggle 前期的内部测试结果进行分配的,排名较高的模型会对阵排名相对靠后的模型,以确保整体对阵结构的平衡,同时避免前两名种子选手在决赛前提前相遇。正因如此,在首轮就撞上强敌,也并非偶然。
Kimi K2 Instruct 与 o3 的对局结束得颇为迅速,四局比赛均在八步棋内告终。由于 Kimi K2 连续四次未能给出合法着法,被系统判负,o3 也因此轻松取得全胜。
这一结果在意料之中,毕竟此次上场的 Kimi K2 Instruct 并非专为策略博弈设计,其核心能力侧重于语言理解、代码生成、多语言任务和通用 Agent 执行,面对推理能力和博弈调度更强的 o3,自然难以抗衡。甚至在比赛之前,Kimi官方也在调侃,K2可能会惨败,但一定会到场。
从 Kimi k2 的走棋注释来看,它似乎能够在开局阶段准确跟随既定的理论路线,几步之内表现得相当稳健。但一旦脱离熟悉的定式,它就像突然“迷路”了一般,局势迅速滑向崩盘。
至于它为何如此挣扎,依然难以解释。有些时候,它明明准确识别出了棋子的分布位置,却像是“忘了”这些棋子到底该怎么走,仿佛在视觉感知与规则执行之间断了链条。
在其他对局中,Kimi k2 还会弄错棋盘位置。这种混乱的决策往往不是源于模型本身“愚钝”,而是源于其架构并非为连续状态更新和多轮结构推理而优化。
但正如许多网友调侃的那样:“首轮就对阵 o3,这不是输,是去学经验。” 对于一款主攻代码、Agent 和多模态理解的开源模型来说,下棋失利并不代表智能短板,反而让我们更清楚看到当前通用模型在结构化策略推理上的局限。
2025年7月发布并同步开源后,Kimi K2 凭借强大的性能和极高的实用价值迅速走红。在 LMArena 平台上,它在数千名开发者参与的对抗测试中一举登顶开源榜首,全球总排名第五。在 Hugging Face 平台上,Kimi K2 上线不到一个月,下载量已经突破 40 万次,有网友统计,按照日均口径计划,这已经越过了DeepSeek V3和R1,稳居最受欢迎模型之一。而在全球最大模型聚合平台 OpenRouter 上,Kimi K2 则刚上线两天便超越 Grok 4,登上调用趋势榜首位,一周内付费调用量超过 575 亿 tokens,成为首页推荐中唯一的开源模型。
DeepSeek-R1 与 OpenAI o4-mini 的对局呈现出一种颇具戏剧性的节奏感:如果只看每局前几步,几乎可以误以为是两位经验老道的高手在博弈。开局阶段,DeepSeek-R1 展现出极高的稳定性与理论执行力,多次精准复现经典布局,步伐流畅、落子自然,体现了其在规则理解、局势感知方面扎实的基础功。
然而进入中盘后,比赛走势往往急转直下,模型开始出现连续误判与策略断裂,整体判断失衡,最终导致对局失控。o4-mini 则在多局中抓住关键机会完成将军,顺利拿下胜利。
从某种意义上看,这场对局更像是一场关于“AI 认知极限”的实景演练。它揭示了当前语言类或通用模型在处理强结构化、强因果推理任务时的短板——尤其在需要连续策略规划与状态动态更新的博弈场景中,模型的能力尚难支撑整局高质量表现。
初赛的结果是,中国代表团的两位参赛模型——Kimi K2 Instruct 和 DeepSeek-R1,在与顶尖对手的较量中虽双双惜败,但仍展现出通用模型在强结构任务中的潜力和探索价值。
而当日最为耀眼的,则无疑是 Grok 4。它不仅以 4:0 的干净比分横扫 Gemini Flash,更在多个回合中展现出极具压迫性的攻击节奏与敏锐的局势捕捉力。与其他模型常见的“被动应对”不同,Grok 4 表现出一种罕见的主动性:能够快速识别对方防线空隙并精准出击,像极了一位真正懂战术的棋手。
当天的“最佳对局”正是由 Grok 奉献,国际特级大师 Rafael Leitao 在点评中毫不吝惜赞誉:“Grok 的表现让我一点也不意外,它一直是我最看好的模型,甚至没有可比性。”
连 Elon Musk 都在 X 上亲自发文点赞,表示对 Grok 的发挥“毫不惊讶”,并顺势再提一句他的老观点:“国际象棋对 AI 来说太简单。”
不过,纵观整场比赛,目前的大语言模型在棋类博弈中的短板也依然明显:其一,整体棋盘感知能力仍不稳定,无法持续保持局势全貌;其二,对棋子之间的相互作用理解薄弱,缺乏连贯的战略规划;其三,在关键时刻容易因基本规则理解错误而频频被判负。
初赛已告一段落,各大模型在棋盘上展开了第一轮“智能对峙”。我们看到,有模型刚上场就“撞车”强敌,有的在开局阶段棋艺可圈可点,却在中盘暴露出架构瓶颈;也有的像 Grok 4 一样,在短板普遍存在的博弈场景中打出一场堪称“惊喜”的技术展示。
但无论胜负,这场比赛真正的看点,并不只是模型走了几步好棋,而是它们在陌生、开放、不可预测的环境下,如何理解规则、保持状态、犯错又修正——这比任何标准化基准都更接近“通用智能”的真实样貌。
DeepSeek-R1和Kimi K2 Instruct虽然在首轮惜败,但它们以完全开源、全流程自主研发的姿态,走进了全球最激烈的 AI 博弈舞台,仿佛想起了中国代表团最初参加奥运会的景象。面对强敌,它们选择不绕路、不设限,正面迎战,用真实的对局来测试边界、验证能力、承认短板,也显露出中国模型在通用智能方向上不断积累的底气。