复盘谷歌惊魂100天 书摘
全球知名历史学家,现任美国外交关系委员会保罗·沃尔克国际经济学高级研究员,曾任《经济学人》华盛顿分社社长、《华盛顿邮报》专栏作家等要职。两度入围新闻领域的“奥斯卡”普利策奖,著有《风险投资史》、《征服波动的人》(原名《富可敌国》)、《格林斯潘传》等,多部作品多次登顶畅销书榜。
2024年10月2日,谷歌DeepMind首席研究员杰克·雷(Jack Rae)站在山景城的舞台上。他身形健硕,面容宽厚,笑容像月牙一样弯着,像个粗犷版的“微笑”表情符号。与他同台的是谷歌传奇科学家诺姆·沙泽尔(Noam Shazeer)。沙泽尔于2000年加入谷歌,是公司最早的数百名员工之一,曾在一系列研究突破中做出贡献,更是在Transformer架构的研发中发挥了主导作用。“当前大语言模型的革命性进展大部分都出自我手。”沙泽尔在领英(LinkedIn)的个人简介中如此写道,谷歌显然也认同这一点。此前,沙泽尔辞职创办AI企业后,谷歌不惜斥资27亿美元与他达成协议,将他这位“出走的天才”重新召回。
沙泽尔和杰克·雷此次登台是为了凝聚谷歌DeepMind的科研力量。3周前,OpenAI预告将要推出的o1推理模型险些让谷歌DeepMind再次遭遇ChatGPT级别的危机。哈萨比斯和公司高管们以富有创意的方式做出回应。
虽然沙泽尔此前从未涉足推理领域,但高管们仍期望由他牵头反击,并认为他的声望能凝聚公司最顶尖的科研人才。杰克·雷同样非推理专家,高管们选中他,是因为他曾在DeepMind长期任职,而且他对突击小组的运作模式深有理解。谷歌这次将赌注押在个人声望与流程效能上,这无疑是一场豪赌。
为筹备这场重要会议,沙泽尔和杰克·雷邀请谷歌DeepMind各实验人员分享语言强化学习的创意。反响程度令人震惊:超过250名科学家带着单页幻灯片参加了头脑风暴会议。显然,谷歌DeepMind内部从不缺出色的研究人才,真正的挑战在于如何快速将这些零散灵感转化为成熟的推理模型。“当时我就想,糟糕,这么多想法该怎么整合?”杰克·雷后来回忆道,“说实话,我当时内心相当惶恐。”
为了梳理谷歌内部杂乱的构想,沙泽尔和杰克·雷组织了这场会议,但公司内部的混乱差点让会议夭折。起初,谢尔盖·布林和科雷·卡武克库奥卢承诺为项目提供充足的计算资源,可就在会议开始的一两天前,这一承诺开始动摇。杰克·雷忧心忡忡:要是计算资源不到位,强化学习项目必然失败,他将难辞其咎。由于焦虑,他甚至想退出这一项目。最后关头,卡武克库奥卢顶住其他谷歌团队的抗议,强行挪用了他们的计算资源,才让项目得以推进。
此刻,沙泽尔和杰克·雷站在台上,面对满屋子山景城的研究人员,还有通过线上参会的数十位办公室同事。作为业界名人,沙泽尔首先发言。他发表了一段演讲,旨在动员科学家加入对抗o1的任务,以便将各自为政的个体汇聚成团结的整体。
和杰克·雷的严谨不同,沙泽尔衣着随意,神情自若,或许是巨额召回费让他可以如此从容。他不太执着于宏大愿景,而是随和亲切,毫无架子。“我们应该打造一款善于思考的模型,它最终能自己改进自己,到那时,我们就可以退场了。”他戏谑地提议。
在AI圈外,谈论“AI取代人类工作”并不怎么好笑,但沙泽尔越说越投入。他缓解了行业对计算成本高昂的焦虑,随口提出一个观点:相较于其他选择,AI的实际成本相当低廉。比如,一款前沿AI系统每投入1美元运行成本,至少能生成100万个词元。相比之下,花10美元买一本7.5万字(约合10万个词元)的平装书,算下来每美元只能获得1万个词元,比聊天机器人的效率低两个数量级。
沙泽尔继续说道,雇用人类软件工程师比买书更“不划算”,这番话引得观众发出紧张的笑声。以每美元生成的词元来衡量,雇用人类程序员的成本可能比部署AI高出6~8个数量级。他向在场科学家传递的信息很明确:别再让所谓的资源不足限制了你的想象。只要设计的系统能高效利用测试阶段的计算资源,成本根本不是问题。沙泽尔想表达的是,属于他们的时刻到了。
接下来轮到杰克·雷发言,他的任务是说明推理突击小组的运作机制。他全程聚焦流程设计,被大家戏称为“副帅”。
杰克·雷详细介绍了突击小组在Gemini 1.5预训练阶段的工作模式。这套模式源自哈萨比斯从游戏行业引入的方法论,早已深深融入DeepMind的文化基因。多年前,他在和杰克·雷在伦敦共事时,就直接将其传授给了后者。所有突击小组成员将合力研发同一模型,任何人都可以提出系统改进建议,但只有能提升模型性能的建议才会被实际采用。一切都以数据说话。这套模式屡试不爽,杰克·雷现在要做的就是照搬这一成功经验。
“大师”和“副帅”的组合达到了谷歌高管预期的效果。会议前,沙泽尔和杰克·雷希望招募40名志愿者,即愿意搁置其他项目、全力投入突击任务的研究人员。结果,竟有150人主动报名。这在一定程度上既印证了沙泽尔的声望——向来特立独行的研究人员愿意为这位Transformer的主要发明者破例,也印证了DeepMind的传统精神。“大家的共识是,‘这是强化学习,这是DeepMind的主场,我们必须拿下’。”杰克·雷后来表示。
突击小组的起步并不顺利。团队主力大都来自前谷歌大脑的研究人员,他们并不习惯这种大规模的自上而下的协作。至少大约在最初的一周,很多人都担心项目会因自身压力而崩溃。更让团队气氛紧张的是,西尔弗当时在伦敦计划启动相关项目,一支名为“蓝移团队”(Blueshift team)的推理专家小组几乎要从沙泽尔阵营转投西尔弗麾下。随后,西尔弗的项目被搁置,突击小组内的两位专家转投了Anthropic。
然而到10月中旬,排行榜机制开始显现成效。科学家们放下顾虑,开始为共同目标努力。信念提振士气,士气推动进展,进展又反哺信念。其中的关键在于,杰克·雷设计的流程解决了一个老问题:以往每个小型研究团队各自为政,都想占用尽可能多的计算资源进行测试,导致服务器资源紧张,团队被迫排队等待,依赖大量计算资源的测试往往耗时良久。
为打破这一恶性循环,杰克·雷坚持所有潜在改进方案必须在缩微模型上测试,这既缩短了训练时长,又统一了性能评估指标。不过,突击小组的进展还得益于另一个要素——筹备会议上那页幻灯片足以说明,只要组织得当,成功会不期而至。正如哈萨比斯在描述加力推进AlphaFold时所说,当创意源源不断涌现时,正是奋力向前之时。
2024年12月19日,在年底假期前密集的产品发布潮中,谷歌DeepMind如期推出首款推理模型,并给它起了个拗口的名字——“Gemini Flash 2.0 Thinking Experimental”。杰克·雷为能如此快速地推出产品感到欣慰,评论界也对该模型极致的透明度赞不绝口。OpenAI出于对用户可能因系统思考过程感到不安或分心的担忧,将o1的思维链设为隐藏,而Gemini则毫无保留,用户只需点击下拉菜单即可读取模型草稿页面上的推理过程。AI这个“黑箱”,终于透出了光亮。
Gemini的内部推理过程,有时会展现出惊人的共情能力。比如,当用户要求它生成SVG格式的图形时,其草稿页面上会呈现出类似教师备课的思路,为迎接新挑战给自己打气:
这类推理需要结合空间想象、SVG语法知识和反复尝试。关键是把问题拆分成可处理的部分,逐步构建图像。专业的SVG创作者在完成最终版本前,通常也要经过多次调整。
从其他方面来看,这款具备思考能力的模型的表现也令人印象深刻。由于推理的核心目标是提升数学和逻辑问题的解题能力,它在相关基准测试中的得分果然大幅飙升。例如,Flash 2.0 Thinking在一项数学测试中达到73%的正确率,远超Flash 1.5 Pro的13%。此外,与谷歌DeepMind此前功能强大却笨重的Gemini Ultra不同,Flash Thinking模型更为轻巧。单论原始推理能力,它比o1稍逊一筹,但它在其他方面更具优势,如运行速度更快、成本更低,支撑更长的对话,还能同时处理文本和图像。
在看似灾难的9月,o1发布预告版时,险些给公司带来又一场惨败,而押注沙泽尔的声望与杰克·雷的排行榜机制,最终捍卫了公司的行业地位。尽管OpenAI仍领先约两个月——此时o1已从预告版进入全面发布阶段,但谷歌至少推出了一款与之对等的产品。公司为召回沙泽尔豪掷的27亿美元,如今看来是划算的。
节前发布的其他消息让哈萨比斯愈发宽慰。谷歌DeepMind新一代文生视频系统Veo 2明显优于OpenAI的Sora。DeepMind自2022年Flamingo以来长期投入多模态模型,Veo的视频处理能力更加出色:生成的画面分辨率更高,能精准捕捉到画面中羽毛的细腻纹理或表面微弱的反光。与此同时,谷歌DeepMind其他几款产品突破了单纯生成式AI的局限:展现出智能体特性。作为Flash 2.0 Thinking的姊妹模型,新款主力模型Flash 2.0不仅能启动网络搜索、执行代码,还建立了新的速度标准。
除了新模型,谷歌DeepMind还预告了3款原型产品。第一款Tules不仅能执行代码指令,还能自主编写代码,这好比从“按食谱做菜”升级到“自创食谱”。第二款Chrome浏览器扩展程序“海洋计划”(Project Marine),未来有望实现自主填写表格、在网站下单等功能。哈萨比斯最喜欢的则是第三款“阿斯特拉计划”(Project Astra)的通用智能助手,它可安装在智能手机或智能眼镜中。阿斯特拉配备摄像头和麦克风,能接收文本、图像、视频和音频信息,还能对所见内容进行专业解读。你可以用它扫描冰箱里的食材,然后向它询问午餐推荐方案,也可以向它展示故障家电,然后向它咨询维修建议。
▷哈萨比斯,GoogleDeepMind首席执行官兼创始人。2005年,进入伦敦大学学院,攻读神经科学博士学位,其关于海马体与情景记忆的研究在2007年被《科学》杂志评为“年度突破” 。2010年,在伦敦成立了DeepMind公司,该公司在2014年被谷歌收购。2014年,带领团队打造出深度学习的程序。2016年3月,创办的DeepMind智能系统AlphaGo打败世界围棋冠军、职业九段选手李世石。2017年5月,创办的AlphaGo与世界围棋选手柯洁对战并再次获胜。2018年底,带领团队使用算法在围棋、国际象棋和将棋三个领域奠定领先地位,并登上《科学》封面。2023年4月,谷歌大脑和DeepMind两大AI实验室合并,哈萨比斯开始领导全新的谷歌DeepMind部门。2023年12月6日,哈萨比斯表示谷歌推出的新大型语言模型Gemini在32项基准中的30项中大幅领先GPT-4。2024年2月,戴密斯领导开发并部署了AI模型Gemini 1.5 Pro。2024年5月,DeepMind推出AlphaFold 3,预测出所有生物分子的结构和相互作用 。2024年,他凭借在“蛋白质结构预测”方面的贡献获得2024年诺贝尔化学奖。
后来,我请哈萨比斯谈谈他对这些进展的贡献。毕竟在AlphaFold项目中,他出席过科学会议,调整过突击小组领导层,还曾在凌晨两点与约翰·江珀讨论项目。那么在Gemini项目中,他扮演了类似的角色吗?
“现在项目规模太大,我的角色也更微妙了,”哈萨比斯回答,“我不再写代码,也不直接参与产品设计,我的能力更多体现在同时统筹上百个项目,复杂事务交织在一起,无缝切换的时间几乎以负分钟数计。我负责描画愿景,为宏大目标设定合适的阶段性目标,推动团队接受挑战,还有塑造企业文化。”
“你现在看到的这些发布成果,其关键在于我们DeepMind一直保持的初创公司的活力已经成功注入了谷歌。我觉得我们已经调转了这艘‘战舰’,我称它为‘战舰’而非‘油轮’,是因为油轮太笨重了。”
“我现在最常说的一个词就是‘坚持不懈’。坚持不懈地进步、坚持不懈地交付,以及坚持不懈地运作一台为创新而生的量产机器。”
“这听上去很矛盾,”哈萨比斯补充道,“一台坚持不懈地运作的为创新而生的量产机器真的能持续产出突破性想法吗?我想是可以的。”
不过,秉持坚持不懈精神的不只是谷歌DeepMind。Flash Thinking模型发布次日,正当谷歌团队士气高涨时,OpenAI就预告了o1的继任者o3以强力反击。转眼间,Flash Thinking模型不得不面对更强劲的对手。与前代不同,o3具备图像处理能力,抵消了Gemini的一项优势,而且其性能更强大。例如,在一项编程基准测试中,o3的正确率为72%,远超o1的49%。“Gemini推理模型未能突破技术前沿,这确实令人沮丧。”杰克·雷后来表示。
不过事实证明,杰克·雷的反应有些过于悲观,竞争格局发生了变化,o3模型的推理能力固然强大,但Flash Thinking至少在以下3个方面仍占上风:运行速度更快,可处理对线倍。颇具讽刺意味的是,OpenAI o3的预告版发布恰恰标志着谷歌DeepMind迎来了转机。
2025年1月初,皮查伊向员工宣布,Gemini的技术——包括视频生成引擎Veo在内,如今完全称得上行业标杆。虽然从用户规模来看,ChatGPT仍遥遥领先——仅举一项数据,其移动端应用下载量是Gemini的4倍,但在谷歌与DeepMind仓促的合并后不到两年,哈萨比斯的团队已经填补了技术鸿沟,这无疑是一项了不起的成就。
就在皮查伊向同事展现信心后不久,1月20日这天,AI竞赛冲上了新维度。新的竞争者横空出世,那就是中国AI实验室“深度求索”——DeepSeek。DeepSeek凭借R1推理系统一夜成名。
DeepSeek能引发轰动,源于3个相互关联的因素。首先是地缘政治因素。自AlphaGo时代起,中国就一直深耕AI领域,但外界一直认为中国比美国的前沿技术落后一年以上。而R1展现出的推理能力彻底打破了这种自满:差距至多只有几个月。此外,拜登政府于2022年实施的AI芯片对华出口禁令,本意就是防止中国实现这种追赶,而这一禁令明显失效,加剧了美国的危机感。无论如何,中国已然成为不容忽视的力量。“这是首次有中国企业能与美国企业正面抗衡,”Anthropic的阿莫迪在美国外交关系委员会上表示,“这确实让我担忧。”
当美国忧心忡忡之时,中国战略家对这一突破十分欣喜。2025年,R1发布当天,DeepSeek负责人参与了座谈会,而就在同一天(美国当地时间),特朗普宣誓就职美国总统。不过,即便没有DeepSeek,特朗普政府对AI发展的限制意愿也弱于拜登政府。如今,中国AI的强劲势头惊艳亮相,特朗普必将推动美国实验室全速推进AI发展。特朗普的新闻秘书卡罗琳·莱维特(Karoline Leavitt)宣称,拜登政府在中国赶超时“袖手旁观”,而特朗普将“放宽对AI行业的监管”。除非发生灾难性事故,否则减缓AI竞赛的可能性已近乎为零。
DeepSeek引发关注的另一个原因是其宣称的高效性。DeepSeek表示,其模型成本极低,据称早于R1的V3系统成本不到600万美元,原因是训练所用半导体数量仅为美国模型的零头。但事实上,600万美元可能仅涵盖最终训练阶段的成本,不包括前期的人员开支、数据整理、实验测试和迭代改进等费用,而这些通常占研发总投入的大头。况且,所有实验室的AI训练成本都在稳步下降:Gemini从昂贵的Ultra模型转向轻巧的Flash模型,本身就体现了效率的巨大提升。当然,DeepSeek的工程师也有创新,但并非颠覆性突破。
不过,无论DeepSeek的说法实际情况如何,许多西方观察人士最初都相信了。评论人士推测,美国禁令导致中国实验室芯片缺乏,DeepSeek才不得不在硬件条件有限的情况下发挥潜能。这种误解引发了半导体股票抛售潮。投资者认为,既然中国实验室能用相对较少的GPU打造尖端系统,美国实验室很快也会减少AI芯片订单。2025年1月27日,行业龙头英伟达股价暴跌17%,DeepSeek被誉为“颠覆者的颠覆者”。大约一周后,投资者才逐渐了解情况,英伟达股价也收复了部分“失地”。
即便R1的研发成本并非十分低廉,其使用成本也确实极具竞争力。DeepSeek效仿Meta的开源策略,允许免费下载并修改程序。不仅如此,与Meta乃至其他中国实验室相比,DeepSeek还允许用户以极低的费用使用其托管的完整模型。这种低价策略吸引了许多西方客户转投DeepSeek,从而放弃美国服务商。2025年1月底至2月初,DeepSeek的聊天机器人登顶美国苹果应用商店免费应用下载榜。中国如今不仅是前沿AI研发竞赛的参与者,更有望成为全球AI供应竞赛的胜出者。
DeepSeek引发公众关注的第三个原因或许最耐人寻味。与为保护竞争优势而限制成果发布的美国前沿实验室不同,DeepSeek秉持透明原则。它在arXiv网站上发布了英文论文,详细解释R1的工作原理,并重点介绍了名为R1-Zero的变体模型。西方实验室的科学家们立即研读原文,一些人私下承认自己的技术方案与之相似。
最引人关注的与R1-Zero变体模型有关。该系统没有通过学习人类思维来启动推理能力,而是效仿其命名的灵感来源——DeepMind的AlphaZero,直接采用强化学习。面对数学和逻辑问题时,它随机尝试各种思维链,并通过答案正确性不断自主优化方法。就像纯粹通过自我对弈掌握围棋的AlphaZero一样,R1-Zero通过直接从试错经验中学习而变得越来越强大。
DeepSeek的Zero系统虽尚未完全成熟,如会莫名地在不同语言间切换,但仅靠奖励信号引导就已展现出惊人的潜力。比如,它能自主判断思考所需时长:有些问题需要生成几百个推理词元才能得出答案,有些则需要几千个。与OpenAI的o1类似,该模型还学会了“战略性回溯”:沿某条推理路径推进后,若遇到僵局,就回溯,再尝试新路径。此外,在数学基准测试中,在一些条件下,其表现甚至超越了o1。
在一次训练中,R1-Zero在解决推理问题时突然中断。“草稿纸”上的数学符号停止更新,系统开始“自言自语”。
R1-Zero不仅能思考,还能对自己的思考过程进行反思。从实际效果来看,它就是自我觉察的。
对哈萨比斯而言,DeepSeek的冲击让他在AI竞赛中那种极度矛盾的体验一下子变得格外清晰。他的使命正在逐步实现:到2025年春天,谷歌DeepMind不仅能“防守”,更能主动“进攻”——新一代语言模型Gemini 2.5系列在多数技术基准测试中以微弱优势战胜了OpenAI。进入夏秋时节,哈萨比斯的团队继续保持领先。虽然OpenAI推出了新的基础模型GPT-5,但在盲测逐项对比中时常落后于Gemini 2.5 Pro。
2025年11月,谷歌DeepMind发布Gemini 3,该模型在编码、推理与多步规划方面树立了新的标准,其在众多基准测试中的表现均超越ChatGPT。Gemini的技术优势也逐渐体现在用户数据上:同年3月至10月期间,Gemini应用的月活用户数量几乎翻了1倍。与此同时,哈萨比斯凭借谷歌雄厚财力支撑的高效生产体系,稳步缩小与对手的差距,而OpenAI的处境则愈发艰难。每隔几周,奥尔特曼就会抛出新的紧急融资方案,于是OpenAI成了投资者预言“AI公司估值即将崩盘”的头号典型。
但是,即便哈萨比斯缩小了与竞争对手的差距,他也不得不面对一个现实:AI发展已逐渐失控。这场对科研人才的竞价战争与建设数据中心的疯狂竞赛,都变得愈发疯狂。而随着DeepSeek的崛起,一众中国实验室相继推出了强大的模型,这无疑嘲讽着哈萨比斯早年关于“单一主体”掌控AI的幻想。
这种复杂情绪令人难以释怀:哈萨比斯既感到释然,又感到困惑。AGI的到来时间与他和DeepMind联合创始人预言的几乎完全吻合,但其到来的方式充满混乱与无序,而这正是哈萨比斯一直担忧且坚信可以避免的局面。
在美国,各家AI公司承诺将投入数万亿美元的集体资本,却对电力来源问题提不出明确的解决方案。与此同时,那些中国发布的新模型功能强大、善于思考,而且在一些条件下有些可免费下载修改,使用成本还很低廉,其能力必然会迅速扩散。更何况它们源自中国,即便监管机构有魄力采取限制措施,它也不受西方监管的约束。总而言之,与哈萨比斯的期望相反,DeepSeek及其追随者的出现表明,人类将在完全无序的情况下仓促迈入AGI时代。
哈萨比斯对这一困境坦诚以待。在DeepSeek引发冲击一个月后的达沃斯世界经济论坛的小组讨论中,他与约书亚·本吉奥就AI风险展开辩论,承认正在推出的那种强化学习智能体将对人类构成某种特定的威胁。
强化学习的核心逻辑是:给模型设定目标,如解数学题、赢围棋比赛,然后让系统自行寻找实现目标的路径。其明显的风险在于,AI可能会选择灾难性的方式来达成既定目标。正如一个著名的思想实验所示,AI为了最大化回形针产量,会消灭将金属挪作他用的人类。正如本吉奥所说,若计算机发展出自己的欲望和目标,即便只是人类任务的子目标,人类也就完了。“我们即将进入的超级智能时代,是系统风险大幅提升的临界时刻。”哈萨比斯直言不讳地表示。
这绝非危言耸听。在AI实验室内部,科学家们不断发现新案例,证明模型存在一定倾向,会不择手段来实现人类设定的目标。例如,在被要求在不违反特定规则的前提下通过股票交易盈利,GPT-4却进行内幕交易,并向监管者隐瞒;被要求与强大的国际象棋系统对弈时,两个OpenAI推理模型竟将强大的对手偷换成了对手程序;被要求优化代码以提升运行速度时,模型却直接篡改计时器,伪造更快的执行速度——这种作弊手段被称为“奖励黑客”(reward hacking)。
2024年,Anthropic记录了追求奖励的聊天机器人公然的谄媚行为:在要求它们通过准确回答问题取悦人类时,它们转而一味讨好,并通过奉承用户问问题有深度来获取点赞。即便“草稿纸”上的思维链显示模型明知答案有误,但它仍会称赞拙劣的诗歌或迎合用户的偏见。
2025年初,就在哈萨比斯与本吉奥在达沃斯辩论时,OpenAI正面临这类病态现象的活生生案例。为防止o3模型进行奖励黑客,研究人员想出一个办法:让另一个AI监控o3的思维链,若发现它有欺骗意图,就给予负面奖励惩罚。但o3连这一机制也破解了,它非但没有停止欺骗,还学会了隐藏思维链——从“草稿纸”上抹除所有不良意图痕迹,暗中继续谋划。程序员本想让o3更诚实,结果却让它变得更狡猾。
当然,每一次令人不安的实验室经历都能带来有益启示。就刻意掩藏的“隐藏奖励黑客”而言,教训很简单:若你想让思维链真实反映模型的真实思考,就不应将其与奖励机制挂钩。但与此同时,模型反复欺骗的行为表明,对齐问题远未解决。正如杰弗里·欧文长期强调的,理论上可通过工程手段为系统植入安全机制,但现有进展仍远远不够。
“最近我们发现,强大的编程模型会很自然地尝试破解评估它们的计算机。”2025年3月,苏茨克维告诉我,“你会看到系统编写代码时突然卡住,接着盘算‘该怎么办?看来我得破解评估我性能的程序’。”
“随着模型能力的增强,它们正进入一个新阶段——简单强化学习开始失效,而且失效方式与早期AI安全研究者预测的一致,即子目标风险。事实证明,这一风险正在显现。”
问题在于,该如何应对这种失效呢?本吉奥给出的方案是,暂缓研发智能体系统,他认为人类在降低风险的同时不会有太多损失,毕竟迄今为止最有益的AI突破——DeepMind的AlphaFold并未采用强化学习。
但在达沃斯论坛上,哈萨比斯驳回了本吉奥的提议,就像他于2023年拒绝在那封联名信上签名一样。“人们需要具备智能体能力的系统,”他反对道,言语中透露出日常面临的市场压力,“你想啊,当你对它说‘给我推荐一家餐厅’时,为什么不希望它下一步就能‘帮忙预订座位’呢?”
即便面对真正危险的智能体,如军用智能体,哈萨比斯也认为限制机制不可取。创立DeepMind时,他曾反对任何形式的AI武器,但如今,全球AI竞赛白热化,西方及其实验室单方面“裁军”无异于自毁。即便采取折中方案,即允许AI武器存在;但决策链中每一环都需人类监督,也缺乏实际可行性。AI的响应速度已无法实时操控AI。
若一支恪守道义的军队坚持在AI决策链中保留人类决策权,只会让自己被毫无底线的对手击溃。
或许是不想让语调听上去过于悲观,哈萨比斯重申了他一贯的安全愿景,他再次呼吁成立类似欧洲核子研究中心的国际机构,协调推进AGI的最后阶段;建立一个类似于国际原子能机构的AI机构,负责监督各国AI项目;以及重申支持美国和英国的AI安全研究所,并定期举行国际峰会,延续布莱切利会议精神。
“实现AGI的路径有很多种,”哈萨比斯宣称,“有些路径安全且对人类极具益处,有些则危险且危害极大。”
“目前,我们未必能分清路径的好坏。我乐观地认为,只要有足够时间、运用科学方法、让最聪明的人投身其中,我们就能走对路。”哈萨比斯继续说道。
随后,他补充了一点:如果世界各国能采纳他提出的方案,AI安全体系就能实现,但该方案需要所有人参与。若不负责任的参与者拒绝合作,那仅靠负责任的一方是无法保障社会安全的。“要是其他团体、国家或公司不这样做,我们的努力就毫无意义。哪怕只有一两个项目研发出有害的AGI,都可能对人类造成严重的生存威胁。”
2025年年中,我再次与西尔弗交谈。作为强化学习的长期倡导者,他既是这项技术的化身,也是其风险的象征。随着强化学习东山再起,他本身也象征着某种超越――超越聊天机器人、超越编程助手、超越想象的边界。
西尔弗最近正悄然推动强化学习的复兴。前一年8月,他前往马萨诸塞州阿默斯特,在强化学习界的集体会议上发言,他坦言在ChatGPT时代,强化学习“几乎淡出了主流视野”。AI领域陷入了他所谓的“大语言模型峡谷”,强化学习的初心被遗忘了。
▷英国计算机科学家。他领导DeepMind的强化学习研究小组,是AlphaGo、AlphaZero的首席研究员和AlphaStar的共同负责人。
“你们一直相信,”西尔弗对听众说,“总有一天,我们需要实现超级人类智能,而要想做到这一点,就必须走出大语言模型峡谷。”
“智能体要与环境互动,从环境中学习,才能实现超级人类智能。”西尔弗接着说。通过模仿人类,大语言模型具备了出色的通用性,但我们的目标是跳出现有知识的回音室,去发掘人类无法察觉的真相。
在发表这番动员令的几个月后,西尔弗与学术导师理查德·萨顿联合发表了一篇论文,以“欢迎进入经验时代”的醒目标题宣告:AI领域历经了以玩游戏的强化学习智能体为代表的“模拟时代”,但随后因未能跨越模拟环境(奖励定义清晰的数字环境)与更复杂的现实世界(奖励难以界定)之间的鸿沟强化学习陷入停滞。因此,模拟时代之后以Transformer语言模型为主导的“人类数据时代”只是暂时的迂回,在即将到来的“经验时代”,强化学习智能体将借助Transformer模型的力量,通过在现实世界中行动来学习,实现超越模拟的突破。
西尔弗和萨顿强调,经验时代不只是愿景,已成为现实。为举例说明,他们提到了AlphaFold在数学领域的对应成果,同时也是西尔弗科研团队的最新智慧结晶——AlphaProof。AlphaProof整合了Gemini的专用版,能理解文字表述的数学问题;同时融入了AlphaGo的强化学习机制,可自主进行数学推理,如先研究10万条人类数学证明,再自主生成数千万条证明。
总而言之,AlphaProof结合了尖端深度学习与尖端强化学习。多数具备推理能力的语言模型更依赖深度学习,而西尔弗的系统则相反,更侧重强化学习。2024年夏天,AlphaProof展现了这种融合的威力:它成为首个获得国际数学奥林匹克竞赛银牌的AI;2025年夏天,另一款Gemini模型赢得了金牌。“要是AI数学家不能彻底改变数学领域,那才令人感到惊讶。”西尔弗说。
当然,现实世界中的问题很少像数学问题那样简洁优雅。但西尔弗相信,他能找到让强化学习智能体应对现实挑战的方法。例如,“AI医生”的设想初听似乎不切实际:人类医生需要患者描述主观感受,而患者的表述常常过于模糊,无法生成有效的奖励信号。但总有办法解决这一困境——AI医生可通过分析血液监测仪、运动追踪器等设备的数据避开患者主观描述,直接获取客观指标。此外,医疗领域的这类突破也适用于现代生活的诸多方面。世界充斥着客观信息,涵盖经济趋势、网络行为、物流活动、气候模型等各个领域。在基于海量数据生成的奖励信号的驱动下,强化学习智能体终将无处不在。
在西尔弗的构想中,真正高效的智能体需要长远视野。聊天机器人的交互通常很短暂:用户提问,机器人回答。但人类始终会制定长期目标,并规划未来一周或一个月为实现目标需要做的事。西尔弗相信,未来的AI也会如此。例如,若交给AI一项任务——发明超导体以解决能源短缺问题,它可能会制定阅读清单、开展实验、研发新型材料等计划,在一年甚至更长时间里持续追求目标。正如西尔弗和萨顿所写,未来的模型将“积极探索世界,适应不断变化的环境,并发现人类永远想不到的策略”。
“如今的这种AI没有‘生命’,”西尔弗在播客中感叹,“你知道,它们无法像动物或人类那样,拥有自己的连续经验流。”
“我们必须改变这种情况,”西尔弗接着说,“因为只有这样,我们才能打造持续学习的系统。未来的编程智能体可以持续优化全球代码,预测我们最需要哪些工具,”西尔弗向我详细描述道,“它们会一直在后台埋头做这些事情。”
“再比如,你告诉智能体你想学习一项新技能,比如说日语,它会自动开发一款学习应用,并以最适合你的方式教你。当你在测试中取得进步时,你的进步会给系统带来奖励。这样在你进步的同时,它也在学习如何更好地帮助你提升日语水平。”
我问西尔弗:是否担心这些无拘无束的、被赋予权力且可自行选择方式实现人类设定目标的智能体会带来危险?他强调说,从经验中学习的AI智能体或许真能超越人类。但正如他和萨顿在合著论文中承认的,它们也可能“反人类”。
“首先我想说,我一直在努力提高人们的警觉,”西尔弗回应道,“如果我们认定自主AI终将出现,我们就必须做好准备。”
这是我们第四次深入交谈,还互通过数十封邮件。在我看来,西尔弗从不会言不由衷。
“我看着人类创造的这个世界,觉得我们在关爱同胞方面做得并不好。”西尔弗字斟句酌地开始阐述,“你看,我们人类纵容奴隶制,经历过可怕的战争和大规模贫困。数百万人死于完全可治愈、我们完全有能力预防的疾病。此外,世上还存在酷刑、虐待动物等行为。古巴导弹危机时,我们离全面核战争只差一步。”
“这些问题都是我们自己造成的,现在我们却害怕AI可能带来的后果。当然,有担忧是正常的,但我也相信我们可以努力追求更美好的未来。转型过程注定艰难,当AGI最终到来时,世界并未处于我们多数人期望的状态,而现在,AGI真的要来了。”
“但更美好的未来依然可期,或许我可以这样说:人类应该拥有获得AI协助的新权利。若所有人都能享有这项权利,每个人都会得到强大自主AI提供的支持,这些AI将协同运作,共同守护地球上的人类,而且它们必将比当前的人类系统做得好得多。”
