谷歌Gemini拿下了IMO金牌

谷歌Gemini拿下了IMO金牌，而且是官方认证的那种。
经过IMO官方裁判评分，Gemini新模型答对了6道题中的5道，以35分的成绩斩获金牌。
斩获金牌的是Gemini的一个进阶版本，搭载了新的思考模式，后期会开放给Google AI Ultra订阅用户——也就月付1400元那种。
去年三天摘银，今年4.5小时夺金，DeepMind的数学成绩可以说是突飞猛进。
除了DeepMind CEO哈萨比斯、谷歌CEO劈柴哥给团队发来贺电，马斯克也发推表示了祝贺。
DeepMind这波可谓是被各界夹道祝贺，做得体面又周到。
但DeepMind被夸得越好，OpenAI就越发相形见绌，同样是AI参赛IMO，秘密搞事情也就算了，还为了营销跟人类青少年抢风头。
奥特曼治下的OpenAI，最近除了丢人就丢人了。
DeepMind公告显示，Gemini新模型做对了今年IMO六道题中的五道，获得了35分。
并且这一成绩，也获得了IMO主席Gregor Dolinar的亲自认证：
“我们可以确认，谷歌DeepMind已达到人们梦寐以求的里程碑，获得了35分（满分42分）——堪称金牌。
“他们的解决方案在很多方面都令人惊叹。IMO评分员认为这些解决方案清晰、精准，而且大多数都易于理解。”
不仅评分遵循IMO未公开的规则，所用时间标准也和人类选手完全一致——4.5小时之内答完交卷。
而去年DeepMind的银牌成绩，是用AlphaProof和AlphaGeometry一起做了三天才获得的。
这次不仅用时更短，答题过程也是全程自然语言、端到端完成，不再像去年那样专门修改题目格式。
DeepMind高级科学家兼IMO团队负责人Thang Luong表示，这与去年相比是一个范式转变。
此外，DeepMind研究员、布朗大学教授Junehyuk Jung介绍，在今年的第三题中，很多人类选手使用了研究生水平的方案（IMO为高中竞赛），但Gemini仅使用了初等数论知识就给出了自洽的证明。
Jung还表示，Gemini没答对的最后一题，是一开始方向就错了，不过人类选手中做对这道题的也只有五个人。
顺便说一下，谷歌已经将Gemini做对的五道题的答案完整公开（链接见文末），有兴趣的话可以验证一下~
这次DeepMind用来参赛的，是一款暂未公开的全新模型，搭载了Deep Think推理模式。
DeepMind介绍，Gemini Deep Think是一种针对复杂问题的增强型推理模式，融合了其最新的一些研究技术，包括并行思维。
这种模式使模型能够同时探索并组合多种可能的解决方案，最终得出最终答案，而不是追求单一的线性思维链。
为了充分利用Deep Think的推理能力，DeepMind额外训练了 Gemini 的这一版本，使其能够利用更多多步推理、问题求解和定理证明数据。
此外DeepMind还为Gemini提供了精选的高质量数学题库，并在其指令中添加了一些关于如何解答IMO题目的通用提示和技巧。
如哈萨比斯所说，该模型已经提供给数学家等人群进行小范围测试，后续会开放给Google AI Ultra订阅用户使用。
当然，DeepMind今天的官宣，也是获得了各种称赞。
包括来自友商的称赞在内，DeepMind获得了整个硅谷的夹道欢迎。
除了开头马斯克那句简单的Congrats之外，还有Meta AI科学家称赞Gemini给出了清晰、精准、非常适合自学的解决方案。
受欢迎的原因，不仅是表现优秀，也包括谷歌对IMO规则的尊重。
Gemini参加挑战是受到了IMO官方邀请，所有规则标准都和人类一致。
并且，DeepMind也遵守了IMO官方的要求，没有急于宣布结果。
仔细研究哈萨比斯的推文，只字未提OpenAI，但又处处在针对OpenAI。
哈萨比斯的三条回复，主要强调了这么几点：官宣是没有抢跑的，成绩是IMO认证的，模型也是未来可用的。
这三点，刚好和抢先宣布夺金结果被锤的OpenAI形成了鲜明对比。
IMO评审团和协调员们普遍认为，AI开发商在IMO期间（尤其是闭幕式之前）宣布成绩是“粗鲁且不恰当的”。
除了公告发布时间的问题，OpenAI到底得没得金牌也有争议。
领导DeepMind超级推理团队的Thang Luong补充，IMO内部其实有一份官方评分指南，外部无法获取。没有基于该指南的评分就没有资格获得奖牌。
这届IMO共6道题，每题7分。金牌线35分，OpenAI自报的成绩也刚刚过线，即使是解答过程中微小的扣分都可能让OpenAI从金牌跌到银牌。

真牛

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

1回复贴，共1页

<<返回积云教育吧

分享到:

日	一	二	三	四	五	六