Grok-3 证明黎曼猜想引轩然大波,xAI 研究员推文玩梗遭围观

admin

Grok-3证明了“黎曼猜想”吗?

xAI研究员Hieu Pham周末发布的一条推文引起了AI圈的轩然大波。

原来的推文是这样说的:

Grok-3人工智能系统刚刚证明了黎曼的假设。

为了验证这个证明的正确性,我们决定暂停系统的训练。

如果证据得到证实,我们将不再继续它的训练,因为这样的人工智能被认为过于聪明,可能对人类构成威胁。

按照惯例,先说结论吧,这只是个玩笑。

不过,推文的持续发酵很快吸引了超过200万网友的关注,辐射到国内外的AI舆论圈。

事情的源头很可能要追溯到网友Andrew Curran早些时候的“爆料”,他声称Grok-3训练期间发生了灾难性事件。

随后,各种离奇的传闻也纷至沓来。

网友纷纷嘘声,OpenAI CEO Sam Altman 将巨大激光瞄准 xAI 最大的训练集群,造成数据严重损坏;

还有严重迹象表明有人正在故意破坏下一代LLM培训运作;

甚至有人戏称,AI似乎获得了自我意识,解决了黎曼猜想,但证明代码中“故意省略了15个分号”,让人类无法验证。

马斯克的笑话_马斯克解决问题_

就连 Runway 创始人 Cristóbal Valenzuela 也来凑热闹:

《第四代》刚刚赢得了所有奥斯卡奖,包括最佳影片奖。

为了更深入地挖掘其在艺术领域的创新成果,我们决定暂停其培训。

如果这部电影确实像早期评论家所说的那样具有革命性,我们就不会恢复训练,因为它表明人工智能已经达到了如此高的艺术水平,以至于可能威胁到人类的创造力。

谣言愈演愈烈。

许多xAI研究人员也转发了Andrew Curran的推文,加入到这个集体“大团队建设”中。

例如,我们的老熟人 xAI 联合创始人 Greg Yang 首先开玩笑说,Grok-3 在训练时突然殴打了办公室里的老年保安。

_马斯克的笑话_马斯克解决问题

另一位研究人员 Heinrich Kuttler 说:

“是的,情况很糟糕!我们后来把所有异常的权重都替换成了nan(Not a Number,非数字)才恢复。”

当然,更理性的网友直接询问X上当前版本的Grok对黎曼猜想的理解。

果然,Grok的表现相当“马卡巴卡”。

马斯克解决问题_马斯克的笑话_

最终,这场闹剧被煽动者、xAI研究员Hieu Pham画上了句号:

好了,周六夜现场结束了。

至于为什么证明黎曼猜想是危险的,我强烈推荐马特·海格的优秀小说《人类》。

那么问题来了,为什么Grok-3证明黎曼猜想的消息会引起广泛关注呢?

首先是 Grok-3 解决黎曼猜想本身的重要性。

黎曼猜想是数学中关于素数分布的一个重要猜想。它是由德国数学家伯恩哈德·黎曼于1859年提出的。

该猜想被列为克莱数学研究所的“千年难题”之一。

涉及到黎曼zeta函数,定义为: ζ(s)=1+12s+13s+14s+⋯\zeta(s)=1+\frac{1}{2^s}+ \frac{1}{ 3^s}+\frac{1}{4^s}+\cdotsz(s)=1+2s1+3s1+4s1+⋯

黎曼猜想的核心内容是:所有非平凡黎曼zeta函数的零点的实部等于1/2。

换句话说,如果 ss 是黎曼 zeta 函数的非平凡零点,即 z(s)=0 z(s)=0,那么它的实部一定是 ℜ(s)=1/2ℜ(s )=1/2 。

克莱数学研究所表示,如果有人能成功证明或证伪黎曼猜想,将奖励100万美元。

然而,这一猜想至今尚未被证明或反驳,因此被广泛认为是现代数论中的一个未解之谜。

这个猜想的证明对数学的一个分支数论产生了深远的影响。

目前,许多现代加密技术(例如保护在线支付、数据隐私等)都依赖于素数的属性。

证明黎曼猜想可能会让人类更好地理解这些技术的基础,并可能影响未来的安全算法。

如果Grok-3能够证明黎曼猜想,不仅将推动理论数学、物理、密码学等领域的实质性进展,也标志着人工智能推理和解决复杂问题的巨大进步。

甚至可以说,这将成为人工智能超越人类智能的里程碑事件。

月之暗面创始人杨志林曾表示,数学场景是训练AI思维能力最理想的场景。

数学是一个极其严密的逻辑系统,AI的推理能力往往是基于严密的逻辑推演。

人工智能解决数学问题的过程本质上是一个持续思考的过程。在这个过程中,它会不断尝试不同的想法,通过反复的试错找到正确的答案。

即使计算过程中出现错误,人工智能也可以通过验证和校对来纠正结果。

类似的理念也体现在OpenAI o1的强化学习训练中。

如果说之前的大模型是学习数据,那么o1更像是学习思维。就像我们解决问题时,不仅要写出答案,还要写出推理过程。

你可以死记硬背一个问题,但如果你学会推理,你就可以做出推论。

因此,在今年美国优秀高中生AIME测试中,GPT-4o只完成了13%的题目。相比之下,o1的准确率高达83%。

在博士级GPQA钻石科研评价方面,GPT-4o取得了56.1%的成绩,而o1的表现更为出色。它不仅击败了69.7%的人类医生,而且还达到了78%的准确率。

在国际信息学奥林匹克竞赛的评估中,当每题允许尝试 50 次时,该模型的得分率为 49%,即 213 分。当每道题的提交机会增加到10000次时,其最终得分增加到362分。

用击败围棋世界冠军的AlphaGo来比喻就更容易理解了。

AlphaGo 通过强化学习进行训练。它首先使用大量的人类国际象棋记录进行监督学习,然后与自己下棋。在每场比赛中,根据输赢进行奖励或惩罚。它不断提高自己的棋艺,甚至掌握了人类棋手想不到的方法。

o1和AlphaGo有相似之处,但AlphaGo只能下围棋,而o1是通用大语言模型。

o1学习的材料可能是数学题库、优质代码等,然后训练o1生成解决问题的思维链,并在奖励或惩罚机制下,生成并优化自己的思维链,不断提高自己的能力。推理能力。

这其实也解释了为什么OpenAI强调o1强大的数学和编码能力,因为更容易验证对错,并且强化学习机制可以提供清晰的反馈,从而提高模型的性能。

当然,更重要的是如何将这种推理能力扩展到更广泛的领域。

因此,我们会看到很多海外网友为Grok-3证明黎曼猜想而欢呼,“如果真是这样,我们真的正在见证一个巨大的突破。”

_马斯克的笑话_马斯克解决问题

马斯克曾多次在公开场合宣扬 Grok-3 的强大功能。他声称Grok-3预计将于今年年底前发布,并将成为“世界上最强大的AI”。

事实上,Grok-3 是上述 AI 初创公司 xAI 开发的第三代大型语言模型,预计在性能上超越所有现有的大型 AI 模型。

原因是 Grok-3 训练依赖于全球最大的 AI 训练集群 Colossus。

该集群由 10 万个液冷 Nvidia H100 GPU 组成,并使用单一 RDMA 网络互连架构。这个集群的规模已经超过了世界上任何其他超级计算机,并且GPU的数量未来还将继续扩大。

据The Information报道,巨像的出现甚至引起了奥特曼的密切关注,他派出一架飞机飞越巨像训练基地上空,试图刺探其研发进度和能源供应情况。

因此,当“最强人工智能”、“千年数学难题”和亘古不变的“人工智能威胁论”三个要素叠加时,就形成了完美的“谣言风暴”。

我们甚至可以认为,Grok-3证明黎曼猜想的传言与其说是一场闹剧,不如说是整个AI行业的一面镜子:

一是技术乐观主义者坚信人工智能最终将能够做到一切。我们既担心它增长太快会失控,又担心它增长不够快而无法实现突破。

二是自GPT-4问世以来,虽然AI领域新产品不断涌现,但人类不仅是AI的创造者,也成为了其最焦虑的受众。

每一个AI传闻的背后,都隐藏着整个行业的焦虑和期待。

再加上最近沸沸扬扬的Scaling Law发展碰壁的说法,与去年的井喷期相比,今年的“创新疲劳”已经让人对模型的小步改进失去了耐心。

从这个意义上来说,Grok-3证明黎曼猜想的传闻也成为了人们对于未来的集体想象。

我们越来越期待下一个从GPT-3.5到GPT-4的质变时刻。

当然,真正的人工智能突破往往是在没人看好的时候发生的。但我们都希望这个谜团能在年底前揭开。