Grok-3证明了“黎曼猜想”吗?
xAI研究员Hieu Pham周末发布的一条推文引起了AI圈的轩然大波。
原来的推文是这样说的:
Grok-3人工智能系统刚刚证明了黎曼的假设。
为了验证这个证明的正确性,我们决定暂停系统的训练。
如果证据得到证实,我们将不再继续它的训练,因为这样的人工智能被认为过于聪明,可能对人类构成威胁。
按照惯例,先说结论吧,这只是个玩笑。
不过,推文的持续发酵很快吸引了超过200万网友的关注,辐射到国内外的AI舆论圈。
事情的源头很可能要追溯到网友Andrew Curran早些时候的“爆料”,他声称Grok-3训练期间发生了灾难性事件。
随后,各种离奇的传闻也纷至沓来。
网友纷纷嘘声,OpenAI CEO Sam Altman 将巨大激光瞄准 xAI 最大的训练集群,造成数据严重损坏;
还有严重迹象表明有人正在故意破坏下一代LLM培训运作;
甚至有人戏称,AI似乎获得了自我意识,解决了黎曼猜想,但证明代码中“故意省略了15个分号”,让人类无法验证。
就连 Runway 创始人 Cristóbal Valenzuela 也来凑热闹:
《第四代》刚刚赢得了所有奥斯卡奖,包括最佳影片奖。
为了更深入地挖掘其在艺术领域的创新成果,我们决定暂停其培训。
如果这部电影确实像早期评论家所说的那样具有革命性,我们就不会恢复训练,因为它表明人工智能已经达到了如此高的艺术水平,以至于可能威胁到人类的创造力。
谣言愈演愈烈。
许多xAI研究人员也转发了Andrew Curran的推文,加入到这个集体“大团队建设”中。
例如,我们的老熟人 xAI 联合创始人 Greg Yang 首先开玩笑说,Grok-3 在训练时突然殴打了办公室里的老年保安。
另一位研究人员 Heinrich Kuttler 说:
“是的,情况很糟糕!我们后来把所有异常的权重都替换成了nan(Not a Number,非数字)才恢复。”
当然,更理性的网友直接询问X上当前版本的Grok对黎曼猜想的理解。
果然,Grok的表现相当“马卡巴卡”。
最终,这场闹剧被煽动者、xAI研究员Hieu Pham画上了句号:
好了,周六夜现场结束了。
至于为什么证明黎曼猜想是危险的,我强烈推荐马特·海格的优秀小说《人类》。
那么问题来了,为什么Grok-3证明黎曼猜想的消息会引起广泛关注呢?
首先是 Grok-3 解决黎曼猜想本身的重要性。
黎曼猜想是数学中关于素数分布的一个重要猜想。它是由德国数学家伯恩哈德·黎曼于1859年提出的。
该猜想被列为克莱数学研究所的“千年难题”之一。
涉及到黎曼zeta函数,定义为: ζ(s)=1+12s+13s+14s+⋯\zeta(s)=1+\frac{1}{2^s}+ \frac{1}{ 3^s}+\frac{1}{4^s}+\cdotsz(s)=1+2s1+3s1+4s1+⋯
黎曼猜想的核心内容是:所有非平凡黎曼zeta函数的零点的实部等于1/2。
换句话说,如果 ss 是黎曼 zeta 函数的非平凡零点,即 z(s)=0 z(s)=0,那么它的实部一定是 ℜ(s)=1/2ℜ(s )=1/2 。
克莱数学研究所表示,如果有人能成功证明或证伪黎曼猜想,将奖励100万美元。
然而,这一猜想至今尚未被证明或反驳,因此被广泛认为是现代数论中的一个未解之谜。
这个猜想的证明对数学的一个分支数论产生了深远的影响。
目前,许多现代加密技术(例如保护在线支付、数据隐私等)都依赖于素数的属性。
证明黎曼猜想可能会让人类更好地理解这些技术的基础,并可能影响未来的安全算法。
如果Grok-3能够证明黎曼猜想,不仅将推动理论数学、物理、密码学等领域的实质性进展,也标志着人工智能推理和解决复杂问题的巨大进步。
甚至可以说,这将成为人工智能超越人类智能的里程碑事件。
月之暗面创始人杨志林曾表示,数学场景是训练AI思维能力最理想的场景。
数学是一个极其严密的逻辑系统,AI的推理能力往往是基于严密的逻辑推演。
人工智能解决数学问题的过程本质上是一个持续思考的过程。在这个过程中,它会不断尝试不同的想法,通过反复的试错找到正确的答案。
即使计算过程中出现错误,人工智能也可以通过验证和校对来纠正结果。
类似的理念也体现在OpenAI o1的强化学习训练中。
如果说之前的大模型是学习数据,那么o1更像是学习思维。就像我们解决问题时,不仅要写出答案,还要写出推理过程。
你可以死记硬背一个问题,但如果你学会推理,你就可以做出推论。
因此,在今年美国优秀高中生AIME测试中,GPT-4o只完成了13%的题目。相比之下,o1的准确率高达83%。
在博士级GPQA钻石科研评价方面,GPT-4o取得了56.1%的成绩,而o1的表现更为出色。它不仅击败了69.7%的人类医生,而且还达到了78%的准确率。
在国际信息学奥林匹克竞赛的评估中,当每题允许尝试 50 次时,该模型的得分率为 49%,即 213 分。当每道题的提交机会增加到10000次时,其最终得分增加到362分。
用击败围棋世界冠军的AlphaGo来比喻就更容易理解了。
AlphaGo 通过强化学习进行训练。它首先使用大量的人类国际象棋记录进行监督学习,然后与自己下棋。在每场比赛中,根据输赢进行奖励或惩罚。它不断提高自己的棋艺,甚至掌握了人类棋手想不到的方法。
o1和AlphaGo有相似之处,但AlphaGo只能下围棋,而o1是通用大语言模型。
o1学习的材料可能是数学题库、优质代码等,然后训练o1生成解决问题的思维链,并在奖励或惩罚机制下,生成并优化自己的思维链,不断提高自己的能力。推理能力。
这其实也解释了为什么OpenAI强调o1强大的数学和编码能力,因为更容易验证对错,并且强化学习机制可以提供清晰的反馈,从而提高模型的性能。
当然,更重要的是如何将这种推理能力扩展到更广泛的领域。
因此,我们会看到很多海外网友为Grok-3证明黎曼猜想而欢呼,“如果真是这样,我们真的正在见证一个巨大的突破。”
马斯克曾多次在公开场合宣扬 Grok-3 的强大功能。他声称Grok-3预计将于今年年底前发布,并将成为“世界上最强大的AI”。
事实上,Grok-3 是上述 AI 初创公司 xAI 开发的第三代大型语言模型,预计在性能上超越所有现有的大型 AI 模型。
原因是 Grok-3 训练依赖于全球最大的 AI 训练集群 Colossus。
该集群由 10 万个液冷 Nvidia H100 GPU 组成,并使用单一 RDMA 网络互连架构。这个集群的规模已经超过了世界上任何其他超级计算机,并且GPU的数量未来还将继续扩大。
据The Information报道,巨像的出现甚至引起了奥特曼的密切关注,他派出一架飞机飞越巨像训练基地上空,试图刺探其研发进度和能源供应情况。
因此,当“最强人工智能”、“千年数学难题”和亘古不变的“人工智能威胁论”三个要素叠加时,就形成了完美的“谣言风暴”。
我们甚至可以认为,Grok-3证明黎曼猜想的传言与其说是一场闹剧,不如说是整个AI行业的一面镜子:
一是技术乐观主义者坚信人工智能最终将能够做到一切。我们既担心它增长太快会失控,又担心它增长不够快而无法实现突破。
二是自GPT-4问世以来,虽然AI领域新产品不断涌现,但人类不仅是AI的创造者,也成为了其最焦虑的受众。
每一个AI传闻的背后,都隐藏着整个行业的焦虑和期待。
再加上最近沸沸扬扬的Scaling Law发展碰壁的说法,与去年的井喷期相比,今年的“创新疲劳”已经让人对模型的小步改进失去了耐心。
从这个意义上来说,Grok-3证明黎曼猜想的传闻也成为了人们对于未来的集体想象。
我们越来越期待下一个从GPT-3.5到GPT-4的质变时刻。
当然,真正的人工智能突破往往是在没人看好的时候发生的。但我们都希望这个谜团能在年底前揭开。