“世界不需要超过五台或几台大型模型,我认为这与当年 IBM 董事长完全相同,这与世界不需要超过五台计算机完全一样,这是非常短视的。”Facing Wall 首席科学家、清华大学终身副教授刘志远告诉 Tiger Sniff,“我认为未来的大模型就像一个 CPU,无处不在。所以我们需要做的第一件事就是降低成本,让每个人都有自己的大模型数量来支持生活、学习和工作。”
这是最近中关村初冬的早晨。2024 中国人工智能大会 (CCAI 2024) 就像草原趋势的大型模型行业切片,汇集了尖端人工智能企业和学者。此时,不到一个小时,刘志远就在 CCAI 2024 端侧专题论坛上发表了关于致密法的主题演讲。
在众多 AI 公司中,面墙与路线、模式甚至名称都有些不同。当刘志远坐在我面前时,这些选择似乎找到了答案的来源——他的书生风度和脚踏实地的一面达到了绝妙的平衡。
无独有偶,在交流的前一天,llya 做出了预训练时代即将结束的判断,这动摇了一些从业者对大模型和 AGI 的信心。
刘志远还观察到,目前,国内有大型模型公司已经放弃了前期培训。“这种事情在历史上的任何时刻都会存在”,就像 2000 年互联网泡沫破灭时,不明朗的参与者分批离开市场,“很多人看到这个方向的大模型,然后加入进来,这样的人,遇到挫折时,肯定会第一个退出。”
“数据几乎耗尽了,下一步确实会是可持续模型训练未来发展的瓶颈”,但刘志远认为,“通过强化学习或合成数据,仍然可以创造更多的数据,明年仍将是快速发展的阶段。”
这个瓶颈是刘志远一年前预测到的一个问题:“半年后,国内肯定有五六家公司能做 GPT-4 级别的模型,那么还需要做这个吗?”
从商业角度来看,“投入数千万美元,市面上有五六款同类型的车型,如何保证自己的车型能比其他车型卖得更好呢?”
因此,一年前,诞生于清华 NLP 实验室的 Facewall Intelligence 开始专注于端侧模型的路线。
交流结束后,刘志远上台分享了团队近期的研究成果。正是 Scaling Law 瓶颈之后的“破壁法”从另一个角度——大模型密集法——预测了大模型的发展——模型的容量密度随着时间的推移呈指数级增长。
就像摩尔定律背后的内核一样,它实际上是关于有效增加芯片上的电路密度,而不仅仅是芯片尺寸。大模型行业也有着与摩尔定律类似的规律,类似于芯片的电路密度,大型模型的“密度”也在增加,这意味着我们可以用更少的参数实现同样水平的智能化。
模型能力密度的增加,意味着如果一个 4B 模型能够达到 40B 模型的效果,那么它所能承载和运行的终端范围将大大扩大,比如原服务器上的模型,可以直接在手机上运行,其应用范围将得到拓宽。
以下是虎嗅和刘志远一对一交流的记录:
Tiger Sniff:在过去的六个月里,您担心什么?
刘志远:目前算力浪费严重,导致模型训练成本高。从历史上看,IBM 预测世界只需要 5 台大型计算机,但今天我们有 13 亿台 PC、70 亿部移动电话、数百亿台连接设备和 2000 亿个 CPU 在运行。有句话说,世界上不需要超过五个或者几个大模型,我觉得这跟当年的 IBM 董事长完全一样,都是非常短视的。我认为在未来,大模型应该像 CPU 一样无处不在,这样每个人都可以拥有大模型来改善他们的生活、学习和工作。因此,降低成本是将大型模型带入信息革命 PC 的关键。(虎嗅注:密度定律显示,自 2023 年以来,达到相同能力的模型参数每 3.3 个月呈指数级下降一半,相应的模型推理速度翻了一番。例如,GPT-3.5 模型的 API 价格在过去 20 个月中下降到 1/266.7,在 2.5 个月内翻了一番左右。)
Tiger Sniff:Llya 最近表示,预训练无疑会结束,训练模型所需的大量数据很快就会用完。你觉得他的观点怎么样?
刘志远:我觉得他说的这件事有一部分是正确的,现在数据几乎用完了,也许下一步确实会是可持续模型训练的未来发展瓶颈。因为所谓的 Scaling Law 有两个基本的支撑点,数据和算力。LLYA 主要强调数据问题,但实际上我们会认为算力也是一个关键问题,随着模型越来越大,训练算力的成本是有限的。如何支持此模型有效扩展?所以我们认为 llya 提出的是及时的,需要探索解决方案。
实际上,我们去年就意识到了这个问题。
Tiger Sniff:目前国内一些企业已经放弃了前期培训,您怎么看?
刘志远:大号模型是去年才开始流行的。所以我们会想,很多人看到这个方向再加入进来,这样的人,他遇到挫折的时候,肯定会第一个退出。这是理所当然的。因为历史上任何时候都会有这样的事情,就像千禧年互联网的兴起一样,有很多人被吸引参与,但是当互联网泡沫破灭时,他们会主动或被动地退出。
Tiger Sniff:这可能与明年有哪些新趋势有关?您对明年大型模型的开发有什么预测?
刘志远:你可以看到,是的,不管是比如说这个推理,还是 Agent,或者其他强化学习等等,都是 o1 提到他的各种事情,其实如果你回到本质,其实无非就是想出某种方式,然后能够为这个模型提供更多的数据。
例如,AlphaGo 从人类积累的数据开始,在学会了所有基础知识后,AlphaZero 让 Go 代理与自己下棋以生成更多数据。
如果我们不断控制这个模型的参数大小,随着技术的发展,我们可以为其投入更多功能。换句话说,模型的大小保持不变,但模型的这种知识的密度会增加。所以,我觉得未来还有很多事情要做,明年肯定是快速发展的阶段。
这个过程其实就像科技的发展对抗世界的熵增,就像芯片是通过技术进步来提高算力强度,以更高的质量和更低的价格实现同样的能力。
Tiger Sniff:一年前,您是如何提前预测该行业的现状的?你为什么在那个时候开始专注于 End 侧?
刘志远:这就涉及到技术的预测。去年年初,ChatGPT 诞生了,这其实让很多人都感到震惊。因为人们仍然不知道这东西是怎么训练的。不过,经过大家的快速研究和探索,其实在去年的 4 月,我们已经大致找到了如何达到同样水平的路径。
我们的判断是,到 2023 年 12 月,中国需要将近一年的时间才能达到 GPT-3.5 级别的模型能力。
事实证明,我们的判断是正确的,因此当 GPT-4 于 2023 年 4 月发布时,我们预计 GPT-4 水平模型将在 2024 年 6 月之前在中国制造。
所以现在我想问你,如果你是我们团队的决策者,你发现一年之内,国内肯定有五六家公司可以做 GPT-4 级别的模型,还有没有必要做这个?问题是 GPT-4 的模型能力至少需要数千万美元的计算能力。
当然,这在技术上是可能的,但是你赚到钱后如何赚回这笔钱呢?您投资了数千万。但是市面上同类型的型号有五六款,你怎么确定你的型号会比其他型号卖得更好呢?
也就是说,当我们确保它在技术上可行时,我们必须看看它是否值得在业务中付出代价。
所以我们认为,我们应该更加注重大幅度降低训练模型的成本,大幅度提高同等成本训练的模型质量,所以当时我们坚持做这种事情。事实上,我们事先对此没有那么大的信心,这肯定是对的,但当然,事后看来我们是对的。
Tiger Sniff:您如何看待一些公司现在开始转向终端业务?
刘志远:是的,我觉得这是一件好事。这是一个理性的决定。因为你没有走到终点,所以意味着你还没有做出理性的决定。
Tiger Sniff:您认为未来这样的公司会越来越多吗?
刘志远:当然。
Tiger Sniff:今年之后你感觉如何?
刘志远:我觉得我学到了很多东西。因为我是清华大学的一名教师,所以我参与了创业。我认为这是一个重要的时刻,我必须参与其中,但实际上这对我来说是很多新的体验。
实际上,最近几个月我们一直在试图得出结论,我们到底是做什么的?下一步是什么?因为这件事情充满了不确定性。
llya 的判决出来后,很多人对 AGI 的信心再次动摇。llya 所说的一定是对的吗?还是我必须是对的?
世界本身充满了非共识。真正创新的东西是科学发展的动力,所以其实我觉得我们还是需要能够在历史中找到一些线索,指引我们朝着前进的方向前进。
我总是告诉我实验室里的同学要现实一点。不要认为仅仅因为你在这个方向上获得了优势和一些积累,你就会认为这个方向一直都是正确的。
我们的团队从 2010 年开始做自然语言处理,然后在 2018 年从深度学习到大型模型,我们应该是第一个这样做的。原因是我会认为这是世界的趋势,不取决于个人的意愿,我不会因为你认为技术有缺点就说它不会发展。该发生的事情就会发生,我们要做的是顺应事实,我们向前看,更具前瞻性。
Tiger Sniff:你之前被斯坦福大学抄袭时感觉如何?如何看待中美大型车型发展的差异?
刘志远:我觉得这或许可以算是个偶然事件,本身就相当于只是一个学生团队,我个人倾向于不把这件事当作一件具有深意深远的事情来看待,我觉得如果把它放在宏大的历史里来谈,就像黄仁宇的《万历十五年》一样,就是通过那一年来叙述整个明朝的衰落, 所以其实很多案例都会汇聚成一个大趋势。
其实我们可以清楚地看到,中国这十几年、二十年的发展其实是非常迅速的,成为世界上的角色,从追赶到原始创新。
20 年前,每个人都在谈论 copyto China。那又是十年,到了 2010 年,中国的 AI 论文出版物已经在国际上被统计,并且已经兴起,那个时候,其实大家很少说抄袭中国,而是说,中国似乎不太擅长技术创造,擅长模型创造。
现在,又一个十年过去了。我们将看到顶级的国际会议,中国人已经占了其中的一半,所以我认为我们现在有足够多的高水平年轻学者。现在,就像历史上任何其他强国一样,我们能够实现技术超车,这就是 Densing Law 所指出的趋势肯定会发生。