2024年冬天,杭州。
当西方还沉浸在圣诞节的狂欢中时,一位中国程序员站在巨大的落地窗前,眺望着窗外的京杭大运河。
几分钟后,他做了一件震惊硅谷的事情。
来自东方的神秘力量
“让整个山谷都沸腾的新模式!”
美国CNBC电视台在报道这一事件对硅谷的影响时这样评价。
12月26日,杭州一家名为“DeepSeek”的中国创业公司发布了新一代大型模型:DeepSeek-V3。
在多项基准测试中,DeepSeek-V3的性能已经超越其他开源模型,甚至与顶级闭源大模型GPT-4o不相上下。
尤其是在数学推理方面,DeepSeek-V3遥遥领先。
令人惊讶的是,虽然 DeepSeek-V3 的性能与 GPT-4o 相当,但其研发成本仅为 558 万美元,其训练成本还不到后者的二十分之一。
这让美国人彻底坐不住了。
在此之前,Google 和 Open AI 花了几年时间,花费了数亿甚至数十亿美元,并使用了数万个最先进的 GPU 来完成同样的事情。
强烈的反差让美国人反思:大型模型和算力还值得投资吗?
很多硅谷老板在赞叹的同时,也体会到了中国科技带来的辛酸:美国人在休息的时候,却在奋力追赶我们!
有趣的是,这起事件几乎就发生在中国空军六代机亮相之前。
许多美国人认为,这更像是20世纪50年代苏联发射第一颗人造卫星的人造卫星时刻,而不是第六代飞机。
然而,真正震撼美国硅谷的并不是DeepSeek-V3的高性能和低成本,而是中国人所展现出的开拓精神。
中国的AI企业过去几乎抄袭硅谷,因此普遍认为美国擅长从0到1的技术突破,而中国只擅长从1到100的应用落地。
DeepSeek-V3 打破了这种刻板印象。它采用了MLA、DeepSeekMoE等多项突破性技术,大幅提升了模型的性能和训练效率。
美国人惊讶地发现,中国企业也可以作为创新贡献者,在自己之外制定自己的游戏规则。这在过去是极为罕见的。
由于性能优越,DeepSeek被誉为硅谷一股来自东方的神秘力量。
这个神秘的东方力量的神奇之处在于,其背后的投资者并不是腾讯、阿里巴巴这样的互联网巨头,而是一家低调的私募基金——魔方量化。
目前,国内拥有万卡GPU的公司不超过五家,欢放就是其中之一。
2023年成立子公司“DeepSeek”,开始DeepSeek大模型的研发。整个团队只有139名成员,远少于OpenAI的1200人。
这个团队的负责人是一位名叫梁文峰的80后,他也是魔方量化的创始人。
当好奇心驱使疯狂时
梁文峰和焕芳的故事始于2008年。
那一年,他毕业于浙江大学软件工程专业。他没有像同龄人一样加入大工厂当码农,而是只身跑到成都,住进了出租屋。
在那里,梁文峰开始研究各种利用电脑赚钱的方法。
几经周折,他最终决定做量化投资。但这个决定并不容易。毕竟,量化在当时的国内还是个新鲜事物。
很多人不相信量化可以赚钱。
每当遇到困难时,梁文峰总会想起量化投资之父西蒙斯的话:一定有办法对价格进行建模。
在这个信念的支撑下,梁文峰奋斗了两年,终于迎来了光明的未来。 2010年,沪深300股指期货推出,迎来了量化投资的春天。
乘着这股股东风潮,梁文峰和他的团队发了财,自营资金超过5亿元。
同一时期,随着深度学习算法的突破,人工智能爆发。早年在浙江大学研究人工智能的梁文峰,点燃了他的斗志。
2015年,他与浙江大学校友共同创立魔方量化。
一些意气风发的年轻人正试图利用数学和人工智能打造像中国文艺复兴这样的世界一流的量化对冲基金。
仅仅一年后,他们就推出了第一笔由人工智能驱动的真实交易,随后所有交易策略都基于人工智能。
在新技术的加持下,环方量化的资金回报率远超同期沪深300指数。
这推动了欢放量化基金规模持续攀升,到2021年一度突破千亿元大关,跻身全国四大量化王之列。
然而,随着基金规模的扩大,梁文峰面临着棘手的问题。
AI交易策略需要算力支持,尤其是随着模型参数激增,对GPU算力的需求也越来越大。
如何解决这个问题呢?梁文峰的选择是:堆算力!从2019年开始,魔方量化开始大规模布局AI算力。
当年,投资2亿元打造“萤火一号”AI计算集群,配备1100张GPU计算卡。当时,特斯拉刚刚提出Dojo超级计算概念。
几个月后,当英伟达发布最新的A100芯片时,梁文峰再次抢先一步,成为亚太地区拿到这张卡的第一人。
随后在2021年,他又投资10亿元打造“萤火2号”,配备1万张A100计算卡,计算能力相当于76万台个人电脑。
占地面积超过10个篮球场。
在大型AI模型尚未爆发的时代,梁文峰的举动让很多人感到疯狂。
私募基金囤积如此多算力的目的是什么?甚至有媒体抱怨:魔量让A股散户感到害怕。
外界对魔方量化的想象还停留在资本市场。但梁文峰的目光已经看向了星海。
2017年,谷歌研究团队在一篇开创性的论文中首次提出了Transformer架构。这是一个完全基于注意力机制的神经网络,颠覆了以往的传统算法。
一家名为 OpenAI 的美国初创公司继续基于新架构训练自己的大型模型。最终,2022年,ChatGPT将引爆大型AI模型时代。
此后,全球互联网巨头纷纷沿着OpenAI的路线前进,很少有人对此提出质疑。
但以梁文峰为首的一群年轻人做了一件极其疯狂的事情:他们试图改进Transformer架构。
事实上,从2023年深度搜索成立并进入大型模型的第一天起,梁文峰和他的团队就开始对算法框架进行反思。
当其他人陷入简单模仿OpenAI的惯性时,这群年轻人却走了一条非常规的道路。
他们冒着失败的风险,大胆尝试了MLA(多重潜在注意力机制)和DeepSeekMoE(混合专家模型)等多种突破性技术。
他们几年前储备的海量算力芯片,为他们的梦想插上了翅膀。
最终,这群年轻人创造了历史:DeepSeek-V3横空出世,一夜之间震惊了硅谷。
“中国不可能永远跟随”
对比中美科技产业,我们常常感叹:为什么中国培养不出乔布斯、马斯克、黄仁勋这样伟大的企业家?
史蒂夫·乔布斯一生只有一个目标:为改变世界而活。
早在青年时代,黄仁勋就立下了自己的志向:做一些不一样的事情,彻底改变算计。
马斯克甚至疯狂喊道:他要殖民火星,为人类找到第二个家园。
相比之下,中国企业家似乎更注重赚钱和生存,很少仰望星空,对创新重视不够。
事实上,过去30年,我们已经习惯了摩尔定律从天而降,更好的硬件和软件在家里18个月就会问世。
这使得我们基本上没有参与到IT浪潮中真正的技术创新。
但这种情况近年来悄然发生了变化。中国新一代企业家正在利用突破性创新在西方游戏之外开展新业务。
“中国也必须逐步成为创新的贡献者,而不是永远搭便车。”梁文峰说道。
早在上大学时,梁文峰就确信人工智能一定会改变世界。毕业后,他通过量化投资赚了足够的钱。
这让他有足够的资本去倾听内心的声音,做自己喜欢的事情,而不是先权衡利弊。
DeepSeek创立之初就确立了自己的核心使命:探索通用人工智能的本质!
在中国的人工智能行业,很少有企业敢提出如此疯狂的目标。
因此,这几年,当很多大型模型厂商忙着抢用户、将产品商业变现时,梁文峰却努力从事看似无利可图的基础研究。
“创新并不完全由商业驱动,还需要好奇心和创造力,”他说。
在梁文峰看来,中国企业过去一直受到商业驱动惯性的束缚。他希望DeepSeek能够摆脱这个束缚。
这种经营理念在当下的中国商界显得有些离经叛道。
不止一位业内人士曾表示:梁文峰是中国人工智能行业非常难得的人。他拥有可怕的学习能力,强大的基础工程和模型研究能力,以及资源调动能力。
在内部员工眼中,梁文峰根本不像一个老板,而更像一个极客。
时至今日,他依然保持着低调的作风。和公司其他研究人员一样,他每天都看论文、写代码、参加小组讨论。
就连这个低调的老板选人用人的方式也与主流格格不入。
当很多大型模特公司热衷于海外招人时,梁文峰却反其道而行之,坚持从本地招人,并大胆宣称:“世界前50名的人才不一定在中国,但也许我们可以”培养我们自己的这样的人。”
不仅没有海外人才,也没有行业领军人物。梁文峰更喜欢没有经验的年轻人,因为他们不受规章制度的约束。
在DeepSeek,选人的标准一直是热情和好奇心。
事实上,这家初创公司并不是外界传闻的一群神秘人才,而是一群刚毕业几年的年轻人。
甚至有很多实习生还没有从北大、清华等顶尖学府毕业。
由于工作太过前沿,这些年轻人在开展工作时几乎没有参考资料。但正是这个空白,让他们敢于打破传统。
例如,DeepSeek-V3最重要的创新之一——MLA架构,就来自一个年轻人的突发奇想。
DeepSeek 内部没有分工。
研究过程中如果有想法,大家可以随时邀请其他人讨论,并调用公司培训集群卡,无需审批,没有上限。
这种看似松散的管理方式极大地调动了大家的好奇心和创造力,让DeepSeek-V3诞生了。
在梁文峰身上,我们隐约看到了乔布斯、马斯克、黄仁勋的影子。
“中国的人工智能不可能永远处于追随者的位置!”
“真正的差距不是一年两年,而是原创与模仿的区别。”
梁文峰喊出的这两句话不仅与AI行业有关,也是中国企业在跟随、模仿西方几十年后必须面对的突破方向。
唾手可得的果实都已经摘完了,只有敢于突破,才能找到新的出路。
梁文峰并不孤单。
如今,从大疆无人机王涛到玉树机器人王星星……一大批新生代创业者正在将中国科技产业带入无人区。
参考:
[1]《揭秘DeepSeek:一个中国科技理想主义更极端的故事》暗流涌动
[2]《疯狂魔方:隐形AI巨头的大模型之路》暗流汹涌