DeepSeek-R1爆火冲击AI行业:开源模式如何改变大模型商业格局?

admin

新媒体编辑丨实习生 张一珂

2025 年过年期间,DeepSeek-R1 在一夜之间迅速走红。它凭借着极高的性价比,以及能够与 OpenAI-o1 相媲美的性能,强势地在众多模型中脱颖而出。然而,这也使得包括“AI 六小虎”在内的模型创业公司处于一种颇为尴尬的境地。

以往主要依靠算力堆砌来实现“大力出奇迹”的训练路线被打破了。更重要的是,DeepSeek 以开源模式,对许多大模型厂商依赖高昂投流费用与闭源模式获取商业利益的方式造成了冲击。

“AI 六小虎”等大模型公司的未来走向如何?DeepSeek-R1 的商业运营模式是怎样的?从产业链的角度来看,哪个环节会最先获得益处?

基座大模型搅风云

DeepSeek 带来冲击,模型大厂和头部创业公司或许会开始走进一条有着小径分岔的花园。 模型大厂以及头部创业公司在 DeepSeek 的冲击下,可能会步入有着小径分岔的那种花园。 DeepSeek 造成冲击后,模型大厂和头部创业公司也许会开始踏入有小径分岔的花园之中。

大厂在选择上更具优势,除了字节的豆包之外,大多数大厂都接入了 DeepSeek。这是因为大厂更加注重生态,即便自家产品表现不佳也没关系,先使用 DeepSeek ,等自家技术提升后再进行替换也不迟。无界 AI 联合创始人兼 CTO 张飞彪向 21 世纪经济报道记者指出了这一情况。

六小虎没有选择一些做法,要么从事应用方面的工作,要么凭借模型去硬拼。倘若接入 DeepSeek,他们就会很难凭借底层模型的概念来进行融资,并且后续的人才也会更容易出现流失的情况。他表示。

事实上,在 DeepSeek 发起巨大挑战之前,大模型行业就已经有了分化的苗头并且在酝酿之中。从去年下半年开始,以“AI 六小虎”为代表的大模型公司在人事和业务方面出现了不少变动。

零一万物算法的副总裁、模型预训练负责人黄文灏在去年 8 月离职并加入字节跳动,联合创始人李先刚离职后回到曾就职的贝壳;MiniMax“星野”的产品负责人张千川于去年 9 月确认离职;月之暗面的几位出海产品负责人在去年 11 月前后离职去创业;百川智能的联创、商业化负责人洪涛在去年 12 月确认离职。

今年 1 月初,更引人瞩目的是,前微软全球副总裁以及谷歌全球副总裁李开复所创立的零一万物,宣布与阿里云达成了合作。并且成立了“产业大模型联合实验室”。零一万物的大部分预训练算法团队以及 Infra 团队,都转入了阿里云。与此同时,该公司将停止对超大模型的训练。

其他大模型公司,像百川智能,其选择与零一万物相近。据悉,它在去年就已经停止预训练新的超大规模通用大模型,并且更专注于应用方面;而月之暗面在去年对海外业务进行了收缩,同时更聚焦于 Kimi 的研发。

更重要的问题是,如果不卷大模型,要怎么做出差异化?

一个选择是深入钻研垂类。比如百川智能选择专心致力于做医疗垂类大模型。今年 3 月初,百川智能裁掉了主要承担金融行业 To B 业务的 B 端组,同时对旗下的商用业务部门进行了重大调整,把资源汇聚到医疗这一核心业务上。

零一万物将自身的基础模型板块与阿里进行了整合,起初大家认为这是不争气的表现,但如今看来却觉得很合理。并且张飞彪表示,在做上层应用以及做入口方面,仍然还有很大的机会。

有些公司选择在基座大模型方面“死磕”,它们认为还有机会,并且同时在多模态大模型以及智能体等 C 端产品上发力。

今年 3 月底,智谱发布了最新智能体产品 AutoGLM 沉思。智谱宣称其背后是智谱 GLM 全栈自研大模型,其中包含推理模型 GLM-Z1-Air 以及基座模型 GLM-4-Air0414。该推理模型不仅性能可与 DeepSeek-R1 相媲美,在速度提升方面最高可达 8 倍,并且价格仅为 DeepSeek-R1 的 1/30。上述模型将于4月14日开源。

智谱的 CEO 张鹏在今年的中关村论坛上作出表示。他称智谱是一家在技术和商业化方面“两条腿走路”的公司。对于 AGI 这类前沿探索,智谱需要投入大量资金去试错,这其中的风险较高。并且他还表示,所融的资金都将作为在 AGI 道路上的花费。而到了推广阶段,重点就转变为如何将技术运用好以及如何与市场相结合。他认为目前智谱到了这样一个阶段,那就是必须深入到产业当中去吸取营养,并且要深入到应用当中去吸取营养,然后用这些吸取到的营养来回馈技术研发。

一个有意思的问题在于,在基座大模型领域,未来 DeepSeek 会不会处于一家独大的局面呢?

张飞彪认为,DeepSeek 对基础模型领域有着良好的影响。尽管目前它处于一家独大的局面,但未来情况难以确定。首先,DeepSeek 非常有良心,它的开源策略整体上提升了国内的模型水平,让大家有了更清晰的训练路线。其次,国内的其他模型正在不断追赶。像智谱等模型就很强,并且它们也在采用开源路线。大家的资质较为相近,人才、算力、数据等方面的差距也不是很大。只要多给一些时间,总会有模型能够脱颖而出。

应用爆发下如何商业化?

简单来说,DeepSeek 是以 App 和 API(应用编程接口)的形式来提供服务。它把高性能的模型进行了开源,并且大幅度降低了 API 的调用价格。对于下游应用厂商来说,这样做大大降低了它们的部署成本。

张飞彪告知记者,下游厂商在进行商业化时,运用 DeepSeek 模型的一种简单方式是直接使用 DeepSeek 的 API。这种方式需要付费,不过它既省时又省事,并且费用也不贵。

目前,在标准时段,DeepSeek-V3 的百万 tokens 输入(缓存命中)价格是 0.5 元,R1 的百万 tokens 输入(缓存命中)价格是 1 元。同时,DeepSeek-V3 的百万 tokens 输出是 8 元,R1 的百万 tokens 输出是 16 元。而在优惠时段,V3 的百万 tokens 输入(缓存命中)降为 0.25 元,R1 的百万 tokens 输入(缓存命中)也降为 0.25 元。并且,V3 的百万 tokens 输出降为 4 元,R1 的百万 tokens 输出也降为 4 元。这些价格低于 OpenAI-o1 一个多数量级。

一家服务于金融机构的投研平台创始人告知记者,在 DeepSeek 开源底层代码之前,该平台调用官方 API 接口时需依据 API 服务的调用量进行计费。而当 DeepSeek 开源后,直接部署 DeepSeek 开源模型的企业无需向 DeepSeek 付费,该平台也可自行直接部署相关模型且无需付费。

他表明,当下他使用满血版 R1 模型的花费主要在于租用云服务器的算力方面。若让满血版 R1 模型运行起来,当前他们使用一台服务器的成本是每月 3 万元。然而,由于他们主要是在内部员工的投研场景中使用,无需满足 C 端用户的实时交互需求,所以对算力的消耗并不多。他指出,对于合规要求较高的金融机构来说,存在一种情况,即不能租用云端服务器,只能进行本地化部署。在这种情况下,算力成本将会大幅提高,其成本处于数百万元级别。

DeepSeek 带动的推理技术得到了发展,在实际应用方面,有望降低复杂应用对计算资源的需求。像人形机器人、自动驾驶、AI 玩具等算力更密集的应用赛道,有望加快其发展进程。

大模型的部署成本显著下降,部署难度也显著降低。业内普遍认为,将会有更多的人加入到大 AI 应用开发的队伍中,并且各行各业都将迎来 AI 应用的大爆发。

需要注意的是,在 DeepSeek 出圈之前,业内就已经有了广泛的共识,大家都将 2025 年看作智能体和 AI 应用的爆发元年。

今年 1 月初,OpenAI 的 CEO 山姆·奥尔特曼发文表示,他相信在 2025 年人们将会看到首批 AI 智能体“加入劳动力大军”。这会从根本上改变各公司所产出的东西。许多国内外知名的科技界人士也都曾对 2025 年智能体和 AI 应用的发展表示看好。

从 AI 产业的实际发展趋势能够看出,当下产业正朝着应用端进行迁移。许多科技巨头以及头部模型厂商,在智能体或者其他 AI 应用领域都有积极的谋划布局。同时,也有许多行业在着手打造 AI 应用,或者正在密切留意 AI 应用的可能性。

因此,DeepSeek 让大模型厂商加速转向应用,也促使各行各业的 AI 应用进入爆发进程。

AI 应用已经呈现出爆发的态势,并且存在着各类智能体 Agent。我们不能仅仅关注语言模型,多模态模型和大世界模型也在快速地进步。我们迎来了一个大跃迁的时代。张飞彪表示,DeepSeek 对于 AI 商业场景具有重要意义,一是教育意义极为突出,让大家都知晓并且都要使用;二是切实地降低了成本,使大家都能够用得上并且用得起。

目前,AI 行业最关注的下一个里程碑是 AI 智能体。业内普遍认为,AI 智能体是大模型落地的关键场景,也是重要突破点。同时,有不少人把它视作通向 AGI 的重要途径。在医疗、金融、教育、视频生成、内容创作、新零售、数字人等诸多领域,都涌现出了 AI 应用的开发实例。

AI 技术展现出了广泛的应用前景,然而商业化落地依然面临着诸多难题。今年年初,李开复曾作出表示,他说 2025 年是大模型的考验之年,是应用的爆发之年,更是商业化的淘汰之年。目前行业正在等待着杀手级的应用。

今年 3 月 6 日,中国的 AI 初创公司蝴蝶效应发布了智能体产品 Manus。该产品一炮走红,引发了资本市场的狂欢。这或许可以被视为一个先声。

Munus具备一定程度的独立思考能力,能够进行思考、规划以及执行复杂的任务,并且能够直接交付完整的成果。比如,它能够协助用户对简历进行筛选,对房产进行研究,对股票数据进行分析等。

这种“运用大脑”以及“使用工具”的能力,在很大程度上是因为 AI 基础模型所具备的多模态功能。据悉,Manus 运用了 Claude 以及不同的以阿里千问大模型(Qwen)为基础进行微调的模型。

3 月 11 日,早期预览版产品发布还不到一周。Manus 宣布与阿里通义千问团队达成了战略合作。双方将会在国产模型以及算力平台上,让 Manus 的功能得以实现。

目前,Manus 仍处于非公开测试阶段,并且已经开始向用户收取费用。据悉,其付费版本包含 Manus Starter 和 Manus Pro 这两种。Manus Starter 每月收费 39 美元,Manus Pro 每月收费 199 美元。

大模型“卖水人”或是首批受益者

Deepseek 横空出世。如果资本市场对上游算力卡的需求大规模扩张存在疑虑,那么下游就可能面临终端用户付费意愿强弱等问题。在此情况下,中游的云计算和一体机厂商无疑正在迎来业务爆发。

从公开信息得知,国内的阿里云已接入 DeepSeek,国内的百度智能云已接入 DeepSeek,国内的华为云已接入 DeepSeek,国内的腾讯云已接入 DeepSeek,国内的火山引擎已接入 DeepSeek,国内的京东云已接入 DeepSeek。海外的亚马逊 AWS 官宣支持,海外的微软 Azure 官宣支持。

华为云在 2 月 1 日于其官方公众号有所透露。以华为云为例,硅基流动与华为云共同首发并上线了基于华为云昇腾云服务的 DeepSeekR1/V3 推理服务。

华为云称,因为有自研推理加速引擎的加持,所以该模型能够获得与全球高端 GPU 部署模型效果持平的成果。同时,它还可以提供稳定的以及生产级的服务能力,使得模型能够在大规模的生产环境中稳定地运行,并且能够满足业务商用的部署需求。

2 月开始后,21 世纪经济报道记者进行了不完全统计,已有希维科技、云锐数科、汉斯夫、宜兴市大数据发展有限公司等好些单位选用了华为云昇腾 AI 云服务,并且以 DeepSeek 为基础开展业务创新。

事实上,产业界一直有这样的说法,即模型成本下降后,AI 场景会得以扩展,而与此同时,算力的总需求却会提升。

CIC 灼识咨询的总监林莉曾对记者讲,互联网的大厂以及云厂商等头部企业,为达成自身 AI 业务的发展,一直在不断扩充算力中心,对服务器的采购量持续提升。与之形成对比的是第三方算力中心服务商,它们承接了 80%以上的智算算力,就像刚刚发布四季度财报的世纪互联那样,它抓住了 AI 增长引擎,进行了前瞻的布局,其基地业务同比增长超过 125%。”

企业有数据隐私和知识产权的需要,因此衍生出了本地化部署的市场机会,而 DeepSeek 一体机成为了刚需产品。

雪浪云的高级副总裁以及雪浪工业软件研究院的副院长郭翘向记者表明,“我们针对制造业所采取的是私有化部署的方式。因为许多企业在内部存在知识产权保护等方面的问题,所以我们借助服务器加软件的手段,协助企业在其内部构建大模型系统。”

值得一提的是,算力一体机的技术难度并非很高。其性能指标差异很大,在市场上,既有几万元的产品,也有几百万元的产品,市场情况颇为复杂,呈现出鱼龙混杂的状态。

郭翘认为,与性能有关的核心有以下三点。其一,精度需原生支持 FP8,在如今的国产 GPU 中,或许只有摩尔线程能够做到支持,倘若无法原生支持,那就意味着需要更多的卡来搭建满血版。其二,即便有了满血版 DeepSeek 一体机,也得看能够支持多少个用户同时使用,也就是并发数的情况。其三,是每秒的 token 数,即回答的效率。

郭翘明确表示,目前满足制造业场景实际需要的一体机,至少需要 200 万元。或者说,郭翘称目前要满足制造业场景的实际需求,一体机的价格至少得 200 万元以上。

财信证券的研报持有这样的观点:大模型一体机有希望能够化解在私有化部署过程中所面临的硬件选型困难、软件适配缓慢以及调优成本高等方面的问题和难点。它能够构建起从硬件到软件,再从开发到运维的整个生命周期的技术闭环。这样一来,政府和企业无需组建专业的团队,就可以达成敏捷部署的目标。

财信证券初步测算得出,当前阶段央国企、政务机构、学校、医院将 AI 大模型进行私有化部署时,所需的服务器(一体机)开支大概在 1000 亿元上下。并且随着 AI 应用场景逐步变宽,服务器(一体机)的需求还有比较大的提升空间。

郭翘透露,春节以来,其公司来自客户的需求项目数同环比都有提升,提升幅度至少为 100%。制造业的数据质量不佳,因此数据与语料的预处理是大模型落地的前提。他们有成熟的产品方法论和工程化实践能力。并且,他们的一体机使用的是摩尔线程的 GPU,性价比较高。目前业内其他厂商的 GPU 不能原生支持 FP8 精度,而我们的产品可以,并且能够节省约 1/3 的成本。

技术极客的开源理想

DeepSeek为什么要开源?对未来大模型的发展怎么看?

可以直接看看 DeepSeek 自身的表述。在去年 12 月其官方发布的《DeepSeek-V3 Technical Report》论文里,DeepSeek 对自身技术愿景进行了描述,称始终坚持长期主义的开源模型路线,目标是稳步迈向通用人工智能(AGI)这一最终目标。

DeepSeek 会持续进行研究工作,对模型架构加以优化。它致力于不断提升训练效率以及推理效率,并且努力做到能够对无限长度的上下文进行高效的支持。

此外,它会尝试打破 Transformer 的架构限制,以此来拓展其建模能力的范围;持续增加训练数据的数量并提升其质量,同时探索纳入更多的训练信号源;一直探索并迭代模型的深度思考能力,目的是通过扩展推理的长度和深度,提高其智能水平和问题解决能力。

实际上,开源并非是 DeepSeek 首先开创的,而是在软件行业中一直存在的传统理想。

“自由软件之父”Richard Stallman表示,从长远来看,使软件获得自由是迈向富足世界的一小步;在富足的世界里,人们无需辛苦劳作来维持生计……我们必须去做这件事,目的是让技术进步所带来的生产力提升能够转化为人们工作的减少。

梁文锋在接受《暗涌》采访时表明:在过去的很多年中,中国公司习惯于他人进行技术创新,然后自己将其拿过来用于应用变现,然而这并非是一种本就该如此的情况。在这一波浪潮里,我们的出发点并非是趁机赚取一笔钱财,而是要走到技术的前沿,去推动整个生态的发展。

不少 AI 产业链人士在接受记者采访时,表达了对 DeepSeek 的敬意。他们认为 DeepSeek 当下的首要目标不是商业化,而是某种技术极客的理想主义。以 DeepSeek 为代表的开源模型在推进,下游应用市场正在加速爆发。

“市场在等待一个杀手级爆款时刻。”有产业人士如是说。

扫码向我爆料!

不想错过21金融圈的新鲜资讯,请关注我们

设为星标“️”

深度行业_深度营业[娱乐圈]_