暴风雨后,中国大型企业家圈将发生什么变化?
最近,作者还与许多行业内部人士进行了讨论,发现国内大型模型圈子中有两个极端的极端激情,另一个是极端的贝奶油茄子。
前者由积极拥护DeepSeek生态系统的计算能力制造商和模型服务制造商以及无法参加大型模型的“军备竞赛”的开源受益人,而后者则由其他中国大型大型代表模型初创公司(通常被称为“大型六个小老虎”)。
据了解,在过去两年中,在第一个梯队中投资估值的一些大型模型的VC团队已经开始准备/接收内部“ Whip Corpse”。询问的主要角度无非是几点:
自春节以来,几乎所有大型模特儿和风险投资人都在探索几乎所有的大型模特儿和风险投资人都在探索的问题是“为什么不成为Deepseek”和“为什么中国只有一个Deepseek”。这两个问题几乎可以涵盖中国大型模型创新的所有焦虑。只有认真讨论这两个问题,才能回答另一个更重要的问题:如何成为DeepSeek?
在春季节期间的一篇文章中,我们试图从中国与美国之间的创新的角度向行业传达信息:中国的人工智能需要具有民族自豪。在本文中,我们希望在过去四年中结合中国专业。该模型的发展历史,进一步讨论:
本文不打算回答这样的宏观和深刻的问题,并且只提出了一些事实或观点,这些事实或观点可能从第三方的角度与该主题有关。
1。系统错位
在2023年之前,中国只有四家大型型号公司:面对墙,Shenyan和Lingxin(后来被Zhipu收购),所有这些都来自Tsinghua University; 2023年之后,大型型号的数量增加到了十几个。从技术上讲,直接的原因是骆驼是开源的,但最根本的原因是每个人都认为:
尽管大型模型的技术阈值很高,但并不是无法使用。尤其是基于现有的开源模型,进一步降低了技术困难,而“技术不能形成业务障碍”的论点猖ramp。
根据这一集体共识的“规则”,我们回顾了2023年Chatgpt流行后中国大型企业家精神的几种权力趋势。不难理解中国大型模型企业家中部地区的当前异常现象:
首先,随着整个市场对技术创新的敬畏之后,在2023年的Chatgpt Fire之后,只有中国的第一批大型模型技术pathfinders之一Zhipu成为资本的宠儿,最早的估计为200亿元人民币。它值得一个很大的标记,并进入了大型模型的第一个梯队。 (月球的黑暗面是在2023年之后建立的,因此不包括)
来自Tsinghua自然语言处理实验室(Thunlp)的其他两个初创公司面对墙壁并深入讲话,他们在资本市场的呼吁远低于后来的新力量。
特别是面向墙壁的情报(因为Shenyan选择了焦点产品),这是中国第一家提议制作“平民版本大型模型”的公司,该公司与DeepSeek的技术愿景和创新方向最相似,甚至早些时候建立了比DeepSeek直到2024年在年底完成了3亿元人民币融资后,估值少于35亿元人民币,这与第一个梯队的200亿个门槛大不相同。
根据Leifeng.com AI技术评论在过去两年中与50多家大型投资者的交流,这是智慧谱和面对墙的原因,这两者都来自Tsinghua University,这是技术的第一步优势,并且具有出色的年轻技术才能,与墙不同。有几个主要原因:
首先,Tsinghua学者仅在基本模型上押注,因为他们“对教授的企业家精神有保留”;其次,Zhipu的愿景得到了更好的理解。在外国融资的早期,他们说“基准开放式”和VC立即理解。但是,由于面向墙壁的墙壁从一开始就强调了基础模型的训练效率的优化,因此它曾经被认为是一家类似于2023年Luchen和Silicon类似的“ AI Infra”公司,这是最热门的。
面向墙壁的情报在2023年没有得到太多的钱,也无法投资于基座模式。通过诸如DeepSeek V3之类的基座模型训练,它将仅在2024年的末端具有小型模型,而后者的“有效训练”的认可效果远不及DeepSeek V3的效果。
在2022年和2023年进行融资时,我面对墙壁,并举起了“高效培训”的旗帜,但几乎被拒之门外。
其次,它也是不敬畏技术的环境的先决条件。在2023年大型模型浪潮之后,中国的AI技术风险投资公司并没有冷静下来研究AGI技术,而是投入了资金以迅速上映。 “赢得战斗的成功企业家”,尽管这些团队以前从未有过开发大型模型的经验。
其中,最典型的代表是Wang Huiwen的光年和Wang Xioochuan的Baichuan Intelligence。
自2020年发行,包括Baichuan Intelligent和Minimax,当前估值超过200亿元人民币的大型模型公司中,只有Zhipu Tang Jie,Yuezhi Dark Side Yang Zhilin等人开始探索大型模型的技术。大多数带有步进明星的球队只会在2023年之后启动。
例如,Minimax的创始人Yan Junjie出生于计算机视觉,而大型模型最初解决了语言智能(Multoporpal是另一章)。但是,Minimax首先从资本到产品发光而不是基本的大型模型技术获得了青睐,因此这是另一个维度,接近Yan Junjie对他的评估的人们是“非常技术性的追求”。
DeepSeek的研发团队还开始从0中学习大型模型技术,研究论文并努力进行实验,因此没有迹象表明从未训练过以前从未训练过大型模型的团队无法通过在2023年之后努力研究来弥补技术的短缺。从过去两年的行业发展来看,Baichuan Intelligent并未经常升级其基本模型,其重点已转移到医疗行业模型上。
由于诸如视频之类的大型模型未经培训,Baichuan的研发成本低于其他公司的研发成本,并且现金流量丰富 - 但这仅对Baichuan有益,并且对整个大型模型行业的发展没有任何贡献。
假设当资源有限时,没有技术能力的团队占据了大量资本资源,而具有技术能力的团队只能获得很少的资本资源。对金钱和才能的系统错位注定只会产生遗憾。没有未来。
如果AGI Big Model Technology确实没有增长的余地,并且各种公司的技术障碍逐渐被扁平化,那么在互联网时代争夺资源和资本的策略可能能够获得最后的馅饼。但是,对技术敬畏的企业家始终保持清晰的思想,并且仍然可以看到现有的基础算法和培训和推理中的构造的缺点,并且知道AGI仍然存在许多具体且困难的问题。解决它。
换句话说,基础技术的持续创新能力仍然是大型模型公司的护城河,而基于资源的资源的互联网方法论尚不适用于中国大型模型的当前开发。 - 但是,这些词可能不会被大多数中国技术VC所认可,因为2023年和2024年的大型模型投资甚至具有“俱乐部交易”之类的游戏玩法...
在过去两年中,大型模型的开发中,不愿学习技术的风险投资人可能比不愿意学习技术研发的风险投资更具致命性。
泡沫时期将结束。潮汐逐渐消失后,很明显谁在赤裸裸地游泳。
2。阿吉军团很难获得
市场缺乏技术敬畏的另一个影响是,为了迎合市场(当然,也有考虑突破大型工厂包装的考虑),这家中国大型模型初创公司在过去的两年中的关注也已经从长期AGI转变为短期商业收购。产品抛光。
战略的这种变化也归因于上述行业的错误判断,认为大型模型中没有创新。坚定地追求AGI的企业家必须考虑商业和技术,而怀疑AGI或完全被市场声音混淆的团队将放弃预培训,转向C-End应用程序,或者只是简单地进行微调该行业基于开源模型的大型模型。
从GPT-3到Chatgpt花了两年半的时间,但是市场通常显示出“规则”:国内大型模型仅持续了两年,从基地到商业化。尽管一些大型模型公司可以遵守“ L2”和“ L4”的两个步骤,但在人才和研究资源的投资方面,没有像AGI那样纯净的公司。
当融资战争于2023年上半年开始时,该行业的一项分析是:在上一代人工智能公司的“洗礼”之后,中国的风险投资已从5或8年缩短到3年的大型商业化。比例模型。对于中国大型模特公司来说,这可能是一个常见的困境。
众所周知,DeepSeek专注于AGI研究,并基于Liang Wenfeng对原始储备基金的个人和幻觉量化,并且没有外部融资。 “我有钱,所以我不需要听外界想要的东西。我会做任何我想做的。” - 这也是许多大型模型公司羡慕DeepSeek的原因。
最近,最初批评阿吉(Agi)的朱小胡(Zhu Xiaohu许多具有强大创新能力的团队可能无法集成。钱落在时代的前夕。
“商业思维”不仅反映在某些技术VC的阴影中,而且还反映了R&D才能的选择。
据猎头的反馈报道,2024年,该公司在中国拥有最大的“ k gold”努力,这无疑是徒手的。大型工厂与企业家团队之间的分裂已经成立,大规模才能从企业家团队到大型工厂的流程已成为过去一年中的共同选择。例如,根据AI技术评论,DeepSeek选择了DeepSeek和Bondedance在多位NLP,多模式和强化学习中为AGI选择的出色人才。
根据早期为DeepSeek服务的猎头队的说法,DeepSeek还希望利用Google,Meta,Openai等海外球队的顶级才能,但进展并不顺利,因此他只能获得第二好的和第二名的能力自己耕种。
Agi的投资不仅需要金钱,而且还需要人们,这是一个绝对的技术理想主义者和出色的组织文化。 DeepSeek的成功可能不会被复制,但是从V2,V3到R1-Zero,DeepSeek的技术结果反映了其在资金,人才/理想和组织文化方面的优势。
在DeepSeek之前,“ Bei Jiukun和Nanhuanfang”已经在财务量化领域闻名,对定量行业的技术才能的高要求是众所周知的。它基本上是基于信息学竞赛中排名前2的大学和金牌得主,而且团队规模通常不大,但功能强大。根据AI技术评论,2024年上半年的DeepSeek团队规模只有40多人,其中大多数是原始Fantasy Square Top 2的技术专家。
继续幻想的原始风格,DeepSeek的招聘门槛一直很高。例如,他们自2024年中以来一直在寻找多模式和增强学习的技术专家,但是在招募超过半年后,相关职位仍然空缺。没有才能比对招募才能太糟糕的人更好。熟悉此事的人说,尽管R1变得流行后,尽管提交的简历数量急剧增加,“不多的合适的简历是合适的。”
DeepSeek内部的组织文化也非常平坦。根据AI技术评论,北京或杭州只有一个老板:DeepSeek的创始人Liang Wenfeng。 “ Liang Wenfeng基本上都是所有工人。”
此外,Liang Wenfeng的个人风格也很明显:他具有强烈的技术信念,对AGI充满了好奇和好奇心,并且非常努力。据靠近梁·温芬(Liang Wenfeng)的内部人士说,梁·温芬(Liang Wenfeng)说:“说话非常慢,每个句子都需要很长的时间来表达它,而且非常简洁。尽管很简单,但这些话通常说了这一点。 。”
DeepSeek的团队文化与像Yushu和Momma这样的公司非常相似:第一名是技术爱好者,他对技术的敬畏和好奇心自然而然。同时,管理层是显而易见的,文化是平坦的,因此在遇到技术探索方面的困难时,您可以协调从上到下的资源,以快速实现上传和发行的效果。
同时,Yushu和Deepseek在招募人员时也有自己的标准,这与市场上的同一面试常规截然不同。有兴趣的读者可以学习更多。
DeepSeek Liang Wenfeng开始探索如何以较低的成本培训更强大的模型,但是当时该行业通常无法理解它们。同样,当每个人仍然无法理解机器人狗时,Yushu Wang Xingxing也开始成为四足机器人狗。 Momma Cao Xudong在自主驾驶行业仍在陶醉时,也开始是L2,L4和两条腿。
敢于与主流作战的企业家团队需要强烈的叛逆精神。在AI技术评论与多个投资者之间的沟通中,这种“叛乱”很容易被归类为“年轻群体”,但我认为,叛乱的信心来自团队想要自己解决认知,判断力,以及对社会问题的技术信心,也就是说,坚信您的进步方向是将来,并将带来巨大的价值。
3。创新的味道
V2发动价格战之后,Liang Wenfeng在接受《 Undersergency》采访时对这一技术成就的评估是:“这是每天在美国每天发生的许多创新中非常普通的。”
在V3和R1之后,Liang Wenfeng尚未说出来,但是对于DeepSeek和Liang Wenfeng来说,在完全意识到Agi之前,V3和R1的创新也许只是“非常普通的”。 - 这不是要否认后两个的突破和优势,而是要强调对球队的高度追求,通常说100分是80分,并且总是追求更多分。
R1被释放,该行业的一名高级强化学习学者在对AI技术评论的分析中说:“在使用纯RL算法取代RL+SFT范式之后,我认为AGI可以长达三年。”
山姆·奥特曼(Sam Altman)表示,AI将在2025年超越人类,马斯克还说,最新时代可以在2026年实现AGI。 - 在各种“ AGI时间点”方面,尽管我们很难判断何时发生,但我们可以感觉到这种主要趋势正在发生。
趋势是众所周知的,DeepSeek的登机使每个人都意识到至少两个事实:一个是AGI的技术尚未达到上限,另一个是中国技术团队有能力进行领导世界AGI的创新。与沉浸在DeepSeek的胜利中相比,如何促进中国AGI的下一步发展更为重要。
在过去的半个月中,DeepSeek的风暴为主要制造商,初创企业,计算能力制造商,投资者等的AGI开发的感知带来了新的变化。过去已忽略了一些类似大象的问题,虽然过去的一些旧景色被颠覆了。但是,一致的变化是:每个人都意识到,在此阶段,AGI的实施仍然需要理想主义。
猜测OpenAI或DeepSeek接下来会做什么,并推断AGI需要解决的问题更重要。换句话说,创新比模仿更重要。
实际上,根据过去一年对AI技术评论的访谈,除了DeepSeek外,中国还有许多AI才华正在不断遵守创新,并不断提出新的解决方案来解决未解决的问题。仅列出一个或两个:
香港大学计算与数据科学学院院长Ma Yi教授强调,过去两年来,目前通过高计算能力训练的大型模型具有知识,而不是智能。与深度学习的黑匣子特征不同,Ma Yi的团队一直致力于研究可解释和可控制的人工智能算法和框架(白盒理论)。
在CNCC 2024年,Zhipu Tang Jie提到了多模式技术的下一个发展。自2021年以来,Zhipu团队已开始探索多模式大型模型。根据Zhipu团队的说法,在早期探索中,他们遇到了类似的问题:当诸如文本,图像,语音和视频之类的多模式数据同时倒入训练模型中时,一个模态的数据似乎会削弱另一个模态时一种模态的数据同时倒入训练模型中。国家知识/智力。尽管多模式是一种趋势,但仍有一个强大的研究空间,如何优化跨模式数据对准,收集高质量数据并增强多模型模型的常识和推理能力。
根据2024年3月与面对墙壁的几个创始成员的交流,当前主流大型模型架构实际上无法很好地解决一些关键问题,因此很难接近AGI:例如经验学习和空间记忆。例如,人们可以多次学习一件事,或者迅速熟悉新环境,并有效地将对另一个问题的看法转移到新环境中,从而变得更加精通。这些问题目前不容易表达。
随着具体智能的发展,AGI自然会分为云AGI和末端AGI。端侧AGI是指自然感知环境并进行高级推论的模型,并且可以根据高级推断做出复杂而多步的决策。流行的体现大脑正在沿着这种趋势发展,并且在这个方向上仍然有许多问题要解决。为了解决这些问题,除了资源之外,我们还需要强大的技术实力和技术愿景。
O1发布后,大型模型领域的许多研究开始转向推理,但是根据八卦:Google的Gemini团队最近完成了新一代基本模型,并向少数用户开了测试。
尽管Google在2023年被Openai击败,并且其股价暴跌,但如果您查看Google从2020年6月至2022年的Google大型模型技术,您会发现Google的大型模型策略是从底部的计算能力和体系结构从底部开始构建高级算法的系统。这也可能是Google Gemini以后可以努力的重要原因。
DeepSeek道路也是如此。根据DeepSeek的技术披露,其研究大型模型的途径也从基础的Wanka集群和HAI框架上向上运行,以建立一个互锁的技术系统。
只有对权威保持警惕,始终从问题的本质中重定向,并坚定地创新我们才能领导趋势。短期快的钱可能会流向幸运的人,但是长期资源应该流向擅长将资源应用到最好的团队。
希望在2025年,中国将不再只有一条深处。