2023年,全球AI繁荣爆发了,Liang Wenfeng也进入了他的企业家道路的十年。那年5月,38岁 - 洛安格·温芬(Liang Wenfeng)宣布他将进行通用人工智能(AGI)。同年7月,杭州寻求人工智能基础技术研究有限公司,梁·温芬(Liang Wenfeng)也已成为定量投资者参与AI企业家精神的“第一人称”。 Liang Wenfeng是幻想广场的实际控制器。田扬兰奇(Tianyancha)的信息表明,他的DeepSeek最终收益的比例超过80%。
Liang Wenfeng对DeepSeek的最终好处的最终好处超过了80%的图片来源:Sky Eye增加
1985年,Liang Wenfeng出生于广东Zhanjiang的第五层城市。它的特定童年生长轨迹不再可用。 Liang Wenfeng在唯一的公众信息中提到,他的父亲是小学老师。
2002年,17岁的Liang Wenfeng被智大学的电子信息工程专业录取,结果出色。 2007年,郑安格大学获得了信息和传播工程硕士学位的22岁 - 洛安格·温芬(Liang Wenfeng)。
2008年,在智格大学学习时,23岁 - 洛安格·温芬(Liang Wenfeng)和他的同学组织了团队,以积累市场数据,其他相关的金融市场数据以及宏观经济学。
2010年6月,25岁的Liang Wenfeng毕业于Zhejiang University的信息和传播工程硕士学位。他的毕业论文标题是“ PTZ相机目标跟踪算法”。
图显示了Liang Wenfeng的科学研究结果
毕业后,他没有像周围的人那样去一家大型工厂。取而代之的是,他藏在成都的廉价出租房屋中,并不断接受试图进入许多场景的挫败感。并且可以建立幻想的建立。
他的领先幻想量化于2016年首次启动了AI策略,2017年,他实现了全面的投资策略AI,成为定量投资领域的创新先驱。在短短6年内,管理量表已达到1000亿元人民币。它也是中国唯一拥有NVIDIA A100图形卡的公司。它的计算能力储备甚至不如互联网公司技术公司劣。
Liang Wenfeng在接受媒体采访时说,进入AI领域并不是偶然的,而是源于对AI的浓厚兴趣和坚定的信念。早在千江大学学习AI时,Liang Wenfeng就坚信“ AI会改变世界”,尽管当时这种观点并未得到广泛认可。
Liang Wenfeng强调,进入AI领域不是要重新审查Chatgpt,而是要通过研究和探索来解决更未知的AGI之谜。它们将从大型语言模型开始,并逐渐扩展到视野,并致力于创建真实的人类AI。
Liang Wenfeng告诉媒体:“我们必须进行通用人工智能,也就是说,AGI。语言模型可能是AGI的唯一方法,它具有AGI的特征,因此我们将从这里开始,然后我们将遵循背面等。”
直到今天,Liang Wenfeng的日常生活仍在研究论文,编写代码并参与该小组的讨论。 “为什么你们的ai 表现这么好?”:“因为我们的首席执行官自己读论文、写代码、招募人才”
AI企业家在社交媒体上打破了新闻
不到140人! DeepSeek团队成员透露:年轻,在清朝的新生领导和饲养
便宜的!开源!便于使用!
借助三个主要的AI聚集模型,DeepSeek已成为全球AI激烈讨论圈的目标。
根据与DeepSeek接触的许多行业消息来源的说法,DeepSeek的优势是人才密度非常高,主要来自中国市场。与DeepSeek接触的另一个行业人士说:“ DeepSeek的薪水非常有竞争力,这始终使其对人才具有很大的吸引力。”
Liang Wenfeng在接受媒体采访时认为,如果他追求短期目标,找到现有的经历是正确的。但是,如果您长期看,经验并不那么重要,基本的能力,创造力和爱情更为重要。从这个角度来看,中国有许多合适的候选人。 “这样做的人不一定可以做到这一点。我们有一个有序的原则来研究能力,而不是看经验。我们的核心技术职位基本上主要是基于一两个新鲜和毕业的人年 ”” ”
该原则贯穿DeepSeek的团队组成,最大的功能是年轻的。新鲜的毕业生,学生正在学习,尤其是青比的新毕业生非常活跃。
“只招募了1%的天才,并占中国公司的99%。”采访DeepSeek的新毕业生评估了他们的招聘风格。这也使DeepSeek的上下移动,保持了极端的创新动机。
DeepSeek团队的规模不大,不到140人。几乎所有的工程师和研发人员都来自北京大学,北京大学,北京邮政与电信大学等大学,北京大学,北京大学,北京大学的博士博士学位。甚至团队经理也很小。
Liang Wenfeng曾经说过:“在V2模型中没有人回到海外。他们都是本地的。前50名顶级人才可能不在中国,但也许我们可以自己建立这样的人。”
DeepSeek Breaking Circle的V2模型最重要的创新是提出一种新的关注。根据变压器体系结构,传统的长期注意力被MLA(多头潜在注意力)取代,这大大减少了计算和计算量以及计算量以及计算和推理记忆的量。
在贡献者中,Gao Huazuo和Zeng Wangding为MLA建筑提供了关键的创新。两者都刚从学校出来了几年。 Gao Huazuo非常低。目前,他只知道他毕业于北京大学物理学系; Zeng Wangding来自北京邮政与电信大学。研究生讲师是张洪冈,他是北京邮政与电信大学的人工智能和网络搜索的主任。
DeepSeek模型的另一个主要突破是创新称为GRPO的培训方法,这大大降低了成本。
Shao Zhihong的核心成员之一是Tsinghua大学互动人工智能(COAI)研究团队的博士生。它主要研究了自然语言处理和深度学习,并对构建稳定且可扩展的AI系统具有独特的见解。他曾经为微软研究所服务。加入DeepSeek团队后,他参加了许多重要项目的研究和开发,包括DeepSeek-Math,DeepSeek-Prover和DeepSeek-Coder-V2。
图显示了Zhu Qihao图片来源:北京大学编程语言研究办公室网站的屏幕截图
GRPO算法创新的另一个重要贡献者是北北京大学计算机学院2024届会议的博士毕业生朱豪(Qihao),重点介绍了深度代码学习和研究。
他的同学大达(Daida)早些时候加入了该团队,并参与了DeepSeek从V1到V3的大型模型的研发。他已经是经验丰富的研发人员,并且在学生时代也赢得了许多论文奖。
负责DeepSeek的大型模型培训和推理基础设施的是刚刚毕业的工程师Zhao Chenggang。在加入DeepSeek之前,他在Nvidia实习。
DeepSeek团队的其他核心人员还包括:Peiyi Wang(Peiyi Wang(Peking University) ),周阳(Sun Yat -Sen的博士生)和Luo Xiangyu(Sun Yat -Sen University的博士生)等等。
这些从事研发的年轻人在撰写论文时也一次又一次地惊讶于Liang Wenfeng。