语料数据指为语言分析等目的而收集的真实文本或语音材料的集合,它是用于语言分析和模型训练等的。语料数据是自然语言处理领域的核心资源,就如同 AI 学习语言的“教材”。在 AI 时代,语料是人工智能发展的核心基础之一,还被赞誉为 AI 产业的“金矿”,是决定模型能力上限的核心要素。国产开源推理大模型 DeepSeek“出圈”了,它思维链背后用到的数据合成技术,使得对高质量语料数据的需求再次提升。
政策引领,上海战略布局推动语料体系建设
上海是中国人工智能发展的前沿阵地。AI 相关产业正迎来蓬勃发展的机遇。语料是其中极为关键的部分之一。语料体系建设已被纳入人工智能发展的核心框架。
2024 年底发布的《关于人工智能“模塑申城”的实施方案》明确指出,在 2025 年底要建成世界级人工智能产业生态。同时,要力争使全市智能算力规模突破 100EFLOPS(每秒百亿亿次浮点运算次数)。并且,要形成 50 个左右在行业中具有显著成效的开放语料库示范应用成果。方案明确提出,需建立一批通用语料库和专用语料库,构建多层次语料体系,以此来支撑基础大模型的研发和垂直应用。同时,要聚焦前沿大模型的训练需求,推动创建基础大模型训练语料库。并且,要聚焦金融、制造、教育、医疗、文旅、城市治理等行业的需求,打造出一批行业开放语料库以及测试数据集。此外,需要推动建立算力和语料基金。要探索将算力和语料作价入股等模式。并且要加强对创新型企业的培育。
近期 2025 全球开发者先锋大会举行,语料成为受瞩目的议题。2 月 22 日,“语料筑基 智生时代”主题论坛在上海徐汇开展。会议聚焦大模型语料前沿主题,汇聚了产学研用的顶尖智慧,一起探讨语料数据发展的机遇与潜力,共同构建上海大模型语料繁荣生态,为人工智能大模型创新发展和应用注入新动力。
论坛得到全球开发者先锋大会组委会的指导,由上海库帕思科技有限公司负责承办,漕河泾开发区总公司、上海人工智能实验室、商汤科技、阶跃星辰、稀宇科技等公司一同参与协办。上海市经济和信息化委员会的副主任张宏韬,以及徐汇区委常委、副区长俞林伟出席了论坛并发表了致辞。
张宏韬在论坛上表示,上海已经对人工智能大模型产业进行了全面的战略布局。同时,上海在加速推进“模塑申城”行动方案,以此为大模型提供强大的基础底座赋能,并且提供丰富的应用场景支持。上海正成为产业界创新发展的理想沃土。未来,上海会持续把高质量综合语料基座夯实。会构建起数据语料的核心枢纽。会加快对创新语料服务关键性技术的推进。会加速促使“5 + 6”垂类领域语料工程的发展。会把行业语料供给体系完善。会构建出共赢繁荣的语料服务生态。从而能更好地助力大模型的创新发展和应用。
实践先行,发力语料基建建设和生态协同
研究表明,互联网上的高质量语言数据资源可能在 2027 年被消耗完。开采金矿需在资源勘察等方面开展大量工作,高质量语料数据也需解决获取等多方面挑战,语料基础设施建设和生态环境形成很重要。
上海已采取一系列措施来加强语料库的建设与应用,以此推动世界级人工智能产业生态的形成。在本届全球开发者先锋大会上,上海市经信委主任张英说:“上海把开发者当作主角,全力为这一群体提供资源、政策以及营造良好氛围,致力于培育繁荣的开发者生态。”
2024 年 3 月,首家人工智能语料公司正式成立,该公司由政府主导成立,名为上海库帕思科技有限公司。公司将自身定位为专业化的功能性语料服务运营平台,并且致力于为客户提供低成本、高质量的语料数据服务。
库帕思去年完成了“1+X”语料基座的构建。其语料服务规模达到 260T。链接的合作伙伴超过 100 家。签署了 57 家战略合作协议。发布了 9 个语料团体标准。完成了 7 个标准草案。目前已全面启动具身智能领域的行业语料库建设,同时也启动了金融、制造、教育、医疗、文娱、城市治理等领域的行业语料库建设。库帕思正在建设大模型语料超级工厂,目的是形成高质量的多模态语料库。它以每天最高 1000GB 的速度进行语料加工,计划到今年年底把语料库的总容量提升至 2PB。
徐汇区是国家级人工智能产业集聚区,在生态协同方面,率先在全市发展人工智能大模型产业。市区携手推出了“模速空间”,这是全国首个大模型创新生态社区。还打造了算力调度、开放数据、金融服务等五大功能平台,为企业提供“保姆式”和“专班式”的服务。俞林伟称,徐汇会一直努力做好要素保障的落实工作,会持续吸引全球顶尖的人才,会持续对大模型和语料服务产业生态进行优化,要把模速空间打造成“全球最大的人工智能孵化器”,从而打造出徐汇成为全国人工智能高地的创新策源尖峰。
模塑申城,语料普惠计划之语料数据智能创意大赛正式启动
市经济和信息化委副主任张宏韬在本届论坛上参与发布。上海信投党委书记、副总裁黄卫军也在本届论坛上参与发布。人民网上海分公司总经理金煜纯同样在本届论坛上参与发布。上海人工智能协会秘书长钟俊浩同样在本届论坛上参与发布。他们共同发布了模塑申城语料普惠计划之语料数据智能创意大赛(简称 CICC)。CICC 大赛依托《模速申城语料普惠计划》,在全社会范围内寻找“好语料、好技术、好场景”。这为上海“模塑申城”工程筑牢了语料基石,并且打通了高质量语料数据从采集到标注、共享再到应用的全链路。
大会接着隆重发布了 2025 语料风云榜招募令。库帕思在 2024 年世界人工智能大会上发起了首届语料风云榜,其目的是汇聚行业顶尖智慧、构建开放合作生态,在这一过程中,一批好企业和好产品崭露头角。2025 语料风云榜会把“好企业、好产品、好规则”作为基本框架延续下去。在接下来的 4 个月里,会完成征集与遴选的工作。并且会在 2025 年世界人工智能大会上正式对外发布“2025 中国语料生产商风云榜 TOP10”以及“2025 中国语料服务商风云榜 TOP10”。
此外,为了能进一步推动高质量语料数据的建设。在市经济和信息化委给予指导的情况下,库帕思秉持着普惠、链接、创新的态度,与首批的 103 家企业、科研机构以及专家学者携手合作,共同发起并成立了语料工作委员会。语料工作委员会会围绕高质量语料的建设展开工作。它会优化语料平台与各垂类应用领域的链接机制。这样做能够促进语料方、模型方、应用场景方三方合作模式的跑通并落地。最终可以构建出高质量且具备应用价值的语料生态。
在可预见的未来,上海不仅是“魔都”,还将成为 AI 产业的“模都”,并且致力于在全球人工智能产业中占据发展高地。当下,上海正借助语料作为支点,去撬动人工智能产业的全球竞争力,为全球行业发展给予新基建、新生态以及新路线。这座“最懂开发者的城市”,正在创作人工智能时代的“掘金传奇”。
澎湃新闻记者 秦盛
(本文来自澎湃新闻,更多原创资讯请下载“澎湃新闻”APP)