IT之家于九月十八日报道,上午于昆明举办的二零二五年国家网络安全宣传周人工智能安全治理分论坛,中文互联网基础语料三零版本在此刻面向社会正式推出。
在中央网信办相关机构的引导下,中国网络空间安全协会联合国家互联网应急中心等组织,从前发布中文互联网基础语料 1.0 和 2.0 的基础上,继续利用企业、大学和科研机构的合作优势,借助网安协会人工智能安全治理专门委员会创建的语料联合建设共享体系,收集许多新的优质可靠资料,通过信源挑选、信息筛选、资料去重等一系列严谨细致的数据处理工作,制作出来并向社会公布中文互联网基础语料 3.0。此次语料扩充了中文网站信源的选择范围,强化了对违规有害信息的管控,总数据量达到 120GB,能够为大模型训练和人工智能进步提供可靠的数据基础。进入中国网络空间安全协会官网,也就是https://www.cybersac.cn/newhome这个网址,找到“中文互联网语料资源平台”这项内容,点击它,接着完成登记和身份核实这些步骤,就能获取那些语料资料了。
网安协会领导说明,中文互联网基础语料 3.0 是社会各方合作打造优质中文素材的又一关键进展,极大扩充了优质中文素材的来源。接下来,网安协会将联合国家互联网应急中心等组织,与各行业部门合作,不断推进中文互联网基础素材的完善,为人工智能技术的开拓和产业进步给予坚实后盾和可靠支持。