互联网大厂亲自下场,300 元招募 AI 录音员定制语料库

admin

为了获取新数据、训练大型AI模型,各大互联网公司纷纷身体力行,招募“AI录音员”,以每次300元起的价格定制语料库。

北京一家互联网巨头从年初开始招募素人录制大模,两人一组,每场时长3小时,包括80分钟自由聊天、60组带提示的对话,单次结算金额300元。

长达三个小时的录音,至少有两名员工在一旁陪同,“对话不能太长,要有内容有信息,质量太差的话,我们会酌情扣钱”,“提示词不能修改,大模特听不懂”。从晚上六点到九点,录音过程中大厂员工给出的指示,透露出更多对录音质量的担忧。

事实上,成都、太原、贵州等二线城市早已成为字节跳动、百度、阿里等大公司的AI数据外包城市。“去年数据标注、方言朗读都是大学生做的,现在我们从211、985高校招实习生来主导外包工作。”一位大模型产品经理说。

9月份刚刚开启大视频模式的MiniMax创始人颜俊杰对Alphabet List表示,在上海,MiniMax除了从语料库公司获取优质数据外,还会购买一些平台数据。

数据、算法、算力是AI大模型的三大支柱,其中数据是大模型训练的基础。然而由于互联网数据分散在不同平台,且壁垒重重,可用于训练AI大模型的公开数据正日渐枯竭。

今年6月,研究机构Epoch AI发布新研究预测,2026年至2032年间,可供AI语言模型公开训练的数据将被科技公司耗尽。早在2023年5月,OpenAI CEO阿尔特曼就公开承认,AI公司将在不久的将来耗尽互联网上的所有数据。

如何找到优质的新数据来“喂养”大模型,成为了各AI大模型团队共同面临的难题。

一些大公司因涉嫌未经授权使用第三方数据屡屡卷入纠纷。8月,OpenAI被超过100名YouTube主播起诉,指控其未经授权转录数百万个YouTube视频以训练大型模型。Nvidia、苹果、Anthropic等巨头也卷入其中。

对于大公司来说,只有拥有自己的闭源高质量数据,才能保证喂给大模型的数据的时效性和质量。跳过质控不稳定的第三方平台,尝试自己写AI的“脚本”,或许是大模型厂商的一种新思路。

今年初,价格为300元/次的AI录音兼职工作悄然出现在小红书等平台上。

相比于BOSS直聘等平台上每小时工资30至55元的兼职AI录音岗位,所谓的每岗位工资300元、录音地点在北京的“头部公司兼职录音岗位”显得颇具诱惑力。

8月,当我被微信拉进录音群时,发现群里已经有200多人在等着录音。由于录音限制2人一组,最长录音时间长达3个小时,进群后,弹出的微信消息最多的就是“找搭档”、“有没有人想跟我一起录?”

事实上,做一名AI录音师、以每次300元的价格“给AI写脚本”并不容易。

首先,录音前,每个人都要上传一段2-3分钟的对话录音作为“样本”。大公司的审核人员会根据样本的效果,决定是否通知兼职录音人员。这个过程中,会有三名员工负责审核,只有其中两名通过审核,才能直接预定录音时间,如果不通过,则会进行交叉审核。

第二次试听完样带音频后,张雪在提交样带音频的第二周预定了晚上六点到九点的录制时间。群聊中,不少人卡在了样带音频阶段,“评审老师喜欢会聊天、爱聊天的人。”高昂的对话、主题性的内容,让更多人卡在了第一轮筛选的门槛上。

AI数据告急,大厂盯上廉价年轻人__AI数据告急,大厂盯上廉价年轻人

注:录音合影来源:字母表截图

录音当晚,张雪坐在录音室透明玻璃后的椅子上,调整到能清晰录下自己声音的最佳位置,并通过耳机聆听厂里员工的指令。

AI数据告急,大厂盯上廉价年轻人__AI数据告急,大厂盯上廉价年轻人

第一部分是两人 80 分钟的无主题自由聊天。大厂员工的要求是,聊天不能“喋喋不休”,必须有内容。同时,每个话题不能超过 10 分钟,不能有长篇大论,必须是相对均衡的对话。

张雪和搭档在录音棚里通过巨大的麦克风讲话,努力一口气说了80分钟,同时还要克制住身体不乱动,不发出咳嗽、笑声等影响录音质量的声音。

为了保证声音质量,厂方人员会时不时地插上耳机,提醒大家如果有杂音或者聊天“不自然、指导太多”就重新录制。高质量声音的标准是聊天自然、话题连贯、情绪积极但不打断,要有内容、不废话。经过反复的重新调整,第一阶段耗时近 2 个小时。

第二阶段,录制了60组带提示的对话,虽然有脚本可以参考,但作为AI录音员,张雪不仅要根据情况剪辑对话,还要保证严格的对话模式,即上一组对话以A结尾,那么下一组对话就必须以B开头。

同时,为了适应大机型的调试需求,每条指令都要用提示词明确说出来,“能不能详细点?能不能详细点?能不能详细点?”在耳机上,大厂的工作人员也明确表示,脚本可以改,但只有提示词不能改。也就是说,AI 可能很难识别。

为了保证录音质量,任何录音不清晰、吞词、感情缺失的情况都会重新录制。等到录音结束,张雪离开大钟寺的时候,已经是晚上将近十点了。3个小时的录音,大厂的工作人员一天要录3场,一周的日程安排几乎排得满满的。

除北京外,公司还在上海、杭州、重庆、南京、成都、天津等城市招募音响师。

对于渴求新数据的大型模型制造商来说,“花钱拿数据”的做法并不新鲜。

AI数据告急,大厂盯上廉价年轻人__AI数据告急,大厂盯上廉价年轻人

2023年,随着AI大模型成为新趋势,大公司不仅直接通过第三方公司购买数据,还打造“大数据标注师”、“AI编辑”等外包岗位。

2023年,小语种专业的Alin在考研期间,开始通过BOSS直聘等网站为大模特“打工”。

通过一家名为“X数据”的公司,阿林对大模型图像识别的文本内容进行检查,也就是检查大模型图像识别后的小语种文本是否与图片一致。按照“一个词或一句话算一个计算框,一个框算0.1分钱”的价格,计算几百条,阿林一次就能赚到几十元。

今年,Alin还接到第三方数据公司的订单,为翻译做AI数据标注,价格涨到了每行1元以上。但为了人工判断大模型翻译出来的法语等小语种是否准确,标注员不仅要找出错误,还要用不同颜色标注5到6个大模型的翻译内容。“有时候读一行就要花10到15分钟。”

从事AI工作后,Alin也发现,这些大模型一旦脱离小语种原有的教科书语料,在面对社交平台使用的新词,或者自己数据库中没有收录的小群体使用的惯用词时,就会开始失去智能。“受到版权限制,它们无法学习新的文本内容,翻译效果也会受到影响。”

除了第三方外包公司外,大公司也建立了自己的数据库。

例如,百度的数据库分布在南昌、阳泉、太原、贵州等非一线城市,并在这些城市完成数据标注、方言朗读等数据采集工作,只需要“招一些会操作电脑的本地大学生,月薪往往在3000-5000元之间”。美团也早就有自己的驻场AI训练师。

不过,与舍得花钱的大公司相比,大车型四小龙获取优质数据的难度要大得多。

“核心的闭源优质数据往往被大公司垄断,AI初创公司,甚至四大AI独角兽,可能都只能拿到边缘数据。”某大型模型厂商的算法工作人员Leo对Alphabet List表示。

_AI数据告急,大厂盯上廉价年轻人_AI数据告急,大厂盯上廉价年轻人

由于高质量的数据可以显著提升模型性能,因此除了开源公开数据之外,大型模型厂商也需要更高质量的数据来完成训练,以实现技术迭代。但这些数据往往被大公司所掌控,例如国内新闻数据被腾讯、字节跳动等大公司所掌控,而海外数据则被Common Crawl、GDELT、The Pile等公司所掌控。

在海外,就连YouTube也在6月底宣布,将与顶级唱片公司提供授权协议,以换取其有版权的音乐用于训练;OpenAI也一直在与Politico、The Atlantic、Time、Financial Times等新闻出版商达成付费协议,使用和引用它们的新闻素材。

当关键数据主要掌握在“渠道方”手中,比如腾讯、字节跳动、元气骑士等公司时,关键用户数据早在移动互联网时代就已被瓜分,AI四龙若想实现技术突破,首先必须支付相当可观的“数据费”。

对于厂商来说,在大模型创业的下半场,“大数据幻觉”也是导致大模型集体智能化下滑、无法衡量9/11和9/9哪个更大的原因之一。

当子子帮将“小女孩怀里抱着一只布娃娃猫”输入到MiniMax的海螺AI中,耗时2分钟生成了一段6秒的视频,小女孩抱着猫的手指细节丰富,但她怀里抱着的并不是一只布娃娃猫。

面对生成的结果,MiniMax的视频模型工作人员解释道,“这是因为用于训练大模型的绑定猫图片中并没有布娃娃猫。”

当模型生成的内容与现实事实或用户输入不一致时,大模型就会产生幻觉,开始“胡言乱语”。对于急于获取新用户的大模型厂商来说,生成效果显然决定了产品是否有机会爆红。

“输入的指令是提取8月份所有娱乐新闻,但AI生成的却是2019年8月份以来的娱乐新闻内容。”在使用某头部大模型产品时,忠实用户孔芳就捕捉到过好几次AI“胡言乱语”的瞬间,要么编造根本不存在的引文,要么无法理解近两年来的新概念。这让孔芳对大模型产生了信任危机。

现在,孔方会用2到3个不同厂商的大模型,同时“跑”同一个问题,然后交叉比对,还会通过搜索引擎重新确认时间、数量、文献等关键信息。“现在AI生成很像抽牌,效果不可控,很容易出傻”,孔方无奈地说。

但优质数据可能会逐渐枯竭,如果要解决“大模型幻觉”问题,知道用什么数据来“喂养”大模型显然至关重要。

一位接近百度的人士向字母榜透露,大型模型厂商会通过第三方公司直接购买数据,这样省时省力却并不“麻烦”,因为购买的数据无论是文字、录音还是视频,质量都是不可控的。

对于积极开发B端客户的顶级大模型来说,为某个客户进行更加个性化的大模型定制,已经成为如今大公司AI业务的主要收入来源。但要训练出这样个性化的模型,需要用经过相应高标准筛选的数据来“喂养”,甚至根据大模型在不同阶段的学习效果来调整数据需求。“并不是随便买一堆语音,大模型就能学会的。”

在第三方数据公司从事AI翻译工作的阿琳也发现,“作为数据提供者,她所在的公司似乎并不真正关心大模型生成的声音质量。”

对于专攻法语、西班牙语等小语种的 Alin 来说,她需要同时为客户对比 5 到 6 个小语种语音翻译成文本的大型模型的生成效果,但她只需给出一个大概的评分。对于这 5 到 6 个生成的文本,详细的语言差异有哪些、如何改进?第三方公司不会问,也“无动于衷”。

缺乏优质数据或许是很多用户表示“哪个大模型生成的内容都差不多”的原因,也是用户“一个大模型收费了就会直接换另一个大模型”的根本原因。

对于用户来说,那些号称追赶OpenAI、在技术上不断迭代的国产大模型,未必能有什么实质性的差异,无法成为忠实用户。这也给急于商业化的大模型厂商蒙上了一层淡淡的阴影。

可以预见,为了解决商业化和吸引新用户的关键问题,花大价钱“买数据”或将成为各大模型厂商的新起点。

(本文作者Alin、孔芳、张雪为化名)