AI数据告急,大厂盯上廉价年轻人 自制语料库成新赛道
AI数据告急,大厂盯上廉价年轻人
互联网大厂正采取新策略获取人工智能(AI)训练所需的新数据:他们直接招募“AI录音员”,支付每次约300元的报酬,定制专属的语料库。在北京,某大厂从年初就开始邀请普通人参与,每次需两人一组,进行3小时的录音,其中包括自由聊天与有提示词的对话,确保内容充实且符合要求。录音过程中,至少两名员工会全程监督,以保证录音质量和信息含量,避免低质量内容,并强调不能改动预设的提示词。
二线城市的如成都、太原、贵州等地,已成为字节跳动、百度、阿里巴巴等企业构建AI数据资源的外包中心。据知情人士透露,这些公司过去招聘的数据标注员和方言朗读者门槛较低,但现在更倾向于聘请来自顶尖高校的实习生来管理外包项目。
AI大模型的发展依赖于数据、算法和算力,其中,高质量的数据是训练模型的基础。然而,公开可用的互联网数据正面临枯竭,预计在未来几年内,科技公司将耗尽可用于AI语言模型训练的数据。这迫使大模型团队寻找创新途径,以获取能有效“喂养”模型的新数据。
为了避免因使用未授权数据引发的法律争议,一些大型科技公司开始自己动手制作数据,力求数据的时效性和高质量。他们绕过第三方平台,直接参与设计AI所需的“剧本”,探索维持模型竞争力的新路径。
在社交媒体平台上,出现了标价300元一次的AI录音兼职广告,吸引众多求职者。尽管报酬诱人,但这份工作并不轻松。应聘者需先提交样音,通过严格筛选,随后参与长时间、高要求的录音环节,包括自由聊天和依据特定提示词的对话。整个过程受到严密监控,任何影响录音质量的因素都需要纠正重录。
免责声明:本文章由会员“极目新闻”发布如果文章侵权,请联系我们处理,本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系