走近新职业丨为AI“启蒙”的数据处理工程师,让大模型从“能用”变得“好用”

来源:劳动观察 作者:于玘珺 发布时间:2025-09-08 11:25

摘要: 数据是大模型的 “燃料”,而大模型也在反向改变着AI数据处理工程师的工作。

与人类一样,上知天文下知地理,会写文章、能解数学题的AI大模型,也要经过大量的学习才能掌握这些知识。对大模型而言,而经过清洗、分类、标注后的数据集就是它们要学习的“课本”,AI数据处理工程师就是为们“编写课本”的人。


大模型的“启蒙老师”


“AI数据处理工程师就是用AI处理Excel表格中的数据吧,应该和我在外企实习的时候的工作差不多。”今年年初,谢锦辰在招聘软件上看到上海临科智华数字科技有限公司正在招聘该岗位时,曾有过这样的误解。


彼时谢锦辰刚从上海海事大学日语专业毕业不久,怀着想要学习如何用AI处理数据的想法,谢锦辰投递了简历。等到准备面试时,他接触到了数据标注、数据清洗等概念,他才发现“数据处理”与自己理解的“处理数据”完全是两回事。


上海临科智华数字科技有限公司是一家为企业提供全流程数据处理、人工智能软硬件解决方案及落地的企业。在这里,AI数据处理工程师的工作主要涵盖数据采集、数据清洗、数据分类和预处理、数据标注、质检等环节。


“我们的工作本质上就是把人类的语言和知识整理成AI能学习的数据。”在临科智华数据标注经理赵展看来,AI数据处理工程师就像 AI 的“启蒙老师”,通过提供高质量的数据语料,让大模型学会理解世界,从“能用”变得越来越“好用”。


走进一间办公室,记者看到一位工程师正在拆解一道保险精算题目,将题干、答案、解题思路分门别类整理好,并用专门的工具提取出复杂的公式;旁边的电脑屏幕正快速划过一张张道路图片,工程师证对画面中未被标记的车辆、行人查缺补漏;另一位工程师则对着一组提示词和两张AI生成的图片,对比哪张效果更好……根据难度不同,每人每天能生成几十到上千条数据。


“很多人可能认为AI数据处理工程师就是简单地给图片‘拉框’。”赵展提到了很多求职者对这份工作的另一个误区。实际上,AI 数据处理工程师与传统数据标注员的工作并不同,二者就像饭店里的厨师与切配工,后者只需按规则完成重复操作,而前者要负责从“食材采购”到“菜品出锅”的全流程。


经过半年多的培训和实操,谢锦辰已经熟悉了这套工作流程:“比如说客户需要采集100个人说话的数据,我要先设计一套方案,告诉他我要去哪里采集数据,采集之后放在哪里、怎么命名、怎么分层、怎么打标签,最后怎样完整的交付。”尽管数据标注环节偶有枯燥,紧急交付时也有压力,但解决问题的过程让他觉得很有成就感。


高质量数据需要更多专业人才


“数据质量决定模型质量”这句标语在临科智华随处可见。专家认为,目前行业焦点正逐渐从“拼模型”转向“拼数据”。“以前大家都认为只要数据足够庞大,就可以训练出优秀的模型,而目前的主流认知是高质量的数据才能训练出更好的模型。”赵展认为,这对从业者的素质提出了更高的要求。


例如,金融、数学、医疗等专业领域的数据往往涉及到思维链的标注。为数学大模型提供的数据,不只要有题目和答案,还要有思考和推理的过程,让AI也能“知其然更知其所以然”,这就要求AI数据处理工程师能看得懂题目;一些“来数加工”的跨境业务,也需要标注者有小语种相关的背景。


与算法工程师、架构师等AI领域的岗位相比,数据处理工程师并不一定要具备计算机专业背景,但想要在行业持续发展,还是要了解大模型的底层逻辑,掌握一定编程知识。赵展介绍,业内顶尖的数据标注专家,年薪可达百万;“大厂”里负责研判模型迭代需求、规划“数据喂养”方案的“数据运营”岗位也十分喜欢有经验的工程师,部分月薪可达5万元以上。“这些岗位就要求求职者不仅在数据标注上有所建树,还要明白数据对模型的训练效果如何起作用,了解大模型架构、算力等更深层次的内容。”赵展说。


目前临科智华目前已有约200位AI数据处理工程师,大多数是“00后”,以本科学历为主,涵盖计算机、电气、经管、文学等不同的专业,年轻与专业的特质正契合行业对高质量数据的需求。随着业务量持续扩张,临科智华还在持续招聘相关人才。


“师傅”会被“徒弟”取代吗


数据是大模型的 “燃料”,而大模型也在反向改变着AI数据处理工程师的工作。


早在2021年,ChatGPT还未引爆大模型市场,23岁的赵展还在物流专业就读,已看到了国产智能网联汽车对数据的需求,与朋友一同成立了一家数据标注企业,招聘了二三十个人一同为图像“打框”。这份工作没有什么技术含量,只要看得懂英文字母、会操作电脑就能胜任。虽然当时也赚到了一些钱,但赵展认为这样简单重复的工作,前景只会越来越差,于是卖掉了公司,到上海来寻找新的机遇,并加入了刚刚成立的临科智华。


赵展当初的预感已然成真,行业已从劳动密集向技术密集转型。如今AI已经能够完成大部分汽车图像标注任务,工程师只用检查是否有遗漏的内容;在制作新数据集的过程中,第一阶段完全人工操作大约产出5万条数据后,AI就能在已有数据的辅助下,帮助完成部分标注任务,使整体效率显著提升。


随着大模型能力持续膨胀,未来有一天AI数据处理工程师会不会“教会徒弟,饿死师傅”?赵展认为答案是否定的,因为作为AI的“启蒙老师”,工程师始终在设计和提供新的数据来引导模型学习,可以说比AI的发展要更一步。同时,落后的生产方式被淘汰了,必然会出现新的更有挑战性的工作。


谢锦辰在工作中,也会利用AI帮助自己写代码,从文档中提取图片。原本可能需要几天才能完成的任务,现在很短时间内就能解决。这也是他从这份工作中新学到的技能。“我们一边在塑造可能会淘汰自己的东西,一边又要赶在被它淘汰前学到东西。”从业时间虽短,谢锦辰已有了紧迫感。


头图为临科智华的AI数据处理工程师们。劳动报记者于玘珺 摄影

摄 影:于玘珺
责任编辑:王迪
劳动观察新闻,未经授权不得转载
收藏

相关新闻

钉钉推出下一代AI办公应用形态:...

职得一聊|招聘中增设AI实操测试...

我的AI生活丨当猎头把AI智能体...

首页

顶部