数据标注将迎国家级建设 “冷门”领域人才需求猛增
创始人
2024-04-10 07:42:09
0

原标题:数据标注将迎国家级建设 “冷门”领域人才需求猛增

伴随着数字中国建设的推进,我国数字经济迈向了全面扩展期,数据成为了新的生产要素。AGI(Artificial General Intelligence,通用人工智能)的发展更进一步催生海量数据。

日前召开的2024年全国数据工作会议显示,经初步测算,2023年我国数据生产总量预计超32ZB。这表明我国已是全球数据大国,让流动的数据创造更多价值是未来方向。

而对于看不见摸不着的海量数据,如何才能运用好?数据标注就为数据采集、存储处理提供了方法。从概念上看,数据标注是在机器学习中,对原始数据(如图片、文本文件、视频等)进行分类和标记的过程。这些标记为数据添加了有意义的信息,使得机器学习模型能够从中学习。

上述会议指出,接下来,我国将开展数据标注基地试点。探索建设国家级数据标注基地,充分发挥地方配套支撑作用,在数据标注产业的生态构建、能力提升和场景应用等方面先行先试,集聚龙头企业,促进区域人工智能产业生态发展。

为何需要数据标注

数据标注就像是为机器学习“划重点”和“笔记讲解”。

赛迪顾问数字转型研究中心副总经理于凯迪告诉第一财经,比如我们想让AI创作图画,首先需要让它先学习和识别每幅画画的是什么、颜色是什么、有什么实体在里面,然后AI才能通过这些详细的注解学会模仿并创作出相似的画作。AI的文字生成也是一样,AI需要了解文本数据的情感色彩和使用场景,才能够学会按照不同的情感要求去生成新的句子或文章。没有这些“重点”和“笔记”,机器学习的效率、质量和准确性会受到影响。尽管近年来无监督学习和半监督学习技术也在不断发展,但数据标注依然是精准实现生成式AI的重要因素。

在新兴信息通信技术应用研究院首席专家贺仁龙看来,人工智能是要构建一个世界知识体系,而人类的世界知识体系是能理解万事万物的。我们通常的原始数据大部分是非结构化的数据。“比如文字、语音、视频,这些都是非结构化数据。而标注是用人构建的知识体系去给它们打标签,那首先就要理解这个语义,标注如果不对,就可能指鹿为马。”

数据是多样且复杂的,《数字中国发展报告(2022年)》显示,2022年我国数据产量达8.1ZB,同比增长22.7%,全球占比达10.5%。尽管已经出现了各种AI自动化的数据处理方式,但数据标注仍然是一种非常有用的方法。它的优势在于可以提供高质量、高准确度的数据,并且能够灵活地应对不同的数据类型和任务。因此,数据标注这个行业也能为各种人工智能系统提供高质量的数据支持。

根据Grand View Research的报告,2022年全球数据收集和标注市场规模为22.2亿美元,预计2023年到2030年将以28.9%的复合年增长率增长。2022年全球数据标注解决方案和服务市场规模为118.3亿美元,预计2023年到2030年的复合年增长率为21.3%。在中国,数据标注市场也在迅速增长。根据华经产业研究院的数据,2021年我国数据标注行业市场规模达到43.3亿元,同比增长约19.2%,预计到2029年市场规模将达到204.3亿元。

标注人才需求量提升

随着技术的进步和市场需求的增加,数据标注行业也在向知识密集型转变,这意味着对于高学历和专业技能的需求将会增加。

贺仁龙对记者解释道,要构建知识体系,就要对世界对象进行人类认识的标注,好比小孩的认识教育,认识自然数、认识物件桌子是桌子等,这是构建知识体系的最基本的要素,所以有数据标记的产业链,基础大模型就是要构建人类世界知识体系,尤其是常识和逻辑等。“我们通常还有行业或者垂类的模型,比如金融、材料、医学等,这些行业的基础标注就不是我们说的自然界和日常生活大家熟知的对象标注了,这里涉及专业的对象和术语结合的标注过程,就要专业领域的从业人员来标注了。”

根据猎聘大数据研究院今年发布的《2023年度就业趋势数据报告》(下称《报告》),AIGC工具推广提升职场人竞争力、ChatGPT热让数据标注人才需求大幅提升。

《报告》显示,数据标注此前较少有人关注,当ChatGPT火爆全球后,其需求量大幅增长,2023年较2022年增长34.43%。从行业分布来看,数据标注新发职位主要集中于互联网、计算机软件、人工智能三大行业,占比为29.65%、12.7%、9.96%。

出门问问创始人兼CEO、Google总部前科学家李志飞在《报告》中称,以GPT为代表的生成式AI的这场风暴带来了AI落地应用的生机,尤其是AIGC方向。虽然基础大模型本身原则上不需要标注,但大模型赋能各种场景应用的工作离不开各种数据标注,数据标注岗位的增长就是这种需求的反应。

数据标注在其中主要有两个作用,一是作为训练语料用来微调(fine tune)大模型,以适应场景应用的目标;二是作为测试数据用来评测应用的数据质量。“没有数据标注,应用的研发就是盲目的。需要数据标注工作的,无论是内部标注还是外包工作,主要是大模型及其AI应用的开发企业。”他认为。

于凯迪告诉记者,数据标注涉及的需要标注的内容很丰富,从日常通用的图像和文本信息,到医疗、外语、金融等专业细分领域的复杂数据均有涉及,所以在技能要求层面的吸纳性很强,各个学历层次的人员都可以从事数据标注师的职业。

《报告》显示,数据标注的职位招聘平均年薪为12.38万元。从猎聘平台来看,不同类别的数据标注招聘薪资差别较大,从月薪1万元以下,到1万以上、2万~4万元不等。猎聘AIG部门负责人莫瑜表示,一般数据标注岗位仅涉及日常文本和图像,薪资相对低些;相应的,偏专业领域如法律、医疗、跨境电商外语方面的数据标注薪资则较高。

相关内容

热门资讯

彭博社:苹果新款Vision ... (映维网Nweon 2025年07月10日)根据彭博社的马克·古尔曼,苹果即将在今年发布的升级版Ap...
首次揭示月背约42亿年前和28... 本报北京7月9日电 (吴月辉、刘珈如)7月9日,中国科学院举行新闻发布会,发布嫦娥六号月球样品最新研...
2kW下效率高达97%!港晟图... 前言 当前,高功率电源在效率、散热与体积方面正面临重重考验。尽管升压 PFC+LLC 拓扑已被广泛...
北大学生选择武汉创业 专注智慧... “明天,我们一起去工厂里走一遍流程,看能不能想办法把净空空间利用得更好……”6月30日,在湖北浩蓝智...
新 AI 模型助力更准确预测心... 转自:科普中国 美国研究人员开发出一款多模态人工智能(AI)模型,能显著提高识别心源性猝死高风险人群...
工会数智化核心基础设施“工会智... 在7月3日召开的全国工会数智化建设工作现场推进会上,“工会智脑”正式发布。 “工会智脑”由大模型算力...
华为又一重大发布!引领酒店行业... “ 华为发布星河AI酒店网络解决方案,将重塑酒店业数智化标准 在当今数智化与智能化深度融合的时代浪潮...
AI狂欢,网站末日来了!互联网... 新智元报道 编辑:KingHZ 【新智元导读】谷歌上线AI摘要功能,表面上让搜索更高效,背后却在悄...
罗马仕之死 来源 | 伯虎财经(bohuFN) 作者 | 梦得 席卷充电宝整个行业的风暴,似乎“罗马仕”受伤最为...
有感觉吗?今天是地球有史以来最... 【圣路易时报讯】2025年7月9日,地球迎来有记录以来“最短的一天”。据国际地球自转和参考系统服务机...
北上 | 来自铁路上的他们! 白山黑水间,青春热望与北疆辽阔相遇。这片土地以包容开放姿态,托举青年理想,而青年正以滚烫赤诚回应时代...
从太空轨道到未来神话的伦理危机 在技术飞速发展的当代,人工智能、宇宙移民与生命工程的讨论已从专业学界延伸至公众视野,技术如何改变生命...
AI浏览器新挑战:Perple... 在AI技术日新月异的当下,一场关于如何重新定义上网体验的商业竞争正悄然升温。近期,备受瞩目的美国AI...
智元机器人入主上纬新材:三步走... 近日,资本市场迎来了一则引人注目的消息:智元机器人拟入主A股上市公司上纬新材(688585),这一消...
蓝海视界取得CELL双工位检测... 金融界2025年7月9日消息,国家知识产权局信息显示,深圳市蓝海视界科技有限公司取得一项名为“一种C...
“双轮驱动”打通 页岩油开发的... 新的成就标志着新疆油田在非常规油气开发领域取得重大突破,更彰显了开发者们齐心协力“把这件事干成”的坚...
格力申请一种BMC材料组合物等... 金融界2025年7月9日消息,国家知识产权局信息显示,珠海格力新材料有限公司;珠海格力电器股份有限公...
中银国际:产业催化在即 重视A... 智通财经获悉,中银国际发布研报称,AI眼镜、AI手机等AI端侧产品正在进入加速落地期,国产消费电子龙...
走在前、挑大梁•产业链上的山东... 近日,2025年市工业企业“一企一技术”研发中心名单发布,威高采血耗材有限公司入围。作为国内采血耗材...
超导量子比特相干时间创一毫秒新... 新华社赫尔辛基7月9日电(记者朱昊晨 徐谦)芬兰阿尔托大学8日宣布,该校研究人员将超导量子比特的最长...