143 亿美元天价并购背后,AI 数据服务到底是怎样一门生意?

日期:2025-07-10 23:00:44 / 人气:24


“亲爱的特朗普总统,美国必须赢得 AI 战争。” 今年年初,年仅 28 岁的 Alexandr Wang 在特朗普就职典礼第二天,于《华盛顿邮报》为自己的数据标注服务公司 Scale AI 打出了整版广告。这个看似 “加戏” 的动作,让数据标注第一次走进普罗大众视野,也凸显出一个现实 —— 在 AI 三要素中,相比模型和算力领域的硝烟滚滚,大众对数据领域的演进缺乏足够认知。
然而,两周前 Meta 以 143 亿美元收购 Scale AI 49% 股权的消息,让 AI 数据服务领域真正成为全球关注的焦点,也引发了美国数据标注产业的一场大地震。无独有偶,国内数据标注产业在过去一年多里热度不断攀升,顶层设计和市场端都有不小动作。7 大国家级数据标注基地试点城市落地,国家数据局集中发布 47 个数据标注优秀案例集,一批数据标注服务公司业绩快速攀升。但与此同时,业界又流传着数据标注正在加速自动化,技术进步正让许多标注任务逐渐消失的说法。这不禁让人好奇,中美都在押注的领域,到底是怎样一个产业?当下处于怎样的发展阶段?自动化会让数据标注退出舞台吗?未来竞争又将如何展开?
一、并购案背后,AI 基础数据服务站上 C 位
“数据是人工智能中最有价值的资产之一”,这句人工智能时代的共识,在 Scale AI 并购及随之而来的 AI 基础数据服务产业震荡中得到了绝佳验证。
143 亿美元的并购金额,在 Meta 的并购历史中仅次于收购 WhatsApp。Meta 愿意支付这一价码,背后是其在当下大模型竞争中掉队的焦虑。过去几个月,这家硅谷巨头面临不小压力,今年 4 月发布的 Llama 4 模型反馈不及预期,更大的模型 Behemoth 也被延期发布。
被收购的 Scale AI 之所以能叫出天价,与其在 AI 基础数据服务领域的地位以及数据标注和挖掘在当下模型训练中的重要位置密不可分。Scale AI 成立于 2016 年,最初是一个提供众包服务的平台,帮助企业完成内容审核、数据提取等需要人工操作的任务。之后随着自动驾驶领域对数据审核与标注的庞大需求,Scale AI 开始专注于数据标注领域,帮助客户收集、清理、标注和管理大规模数据,助力自动驾驶算法研发。
大模型浪潮来临后,Scale AI 收入从 2022 年的 2.9 亿美元飙升至 2023 年的 7.6 亿美元,2024 年继续增长到 8.7 亿美元,有消息称预计 2025 年营收将达到 20 亿美元。若对这一营收规模没有概念,不妨参考 OpenAI 2024 年 37 亿美元的营收。根据 Grand View Research 数据,2023 年全球数据标注和服务市场规模达 140.7 亿美元,其中美国市场规模达 42 亿美元,占全球近 30%,Scale AI 的收入规模使其称得上是数据基础服务领域的 “卖水人” 之一。
Scale AI 的客户包括谷歌、苹果、xAI、Meta、微软和亚马逊等一众硅谷巨头。去年谷歌在 Scale AI 的花费约 1.5 亿美元,是其第一大客户。科技媒体 BI 报道,今年 4 月,Scale AI 为谷歌运行了至少 38 个活跃项目,占当时 Scale AI 列表上 107 个生成式 AI 项目的三分之一以上。而服务 xAI 的数据项目中包含一个名为 Xylophone 的项目,主要帮助训练 xAI 的聊天机器人,提升其在广泛话题上的对话能力。
广泛的客户网络反映出数据标注和 AI 基础数据服务在当下模型训练中的重要位置。人工智能行业有 “垃圾进,垃圾出” 的说法,数据质量极大影响模型表现。数据标注本质上是将大量机器无法理解的非结构化数据翻译成机器能理解的结构化数据。大模型浪潮下,由于数据参数规模空前,为提升模型智能水平,围绕数据标注和处理的预算也在飙升。
据 AI 基础数据服务厂商 LXT 2024 年对 322 家有 AI 项目经验的美国企业的调研,2023 年企业在训练数据上的资金投入占其 AI 整体建设投入的 15%。此前行业内还流传一种说法,高质量的标注数据是 ChatGPT 效果区别于其他竞争对手的原因之一。
在这些因素影响下,Meta 做出了大手笔并购 Scale AI 的决定。或许在当下的 Meta 看来,通过与数据服务领域领头羊合作,有助于其更好地获得模型训练的专有数据,并基于这些数据训练更高智能的模型,从而在大模型竞争中跟上节奏。
这项大手笔收购也使得数据标注产业和人工智能供应链条发生了一系列连锁反应。首先,一大批与 Meta 的模型存在竞争关系的厂商纷纷切断与 Scale AI 的合作,例如 Scale AI 的最大客户谷歌在交易达成后立即暂停了两个代号为 “Genesis” 和 “Beetle Crown” 的项目合作。其次,与 Scale AI 竞争的一批数据标注厂商趁机开拓客户,如 Sapien、Appen、Prolific 和 Turing 等企业成为不少 AI 厂商多元化数据标注供应商选择时的候选。Sapien AI 的 CEO Rowan Stone 表示,在 Meta 交易后 48 小时内,他们平台新增 4 万名数据标注注册者,服务器都出现了崩溃。
尽管 Scale AI 发表了平台中立性声明,但并未止住行业内的各种争议,一场行业大洗牌已然展开。
二、政策市场双驱动,国内市场狂飙猛进
海外数据标注产业经历大洗牌之际,过去一两年里,中国作为全球人工智能产业增速最快的国家之一,数据需求快速增长,数据标注领域也随之演进。
首先,政策端的加持极为明显。去年开始,国内接连出台与数据标注相关的政策法规,从顶层设计上为数据标注产业提供催化剂。去年 6 月,国家数据局发布首批 7 家数据标注基地试点城市名单,这七个城市在数据标注产业的生态构建、能力提升和场景应用等方面扮演先行先试的角色。IDC 表示,这一政策的初衷是推动高质量数据集建设,目标是更好地推动 AI 发展、为数据要素流通提供标准数据支持,在城市选择上会综合考虑城市需求、人才结构等因素。
去年 12 月,数据标注领域迎来重磅纲领性文件,国家四部委联合发布《关于促进数据标注产业高质量发展的实施意见》,明确提出到 2027 年产业规模年均复合增长率超过 20% 的发展目标,为国内数据标注产业构建起 “四梁八柱”。同时,各地过去一年也不断出台相关法规和政策,指导产业发展。
行业主管部门还积极树立标杆,推动行业标准化建设。今年 4 月,国家数据局在第八届数字中国建设峰会 “高质量数据集和数据标注主题交流活动” 上发布了 47 个数据标注优秀案例集,涉及医疗、交通、农业、能源等 20 余个领域。这些标杆案例提供了可复用的实践范本,也为相关领域的标准统一、经验共享打下了基础。
在政策加持的同时,随着大模型落地应用浪潮的到来,数据标注市场侧的热度和规模也有明显提升。一批数据标注服务公司迎来业绩的快速攀升,以澳鹏为例,今年 2 月其发布的 2024 年年报显示,去年其中国区业务营收突破 4.2 亿,年增长达到 71%,其中大模型 / AIGC 业务增长了 526%。澳鹏披露,许多 AI 龙头,特别是大模型 AI 企业成为了其客户,大模型及大模型相关业务已占据澳鹏中国营收的 40%。
AI 数据服务创业公司整数智能 CEO 林群书告诉数智前线,去年随着多模态模型的快速演进,市场的数据标注需求呈现出指数级增长。一位行业资深人士认为,数据标注领域市场端的热闹,与过去一年多人工智能领域的结构性变化有关。以 DeepSeek 为代表的国产开源模型极大拉平了国内与海外在模型方面的差距,同时国产模型的进步降低了对算力的消耗,缓解了许多企业的算力焦虑,使得数据层面的重要性被提到更高位置。“数据的质量、规模和精准性将直接决定模型能力的上限,也成为模型落地效果的关键。” 该人士表示。
产业的想象空间正在快速打开。艾瑞咨询的数据显示,2024 年中国人工智能基础数据服务市场规模为 58 亿元,2028 年规模将达到 170 亿元,年复合增长率为 30.84%。IDC 告诉数智前线,目前模型应用走向垂直领域,数据标注的场景需求主要围绕自动驾驶、教育、医疗、金融、零售、政务等展开。
随着市场热度增加,数智前线观察到,行业内的参与主体逐渐增多,竞争变得激烈,同时产业链上中下游界限也逐渐模糊。例如,模型厂商可能从提供更完整的模型能力配套角度,在数据标注领域推出相关产品服务,典型的有智谱 AI,去年它推出的 Batch API 利用大模型技术来解决数据标注问题,百度智能云等也有数据标注服务。
也有应用企业从 AI 落地的角度,在应用中推出一些运营工具标注数据,降低场景内的幻觉。典型的有瓴羊在智能客服 Quick Service 应用里推出 AI 运营中心,针对智能客服场景里的幻觉问题,通过训练中心进行标注,将高质量数据反哺模型,让问答更加准确。“应用内的标注缓解模型幻觉服务于模型微调的环节,是基模现阶段能力不足的一个补充或临时方案”,一位数据标注行业人士表示。
三、技术演进,让数据标注走开?
全球数据标注产业快速发展之际,也有一种声音认为,数据标注领域可能会因技术进步面临新的挑战,例如未来 AI 会自动完成许多标注任务,标注领域的企业可能需要加速转型。
针对这一趋势,数智前线与多位行业人士交流后发现,业界普遍认为大模型时代,数据标注正逐渐走向复杂化、自动化和专业化,自动化浪潮并不意味着不需要标注。
首先是数据标注的复杂化趋势,这与大模型技术演进带来的数据标注需求变化有关。主流大模型普遍采用无监督自动学习机制,在预训练环节大量使用无标注数据,而之后的监督微调(SFT)和基于人类反馈的强化学习(RLHF)阶段,仍需要人工标注。
一位数据标注行业人士介绍,在基于人类反馈的强化学习(RLHF)环节,企业的数据需求是需要人对机器给出的答案进行排序和对齐,把人文的倾向、三观、喜好教给机器学习。相比此前拉框画圈式的简单标注,在微调和 RLHF 环节,数据标注的复杂度更高,对标注团队的要求也更高。
行业内此前还传说,在 RLHF 环节,一些团队有博士团来完成标注任务。例如 Scale AI 就在 RLHF 环节招聘过几十名博士提供数据标注服务,而 OpenAI 内部同样有几十名博士配合,在 Scale AI 标注之后对这些标注进行质量检测。
标注的自动化趋势则与大模型技术进步应用到数据标注领域有关,数据标注本身利用模型实现了提质增效。海外的开源数据标注及清洗平台 Refuel AI 此前做过测试,AI 能显著提升数据标注的质量,也能降低数据标注的成本。在各种 NLP 任务中,模型标注相比人类标注的标签准确度(与真实标签的吻合度)明显更高。
数智前线观察到,目前国内和海外数据标注厂商都在提升数据标注的自动化水平,将数据标注的任务从人工手动操作的劳动密集型向平台化的自动标注方向转变。海外的 Scale AI、国内的海天瑞声、澳鹏以及整数智能,都有自己的自动化数据标注平台。
除了专业数据服务商,一些企业内部的标注场景也在自动化。以自动驾驶场景为例,特斯拉此前组建了规模庞大的企业内数据标注团队,但从 2022 年开始裁撤辅助驾驶系统开发的数据标注团队规模,通过 Dojo 超级计算机对海量视频数据做无人监管标注和训练。
数据智能服务商每日互动总裁刘宇告诉数智前线,在当前激烈的市场竞争下,对数据标注服务商而言,将自己的服务能力沉淀为标准化产品,能提升企业竞争的门槛,“同样的劳动力能更高效标注,标注质量以及供应稳定度更高”。
不过,行业内也认为,这种自动化的趋势并不意味着标注任务和专业服务商没有了用武之地。实际上,随着 AI 朝向垂直场景落地,专业领域里复杂任务对人工标注的需求正在增加。
“数据标注难度越来越高,当数据可以被自动化标注 90%,剩下的 10% 也更加关键。”IDC 中国高级分析师李浩然告诉数智前线。一家 AI 应用厂商此前也告诉数智前线,单点的拉框打标工作,AI 可能也能完成,但许多更专业的领域知识标注,只能通过人工完成。
另外,推理模型出现后,非常需要思维链相关的数据。“它非常需要理解业务的专业人员,通过规则和模型参数的配置,来更好地拆解问题。”
李浩然也提到,当数据可以被自动化标注、合成时,其为模型带来的价值会更低,企业会投入更多资源来人工标注更复杂的问题。“之前的教育题目可能是初高中难度,现在可能是大学题目;另外之前的图片标注只需要圈出人脸,现在还需要输入文本来理解图片表达的含义以及其中的结构关系。”
在这些趋势下,数据标注领域的演进方向变得明晰。一方面,行业的准入门槛从劳动密集性向技术密集型以及更高专业门槛演进。另一方面,由于玩家竞争的重心向技术能力、场景资源等复合性能力转变,在更多玩家入场的同时,行业内的淘汰赛也已同步展开,市场竞争变得更加激烈。
结语
Meta 以 143 亿美元并购 Scale AI 的案例,将 AI 数据服务产业推向了聚光灯下。无论是海外市场的激烈洗牌,还是国内市场在政策与市场双驱动下的狂飙猛进,都显示出 AI 数据服务已成为人工智能产业中不可或缺的重要环节。
尽管自动化技术在数据标注领域快速发展,但这并不意味着人工标注会消失,而是推动着数据标注向更复杂、更专业的方向演进。未来,随着人工智能技术的不断深入,AI 数据服务产业的竞争将更加激烈,而那些能够在技术创新、场景深耕和专业服务上占据优势的企业,无疑将在这场竞争中脱颖而出,引领产业的发展方向。AI 数据服务这门生意,正迎来属于它的黄金时代,同时也面临着前所未有的挑战与机遇。

作者:富邦娱乐




现在致电 xylmwohu OR 查看更多联系方式 →

COPYRIGHT 富邦娱乐 版权所有