江苏宣传网 > 哲学社科 > 正文
给AI写“教材”,总共分几步?
2026-04-29  来源:新华日报

  “今年亦庄的半马,大家都看了吗?”4月23日上午,在无锡召开的2026江苏省高质量数据集建设推进会暨数据标注产业供需对接会上,登台做主旨报告的清华大学计算社会科学与国家治理实验室研究员张影强,向全场近500名参会嘉宾问了这样一个问题。

  在一个有关数据的专业会议上,为何要讲“八竿子打不着”的半马?

  原来,这是一群具身智能机器人的半马。4月19日,在2026北京亦庄半程马拉松暨人形机器人半程马拉松比赛中,人形机器人“闪电”以50分26秒的净成绩夺冠,成功超越了人类半马世界纪录。“具身智能发展非常快,去年的比赛,我们就预测会很快超越人类。没想到,这么快就来了!”张影强感慨地说。

  人工智能的狂飙突进,带动了数据的高速增长。一组数据,被他打在了现场的大屏上:到今年3月,我国日均词元调用量超过140万亿,相比2024年初的1000亿,短短两年增长了1000多倍。

  张影强还有一个身份,是中国信息协会高质量数据集与数据标注专委会专家委员。三句不离本行,“人工智能发展,对我们数据标注行业带来的业务需求量,可能是指数级的增长!”讲到这里,文章开头那个提问的用意,似乎已经有了答案。

  那么,数据标注行业,又如何接得住、接得稳这一轮“指数级增长”呢?

  “要写出精品图书和教材给AI看!”张影强说,过去人们对数据标注的理解,就是给原始数据“打标签”。例如,图像标注就是给出一张图片,在图片里圈出“这是一只猫”,框出“那是一条狗”。“过去我们告诉AI这是什么,现在我们要告诉AI这是发生了什么、背后原因是什么。”人工智能+时代,大家要从过去传统通识认知往行业化、专业化方向迈进,让数据标注和人工智能同频共振、互促共进。

  给AI写精品教材,谁来写?数据标注员人才队伍建设,迫在眉睫。聚焦这一话题,会议期间,有专家向记者分享了一些“大厂”的好做法:重金招聘、重点培养大量相关专业的数据标注师,形成一个体系化的组织方式。这些精心培养出来的数据标注员,都要求具备垂直领域专业知识。例如,在自动驾驶领域需区分“可行驶区域”与“潜在风险物”;在医疗领域需依据影像学知识对病灶进行分级与三维重建;在工业质检领域需依据工艺标准判定缺陷类型与等级……以推动AI从“感知智能”向“决策智能”跨越。

  写教材的钱从哪里来?“不少数据标注企业投入很大,回款周期较长!”苏州柏川数据科技有限公司副总经理朱丹告诉记者,数据标注是一个知识密集型叠加资金密集型的行业,巨大的融资成本制约了不少企业做大做强。金融机构或许能以“订单贷”或“信用贷”等类似形式,对数据标注企业给予信贷资金支持,形成良性产业循环。

  精品教材更不能是“毒教材”。随着智能体的大量应用,还有一些不良公司有意误导大模型、甚至给大模型“投毒”。“在未来的标注行业里,对整个安全和价值观的考量,可能会更加重要。”张影强说。

  新华日报记者 聂 伟

编辑:袁俊华