| T/CES 156-2022《电力智能交互文本训练语料标注规范》 - 中国电工技术学会
中国电工技术学会团体标准T/CES 156-2022《电力智能交互文本训练语料标注规范》由中国电工技术学会提出,国网信息通信产业集团有限公司牵头编制完成。该标准规定了对电力智能交互文本训练语料的基本要求、标注要求和标注流程,推动了电力智能交互技术的协同管理,填补了电力智能交互领域标准的空白。
1. 标准起草单位及主要起草人
(1)起草单位
国网信息通信产业集团有限公司、四川中电启明星信息技术有限公司、国网重庆市电力公司、国网重庆市电力公司电力科学研究院、重庆大学。
(2)主要起草人
李强、宋卫平、王红蕾、赵峰、周孔均、钟加勇、倪平波、李炳森、田鹏、李欢欢、徐小云、刘礼、崔秋实、张强、李立、李军、高攀、高胜杰。
2. 标准制定背景
近年来,随着人工智能的不断发展,人工智能技术在电力行业中被广泛应用。而智能交互技术作为人工智能技术的一个分支,也被应用于众多电力业务场景中,且某些场景需结合文本训练语料标注操作。然而,电力行业中各企业没有采用统一的文本训练语料标注标准,各企业标注的文本训练语料不能直接或间接共享,同时文本训练语料的标注需要消耗大量人力和时间, 这就导致已标注完成的文本训练语料匮乏或者重复标注等问题的存在。因此,指导企业协同共享样本数据、模型资源,统一化、规范化、专业化文本训练语料标注标准工作迫在眉睫。
3. 标准主要内容
(1)范围
本标准规定了对电力智能交互文本训练语料的基本要求、标注要求和标注流程方面技术要求。
本标准适用于电力智能交互文本训练语料的标注、管理及质量管控等。
(2)规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件
GB/T 5271.28信息技术 词汇 第28部分:人工智能 基本概念与专家系统
T/CESA 1040信息技术 人工智能 面向机器学习的数据标注规程
T/CES 128电力人工智能平台总体架构及技术要求
(3)术语及定义
主要包括语料、样本数据、训练语料、标注、意图、槽位、标注工具的定义。
(4)缩略语
主要包括BIOES、BIO的描述。
(5)总则
主要对电力智能交互文本训练语料的标注规范基本要求、标注要求和标注流程三个方面。
(6)基本要求
主要包括存储格式要求、命名要求、质量要求、样本描述文件要求。
(7)标注要求
主要包括基本要求、意图标注要求、槽位标注要求、标注完成的语料样本命名与存储要求。
(8)标注流程
主要包括总体要求、语料样本检查、安全管控、标注工具选择、语料样本标注、标注结果收集、标注结果检查。
4. 标准制定效益
本标准批准发布后,将为电力智能交互文本训练语料标注提供统一明确的技术规范,进而推动电力智能交互技术的协同管理、填补电力智能交互领域标准的空白,指导企业协同共享样本数据、模型资源,促进电力智能交互技术在电力行业的发展应用。