科普篇 | 详解文本数据标注工具及使用方法
2022-09-02 10:20:55 作者小当老师
我们在做数据标注的时候,使用好数据标注工具才能让标注工作更加精确,了解不同文本数据标注工具的特点,更有利于你的施展。今天我们来详细了解一下文本数据标注工具及其使用方法。
01// 开源文本数据标注工具汇总
常用的开源文本标注工具包括:Doccano、YEDDA、Chinese-Annotator、IEPY、DeepDive和BRAT,具体介绍如下。 ① Doccano:是一个开源文本标注工具,它提供了文本分类、序列标记和序列到序列任务的标注功能。因此,可以为情感分析、命名实体识别、文本摘要等标注任务创建带标签的数据。Doccano序列标注任务界面如下图所示。 ② YEDDA:是一个针对实体类的开源文本注释工具,它提供了序列标记的标注功能。YEDDA为文本跨度标注提供了一个系统的解决方案,从协作用户标注到管理员评估和分析。它克服了传统文本注释工具效率低下的问题,通过命令行和快捷键对实体进行注释,这些实体可配置自定义标签。下图为YEDDA进行序列标注任务的界面。
③ Chinese-Annotator:是一款智能中文文本标注工具,拥有简洁的标注环境与智能的学习算法,能够进行线下学习。该标注工具标注界面显而易见地友好,让标注操作尽可能简便和符合直觉。标注框架是一个较为完整的系统,包括前端、后台与数据库。下图为Chinese-Annotator的标注界面。
④ IEPY:是一个专注于关系提取的信息提取开源工具。操作界面如下图所示。
⑤ DeepDive:与IEPY类似,也是针对信息抽取类型任务的开源标注工具,DeepDive非常适合信息抽取,是构建知识库的利器。能够基于词性标注、句法分析等通过各种文本规则实现实体之间关系的抽取,同时可面向异构、海量的数据。下图为DeepDive的标注界面。
⑥ 这个工具可以用于各种自然语言处理(NLP)任务,该工具是为实体识别和关系抽取设计的。BRAT服务器是一个Python程序,默认情况使用乌班图(Ubuntu)操作系统,网页浏览器使用谷歌浏览器。下图为BRAT的标注界面。
02// 文本数据标注工具使用介绍
本部分以数据堂的文本数据标注工具为样例介绍典型的几种文本数据标注工具。 ① 韵律标注:韵律原指诗词中的平仄格式和押韵规则,后引申为音响的节奏规律。这里的韵律是指句子中字词之间的停顿,大多数情况下,我们不能完全没有停顿地说一句话,总会或长或短的有些停顿,这些停顿就是我们要标注韵律符号的位置,根据停顿长度不同,韵律符号也会相应发生变化。韵律标注界面如下图所示。
② 词性标注:词性标注是文本数据标注的一种形式,词性标注工具可对文本内容进行实体名称、实体属性、实体关系标注,下图为实体标注工具,实体标注工具具有实体名称列表、文本显示区、属性编辑框、标注列表、工具栏等,能够进行选中文本、新建/编辑/删除实体标注操作,同时支持自定义标签功能。
③ 词性(实体)关系标注:需要先对文本进行实体标注,然后对实体之间进行实体的关系标注。相关联的实体会通过一条线进行关联,示意图如下。
④ 音调多音字标注:通俗地讲,就是给一个多音字加读音,例如“骈”读音(pián),便(pián)宜等。通过音调多音字标注工具,实现快速的标注。首先通过算法把一段文本的多音字识别出来,与原始文本一起导入平台,模板会同时将文本和读音加载显示在标注页面。多音字标注平台示意图如下。
⑤ 语义标注:是文本数据标注的一种形式,针对交互的短文本进行理解,标注出文本的意图。语义标注工具可进行意图标注以及设置自定义标签。语义标注首先是要自定义标签,自定义标签包括意图级别配置、功能配置、预识别配置等,语义标注平台如下图所示。
⑥ 阅读理解:模板区域和实体标注的基本一致,不同之处在于右侧显示的是问答标注列表,可以在该处进行问答填写,同时底部也没有工具栏,下图展示的是阅读理解标注展示界面。
⑦ 标注准确率计算:数据质检完成后,根据标注结果与质检结果比对情况,计算标注的准确率,标注人员和质检人员均可以在任务执行情况页面查看实时的准确率,准确率统计界面如下图所示。
标注工具对于数据产品生产任务至关重要,一个好的标注工具能够大大减少标注过程中出现的问题,减少标注人员出现的错误,提高数据产品生产效率与数据质量。以上主要介绍了文本数据标注工具及使用方法,你学会了吗?