引产入校 文章详情

科普篇 | 详解文本数据标注工具及使用方法

2022-09-02 10:20:55 作者小当老师


我们在做数据标注的时候,使用好数据标注工具才能让标注工作更加精确,了解不同文本数据标注工具的特点,更有利于你的施展。今天我们来详细了解一下文本数据标注工具及其使用方法。




01//


开源文本数据标注工具汇总



常用的开源文本标注工具包括:Doccano、YEDDA、Chinese-Annotator、IEPY、DeepDive和BRAT,具体介绍如下。


① Doccano:是一个开源文本标注工具,它提供了文本分类、序列标记和序列到序列任务的标注功能。因此,可以为情感分析、命名实体识别、文本摘要等标注任务创建带标签的数据。Doccano序列标注任务界面如下图所示。


图片


② YEDDA:是一个针对实体类的开源文本注释工具,它提供了序列标记的标注功能。YEDDA为文本跨度标注提供了一个系统的解决方案,从协作用户标注到管理员评估和分析。它克服了传统文本注释工具效率低下的问题,通过命令行和快捷键对实体进行注释,这些实体可配置自定义标签。下图为YEDDA进行序列标注任务的界面。


图片


③ Chinese-Annotator:是一款智能中文文本标注工具,拥有简洁的标注环境与智能的学习算法,能够进行线下学习。该标注工具标注界面显而易见地友好,让标注操作尽可能简便和符合直觉。标注框架是一个较为完整的系统,包括前端、后台与数据库。下图为Chinese-Annotator的标注界面。


图片


④ IEPY:是一个专注于关系提取的信息提取开源工具。操作界面如下图所示。


图片


⑤ DeepDive:与IEPY类似,也是针对信息抽取类型任务的开源标注工具,DeepDive非常适合信息抽取,是构建知识库的利器。能够基于词性标注、句法分析等通过各种文本规则实现实体之间关系的抽取,同时可面向异构、海量的数据。下图为DeepDive的标注界面。


图片


⑥ 这个工具可以用于各种自然语言处理(NLP)任务,该工具是为实体识别和关系抽取设计的。BRAT服务器是一个Python程序,默认情况使用乌班图(Ubuntu)操作系统,网页浏览器使用谷歌浏览器。下图为BRAT的标注界面。


图片





02//


文本数据标注工具使用介绍



本部分以数据堂的文本数据标注工具为样例介绍典型的几种文本数据标注工具。


① 韵律标注:韵律原指诗词中的平仄格式和押韵规则,后引申为音响的节奏规律。这里的韵律是指句子中字词之间的停顿,大多数情况下,我们不能完全没有停顿地说一句话,总会或长或短的有些停顿,这些停顿就是我们要标注韵律符号的位置,根据停顿长度不同,韵律符号也会相应发生变化。韵律标注界面如下图所示。


图片


② 词性标注:词性标注是文本数据标注的一种形式,词性标注工具可对文本内容进行实体名称、实体属性、实体关系标注,下图为实体标注工具,实体标注工具具有实体名称列表、文本显示区、属性编辑框、标注列表、工具栏等,能够进行选中文本、新建/编辑/删除实体标注操作,同时支持自定义标签功能。


图片


③ 词性(实体)关系标注:需要先对文本进行实体标注,然后对实体之间进行实体的关系标注。相关联的实体会通过一条线进行关联,示意图如下。


图片


④ 音调多音字标注:通俗地讲,就是给一个多音字加读音,例如“骈”读音(pián),便(pián)宜等。通过音调多音字标注工具,实现快速的标注。首先通过算法把一段文本的多音字识别出来,与原始文本一起导入平台,模板会同时将文本和读音加载显示在标注页面。多音字标注平台示意图如下。


图片


⑤ 语义标注:是文本数据标注的一种形式,针对交互的短文本进行理解,标注出文本的意图。语义标注工具可进行意图标注以及设置自定义标签。语义标注首先是要自定义标签,自定义标签包括意图级别配置、功能配置、预识别配置等,语义标注平台如下图所示。


图片


⑥ 阅读理解:模板区域和实体标注的基本一致,不同之处在于右侧显示的是问答标注列表,可以在该处进行问答填写,同时底部也没有工具栏,下图展示的是阅读理解标注展示界面。


图片


⑦ 标注准确率计算:数据质检完成后,根据标注结果与质检结果比对情况,计算标注的准确率,标注人员和质检人员均可以在任务执行情况页面查看实时的准确率,准确率统计界面如下图所示。


图片




标注工具对于数据产品生产任务至关重要,一个好的标注工具能够大大减少标注过程中出现的问题,减少标注人员出现的错误,提高数据产品生产效率与数据质量。以上主要介绍了文本数据标注工具及使用方法,你学会了吗?



相关阅读

科普篇 | 什么是视频数据标注?视频数据标注有哪些意义?

视频数据标注是用机器自动生成自然语言文字来描述视频内容的过程。它在视觉和文字之间起到非常重要的桥接作用。视频数据标注目的是对场景中活动目标进行位置、形状、动作、色彩等有关特征进行标注;提供大量数据供跟踪算法使用,从而实现对场景中活动目标进行检测、跟踪、识别,以及进一步的行为分析及事件检测。视频数据标注有哪些意义?(1)视频数据标注是实现视频搜索功能的必然要求。互联网中的视频数据正以惊人的速度在增长,必须有新的检索方式来满足用户对视频的检索需求。而视频数据标注通过语义、内容等方式标注,则有利于视频数据搜索、管理和收藏。(2)视频数据标注要求是视频数据自身特征决定的。丰富的视频数据包含的海量信息,其内容更加丰富、直观和生动。这是其他媒体类型所无法比拟的。因此,视频数据的自身优势,决定了视频数据标注的发展前景更广阔。(3)视频数据标注是视频数据应用场景日益增加的需求。与图像技术一样,视频数据也可以应用于互联网娱乐、智能家居、智能医疗、新零售、安防、自动驾驶等领域。而且,相较于图像数据而言,图像数据是在一个时间点上的数据,而视频数据是在一段时间上连续的一系列图像数据的集合,表达的信息更加丰富,因此具有更广的应用场景。视频数据标注任务介绍视频数据标注任务包含视频标签的时间位置、空间位置和标签信息标注等内容。标注文件的输出格式推荐使用易解析、易存储的数据格式,包括JSON、XML等。标注文件应该包含详细的标签信息。每个独立的标签应包含以下的信息:(1)标签编码:每个标签的独立编号;(2)文件路标:待标注视频文件名称或路径;(3)置信度:为标签的置信度;(4)每个标签中可能包含多个对象,对于每个对象需包含:      ①对象类型:例如 scene_classification;      ②对象详情:具体描述对象的时间、空间信息和内容信息,或与其他 object的关系信息。对于视频中起始和结束帧的位置描述也应该放到对象详情中,比如:Object frame_index start 以及Object_frame_index_end。本文主要介绍了视频数据标注及其意义和视频数据标注任务的介绍,视频数据标注区别于图像数据标注主要是有时间轴,且视频数据标注能预测人们行为和物体运动轨迹,将会在更多场景取得更加智能化的应用。希望这篇文章对正在从事数据标注工作有所帮助!

小当老师 2022-12-05 09:41:31

科普篇 | 3D点云数据标注工具的功能及使用方法

3D点云标注是指利用激光雷达采集的数据进行框选标注,供计算机视觉与无人驾驶等人工智能模型训练使用。下面我们来了解以下3D点云数据标注工具的功能及使用方法。01//3D点云标注工具的主要功能3D点云标注能够实现3D单帧标注、2D-3D单帧映射、3D追踪标注等功能:(1)3D单帧标注:可以提供点云或者点云与时间对齐的图片,但只标注点云。(2)2D-3D单帧映射:2D和3D同一物体ID相同。(3)3D追踪标注:追踪同一物体ID一致。注:2D-3D映射需要提供校准信息,每个摄像头均要提供(摄像头的内参和到激光雷达坐标映射的外参)。02//3D点云工具的使用方法3D点云标注工具界面由工具栏、主视图、三视图、帧控制区域、状态栏、属性区、对象列表区等七部分构成,工具界面如下图所示。下面进行具体介绍。(1)工具栏工具栏用于整体任务或者显示的控制。主要包括如下内容:①获取任务:获取一条数据用于标注;②保存:用于手工将标注数据临时保存在磁盘上,防止丢失;③提交:用于标注等工作完成后提交结果;④撤销:撤销上一个标注操作,最多可以10步。⑤恢复:恢复上一个撤销的操作。⑥删除图形:删除选中的对象。⑦隐藏标签:不显示所有对象的标签。⑧隐藏图形:主视图和街景中不显示所有对象。⑨合并ID:用于找回对象,把两个不同的ID合并为一个,复制之前的属性。其他功能包括工作量统计、类别统计、计时和到期时间等。(2)主视图有两种模式,3D模式和俯视模式。主视图是3D点云的主要操作区域,可以查看、选中、新建、删除、修改对象。标注对象和街景中的选中对象是联动标注的。①3D模式下的操作:包括拖动整个3D空间、旋转视角、选中和删除功能;②俯视模式下的操作:拖动俯视视角3D空间、旋转、选中、新建对象、移动对象和删除。(3)三视图用俯视图、正视图和侧视图去观察选中的对象。在三视图中可以移动和调整标注框,以便更加贴合。(4)属性区域用于修改选中对象的属性。数据标注时需要选择属性的类别,如车辆类型,不同的类别可能拥有不同的属性,如车辆颜色、种类,以及人的着装等。(5)对象列表区用来显示本条数据中已经标注的对象,前面是对象ID,后面是对象类别,这个同时也作为标签显示在主视图中。(6)帧控制区域该区域可以把整条数据置为无效,或者把当前帧设置为无效:可以手动输入帧序号进行跳转,或者下一帧、上一帧、下十帧、上十帧、第一帧和最后一帧的跳转,也可以点击下方帧号进行跳转。(7)状态栏状态栏对操作成功与否进行提示(8)快捷键3D点云标注工具已定义快捷键,如下图所示。其中,1键代表3D视图,2键代表俯视图,3键和4键不调整目标框的位置,只选择新的朝向。W、S、A、D、R、F键分别代表微调所选择的目标对象框的前后左右上下4个面,向扩大的方向调整,每次调整4厘米。Q和E代表微调所选择框的旋转角度,每次调整2度。以上就是关于3D点云数据标注的工具及使用,你学会了吗?

小当老师 2022-09-16 13:50:13

科普篇 | 3D点云数据标注简介及应用

点云,即“点”构成的“云”。一般来自激光雷达,也可以来自毫米波雷达,是利用激光雷达和雷达传感器生成的三维点的集合,可分为黑白和彩色两大类,如下图所示。点云数据(point cloud data)一般由激光雷达等3D扫描设备获取空间若干点的信息,一般包括XYZ位置信息、RGB颜色信息和强度信息等,是一种多维度的复杂数据集合。01//3D点云的获取方法(1)    双目视觉传感器:类似人的双眼,它是基于视差原理并由多幅图像获取物体三维几何信息的方法。双目立体视觉系统一般由双摄像机从不同角度同时获得被测物的两幅数字图像,或由单摄像机在不同时刻从不同角度获得被测物的两幅数字图像,并基于视差原理恢复出物体的三维几何信息,下图为双目视觉传感器实物图。上图中,左右两侧的摄像头共同构成了双目视觉传感器。(2)激光雷达:激光雷达(Light Detection And Ranging,LIDAR),是以发射激光束探测目标的位置、速度等特征量的雷达系统。其工作原理是向目标发射探测信号(激光束),然后将接收到的从目标反射回来的信号(目标回波)与发射信号进行比较,作适当处理后,就可获得目标的有关信息,如目标距离、方位、高度、速度、姿态、甚至形状等参数。激光雷达实物图如下图所示。(3)深度体感设备Kinect:深度体感设备Kinect是一款类似三维摄像机仪器,具有实时动作追踪、图像识别、声音录入及辨别等功能。左右两边镜头分别是红外线发射器和CMOS红外线摄影机,识别的是一个深度场。其中每个像素颜色深浅表示该点距离摄像头的远近,距离摄像头较近的颜色较亮和深,距离摄像头较远的颜色较暗。Kinect实物图如下图所示。02//3D点云应用(1)多视图三维重建:多视图重建是利用多张一个场景的不同视角图像来恢复出场景三维模型的方法,自然场景的多视图三维重建一直是计算机视觉领域的基本问题,有着广泛的应用。下图为多视图三维重建示意图。(2)三维同步定位与地图构建(Simultaneous Localization And Mapping,SLAM):主要用于解决移动机器人在未知环境中运行时定位导航与地图构建的问题,三维同步定位与地图构建示意图如下图所示。(3)三维目标检测:与二维图像相比,3D点云数据的优势在于能够很好地表征物体的表面信息和一些深度信息。另外,由于3D点云数据的获取来源较多,因此对3D点云数据的研究得以迅速增长,进一步促进了使用深度学习实现3D点云目标检测,下图为三维目标检测示意图。(4)三维语义分割:三维(3D)语义分割在医学、自动驾驶、机器人和增强现实(AR)等许多领域的广泛应用,下图为三维语义分割示意图。03//3D点云数据集(1)悉尼城市目标数据集:这个数据集包含用Velodyne HDL-64E LIDAR扫描的各种常见城市道路对象,收集于澳大利亚悉尼的中央商务区(CBD)。含有631个单独的扫描物体,包括车辆、行人、广告标志和树木等,下图为数据集样例。(2)大规模点云分类基准数据集:该数据集提供了一个大的自然场景标记的3D点云数据集,总计超过40亿点。涵盖了各种各样的城市场景:教堂、街道、铁路轨道、广场、村庄、足球场、城堡等等。下图为数据集样例。(3)RGB-D对象数据集:该数据集是300个常见的家庭对象的大数据集。该数据集是使用Kinect风格的3D相机记录的,该相机以30Hz记录同步和对齐的640x480RGB和深度图像。下图为数据集样例。(4)纽约大学深度数据集:该数据集包括NYU-Depth V1数据集和NYU-Depth V2数据集,数据由来自各种室内场景的视频序列组成,这些视频序列由来自微软 Kinect的RGB和深度摄像机。下图为数据集样例。(5)KITTI标准数据集:该数据集利用KIT的无人车平台采集的大量城市环境的点云数据集(KITTI),这个数据集不仅有雷达、图像、GPS、INS的数据,而且有经过人工标记的分割跟踪结果,可以用来客观的评价大范围三维建模和精细分类的效果和性能,下图为数据集样例。以上就是关于3D点云数据标注的简介及应用,你学会了吗?

小当老师 2022-09-08 13:51:24