毕业论文
您现在的位置: 语言识别 >> 语言识别介绍 >> 正文 >> 正文

自然语言处理任务数据标注利器docc

来源:语言识别 时间:2022/11/3
中科白癜风新年优惠享不停 http://pf.39.net/bdfyy/bjzkbdfyy/171021/5779562.html

背景

有时我们需要从0-1地去做一项NLP任务,如文本分类,实体识别等。从0开始意味着我们需要自己去标注数据。抛开现在的技术如Zero/Few-shotLearning以及主动学习先不说。我们先考虑找到一个高效的标注数据工具,就是本文的主角——doccano.

doccano是一个供人类使用的开源文本注释工具。它为文本分类、序列标记和序列到序列任务提供注释功能。因此,您可以为情感分析、命名实体识别、文本摘要等创建标记数据。只需创建一个项目,上传数据并开始注释。您可以在数小时内构建数据集。

该项目在github上开源,该项目后端使用的django驱动,前端使用的是vue。

doccano的安装方式有很多种,有使用pipinstall的安装方式,也有docker容器安装方式等。我使用最多是使用容器安装的方式。我搭建成功的样例如图1。实体标注的案例如图2所示。

doccano该如何使用可以参考其官方文档。我在CSDN上也写了相关的使用教程:自然语言处理任务数据标注利器——doccano.

我就在这里抛砖引玉了,后面的详细使用,例如数据导入,标签定义,多人标注,数据导出等,官方文档写的很详细,本文就不在赘述了。如有问题欢迎到学术范留言讨论哦。

作者:AIAS编程有道学术范签约作者,硕士,数据挖掘工程师(NLP方向)-订阅号:AIAS编程有道

学术范(xueshufan.

转载请注明:http://www.0431gb208.com/sjszlfa/2231.html