(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211028458.9
(22)申请日 2022.08.25
(71)申请人 昆明理工大 学
地址 650093 云南省昆明市五华区学府路
253
(72)发明人 刘英莉 王春秀 沈韬 吴瑞刚
(74)专利代理 机构 昆明明润知识产权代理事务
所(普通合伙) 53215
专利代理师 王鹏飞
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 16/28(2019.01)
G06F 16/36(2019.01)
(54)发明名称
一种文本数据标注方法
(57)摘要
本发明涉及一种文本数据标注方法, 属于文
本挖掘技术领域。 首先获取文本文献, 根据标注
对象和实际需求定义标签, 定义句内以及句间实
体之间的关系, 并进行手工标注, 形成多个(有
向)图结构, 并利用逻辑推理在图结构之间形成
逻辑关系, 使得整篇文章形成图结构化数据。 本
发明通过将文献内在的命名实体间关系用图结
构表示出来, 并结合逻辑 关系(逻辑推理/ 上下文
逻辑关系)进一步串联。 使得整篇文献逻辑关系
更加明确, 从而提高后续工作实体 关系抽取等模
型的能力。
权利要求书1页 说明书4页 附图3页
CN 115408521 A
2022.11.29
CN 115408521 A
1.一种文本数据标注方法, 其特 征在于:
Step1: 从原始数据中获取文本文献, 根据标注对象和实际需求定义标签, 确定要抽取
的实体类型, 所述原 始数据为待标注的文献文本数据;
Step2: 根据确定好的实体类型定义实体之间的关系类型, 采用标准的BIO标注方式对
文本数据进行手工标注;
Step3: 对整篇文献进行手工标注好之后, 以实体为顶点, 实体关系为边, 构建有向图结
构
Step4: 有向图结构根据文章上 下文逻辑关系形成有关系的图结构。
2.根据权利 要求1所述的文本数据 标注方法, 其特征在于, 所述Step1具体为: 确定要抽
取的实体类型时, 首先根据标注对 象和实际需求定义父类别, 父类别中包含不同实体类型
的子类别。
3.根据权利要求1所述的文本数据标注方法, 其特征在于, 所述Step2具体为: 使用Brat
对文献文本进行标注, 实体之间的关系类型包括句内 以及句间实体之间的关系, 句间实体
之间的关系为共指关系。
4.根据权利 要求1所述的文本数据 标注方法, 其特征在于, 所述Step3具体为: 对文献标
题、 摘要以及正文进行标注, 标题构建成一个图结构, 摘要构建成一个或多个图结构, 正文
构建成多个图结构, 一 篇文献可以构建多个有向图, 即构成非连通有向图。
5.根据权利要求1所述的文本数据标注方法, 其特 征在于, 所述Step4具体为:
整篇文献标题和摘要以及正文之间形成总分的结构, 摘要和正文形成总分的结构, 所
构成的非连通图之间根据数据间的逻辑关系分为 递进和并列;
在摘要和正文中, 如果将由n个图p组成集合D, 即p1,p2,p3, …,pn∈D, 用CONN表示逻辑
类型, 可以将图集 合表示为如下逻辑关系: P1 ‘CONN P2’CONNP3’CONN…PN’。权 利 要 求 书 1/1 页
2
CN 115408521 A
2一种文本数据标注方 法
技术领域
[0001]本发明涉及一种文本数据标注方法, 属于文本挖掘技 术领域。
背景技术
[0002]人工智能一切工作的前提是获取数据, 在自然语言处理领域, 大多数任务是需要
大量样本的有监督学习问题, 列标注问题如分词、 命名实体识别、 实体关系抽取, 均需要标
注数据训练模型, 用实的标签作为机器学习算法预测 值的参照, 就可以根据预测值与真实
数据之间的差距来计算损失等指标, 从而不断迭代优化算法。 如此一来, 有标注的文本数据
是驱动NLP模型学习和优化的重要资源。
[0003]通过文本数据标注的方式构建数据集是一项很繁杂且劳动密集的工作, 不同的规
则标注的数据具有不同的特点, 根据标注数据的初衷, 例如训练一个好的实体关系抽取模
型, 应该找到一套合 适的规则构造合 适的数据集, 将有利于训练出准确率更高的模型。
发明内容
[0004]本发明要解决的技术问题是提供了一种文本数据标注方法, 旨在使整篇文献数据
间的逻辑关系更加明确, 从而提高后续工作实体关系抽取等模型的能力。
[0005]本发明的技术方案是: 一种文本数据标注方法, 获取文本文献, 根据标注对象和实
际需求定义标签, 定义句内以及句间实体之间的关系, 并进 行手工标注, 形成多个(有向)图
结构, 并利用逻辑推理在图结构之 间形成逻辑关系, 使得整篇文章形成图结构化数据。 通过
将文献内在的命名实体间关系用图结构表示出来, 并结合逻辑关系(逻辑推理/上下文逻辑
关系)进一步串联。 使 得整篇文献逻辑关系更加明确, 从而提高后续工作实体关系抽取等模
型的能力。
[0006]具体步骤为:
[0007]Step1: 从原始数据中获取文本文献, 根据标注对象和实际需求定义标签, 确定要
抽取的实体 类型, 所述原 始数据为待标注的文献文本数据, 格式为P DF。
[0008]Step2: 根据确定好的实体类型定义实体之间的关系类型, 采用标准 的BIO标注方
式对文本数据进行手工标注;
[0009]Step3: 对整篇文献进行手工标注好之后, 以实体为顶点, 实体关系为边, 构建有向
图结构
[0010]Step4: 有向图结构根据文章上 下文逻辑关系形成有关系的图结构。
[0011]所述Step1具体为: 确定要抽取的实体类型时, 首先根据标注对象和实际需求定义
父类别, 父类别中包含不同实体类型 的子类别。 父类别的设置可以有效防止在实体关系抽
取模型的训练过程中类别过多 而导致的数据稀疏。
[0012]所述Step2具体为: 使用Brat对文献文本进行标注, 实体之间的关系类型包括句内
以及句间实体之间的关系, 句间实体之间的关系为共指关系。
[0013]所述Step3具体为: 对文献标题、 摘要以及正文进行标注, 标题构建成一个图结构,说 明 书 1/4 页
3
CN 115408521 A
3
专利 一种文本数据标注方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-17 23:39:53上传分享