(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210103217.X
(22)申请日 2022.01.27
(71)申请人 广州数说故事信息科技有限公司
地址 510627 广东省广州市天河区黄埔大
道西120号15 01室
(72)发明人 杨俊波 何宇轩 牟昊 李旭日
徐亚波
(74)专利代理 机构 广州粤高专利商标代理有限
公司 44102
专利代理师 禹小明
(51)Int.Cl.
G06N 5/04(2006.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
(54)发明名称
一种基于海量数据的因果事理组提取方法、
系统及计算机可读存 储介质
(57)摘要
本发明公开了一种基于海量数据的因果事
理组提取方法、 系统及计算机可读存储介质, 所
述方法包括: 获取网络文本并按照时间段存储;
对获取的网络文本进行均匀抽样得到样本集并
对样本集进行预标注; 对预标注后的文本集进行
BIO格式的事件标注和 因果关系标注; 利用标注
得到的数据对BERT+CRF模型进行训练; 利用BERT
+CRF模型对存储的网络文本进行因果事理提取,
并形成预设格式的三元组; 通过聚类算法将三元
组聚类得到因果事理组; 将得到的因果事理组进
行遴选和约化处理, 保存约化处理后的因果事理
组。 本发明提高了提取因果事理的准确性,减少
了提取结果中的噪声数据,冗余数据和孤立数
据,具有较高的可靠性。
权利要求书2页 说明书6页 附图2页
CN 114676840 A
2022.06.28
CN 114676840 A
1.一种基于海量数据的因果事理 组提取方法, 其特 征在于, 包括以下步骤:
S1: 获取网络文本并按照时间段存 储;
S2: 对获取的网络文本进行均匀抽样得到样本集并对样本集进行 预标注;
S3: 对预标注后的文本集进行BIO格式的事 件标注和因果关系标注;
S4: 利用步骤S3标注得到的数据对BERT+CRF模型进行训练, 并得到训练好 的BERT+CRF
模型;
S5: 利用训练得到 的BERT+CRF模型对存储的网络文本进行因果事理提取,并形成预设
格式的三元组;
S6: 对得到的三元组中的因事件和果事件进行量化编码得到因果事件的语义向量, 利
用语义向量计算三元 组之间的余弦距离, 以余弦距离为指标通过聚类算法将三元组聚类得
到因果事理 组;
S7: 将得到的因果事理 组进行遴 选和约化处 理, 保存约化处 理后的因果事理 组。
2.根据权利要求1所述的一种基于海量数据的因果事理组提取方法, 其特征在于, 所述
对样本集进行预标注,即采用关键词和正则匹配的方式对每个样本是否包含因果关系做 标
注。
3.根据权利要求1所述的一种基于海量数据的因果事理组提取方法, 其特征在于, 所述
对预标注后的文本集进行BIO格式的事件标注和因果关系 标注即采用短语方式标注事件,
所述短语包括: 主谓短语、 动宾短语、 主谓宾短语。
4.根据权利要求1所述的一种基于海量数据的因果事理组提取方法, 其特征在于, 对
BERT+CRF模 型进行训练时采用多任务训练, 所述多任务包括: 识别出样 本中的所有事件、 识
别样本中的因果关系。
5.根据权利要求1所述的一种基于海量数据的因果事理组提取方法, 其特征在于, 所述
预设格式的三元 组其格式为: ( “因”事件,因果关系系数, ”果”事件), 其中因果关系系数为0
~1之间的概 率值,表示“因”事件和”果”事件之间因关系的强弱。
6.根据权利要求1所述的一种基于海量数据的因果事理组提取方法, 其特征在于, 对得
到的三元组中的因事件和果事件进行量化编码得到因果事件的语义向量, 利用语义向量计
算三元组之 间的余弦距离, 以余弦距离为指标通过聚类算法将三元组 聚类得到因果事理组
具体步骤为:
S601: 对得到的三元组中的因事 件和果事 件进行量 化编码得到因果事 件的语义向量;
S602: 利用余弦相似度公式计算同一时间段内三元组语义向量的的余弦相似度, 利用
余弦相似度计算 余弦距离;
S603: 以余弦距离为度量指标使用聚类算法对三元组进行聚类得到因果事理 组。
7.根据权利要求6所述的一种基于海量数据的因果事理组提取方法, 其特征在于, 所述
聚类算法为Mi ni Batch K‑means算法。
8.根据权利要求1所述的一种基于海量数据的因果事理组提取方法, 其特征在于, 将得
到的因果事理 组进行遴 选和约化处 理, 保存约化处 理后的因果事理 组具体过程 为:
S701: 判断因果事理组中三元组的数量, 若三元组数量小于预设值或仅包含一个三元
组则舍弃当前因果事理 组;
S702: 若三元组数量大于或等于预设值, 则取因果事理组中因果系数最大的三元组代权 利 要 求 书 1/2 页
2
CN 114676840 A
2表当前因果事理组, 并将该三元组的因果系数更新为当前所在因果事理组内因果系数的均
值, 保存得到的因果事理 组。
9.一种基于海量数据的因果事理组提取系统, 其特征在于, 该系统包括: 存储器、 处理
器, 所述存储器中包括基于海量数据的因果事理组提取方法程序, 所述基于海量数据的因
果事理组提取方法程序被所述处 理器执行时实现如权利要求1 ‑8任一项所述的方法步骤。
10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质中包括基于海量
数据的因果事理组提取方法程序, 所述一种基于海量数据的因果事理图谱提取方法程序被
处理器执行时, 实现如权利要求 1至8中任一项 所述的一种基于海量数据的因果事理组提取
方法的步骤。权 利 要 求 书 2/2 页
3
CN 114676840 A
3
专利 一种基于海量数据的因果事理组提取方法、系统及计算机可读存储介质
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:41上传分享