(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221014731 1.5
(22)申请日 2022.02.17
(71)申请人 北京小米移动软件 有限公司
地址 100085 北京市海淀区西二 旗中路33
号院6号楼8层018号
申请人 北京小米松果电子有限公司
(72)发明人 花新宇 代文 陈帅
(74)专利代理 机构 北京善任知识产权代理有限
公司 11650
专利代理师 张振伟 孟桂超
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/35(2019.01)
G06F 40/30(2020.01)
(54)发明名称
文本处理方法及装置、 电子设备及存 储介质
(57)摘要
本公开是关于一种文本处理方法及装置、 电
子设备及存储介质。 本公开实施例提供的文本处
理方法可包括: 利用第一模型对目标文本进行分
类处理, 得到所述目标文本的事件因果关系的分
类结果; 利用第二模型对所述目标文本进行处
理, 得到候选原因事件类型和候选结果事件类型
的相似性, 并基于所述相似性得到所述第二模型
输出的目标文本的事件因果关系的预测结果; 利
用第三模型根据目标文本的语义, 得到所述目标
文本的事件因果关系的输出结果; 根据所述分类
结果、 所述预测结果以及所述输出结果, 确定所
述目标文本的目标事 件因果关系。
权利要求书3页 说明书17页 附图7页
CN 114579698 A
2022.06.03
CN 114579698 A
1.一种文本处 理方法, 其特 征在于, 所述方法包括:
利用第一模型对目标文本进行分类处理, 得到所述目标文本的事件因果关系的分类结
果;
利用第二模型对所述目标文本进行处理, 得到候选原因事件类型和候选结果事件类型
的相似性, 并基于所述相似性得到所述第二模 型输出的目标文本的事件因果关系的预测结
果;
利用第三模型根据目标文本的语义, 得到所述目标文本的事 件因果关系的输出 结果;
根据所述分类结果、 所述预测结果以及所述输出结果, 确定所述目标文本的目标事件
因果关系。
2.根据权利要求1所述的方法, 其特征在于, 所述利用第 一模型对目标文本进行分类处
理, 得到所述目标文本的事 件因果关系的分类结果, 包括:
将所述目标文本 输入到所述第一模型的编码层, 得到所述目标文本的编码序列;
对所述编码序列进行分类处理, 得到所述编码序列中各个词的编码数据的分类标签,
其中, 所述分类标签包括: 原因事 件类型标签和结果事 件类型标签;
根据所述分类标签, 得到所述分类结果。
3.根据权利要求2所述的方法, 其特征在于, 所述根据所述分类标签和所述分类概率,
得到所述分类结果, 包括:
当所述编码序列具有一个所述原因事件类型标签和一个所述结果事件类型标签时, 组
合所述原因事 件类型标签和所述结果事 件类型标签得到所述分类结果;
当所述编码序列具有多个原因事件类型标签和/或多个结果事件类型标签时, 根据所
述第一模型输出的所述原因事件类型标签的分类概率和/或所述结果事件类型标签的分类
概率, 得到分类概 率最高一个或多个的所述分类结果。
4.根据权利要求1至3任一项所述的方法, 其特征在于, 所述利用第二模型对所述目标
文本进行处理, 得到候选原因事件类型和候选结果事件类型 的相似性, 并基于所述相似性
得到所述第二模型输出的目标文本的事 件因果关系的预测结果, 包括:
利用所述第 二模型的分类分支, 对所述目标文本的编码序列进行分类得到各个备选原
因事件类型和备选结果事 件类型的标签;
将所述备选原 因事件类型和所述备选结果事件类型任意组合, 得到备选事件因果关系
组合;
确定任意一个所述备选关系组合以及所述目标文本的编码序列输入到所述第二模型
的预测分支, 得到各所述备选 关系组合内备选原因事件类型和所述备选结果事件类型的相
似性;
根据所述相似性输出 所述预测结果。
5.根据权利要求 4所述的方法, 其特 征在于, 所述方法还 包括:
确定任意一个所述备选关系组合以及所述目标文本的编码序列输入到所述第二模型
的所述第二模型的事 件要素抽取分支, 得到所述事 件要素抽取分支输出的事 件要素。
6.根据权利要求5所述的方法, 其特 征在于, 所述方法还 包括:
根据所述目标事件因果关系的所述预测结果的各事件要素的出现次数, 确定输出的所
述事件要素。权 利 要 求 书 1/3 页
2
CN 114579698 A
27.根据权利要求1至3任一项所述的方法, 其特征在于, 所述利用第三模型根据目标文
本的语义, 得到所述目标文本的事 件因果关系的输出 结果, 包括:
将根据从所述目标文本中实体构建的问题语句以及所述目标文本输入到所述第三模
型, 通过所述问题语句和所述目标文本的语义匹配得到所述目标文本的事件因果关系的输
出结果。
8.根据权利要求1至3任一项所述的方法, 其特征在于, 所述根据 所述分类结果、 所述预
测结果以及所述输出 结果, 确定所述目标文本的目标事 件因果关系, 包括:
根据所述分类结果的分类概 率以及分类阈值, 确定第一备选事 件因果关系;
根据所述预测结果的相似度以及相似度阈值, 确定第二备选事 件因果关系;
根据所述输出结果对应问题语句和目标文本的匹配度以及匹配度阈值, 确定第 三备选
事件因果关系;
将同时属于所述第 一备选事件因果关系、 所述第 二备选事件因果关系以及所述第 三备
选事件因果关系的事 件因果关系, 确定为所述目标事 件因果关系。
9.一种文本处 理装置, 其特 征在于, 所述装置包括:
第一模型模块, 用于利用第一模型对目标文本进行分类处理, 得到所述目标文本的事
件因果关系的分类结果;
第二模型模块, 用于利用第二模型对所述目标文本进行处理, 得到候选原因事件类型
和候选结果事件类型的相似性, 并基于所述相似性得到所述第二模型输出的目标文本的事
件因果关系的预测结果;
第三模型模块, 用于利用第三模型根据目标文本的语义, 得到所述目标文本的事件因
果关系的输出 结果;
确定模块, 用于根据 所述分类结果、 所述预测结果以及所述输出结果, 确定所述目标文
本的目标事 件因果关系。
10.根据权利要求9所述的装置, 其特征在于, 所述第 一模型模块, 具体用于将所述目标
文本输入到所述第一模型 的编码层, 得到所述 目标文本的编码序列; 对所述编码序列进行
分类处理, 得到所述编码序列中各个词的编码数据的分类标签, 其中, 所述分类标签包括:
原因事件类型标签和结果事 件类型标签; 根据所述分类标签, 得到所述分类结果。
11.根据权利要求10所述的装置, 其特征在于, 所述第一模型模块, 还具体用于当所述
编码序列具有一个所述原因事件类型标签和一个所述结果事件类型标签时, 组合所述原因
事件类型标签和所述结果事件类型标签得到所述分类结果; 当所述编 码序列具有多个原因
事件类型标签和/或多个结果事件类型标签时, 根据所述第一模型输出 的所述原因事件类
型标签的分类概率和/或所述结果事件类型标签的分类概率, 得到分类概率最高一个或多
个的所述分类结果。
12.根据权利要求9至11任一项所述的装置, 其特征在于, 所述第二模型模块, 具体用于
利用所述第二模型的分类分支, 对所述目标文本的编 码序列进行分类得到各个备选原因事
件类型和备选结果事件类型的标签; 将所述备选原因事件类型和所述备选结果事件类型任
意组合, 得到备选事件因果关系组合; 确定任意一个所述备选关系组合以及所述 目标文本
的编码序列输入到所述第二模型的预测分支, 得到各所述备选 关系组合内备选原因事件类
型和所述备选结果事 件类型的相似性; 根据所述相似性输出 所述预测结果。权 利 要 求 书 2/3 页
3
CN 114579698 A
3
专利 文本处理方法及装置、电子设备及存储介质
文档预览
中文文档
28 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:33上传分享