(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210147945.0
(22)申请日 2022.02.17
(71)申请人 新智道枢 (上海) 科技有限公司
地址 201702 上海市青浦区高光路215弄9 9
号1幢楼五层5 01室
(72)发明人 王明光 邱世界 钟浩
(74)专利代理 机构 上海锻创知识产权代理有限
公司 314 48
专利代理师 韩冰
(51)Int.Cl.
G06F 16/34(2019.01)
G06F 40/295(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
(54)发明名称
单文档抽取式文本摘要识别方法及系统
(57)摘要
本发明提供一种单文档抽取式文本摘要识
别方法及系统, 包括: 数据预处理步骤: 获取一段
文档, 拆分成多句话, 组成文档集合D=[S1,
S2,....Sn ], 其中S1, S2, ..., Sn表示文档中的每
个句子; Ernie编码步骤: 对获得文档集合D=
[S1,S2,....Sn]分别进行Ernie处理, 得到V=
[V1,V2,....Vn], 其中, V1, V2, ..., Vn表示经过
Ernie编码后的每个句子向量; 相似度计算步骤:
计算V中两两的相似度, 组合成以V为顶点, 以相
似度值为边的图结构; TextRank步骤: 生成图结
构后, 进入TextRank层, 计算句子评分, 选 取得分
高的一个或多个句子生成摘要。 本发 明能够更好
的捕获中文语义特 征, 做更好的表征 学习。
权利要求书2页 说明书7页 附图1页
CN 114840661 A
2022.08.02
CN 114840661 A
1.一种单文档抽取式文本摘要识别方法, 其特 征在于, 包括:
数据预处理步骤: 获取一段文档, 拆分成多句话, 组成文档集合D=[S1,S2,....Sn], 其
中S1, S2, . .., Sn表示文档中的每 个句子;
Ernie编码步骤: 对获得文档集合D=[S1,S2,....Sn]分别进行Ernie处理, 得到V=
[V1,V2,....Vn], 其中, V1, V 2, ..., Vn表示经 过Ernie编码后的每 个句子向量;
相似度计算步骤: 计算V中两两的相似度, 组合成以V为顶点, 以相似度值为边的图结
构;
TextRank步骤: 生成图结构后, 进入TextRank层, 计算句子评分, 选取得分高的一个或
多个句子生成摘要。
2.根据权利要求1所述的单文档抽取式文本摘要识别方法, 其特征在于, 所述数据 预处
理步骤负责清洗准备 数据, 对每 个文档, 拆分数据, 去除停用词及过 滤词在内的相关词。
3.根据权利要求1所述的单文档抽取式文本摘要识别方法, 其特征在于, 所述Ernie编
码步骤中采用Er nie来进行语言语句编码, Er nie模型通过建模海量数据中的实体概念在内
的相关先验语义知识, 学习真实世界的语义关系;
且Ernie模型本身保持基于 字特征输入建模, 使得模型在应用时不需要依赖其 他信息。
4.根据权利要求1所述的单文档抽取式文本摘要识别方法, 其特征在于, 所述相似度计
算步骤包括: 使用cosine余弦函数计算两两的相 似度, 最终构造以V为顶点, 以相似度值为
边的graph图结构。
5.根据权利 要求1所述的单文档抽取式文本摘 要识别方法, 其特征在于, 所述Text Rank
步骤具体包括: 计算句子 评分, 选取 得分高的若干句子生成摘要:
其中, d为基尼系数, Vi为其 中第i个节点, P(Vi)为第i个节点的权重, 代表该i个句子的
重要性; Vj为其中第j个节点, P(Vj)为第j个节点的权重, 代表该j个句子的重要性; Vk表示
Vj出度集合的其中一个节点; Wjk表示Vj和Vk之间的相似度; Wij为Vi和Vj的计算相似度, In
(Vi)为其中Vi的入度集 合, Out(Vj)为Vj的出度集 合。
6.一种单文档抽取式文本摘要识别系统, 其特 征在于, 包括:
数据预处理模块: 获取一段文档, 拆分成多句话, 组成文档集合D=[S1,S2,....Sn], 其
中S1, S2, . .., Sn表示文档中的每 个句子;
Ernie编码模块: 对获得文档集合D=[S1,S2,....Sn]分别进行Ernie处理, 得到V=
[V1,V2,....Vn], 其中, V1, V 2, ..., Vn表示经 过Ernie编码后的每 个句子向量;
相似度计算模块: 计算V中两两的相似度, 组合成以V为顶点, 以相似度值为边的图结
构;
TextRank模块: 生成图结构后, 进入TextRank层, 计算句子评分, 选取得分高的一个或
多个句子生成摘要。
7.根据权利要求6所述的单文档抽取式文本摘要识别系统, 其特征在于, 所述数据 预处
理模块负责清洗准备 数据, 对每 个文档, 拆分数据, 去除停用词及过 滤词在内的相关词。
8.根据权利要求6所述的单文档抽取式文本摘要识别系统, 其特征在于, 所述Ernie编权 利 要 求 书 1/2 页
2
CN 114840661 A
2码模块中采用Er nie来进行语言语句编码, Er nie模型通过建模海量数据中的实体概念在内
的相关先验语义知识, 学习真实世界的语义关系;
且Ernie模型本身保持基于 字特征输入建模, 使得模型在应用时不需要依赖其 他信息。
9.根据权利要求6所述的单文档抽取式文本摘要识别系统, 其特征在于, 所述相似度计
算模块包括: 使用cosine余弦函数计算两两的相 似度, 最终构造以V为顶点, 以相似度值为
边的graph图结构。
10.根据权利要求6所述的单文档抽取式文本摘要识别系统, 其特征在于, 所述
TextRank步骤具体包括: 计算句子 评分, 选取 得分高的若干句子生成摘要:
其中, d为基尼系数, Vi为其 中第i个节点, P(Vi)为第i个节点的权重, 代表该i个句子的
重要性; Vj为其中第j个节点, P(Vj)为第j个节点的权重, 代表该j个句子的重要性; Vk表示
Vj出度集合的其中一个节点; Wjk表示Vj和Vk之间的相似度; Wij为Vi和Vj的计算相似度, In
(Vi)为其中Vi的入度集 合, Out(Vj)为Vj的出度集 合。权 利 要 求 书 2/2 页
3
CN 114840661 A
3
专利 单文档抽取式文本摘要识别方法及系统
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:33上传分享