standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210147945.0 (22)申请日 2022.02.17 (71)申请人 新智道枢 (上海) 科技有限公司 地址 201702 上海市青浦区高光路215弄9 9 号1幢楼五层5 01室 (72)发明人 王明光 邱世界 钟浩  (74)专利代理 机构 上海锻创知识产权代理有限 公司 314 48 专利代理师 韩冰 (51)Int.Cl. G06F 16/34(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (54)发明名称 单文档抽取式文本摘要识别方法及系统 (57)摘要 本发明提供一种单文档抽取式文本摘要识 别方法及系统, 包括: 数据预处理步骤: 获取一段 文档, 拆分成多句话, 组成文档集合D=[S1, S2,....Sn ], 其中S1, S2, ..., Sn表示文档中的每 个句子; Ernie编码步骤: 对获得文档集合D= [S1,S2,....Sn]分别进行Ernie处理, 得到V= [V1,V2,....Vn], 其中, V1, V2, ..., Vn表示经过 Ernie编码后的每个句子向量; 相似度计算步骤: 计算V中两两的相似度, 组合成以V为顶点, 以相 似度值为边的图结构; TextRank步骤: 生成图结 构后, 进入TextRank层, 计算句子评分, 选 取得分 高的一个或多个句子生成摘要。 本发 明能够更好 的捕获中文语义特 征, 做更好的表征 学习。 权利要求书2页 说明书7页 附图1页 CN 114840661 A 2022.08.02 CN 114840661 A 1.一种单文档抽取式文本摘要识别方法, 其特 征在于, 包括: 数据预处理步骤: 获取一段文档, 拆分成多句话, 组成文档集合D=[S1,S2,....Sn], 其 中S1, S2, . .., Sn表示文档中的每 个句子; Ernie编码步骤: 对获得文档集合D=[S1,S2,....Sn]分别进行Ernie处理, 得到V= [V1,V2,....Vn], 其中, V1, V 2, ..., Vn表示经 过Ernie编码后的每 个句子向量; 相似度计算步骤: 计算V中两两的相似度, 组合成以V为顶点, 以相似度值为边的图结 构; TextRank步骤: 生成图结构后, 进入TextRank层, 计算句子评分, 选取得分高的一个或 多个句子生成摘要。 2.根据权利要求1所述的单文档抽取式文本摘要识别方法, 其特征在于, 所述数据 预处 理步骤负责清洗准备 数据, 对每 个文档, 拆分数据, 去除停用词及过 滤词在内的相关词。 3.根据权利要求1所述的单文档抽取式文本摘要识别方法, 其特征在于, 所述Ernie编 码步骤中采用Er nie来进行语言语句编码, Er nie模型通过建模海量数据中的实体概念在内 的相关先验语义知识, 学习真实世界的语义关系; 且Ernie模型本身保持基于 字特征输入建模, 使得模型在应用时不需要依赖其 他信息。 4.根据权利要求1所述的单文档抽取式文本摘要识别方法, 其特征在于, 所述相似度计 算步骤包括: 使用cosine余弦函数计算两两的相 似度, 最终构造以V为顶点, 以相似度值为 边的graph图结构。 5.根据权利 要求1所述的单文档抽取式文本摘 要识别方法, 其特征在于, 所述Text Rank 步骤具体包括: 计算句子 评分, 选取 得分高的若干句子生成摘要: 其中, d为基尼系数, Vi为其 中第i个节点, P(Vi)为第i个节点的权重, 代表该i个句子的 重要性; Vj为其中第j个节点, P(Vj)为第j个节点的权重, 代表该j个句子的重要性; Vk表示 Vj出度集合的其中一个节点; Wjk表示Vj和Vk之间的相似度; Wij为Vi和Vj的计算相似度, In (Vi)为其中Vi的入度集 合, Out(Vj)为Vj的出度集 合。 6.一种单文档抽取式文本摘要识别系统, 其特 征在于, 包括: 数据预处理模块: 获取一段文档, 拆分成多句话, 组成文档集合D=[S1,S2,....Sn], 其 中S1, S2, . .., Sn表示文档中的每 个句子; Ernie编码模块: 对获得文档集合D=[S1,S2,....Sn]分别进行Ernie处理, 得到V= [V1,V2,....Vn], 其中, V1, V 2, ..., Vn表示经 过Ernie编码后的每 个句子向量; 相似度计算模块: 计算V中两两的相似度, 组合成以V为顶点, 以相似度值为边的图结 构; TextRank模块: 生成图结构后, 进入TextRank层, 计算句子评分, 选取得分高的一个或 多个句子生成摘要。 7.根据权利要求6所述的单文档抽取式文本摘要识别系统, 其特征在于, 所述数据 预处 理模块负责清洗准备 数据, 对每 个文档, 拆分数据, 去除停用词及过 滤词在内的相关词。 8.根据权利要求6所述的单文档抽取式文本摘要识别系统, 其特征在于, 所述Ernie编权 利 要 求 书 1/2 页 2 CN 114840661 A 2码模块中采用Er nie来进行语言语句编码, Er nie模型通过建模海量数据中的实体概念在内 的相关先验语义知识, 学习真实世界的语义关系; 且Ernie模型本身保持基于 字特征输入建模, 使得模型在应用时不需要依赖其 他信息。 9.根据权利要求6所述的单文档抽取式文本摘要识别系统, 其特征在于, 所述相似度计 算模块包括: 使用cosine余弦函数计算两两的相 似度, 最终构造以V为顶点, 以相似度值为 边的graph图结构。 10.根据权利要求6所述的单文档抽取式文本摘要识别系统, 其特征在于, 所述 TextRank步骤具体包括: 计算句子 评分, 选取 得分高的若干句子生成摘要: 其中, d为基尼系数, Vi为其 中第i个节点, P(Vi)为第i个节点的权重, 代表该i个句子的 重要性; Vj为其中第j个节点, P(Vj)为第j个节点的权重, 代表该j个句子的重要性; Vk表示 Vj出度集合的其中一个节点; Wjk表示Vj和Vk之间的相似度; Wij为Vi和Vj的计算相似度, In (Vi)为其中Vi的入度集 合, Out(Vj)为Vj的出度集 合。权 利 要 求 书 2/2 页 3 CN 114840661 A 3

PDF文档 专利 单文档抽取式文本摘要识别方法及系统

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 单文档抽取式文本摘要识别方法及系统 第 1 页 专利 单文档抽取式文本摘要识别方法及系统 第 2 页 专利 单文档抽取式文本摘要识别方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:33上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。