standard library
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210095962.4 (22)申请日 2022.01.26 (71)申请人 京东科技信息技 术有限公司 地址 100176 北京市北京经济技 术开发区 科创十一 街18号院2号楼6层6 01 (72)发明人 孙宏超 陈蒙 (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 代理人 杜月 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/216(2020.01) G06F 40/258(2020.01) G06F 40/30(2020.01) (54)发明名称 文本摘要的生成方法及其装置 (57)摘要 本公开提出了一种文本摘要的生成方法及 其装置, 涉及自然语言处理领域, 该文本摘要的 生成方法包括: 获取目标文本; 对目标文本中的 候选句子进行聚类, 生成至少一个聚类簇; 针对 每个聚类簇, 从聚类簇所包括的目标句子中, 提 取聚类簇的核心句子; 根据每个聚类簇的核心句 子, 生成目标文本的文本摘要。 由此, 通过对目标 文本中句子进行聚类处理的方式, 可以获取目标 文本的主题, 并从主题中提取文本摘要, 使得文 本摘要更加全面、 准确。 权利要求书3页 说明书11页 附图4页 CN 114428859 A 2022.05.03 CN 114428859 A 1.一种文本摘要的生成方法, 其特 征在于, 包括: 获取目标文本; 对所述目标文本中的候选句子进行聚类, 生成至少一个聚类簇; 针对每个所述聚类簇, 从所述聚类簇所包括的目标句子中, 提取所述聚类簇的核心句 子; 根据每个所述聚类簇的核心句子, 生成所述目标文本的文本摘要。 2.根据权利要求1所述的方法, 其特征在于, 所述对所述目标文本中的句子进行聚类, 生成至少一个聚类簇, 还 包括: 对所述目标文本进行拆分, 生成多个所述 候选句子; 对所述候选句子进行主题聚类, 生成所述至少一个聚类簇, 其中, 一个主题对应一个聚 类簇。 3.根据权利要求2所述的方法, 其特征在于, 所述对所述候选句子进行主题聚类, 生成 所述至少一个聚类簇, 包括: 获取所述候选句子出现在所述聚类簇中的出现概 率; 选取所述出现概 率最大的聚类簇, 确定为所述 候选句子所 隶属的目标聚类簇 。 4.根据权利要求3所述的方法, 其特征在于, 所述获取所述候选句子出现在所述 聚类簇 中的出现概 率, 包括: 获取所述聚类簇的完整性 参数; 获取所述聚类簇与所述 候选句子的同质性 参数; 获取所述聚类簇与所包括的所述目标句子之间存在的共现词的语义权 重; 根据所述完整性 参数、 所述同质性 参数和所述语义权 重, 获取所述出现概 率。 5.根据权利要求 4所述的方法, 其特 征在于, 所述获取 所述聚类簇的完整性 参数, 包括: 获取所述聚类簇中当前 所包括目标句子的第一数量; 获取所述目标文本中所述 候选句子的第二数量; 根据所述第一数量和所述第二数量, 确定所述完整性 参数。 6.根据权利要求4所述的方法, 其特征在于, 所述获取所述 聚类簇与 所述候选句子的同 质性参数, 包括: 获取任一分词在所述 候选句子中出现的第一词频; 获取所述任一分词在所述聚类簇中出现的第二词频和所述聚类簇的总词数; 获取所述任一分词在各个聚类簇的第一权 重; 根据所述第一词频、 所述第二词频、 所述总词数、 所述第一权重和词典大小, 确定所述 同质性参数。 7.根据权利要求4所述的方法, 其特征在于, 所述获取所述 聚类簇与 所包括的所述目标 候选句子之间的共现词的语义权 重, 包括: 获取所述共现词在每个所述 聚类簇中所述目标句子 中出现的第 二词频, 并根据每个所 述共现词的第二词频, 确定所述语义权 重。 8.根据权利要求7所述的方法, 其特征在于, 所述根据每个所述共现词的第二词频, 确 定所述语义权 重, 包括: 根据任意两个共现词的第二词频, 获取 所述任意两个共现词之间的子语义权 重;权 利 要 求 书 1/3 页 2 CN 114428859 A 2对所有的所述任意两个共现词之间的子语义权 重求和, 得到所述语义权 重。 9.根据权利要求8所述的方法, 其特 征在于, 采用如下公式确定所述子语义权 重: 其中, 所述wij表示所述子语义权重; 所述x ′表示所述目标句子; 所述 表示共现词wi 出现在所述目标句子 中的第二词频; 所述 表示共现词wj出现在所述目标句子 中的第二 词频。 10.根据权利要求2 ‑9任一项所述的方法, 其特征在于, 所述对所述候选句子进行主题 聚类, 生成所述至少一个聚类簇, 包括: 通过主题聚类模型对所述候选句子进行主题聚类分析, 获取所述候选句子在所述聚类 簇中出现的出现概 率。 11.根据权利要求1 ‑9任一项所述的方法, 其特征在于, 所述从所述聚类簇所包括的目 标句子中, 提取 所述聚类簇的核心句子, 包括: 获取所述聚类簇中的目标句子的第二权 重; 根据所述第二权 重, 从所述聚类簇中的目标句子中, 选取 所述聚类簇的核心句子 。 12.根据权利要求11所述的方法, 其特征在于, 所述获取所述聚类簇 中的目标句子的第 二权重, 包括: 获取所述聚类簇中目标句子之间的有向图, 其中, 所述有向图中的节点表示所述目标 句子, 所述节点之间的边表示所述目标句子之间的贡献关系; 根据所述有向图和文本排名Text Rank算法, 获取所述聚类簇中每个所述目标句子的第 二权重。 13.一种文本摘要的生成装置, 其特 征在于, 包括: 获取模块, 用于获取目标文本; 聚类模块, 用于对所述目标文本中的候选句子进行聚类, 生成至少一个聚类簇; 提取模块, 用于针对每个所述聚类簇, 从所述聚类簇所包括的目标句子中, 提取所述 聚 类簇的核心句子; 生成模块, 用于根据每 个所述聚类簇的核心句子, 生成所述目标文本的文本摘要。 14.根据权利要求13所述的装置, 所述聚类模块, 还用于: 对所述目标文本进行拆分, 生成多个所述 候选句子; 对所述候选句子进行主题聚类, 生成所述至少一个聚类簇, 其中, 一个主题对应一个聚 类簇。 15.根据权利要求14所述的装置, 所述聚类模块, 还用于: 获取所述候选句子出现在所述聚类簇中的出现概 率; 选取所述出现概 率最大的聚类簇, 确定为所述 候选句子所 隶属的目标聚类簇 。 16.根据权利要求15所述的装置, 所述聚类模块, 还用于: 获取所述聚类簇的完整性 参数;权 利 要 求 书 2/3 页 3 CN 114428859 A 3
专利 文本摘要的生成方法及其装置
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:33:44
上传分享
举报
下载
原文档
(699.4 KB)
分享
友情链接
DB15-T 2186—2021 林草数据备份管理规范 内蒙古自治区.pdf
T-GDFZ 0001—2018 无缝压胶服装.pdf
GB-T 34004-2017 家用和小型餐饮厨房用燃气报警器及传感器.pdf
清华大学 - SuperBench大模型综合能力评测报告 0412 v2.2.pdf
高耗能特种设备节能监督管理办法.pdf
GB-T 39201-2020 高铝粉煤灰提取氧化铝技术规范.pdf
GB-T 33452-2016 洗染术语.pdf
GB-T 33667-2017 高校毕业生就业指导服务规范.pdf
DB11-T 1412-2017 区域规划节能评估技术规范 北京市.pdf
GB-T 34608-2017 节水型企业 铁矿采选行业.pdf
安全架构实践的公理 2020.pdf
GB-T 38289-2019 城市燃气设施运行安全信息分类与基本要求.pdf
信息安全技术 网络安全等级保护基本要求 第1部分: 安全通用要求 标准征求意见稿.pdf
GB-T 41670-2022 安全与韧性 社区韧性 突发事件弱势群体救援指南 ISO 22395-2018.pdf
GB-T 32672-2016 电力需求响应系统通用技术规范.pdf
DB4105-T 172—2021 家政服务 家庭清洁服务规范 安阳市.pdf
GB-T 29246-2023 信息安全技术 信息安全管理体系 概述和词汇.pdf
DB52-T 945-2015 热力输送管道节能技术规范 贵州省.pdf
YY-T 1869-2023 探测器阵列剂量测量系统 性能和试验方法.pdf
JY-T 0583-2020 聚焦离子束系统分析方法通则.pdf
1
/
19
评价文档
赞助2.5元 点击下载(699.4 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。