standard library
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210019199.7 (22)申请日 2022.01.10 (65)同一申请的已公布的文献号 申请公布号 CN 114020881 A (43)申请公布日 2022.02.08 (73)专利权人 珠海金智维信息科技有限公司 地址 519000 广东省珠海市唐家湾镇哈工 大路1号1栋A3 01t (72)发明人 廖万里 金卓 林智聪 刘金朝  肖飞  (74)专利代理 机构 广州嘉权专利商标事务所有 限公司 4 4205 专利代理师 俞梁清 (51)Int.Cl. G06F 16/33(2019.01)G06F 16/35(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 112487827 A,2021.0 3.12 CN 112487827 A,2021.0 3.12 CN 112818975 A,2021.0 5.18 CN 113033315 A,2021.0 6.25 CN 109740158 A,2019.0 5.10 CN 113051371 A,2021.0 6.29 US 2021326 656 A1,2021.10.21 WO 2021139069 A1,2021.07.15 审查员 黄端 (54)发明名称 话题定位的方法及系统 (57)摘要 本发明涉及话题定位的方法及系统, 包括: 基于预处理后的文本数据构建文本数据样本集; 以文本数据样本集作为输入, 根据注 意力机制提 取文本数据样本集的语义特征, 通过定位识别网 络定位目标话题, 调整定位识别网络的卷积层的 输入张量, 输出目标话题的位置信息。 本发明的 有益效果为: 提高了话题定位的效率的同时提高 了话题定位的精确性。 权利要求书2页 说明书9页 附图4页 CN 114020881 B 2022.05.27 CN 114020881 B 1.一种话题定位的方法, 其特 征在于, 该 方法包括以下步骤: 基于预处 理后的文本数据构建文本数据样本集; 所述构建文本数据样本集包括对所述文本数据的话题标签进行标注, 根据文本的长 度, 选择页、 段、 句其中一个单位 为基本单位标注话题; 以所述文本数据样本集作为输入, 根据注意力 机制提取所述文本数据样本集的语义特 征, 调整定位识别网络卷积层的输入张量, 基于所述语义特征定位目标话题, 输出所述目标 话题的位置信息, 采用零填充文本语义特 征, 避免对矩阵进行压缩而导 致特征信息的缺失; 所述调整定位识别网络卷积层的输入张量包括基于文本数据单通道特性对卷积层通 道数进行调整, 调整所述输入张量的通道为单通道; 所述目标话题的位置信息为目标话题的起始单位 位置和终止单位 位置。 2.根据权利要求1所述的话题定位的方法, 其特征在于, 所述构建文本数据样本集包 括: 对所述文本数据进行格式化; 将格式化后的所述文本数据与所述话题标签生成文本数据样本, 至少一个的所述文本 数据样本构成所述文本数据样本集。 3.根据权利要求2所述的话题定位的方法, 其特征在于, 所述对所述文本数据进行格式 化包括: 依据分词算法对所述文本数据进行划分, 将所述文本数据转换为由至少一个字或词组 成的第一词向量; 基于滑动窗口从所述第 一词向量中截取固定字数的第 二词向量, 所述第 二词向量作为 格式化后的所述文本数据。 4.根据权利要求1所述的话题定位的方法, 其特征在于, 所述调整定位识别网络的卷积 层的输入张量, 包括: 调整所述输入张量的规格, 使所述输入张量的规格, 大于等于所述语义特征的张量规 格。 5.根据权利要求1所述的话题定位的方法, 其特 征在于, 所述定位目标话题, 包括: 根据所述目标话题的维度信息, 调整所述定位识别网络 输出的维度信息; 依据金字塔特 征图, 将所述语义特 征进行卷积和矩阵拼接, 得到不同尺寸的特 征图; 融合所述特征图, 预测得到不同范围的所述目标话题的起始单位位置和终止单位位 置; 设置过滤条件, 过滤得到目标话题的所述目标话题的起始单位 位置和终止单位 位置。 6.根据权利要求1所述的话题定位的方法, 其特征在于, 所述提取所述文本数据样本集 的语义特 征, 包括: 通过多头自注意力子层, 计算所述文本数据对应的矩阵注意力特 征向量; 将所述文本数据与所述特征向量相加, 并进行所述多头自注意力子层的标准化, 得到 第一输出向量; 通过前馈神经网络 子层, 计算所述第一输出向量对应的前馈向量; 将所述第一输出向量与所述前馈向量相加, 并进行所述前馈神经网络子层的标准化,权 利 要 求 书 1/2 页 2 CN 114020881 B 2提取到所述文本数据样本集的语义特 征。 7.根据权利要求1所述的话题定位的方法, 其特征在于, 所述输出所述目标话题的位置 信息之后, 还 包括: 通过优化损 失函数, 对所述输出所述目标话题的位置信息进行评估, 所述优化损 失函 数包括预测坐标损失、 置信度损失和分类损失优化; 其中, 所述 坐标损失是目标话题起始单位 位置和终止单位 位置带来的误差 。 8.一种话题定位的系统, 用于实现如权利要求1 ‑7任一项所述的话题定位的方法, 其特 征在于, 包括: 第一模块, 用于基于预处 理后的文本数据构建文本数据样本集; 第二模块, 用于以所述文本数据样本集作为输入, 根据注意力机制提取所述文本数据 样本集的语义特征, 调整定位识别网络的卷积层的输入张量, 基于所述语义特征定位 目标 话题, 输出 所述目标话题的位置信息 。 9.根据权利要求8所述的话题定位的系统, 其特 征在于, 所述第一模块,包括: 样本构建模块, 用于对所述文本数据的话题标签进行标注, 以及, 对所述文本数据进行 格式化; 将格式化后的所述文本数据与所述话题标签生成文本数据样本, 多个所述文本数 据样本构成所述文本数据样本集; 格式化模块, 用于依据分词算法对所述文本数据进行划分, 将所述文本数据转换为由 至少一个字或词组成的第一词向量; 基于滑动窗口从所述第一词向量中截 取固定字数的第 二词向量。 10.根据权利要求8所述的话题定位的系统, 其特 征在于, 所述第二模块, 包括: 语义特征提取模块, 用于通过多头自注意力子层, 计算所述文本数据对应的矩阵注意 力特征向量; 将所述文本数据与所述特征向量相加, 并进行所述多头 自注意力子层的标准 化, 得到第一输出向量; 通过前馈神经网络子层, 计算所述第一输出向量对应的前馈 向量; 将所述第一输出向量与所述前馈向量相加, 并进行所述前馈神经网络子层的标准化, 提取 到所述文本数据样本集的语义特 征; 话题定位模块, 根据所述目标话题的维度信息, 调整所述定位识别网络输出的维度信 息; 依据金字塔特征图, 将所述语义特征进行卷积和矩阵拼接, 得到不同尺寸的特征图; 融 合所述特征图, 预测得到不同范围的所述 目标话题的起始单位位置和终止单位位置; 设置 过滤条件, 过滤得到目标话题的所述目标话题起始单位 位置和终止单位 位置。权 利 要 求 书 2/2 页 3 CN 114020881 B 3

PDF文档 专利 话题定位的方法及系统

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 话题定位的方法及系统 第 1 页 专利 话题定位的方法及系统 第 2 页 专利 话题定位的方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:34:00上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。