standard library
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210039477.5 (22)申请日 2022.01.13 (71)申请人 平安普惠企业管理有限公司 地址 518000 广东省深圳市前海深港合作 区前湾一路1号A栋201室 (入驻深圳市 前海商务秘书 有限公司) (72)发明人 刘欢  (74)专利代理 机构 深圳市赛恩倍吉知识产权代 理有限公司 4 4334 代理人 陈实顺 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/284(2020.01) G06F 40/216(2020.01) (54)发明名称 基于人工智能的中文语义提取方法及相关 设备 (57)摘要 本发明涉及人工智能技术领域, 提供一种基 于人工智能的中文语义提取方法及相关设备, 对 训练文本的字符序列和分词序列分别进行特征 提取得到字符向量序列和分词向量序列, 将分词 向量序列按照字符向量序列进行对齐处理, 基于 字符向量序列和对齐处理后的分词向量序列计 算第一损失函数值, 在基于字 符序列生成第一语 句向量和基于分词序列生 成第二语句向量后, 根 据第一语句向量和第二语句向量计算第二损失 函数值, 使用两个损失函数值迭代训练预设多任 务模型得到中文语义提取模型, 最后使用中文语 义提取模型提取待识别中文文本的中文语义。 本 发明将字符序列和分词序列对齐并相结合, 提升 了中文语义提取模型的性能, 从而提高了语义理 解的准确率。 权利要求书2页 说明书14页 附图2页 CN 114398902 A 2022.04.26 CN 114398902 A 1.一种基于人工智能的中文语义 提取方法, 其特 征在于, 所述方法包括: 获取训练文本的字符序列及获取 所述训练文本的分词序列; 基于所述字符序列进行特征提取, 得到字符向量序列, 及基于所述分词序列进行特征 提取, 得到分词向量序列; 将所述分词向量序列按照所述字符向量序列进行对齐处理, 并基于所述字符向量序列 和对齐处 理后的分词向量序列计算第一损失函数值; 基于所述字符序列生成第一语句向量, 基于所述分词序列生成第二语句向量, 基于所 述第一语句向量和所述第二语句向量计算第二损失函数值; 基于所述第 一损失函数值及所述第 二损失函数值对预设多任务模型进行迭代训练, 得 到中文语义 提取模型; 使用所述中文语义 提取模型提取待识别中文 文本的中文语义。 2.如权利要求1所述的基于人工智能的中文语义提取方法, 其特征在于, 所述获取所述 训练文本的分词序列包括: 采用多种分割路径对所述训练文本进行分词处 理; 获取每种分割路径对应的多个分词; 基于预设词性 转换概率矩阵计算每种分割路径对应的多个分词的转换概 率; 根据所述 转换概率从所述多种分割路径中选取目标分割路径; 根据所述目标分割路径对应的多个分词得到所述分词序列。 3.如权利要求2所述的基于人工智能的中文语义提取方法, 其特征在于, 所述采用多种 分割路径对所述训练文本进行分词处 理包括: 获取所述训练文本的字符数; 根据所述字符数建立网络 拓补图; 当所述训练文本 中的第i个字符与第j个字符之间的字符能够构 成一个分词, 在所述网 络拓补图的第i个顶点和第j个顶点之间建立有向边, 得到有向图, 所述有向图的有向边对 应的分词为第i个字符与第j个字符 之间的字符; 采用最短图路径搜索算法搜索所述有向图中的多个最短路径; 根据多个所述 最短路径对应的字符对所述训练文本进行分词处 理。 4.如权利要求1所述的基于人工智能的中文语义提取方法, 其特征在于, 所述将所述分 词向量序列按照所述字符向量序列进行对齐处 理包括: 计算所述分词向量序列中每 个分词的字符长度; 根据所述字符长度将对应的分词向量进行复制, 得到新的分词向量; 基于所述 新的分词向量 生成新的分词向量序列。 5.如权利要求1所述的基于人工智能的中文语义提取方法, 其特征在于, 所述基于所述 字符向量序列和对齐处 理后的分词向量序列计算第一损失函数值包括: 获取所述字符向量序列中与所述对齐处 理后的分词向量序列中相同位置的元 素; 对相同位置的元 素进行加权求和, 得到新的元 素; 基于所述 新的元素得到新的向量序列; 基于所述 新的向量序列计算条件随机场的第一损失函数值。 6.如权利要求1至5中任意一项所述的基于人工智能的中文语义提取方法, 其特征在权 利 要 求 书 1/2 页 2 CN 114398902 A 2于, 所述基于所述字符序列生成第一语句向量, 基于所述分词 序列生成第二语句向量, 基于 所述第一语句向量和所述第二语句向量计算第二损失函数值包括: 输入所述字符序列至第一多层感知机注意力模块中, 得到第一语句向量; 输入所述分词序列至第二多层感知机注意力模块中, 得到第二语句向量; 基于所述第一语句向量和所述第二语句向量 生成第三语句向量; 基于所述第三语句向量计算逻辑回归 模型的第二损失函数值。 7.如权利要求1至5中任意一项所述的基于人工智能的中文语义提取方法, 其特征在 于, 所述基于所述字符序列进 行特征提取, 得到字符向量序列, 及基于所述分词 序列进行特 征提取, 得到分词向量序列包括: 通过第一自注意力模块对所述字符序列进行编码, 得到第一序列上下文信息, 输入所 述第一序列上下文信息至第一长短时记忆神经网络中进行特征提取, 得到每个字符的字符 向量, 基于所述每 个字符的字符向量 生成字符向量序列; 通过第二自注意力模块对所述分词序列进行编码, 得到第二序列上下文信息, 输入所 述第二序列上下文信息至第二长短时记忆神经网络中进行特征提取, 得到每个分词的分词 向量, 基于所述每 个分词的分词向量 生成分词向量序列。 8.一种基于人工智能的中文语义 提取装置, 其特 征在于, 所述装置包括: 序列获取模块, 用于获取训练文本的字符序列及获取 所述训练文本的分词序列; 特征提取模块, 用于基于所述字符序列进行特征提取, 得到字符向量序列, 及基于所述 分词序列进行 特征提取, 得到分词向量序列; 第一计算模块, 用于将所述分词向量序列按照所述字符向量序列进行对齐处理, 并基 于所述字符向量序列和对齐处 理后的分词向量序列计算第一损失函数值; 第二计算模块, 用于基于所述字符序列生成第一语句向量, 基于所述分词序列生成第 二语句向量, 基于所述第一语句向量和所述第二语句向量计算第二损失函数值; 迭代训练模块, 用于基于所述第 一损失函数值及所述第 二损失函数值对预设多任务模 型进行迭代训练, 得到中文语义 提取模型; 语义提取模块, 用于使用所述中文语义 提取模型提取待识别中文 文本的中文语义。 9.一种电子设备, 其特征在于, 所述电子设备包括处理器和存储器, 所述处理器用于执 行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的基于人工智 能的中文语义 提取方法。 10.一种计算机可读存储介质, 所述计算机可读存储介质上存储有计算机程序, 其特征 在于, 所述计算机程序被处理器执行时实现如权利要求 1至7中任意一项 所述的基于人工智 能的中文语义 提取方法。权 利 要 求 书 2/2 页 3 CN 114398902 A 3

PDF文档 专利 基于人工智能的中文语义提取方法及相关设备

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于人工智能的中文语义提取方法及相关设备 第 1 页 专利 基于人工智能的中文语义提取方法及相关设备 第 2 页 专利 基于人工智能的中文语义提取方法及相关设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:56上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。