standard library
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210028096.7 (22)申请日 2022.01.11 (71)申请人 平安科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平 安金融中 心23楼 (72)发明人 王健宗 李泽远 (74)专利代理 机构 深圳市明日今典知识产权代 理事务所(普通 合伙) 44343 代理人 王杰辉 陈秋波 (51)Int.Cl. G06F 40/211(2020.01) G06F 40/30(2020.01) G06F 40/58(2020.01) G06K 9/62(2022.01) (54)发明名称 基于人工智能的句向量特征提取方法、 装 置、 设备及 介质 (57)摘要 本申请涉及人工智能技术领域, 揭示了一种 基于人工智 能的句向量特征提取方法、 装置、 设 备及介质, 其中方法包括: 获取目标文本和与所 述目标文本对应的目标语言类型; 将所述目标文 本输入目标模型进行句向量特征提取, 其中, 所 述目标模型是采用训练文本和MLM训练方法训练 Transformer类模型得到的模型, 所述训练文本 是语义相同并且语言类型不同的多个文本拼接 得到的拼接文本; 根据所述目标语 言类型获取所 述目标模型的编码层输出的句向量特征数据, 作 为目标句向量特征数据。 通过MLM训练方法避免 了在具有挑战性的环境下可能不具有稳健性的 问题, 增强了模型内部特征表示的跨语言对齐, 提高了特 征提取的准确性。 权利要求书2页 说明书12页 附图2页 CN 114386391 A 2022.04.22 CN 114386391 A 1.一种基于人工智能的句向量特 征提取方法, 其特 征在于, 所述方法包括: 获取目标文本和与所述目标文本对应的目标语言类型; 将所述目标文本输入目标模型进行句向量特征提取, 其中, 所述目标模型是采用训练 文本和MLM训练方法训练Transformer类模 型得到的模 型, 所述训练文本是语义相同并且语 言类型不同的多个文本拼接得到的拼接文本; 根据所述目标语言类型获取所述目标模型的编码层输出的句向量特征数据, 作为目标 句向量特 征数据。 2.根据权利要求1所述的基于人工智能的句向量特征提取方法, 其特征在于, 所述根据 所述目标语言类型获取所述目标模型的编 码层输出的句向量特征数据, 作为目标句向量特 征数据的步骤, 包括: 获取与所述目标模型对应的语言类型与编码层标识映射表; 根据所述目标语言类型, 从所述语言类型与编码层标识映射表中获取编码层标识, 作 为目标编码层标识; 获取所述目标模型中的与所述目标编码层标识对应的编码层输出的所述句向量特征 数据, 作为所述目标句向量特 征数据。 3.根据权利要求2所述的基于人工智能的句向量特征提取方法, 其特征在于, 所述将所 述目标文本 输入目标模型进行句向量特 征提取的步骤之前, 还 包括: 获取多个第一训练样本, 每 个所述第一训练样本是根据平行语料库确定的拼接文本; 采用MLM训练方法, 根据多个所述第一训练样本对初始模型进行训练, 将训练结束的所 述初始模型作为待微调的模型, 其中, 所述初始模型 是Transformer类模型; 获取多个第 二训练样本, 每个所述第 二训练样本是根据 单种语言文本集和单语言翻译 模型集得到的拼接文本; 采用MLM训练方法, 根据多个所述第二训练样本对所述待微调的模型进行训练, 将训练 结束的所述待微调的模型作为所述目标模型; 获取多个第三训练样本, 根据多个所述第三训练样本和所述目标模型, 确定所述语言 类型与编码层标识映射表。 4.根据权利要求3所述的基于人工智能的句向量特征提取方法, 其特征在于, 所述获取 多个第一训练样本的步骤, 包括: 获取平行语料库; 从所述平行语料库中获取语义相同并且语言类型不同的多个第一文本; 将各个所述第一文本进行依次拼接, 得到所述第一训练样本 。 5.根据权利要求3所述的基于人工智能的句向量特征提取方法, 其特征在于, 所述获取 多个第二训练样本的步骤, 包括: 采用所述单语言翻译模型集, 对所述单种语言文本集中的每个单种语言文本分别进行 翻译, 得到多个翻译 文本集; 根据所述单种语言文本集和各个所述翻译 文本集确定合成语料库; 从所述合成语料库中获取语义相同并且语言类型不同的多个第二文本; 将各个所述第二文本进行依次拼接, 得到所述第二训练样本 。 6.根据权利要求3所述的基于人工智能的句向量特征提取方法, 其特征在于, 所述根据权 利 要 求 书 1/2 页 2 CN 114386391 A 2多个所述第三训练样本和所述 目标模型, 确定所述语言类型与编码层标识映射表的步骤, 包括: 从多个所述第三训练样本中获取 所述第三训练样本作为目标训练样本; 将所述目标训练样本中的文本样本数据输入所述目标模型进行句向量特 征提取; 获取所述目标模型的每 个编码层输出的待评估的句向量特 征数据; 根据各个所述待评估的句向量特征数据和所述目标训练样本分别进行编码效果评估 及语言类型与编码层标识关系对确定; 重复执行所述从多个所述第三训练样本中获取所述第三训练样本作为目标训练样本 的步骤, 直至 完成所述第三训练样本的获取; 根据各个所述语言类型与编码层标识关系对确定所述语言类型与编码层标识映射表。 7.根据权利要求6所述的基于人工智能的句向量特征提取方法, 其特征在于, 所述根据 各个所述待评估的句向量特征数据和所述目标训练样本分别进行编码效果评估及语言类 型与编码层标识关系对确定的步骤, 包括: 分别计算每个所述待评估的句向量特征数据与所述目标训练样本中的句向量特征标 定值之间的语义相似度, 得到语义相似度集 合; 从所述语义相似度集 合中获取最大的语义相似度作为目标语义相似度; 将所述目标语义相似度对应的编码层的编码层标识作为待分析的编码层标识; 根据所述目标训练样本中的所述语言类型和所述待分析的编码层标识确定所述语言 类型与编码层标识关系对。 8.一种基于人工智能的句向量特 征提取装置, 其特 征在于, 所述装置包括: 数据获取模块, 用于获取目标文本和与所述目标文本对应的目标语言类型; 句向量特征提取模块, 用于将所述目标文本输入目标模型进行句向量特征提取, 其中, 所述目标模 型是采用训练文本和MLM训练方法训练Transformer类模型得到的模型, 所述训 练文本是语义相同并且语言类型不同的多个文本拼接得到的拼接文本; 目标句向量特征数据确定模块, 用于根据 所述目标语言类型获取所述目标模型的编码 层输出的句向量特 征数据, 作为目标句向量特 征数据。 9.一种计算机设备, 包括存储器和处理器, 所述存储器存储有计算机程序, 其特征在 于, 所述处 理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 114386391 A 3
专利 基于人工智能的句向量特征提取方法、装置、设备及介质
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:33:58
上传分享
举报
下载
原文档
(488.4 KB)
分享
友情链接
T-CPPC 1055—2022 全地形车 休闲项目技术规范.pdf
GB-T 39768-2021 人类生物样本分类与编码.pdf
DAMA数据管理知识体系指南(原书第2版).pdf
DB44-T 718-2010 中央空调系统节能运行管理规范 广东省.pdf
GB-T 5585.2-2018 电工用铜、铝及其合金母线 第2部分:铝和铝合金母线.pdf
T-CAAMTB 134—2023 质量分级及“领跑者”评价要求 电动汽车用驱动电机系统.pdf
专利 一种变压器散热器集流管的焊接装置.PDF
GB-T 15776-2016 造林技术规程.pdf
DB36-T 1477-2021 碳普惠平台运营管理规范 江西省.pdf
T-JSJTQX 13—2020 桥梁体外预应力束转向器制作及质量要求.pdf
GB-Z 42759-2023 智慧城市 人工智能技术应用场景分类指南.pdf
T-CHIDA 203.3—2021 内河湖库环保疏浚污染土分类分级标准.pdf
DB31-T 1339-2021 医院多学科诊疗管理规范 上海市.pdf
GB-T 34885-2017 无损检测 电磁超声检测 总则.pdf
GB-T 29156-2012 金属复合装饰板材生产生命周期评价技术规范 产品种类规则.pdf
GB-T 42105-2022 水泥和煤炭行业能源管理绩效评价指南.pdf
GB-T 39559.4-2020 城市轨道交通设施运营监测技术规范 第4部分:轨道和路基.pdf
DB42-T 819-2012 风电场防雷设计规范 湖北省.pdf
GB-T 41648-2022 旅游民宿基本要求与等级划分.pdf
GB-T 17749-2008 白度的表示方法.pdf
1
/
17
评价文档
赞助2.5元 点击下载(488.4 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。