standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210153254.1 (22)申请日 2022.02.18 (71)申请人 携程旅游信息技 术 (上海) 有限公司 地址 201203 上海市浦东 新区张江高科技 园区碧波路518号3 02室 (72)发明人 甘恬 郭子嘉 孙玉霞 高一宸  (74)专利代理 机构 上海弼兴律师事务所 31283 专利代理师 马涛 林嵩 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 16/33(2019.01) G06K 9/62(2022.01) (54)发明名称 多语言内容打标方法及模型训练方法、 装 置、 设备及 介质 (57)摘要 本发明公开了一种多语言内容打标方法及 模型训练方法、 装置、 设备及介质, 多语言内容打 标方法包括: 获取多语言关键词, 所述多语言关 键词根据标签拆 分组词提取得到; 从多语言内容 数据库中召回待打标数据, 所述待打标数据是与 所述多语言关键词匹配的多语言内容数据; 将所 述待打标数据输入至多语言内容 打标模型, 以由 拼接层将所述标签与所述待打标数据进行拼接, 由特征提取层对所述拼接层的输出结果进行特 征提取, 由判断层对所述特征提取层的输出结果 进行归一化指数函数计算; 根据所述数值, 判断 所述标签与所述待打标内容数据是否匹配。 由此 得到最符合标签的多语言内容, 给用户精确推送 内容, 提升用户的体验。 权利要求书2页 说明书6页 附图3页 CN 114528836 A 2022.05.24 CN 114528836 A 1.一种多语言内容打标 方法, 其特 征在于, 包括: 获取多语言 关键词, 所述多语言 关键词根据标签 拆分组词提取 得到; 从多语言内容数据库中召回待打标数据, 所述待打标数据 是与所述多语言关键词匹配 的多语言内容数据; 将所述待打标数据输入至多语言内容打标模型, 以由所述多语言内容打标模型的拼接 层将所述标签与所述待打标数据进行拼接, 由所述多语言内容打标模型的特征提取层 对所 述拼接层的输出结果进行特征提取, 由所述多语言内容打标模型的判断层 对所述特征提取 层的输出结果进行归一化指数函数计算, 得到的数值作为所述判断层的输出结果; 其中, 所 述多语言内容打标模型由多个待打标 数据样本训练得到; 根据所述数值, 判断所述标签与所述待打标内容数据是否匹配。 2.如权利要求1所述的多语言内容打标方法, 其特征在于, 所述从多语言内容数据库中 召回待打标 数据的步骤之后包括: 判断召回数量是否在预设阈值内, 若所述召回数量在预设阈值内, 则进行所述将所述 待打标数据输入至多语言内容打标模型的步骤; 所述召回数量表示所述待打标 数据的数量。 3.如权利要求2所述的多语言内容打标方法, 其特征在于, 若所述召回数量不在预设阈 值内, 则调整所述多语言 关键词, 并再次从多语言内容数据库中召回待打标 数据。 4.如权利要求1所述的多语言内容打标方法, 其特征在于, 所述根据所述数值, 判断所 述标签与所述待打标 数据是否匹配的步骤 包括: 判断所述数值是否高于可信 阈值, 若所述数值高于所述可信 阈值, 则输出判断结果匹 配, 若所述数值低于所述可信阈值, 则输出判断结果 不匹配。 5.如权利要求4所述的多语言内容打标方法, 其特征在于, 所述从多语言内容数据库中 召回待打标 数据的步骤之前还 包括: 获取外部调整指令, 以根据所述外 部调整指令调整所述可信阈值。 6.一种多语言内容打标模型的训练方法, 其特征在于, 所述多语言内容打标模型包括 拼接层、 特 征提取层和判断层, 所述训练方法包括: 获取多个待打标数据样本, 每个待打标数据样本标注有标注信息, 所述标注信息表征 所述待打标 数据样本的标签; 将所述待打标数据样本输入拼接层, 以由所述拼接层将所述标签与 所述待打标数据样 本进行拼接, 由所述特征提取层对所述拼接层的输出结果进行特征提取, 由所述判断层对 所述特征提取层的输出结果进 行归一化指数函数计算, 得到一数值作为所述判断层的输出 结果; 根据所述判断层的输出结果和所述标注信 息计算损失误差, 并根据所述损失误差调节 所述拼接层、 所述特 征提取层和所述判断层的网络参数, 直至 达到迭代停止条件。 7.一种多语言内容打标装置, 其特 征在于, 包括: 获取模块, 用于获取多语言 关键词, 所述多语言 关键词根据标签 拆分组词提取 得到; 调整模块, 用于获取外 部调整指令, 以根据所述外 部调整指令调整可信阈值; 召回模块, 用于从多语言内容数据库中召回待打标数据, 所述待打标数据是与所述多 语言关键词匹配的多语言内容数据;权 利 要 求 书 1/2 页 2 CN 114528836 A 2输入模块, 用于将所述待打标 数据输入至多语言内容打标模型; 第一判断模块, 用于判断召回数量是否在预设阈值内; 第二判断模块, 用于判断所述数值是否高于所述可信阈值。 8.一种多语言内容打标模型的训练装置, 所述多语言内容打标模型包括拼接层、 特征 提取层和判断层, 其特 征在于, 包括: 获取样本模块, 用于获取多个待打标数据样本, 每个待打标数据样本标注有标注信 息, 所述标注信息表征 所述待打标 数据样本的标签; 输入样本模块, 用于将所述待打标数据样本输入拼接层, 以由所述拼接层将所述标签 与所述待打标数据样本进 行拼接, 由所述特征提取层对所述拼接层的输出结果进 行特征提 取, 由所述判断层对所述特征提取层的输出结果进行归一化指数函数计算, 得到一数值作 为所述判断层的输出 结果; 计算模块, 用于根据所述判断层的输出 结果和所述标注信息计算损失误差; 调节模块, 根据所述损 失误差调节所述拼接层、 所述特征提取层和所述判断层的网络 参数, 直至 达到迭代停止条件。 9.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求 1‑6中任一项 所述 的方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1 ‑6中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114528836 A 3

PDF文档 专利 多语言内容打标方法及模型训练方法、装置、设备及介质

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 多语言内容打标方法及模型训练方法、装置、设备及介质 第 1 页 专利 多语言内容打标方法及模型训练方法、装置、设备及介质 第 2 页 专利 多语言内容打标方法及模型训练方法、装置、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:32上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。