standard library
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210153254.1 (22)申请日 2022.02.18 (71)申请人 携程旅游信息技 术 (上海) 有限公司 地址 201203 上海市浦东 新区张江高科技 园区碧波路518号3 02室 (72)发明人 甘恬 郭子嘉 孙玉霞 高一宸 (74)专利代理 机构 上海弼兴律师事务所 31283 专利代理师 马涛 林嵩 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 16/33(2019.01) G06K 9/62(2022.01) (54)发明名称 多语言内容打标方法及模型训练方法、 装 置、 设备及 介质 (57)摘要 本发明公开了一种多语言内容打标方法及 模型训练方法、 装置、 设备及介质, 多语言内容打 标方法包括: 获取多语言关键词, 所述多语言关 键词根据标签拆 分组词提取得到; 从多语言内容 数据库中召回待打标数据, 所述待打标数据是与 所述多语言关键词匹配的多语言内容数据; 将所 述待打标数据输入至多语言内容 打标模型, 以由 拼接层将所述标签与所述待打标数据进行拼接, 由特征提取层对所述拼接层的输出结果进行特 征提取, 由判断层对所述特征提取层的输出结果 进行归一化指数函数计算; 根据所述数值, 判断 所述标签与所述待打标内容数据是否匹配。 由此 得到最符合标签的多语言内容, 给用户精确推送 内容, 提升用户的体验。 权利要求书2页 说明书6页 附图3页 CN 114528836 A 2022.05.24 CN 114528836 A 1.一种多语言内容打标 方法, 其特 征在于, 包括: 获取多语言 关键词, 所述多语言 关键词根据标签 拆分组词提取 得到; 从多语言内容数据库中召回待打标数据, 所述待打标数据 是与所述多语言关键词匹配 的多语言内容数据; 将所述待打标数据输入至多语言内容打标模型, 以由所述多语言内容打标模型的拼接 层将所述标签与所述待打标数据进行拼接, 由所述多语言内容打标模型的特征提取层 对所 述拼接层的输出结果进行特征提取, 由所述多语言内容打标模型的判断层 对所述特征提取 层的输出结果进行归一化指数函数计算, 得到的数值作为所述判断层的输出结果; 其中, 所 述多语言内容打标模型由多个待打标 数据样本训练得到; 根据所述数值, 判断所述标签与所述待打标内容数据是否匹配。 2.如权利要求1所述的多语言内容打标方法, 其特征在于, 所述从多语言内容数据库中 召回待打标 数据的步骤之后包括: 判断召回数量是否在预设阈值内, 若所述召回数量在预设阈值内, 则进行所述将所述 待打标数据输入至多语言内容打标模型的步骤; 所述召回数量表示所述待打标 数据的数量。 3.如权利要求2所述的多语言内容打标方法, 其特征在于, 若所述召回数量不在预设阈 值内, 则调整所述多语言 关键词, 并再次从多语言内容数据库中召回待打标 数据。 4.如权利要求1所述的多语言内容打标方法, 其特征在于, 所述根据所述数值, 判断所 述标签与所述待打标 数据是否匹配的步骤 包括: 判断所述数值是否高于可信 阈值, 若所述数值高于所述可信 阈值, 则输出判断结果匹 配, 若所述数值低于所述可信阈值, 则输出判断结果 不匹配。 5.如权利要求4所述的多语言内容打标方法, 其特征在于, 所述从多语言内容数据库中 召回待打标 数据的步骤之前还 包括: 获取外部调整指令, 以根据所述外 部调整指令调整所述可信阈值。 6.一种多语言内容打标模型的训练方法, 其特征在于, 所述多语言内容打标模型包括 拼接层、 特 征提取层和判断层, 所述训练方法包括: 获取多个待打标数据样本, 每个待打标数据样本标注有标注信息, 所述标注信息表征 所述待打标 数据样本的标签; 将所述待打标数据样本输入拼接层, 以由所述拼接层将所述标签与 所述待打标数据样 本进行拼接, 由所述特征提取层对所述拼接层的输出结果进行特征提取, 由所述判断层对 所述特征提取层的输出结果进 行归一化指数函数计算, 得到一数值作为所述判断层的输出 结果; 根据所述判断层的输出结果和所述标注信 息计算损失误差, 并根据所述损失误差调节 所述拼接层、 所述特 征提取层和所述判断层的网络参数, 直至 达到迭代停止条件。 7.一种多语言内容打标装置, 其特 征在于, 包括: 获取模块, 用于获取多语言 关键词, 所述多语言 关键词根据标签 拆分组词提取 得到; 调整模块, 用于获取外 部调整指令, 以根据所述外 部调整指令调整可信阈值; 召回模块, 用于从多语言内容数据库中召回待打标数据, 所述待打标数据是与所述多 语言关键词匹配的多语言内容数据;权 利 要 求 书 1/2 页 2 CN 114528836 A 2输入模块, 用于将所述待打标 数据输入至多语言内容打标模型; 第一判断模块, 用于判断召回数量是否在预设阈值内; 第二判断模块, 用于判断所述数值是否高于所述可信阈值。 8.一种多语言内容打标模型的训练装置, 所述多语言内容打标模型包括拼接层、 特征 提取层和判断层, 其特 征在于, 包括: 获取样本模块, 用于获取多个待打标数据样本, 每个待打标数据样本标注有标注信 息, 所述标注信息表征 所述待打标 数据样本的标签; 输入样本模块, 用于将所述待打标数据样本输入拼接层, 以由所述拼接层将所述标签 与所述待打标数据样本进 行拼接, 由所述特征提取层对所述拼接层的输出结果进 行特征提 取, 由所述判断层对所述特征提取层的输出结果进行归一化指数函数计算, 得到一数值作 为所述判断层的输出 结果; 计算模块, 用于根据所述判断层的输出 结果和所述标注信息计算损失误差; 调节模块, 根据所述损 失误差调节所述拼接层、 所述特征提取层和所述判断层的网络 参数, 直至 达到迭代停止条件。 9.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求 1‑6中任一项 所述 的方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1 ‑6中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114528836 A 3
专利 多语言内容打标方法及模型训练方法、装置、设备及介质
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:33:32
上传分享
举报
下载
原文档
(572.8 KB)
分享
友情链接
GB-T 42888-2023 信息安全技术 机器学习算法安全评估规范.pdf
国家密码局 信息安全等级保护 商用密码技术实施要求 2009.pdf
GB-T 40311-2021 钒渣 多元素的测定 波长色散X射线荧光光谱法 熔铸玻璃片法.pdf
GB-T 9361-2011 计算机场地安全要求.pdf
GB-T 29716.1-2013 机械振动与冲击 信号处理 第1部分:引论.pdf
GB-T 43368-2023 宇航用分离脱落连接器通用规范.pdf
DB23-T 3212—2022 一体化在线政务服务平台运行维护规范 黑龙江省.pdf
GB-T 30984.3-2016 太阳能用玻璃 第3部分:玻璃反射镜.pdf
TB-T 3481-2017 铁路低压母联备投自动转换开关电器.pdf
DB22-T 2445.4-2017 节能技术改造及合同能源管理项目节能量审核与计算方法 第4部分:空气压缩机系统 吉林省.pdf
专利 一种温控器.PDF
GB-T 34502-2017 封装键合用镀金银及银合金丝.pdf
GB-T 40113.1-2021 生物质热解炭气油多联产工程技术规范 第1部分:工艺设计.pdf
GB-T 27977-2022 水泥生产电能能效测试及计算方法.pdf
数字安全产业大数据白皮书(2022年).pdf
GB-T 3621-2022 钛及钛合金板材.pdf
GB-T 32918.1-2016 信息安全技术 SM2椭圆曲线公钥密码算法 第1部分:总则.pdf
T-CEA 022—2019 电梯用随行电缆.pdf
GB-T 10357.4-2023 家具力学性能试验 第4部分:柜类稳定性.pdf
网络安全事件应急演练指南(试行) 2022 .pdf
1
/
12
评价文档
赞助2.5元 点击下载(572.8 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。