standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210102790.9 (22)申请日 2022.01.27 (71)申请人 北京字节跳动网络技 术有限公司 地址 100041 北京市石景山区实兴大街3 0 号院3号楼 2层B-0035房间 (72)发明人 黄骏键 潘桂波 李彦辉  (74)专利代理 机构 北京中知法苑知识产权代理 有限公司 1 1226 专利代理师 李明 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/335(2019.01) G06F 40/151(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 文本分类、 文本处理方法、 装置、 计算机设备 及存储介质 (57)摘要 本公开提供了一种文本分类、 文本处理方 法、 装置、 计算机设备及存储介质, 其中, 该方法 包括: 获取待分类话题文本和至少一个待预测话 题标签的标签描述信息; 提取所述待分类话题文 本的目标文本特征, 并提取每个所述待预测话题 标签的标签描述信息的标签描述特征; 确定所述 目标文本特征和每个所述标签描述特征之间的 标签相关性, 得到至少一个标签相关性; 基于所 述至少一个标签相关性, 在所述至少一个待预测 话题标签中确定与所述待分类话题文本相 匹配 的目标话题标签 。 权利要求书4页 说明书22页 附图7页 CN 114443847 A 2022.05.06 CN 114443847 A 1.一种文本分类方法, 其特 征在于, 应用于服 务器, 包括: 获取待分类话题文本和至少一个待预测话题标签的标签描述信息; 提取所述待分类话题文本的目标文本特征, 并提取每个所述待预测话题标签的标签描 述信息的标签描述特 征; 确定所述目标文本特征和每个所述标签描述特征之间的标签相关性, 得到至少一个标 签相关性; 基于所述至少一个标签相关性, 在所述至少一个待预测话题标签中确定与 所述待分类 话题文本相匹配的目标话题标签。 2.根据权利要求1所述的方法, 其特征在于, 所述目标文本特征中包含多个子文本特 征, 每个子文本特 征对应所述待分类话题文本中每 个第一单位文本; 所述确定所述目标文本特 征和每个所述标签描述特 征之间的标签相关性, 包括: 基于所述目标文本特征和所述标签描述特征, 确定每个所述第一单位文本的相关系 数, 其中, 所述相关系 数用于表征该第一单位文本与对应待预测 话题标签之间的标签相关 程度; 基于每个所述第 一单位文本的相关系数, 对各个所述第 一单位文本的子文本特征进行 加权求和计算, 并根据计算结果确定所述标签相关性。 3.根据权利要求2所述的方法, 其特征在于, 所述基于所述目标文本特征和所述标签描 述特征, 确定每 个所述第一单位文本的相关系数, 包括: 基于每个所述第一单位文本的子文本特 征, 确定该第一单位文本的第一子相关系数; 基于所述目标文本特 征和所述标签描述特 征确定第二子相关系数; 基于所述第一子相关系数和所述第二子相关系数之间的比值确定所述相关系数。 4.根据权利要求3所述的方法, 其特征在于, 所述基于每个所述第 一单位文本的子文本 特征, 确定该第一单位文本的第一子相关系数, 包括: 基于每个所述第 一单位文本的子文本特征和预设权重矩阵, 确定该第 一单位文本的第 一权重; 基于所述第一权 重确定所述第一子相关系数。 5.根据权利要求3所述的方法, 其特征在于, 所述标签描述特征中包含多个第 二单位文 本; 所述基于所述目标文本特 征和所述标签描述特 征确定第二子相关系数, 包括: 基于所述目标文本特 征和预设权 重矩阵确定各个第一单位文本的第二权 重; 基于所述标签描述特 征和所述预设权 重矩阵确定各个第二单位文本的第三权 重; 基于所述第二权 重和所述第三权 重确定所述第二子相关系数。 6.根据权利要求1所述的方法, 其特征在于, 所述获取待分类话题文本和至少一个待预 测话题标签的标签描述信息, 包括: 获取待处 理的原始文本数据, 并确定所述原 始文本数据中所包 含的文本类型 标识; 基于所述文本类型标识确定所述原始文本数据的数据分割位置, 并基于所述数据分割 位置对所述原 始文本数据进行分割处 理, 得到所述待分类话题文本和所述标签描述信息 。 7.根据权利要求1所述的方法, 其特征在于, 所述提取所述待分类话题文本的目标文本 特征, 包括:权 利 要 求 书 1/4 页 2 CN 114443847 A 2确定所述待分类话题文本中每个第一单位文本的目标向量, 其中, 所述目标向量中的 元素用于指示该第一单位文本和每 个预设单位文本之间的映射关系; 在所述待分类话题文本中全部第一单位文本的目标向量中提取所述待分类话题文本 的关键特 征向量, 并将所述关键特 征向量确定为所述目标文本特 征。 8.根据权利要求1所述的方法, 其特征在于, 所述待分类话题文本包括以下至少之一: 话题标题文本、 话题摘要 文本、 话题标签描述文本 。 9.根据权利要求1所述的方法, 其特 征在于, 所述提取所述待分类话题文本的目标文本特征, 并提取每个所述待预测话题标签的标 签描述信息的标签描述特征, 包括: 通过文本分类模型中的特征提取层提取所述待分类话 题文本的目标文本特征, 并提取每个所述待预测话题标签的标签描述信息的标签描述特 征; 所述确定所述目标文本特征和每个所述标签描述特征之间的标签相关性, 得到至少一 个标签相关性, 包括: 通过文本分类模型中的相关性确定层确定所述 目标文本特征和每个 所述标签描述特 征之间的标签相关性, 得到 至少一个标签相关性; 所述基于所述至少一个标签相关性, 在所述至少一个待预测话题标签中确定与所述待 分类话题文本相匹配的目标话题标签, 包括: 通过文本分类模型中的分类层基于所述至少 一个标签相关性, 在所述至少一个待 预测话题标签中确定与所述待分类话题文本相匹配的 目标话题标签。 10.根据权利要求9所述的方法, 其特 征在于, 所述方法还 包括: 确定多个训练样本; 其中, 每个训练样本 中包含待预测话题标签和待训练话题文本, 每 个所述训练样本包含匹配标签, 所述匹配标签用于指示所述待预测话题 标签和待训练话题 文本之间的匹配性; 通过所述多个训练样本对待训练的文本分类模型进行训练, 得到所述文本分类模型。 11.根据权利要求10所述的方法, 其特征在于, 所述通过所述多个训练样本对待训练 的 文本分类模型进行训练, 得到所述文本分类模型, 包括: 确定所述多个训练样本 中所包含待预测话题标签的第 一标签数量, 并确定所述待预测 话题标签中与所述待训练话题文本相匹配的目标分类标签的第二标签数量; 基于所述第一标签数量、 所述第二标签数量、 所述匹配标签和所述待训练的文本分类 模型对所述多个训练样本的预测结果, 确定所述待训练的文本分类模型的目标损失函数 值; 根据所述目标损 失函数值, 调整所述待训练的文本分类模型的模型参数, 得到所述文 本分类模型。 12.一种文本处 理方法, 其特 征在于, 应用于终端设备, 包括: 展示话题文本的操作页面; 接收用户在所述操作页面输入的目标数据, 其中, 所述目标数据包括: 待发布话题文 本, 或者, 感兴趣话题标签; 获取服务器基于所述目标数据确定的筛选结果, 其中, 所述筛选结果为所述服务器基 于上述权利要求 1至11中任一项所述的文本 分类方法对基于所述目标数据确定的待筛选数 据进行筛 选之后的结果;权 利 要 求 书 2/4 页 3 CN 114443847 A 3

PDF文档 专利 文本分类、文本处理方法、装置、计算机设备及存储介质

文档预览
中文文档 34 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共34页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本分类、文本处理方法、装置、计算机设备及存储介质 第 1 页 专利 文本分类、文本处理方法、装置、计算机设备及存储介质 第 2 页 专利 文本分类、文本处理方法、装置、计算机设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:41上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。