(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210051488.5
(22)申请日 2022.01.17
(71)申请人 马上消费金融股份有限公司
地址 401120 重庆市渝北区黄山大道中段
52号渝兴广场B2栋4至8楼
(72)发明人 曹磊 蒋宁 王洪斌 吴海英
李长林
(74)专利代理 机构 北京国昊天诚知识产权代理
有限公司 1 1315
代理人 许振新
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/268(2020.01)
G06F 40/30(2020.01)
G06F 40/35(2020.01)G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种文本分类模型优化方法和装置
(57)摘要
本发明公开了一种文本分类模型优化方法
和装置, 用以解决模型的多任务识别效率低的问
题。 本方案包括: 获取文本分类模型的训练样本;
将多条样本语句和对应的样本标签输入文本分
类模型的特征抽取层, 以得到分别对应于各条样
本语句的特征向量; 将所述样 本语句的特征向量
输入所述文本分类模型的多个分类器中, 得到所
述样本语句的特征向量对应的分类标签, 所述文
本分类模型包括敏感词分类器、 情感分类器和语
义分类器; 根据所述样本语句对应的分类标签和
样本标签优化文本分类模型。 本方案共用一个特
征抽取层获取特征向量, 再通过多个不同的分类
器输出分类结果, 能基于多任务执行文本分类,
缩减模型整体容量, 有效提高多任务模型识别效
率。
权利要求书2页 说明书14页 附图7页
CN 114416989 A
2022.04.29
CN 114416989 A
1.一种文本分类模型优化方法, 其特 征在于, 包括:
获取文本分类模型的训练样本, 所述训练样本包括多条样本语句和对应样本语句的样
本标签, 所述训练样本中的样本标签包括敏感词 标签、 情感标签和 语义标签, 其中, 任一样
本语句对应至少一种样本标签;
将所述多条样本语句和对应的样本标签输入所述文本分类模型的特征抽取层进行特
征抽取, 得到分别对应各条样本语句的特征向量, 所述特征向量表征对应的样本语句在敏
感词维度、 情感维度和语义维度中的至少一种特 征维度上的特 征值;
将所述样本语句的特征向量输入所述文本分类模型的多个分类器中处理, 得到所述样
本语句的特征向量对应的分类标签, 所述文本分类模型包括敏感词分类器、 情感分类器和
语义分类器, 所述每一条样本语句的分类标签包括敏感词 标签、 情感标签和语义标签中的
至少一种;
根据所述样本语句对应的分类标签和所述样本标签优化所述文本分类模型。
2.如权利要求1所述的方法, 其特征在于, 根据所述样本语句对应的分类标签和所述样
本标签优化所述文本分类模型, 包括:
根据每一条样本语句对应的分类标签和样本标签确定所述文本分类模型的损失函数;
根据所述损失函数优化所述文本分类模型。
3.如权利要求2所述的方法, 其特征在于, 根据每一条样本语句对应的分类标签和样本
标签确定所述文本分类模型的损失函数, 包括:
根据每一条样本语句对应的分类标签和样本标签分别确定对应各个分类器的损失函
数;
根据预设权重系数, 将对应各个分类器的损失函数的加权和确定为所述文本分类模型
的损失函数。
4.如权利要求1所述的方法, 其特征在于, 将所述样本语句的特征向量输入所述文本分
类模型的多个分类器中处理, 得到所述样本语句的特征向量对应的分类标签, 所述文本分
类模型包括敏感词分类 器、 情感分类 器和语义分类 器, 包括:
将所述样本语句的特征向量输入所述敏感词分类器处理, 得到所述敏感词分类器根据
敏感词隐向量输出的敏感词标签, 所述敏感词隐向量由敏感词解码 器对所述特征抽取层输
出的隐藏状态解码得到;
将所述样本语句的特征向量输入所述情 感分类器处理, 得到所述情 感分类器根据情感
隐向量输出的情感标签, 所述情感隐向量由情感解码 器对所述特征抽取层输出的隐藏状态
解码得到;
将所述样本语句的特征向量输入所述语义分类器处理, 得到所述语义分类器根据语义
隐向量输出的语义标签, 所述语义隐向量由语义解码 器对所述特征抽取层输出的隐藏状态
解码得到 。
5.如权利要求1所述的方法, 其特征在于, 所述训练样本中的样本标签还包括预设话术
标签, 所述特征向量还表征对应的样本语句在预设话术维度的特征值, 所述预设话术维度
的特征值表征所述样本语句是否包括预设话术内容, 所述文本 分类模型还包括预设话术分
类器;
其中, 将所述样本语句的特征向量输入所述文本分类模型的多个分类器中处理, 得到权 利 要 求 书 1/2 页
2
CN 114416989 A
2所述样本语句的特 征向量对应的分类标签, 包括:
将所述样本语句的特征向量输入所述预设话术分类器处理, 得到所述预设话术分类器
根据对应于各 条样本语句的特 征向量的预设话 术维度的特 征值输出的预设话 术标签。
6.如权利要求1~5任一项所述的方法, 其特征在于, 获取文本分类模型的训练样本, 包
括:
获取文本分类模型的对话录音;
将对话录音识别为基于时序的多条对话文本语句和各条所述对话文本语句对应的对
话角色标识;
将所述基于时序的多条对话文本语句根据对应的对话角色标识组合为多条有序的样
本语句, 同一条样本语句中的对话语句对应相同的对话角色标识;
生成包含多条样本语句和对应的角色标识的训练样本 。
7.如权利要求6所述的方法, 其特征在于, 将所述样本语句的特征向量输入所述文本分
类模型的多个分类 器中处理, 得到所述样本语句的特 征向量对应的分类标签, 包括:
将包含目标角色标识的样本语句的目标特征向量输入所述敏感词分类器处理, 得到所
述敏感词分类器根据所述目标特征向量的敏感词维度的特征值输出的敏感词标签, 所述敏
感词标签表征 所述目标 特征向量对应的样本语句中是否包括敏感词;
将包含目标角色标识的样本语句的目标特征向量输入所述情 感分类器处理, 得到所述
情感分类器根据所述目标特征向量的情感维度的特征值输出的情感标签, 所述情感标签表
征所述目标角色标识对应的角色的情感;
将包含目标角色标识的样本语句的目标特征向量输入所述语义分类器处理, 得到所述
语义分类器根据所述目标特征向量的语义维度的特征值输出的语义标签, 所述语义标签表
征所述目标角色标识对应的角色的语义。
8.一种文本分类模型优化装置, 其特 征在于, 包括:
获取模块, 用于获取文本分类模型的训练样本, 所述训练样本包括多条样本语句和对
应样本语句的样本标签, 所述训练样本中的样本标签包括敏感词 标签、 情感标签和语义标
签, 其中, 任一样本语句对应至少一种样本标签;
特征抽取模块, 用于对输入的所述多条样本语句和对应的样本标签进行特征抽取, 以
得到分别对应各条样本语句的特征向量, 所述特征向量表征对应的样本语句在敏感词维
度、 情感维度和语义维度中的至少一种特 征维度上的特 征值;
分类模块, 用于对所述样本语句的特征向量进行处理, 以得到所述样本语句的特征向
量对应的分类标签, 所述分类模块包括敏感词分类 器、 情感分类 器和语义分类 器;
优化模块, 用于利用所述样本语句对应的分类标签和所述样本标签对所述文本分类模
型进行优化。
9.一种电子设备, 其特征在于, 包括: 存储器、 处理器及存储在所述存储器上并可在所
述处理器上运行的计算机程序, 所述计算机程序被所述处理器执行时实现如权利要求 1至7
中任一项所述的方法的步骤。
10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机
程序, 所述计算机程序被处 理器执行时实现如权利要求1至7中任一项所述的方法的步骤。权 利 要 求 书 2/2 页
3
CN 114416989 A
3
专利 一种文本分类模型优化方法和装置
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:53上传分享