(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210028152.7
(22)申请日 2022.01.11
(71)申请人 国家电网有限公司客户服 务中心
地址 300309 天津市东 丽区东丽湖丽湖环
路21号
(72)发明人 朱龙珠 田诺 张全 王秀春
柳薇 杨菁 王慧 徐青 张烁
王祥 李铮 那辰星 赵成文
苗松 李魁雨 孔令华
(74)专利代理 机构 西安汇智创想知识产权代理
有限公司 61247
专利代理师 李恒
(51)Int.Cl.
G06F 40/211(2020.01)
G06F 40/284(2020.01)G06F 40/289(2020.01)
G06F 40/30(2020.01)
G10L 15/26(2006.01)
(54)发明名称
基于95598客户服 务数据资源的处 理装置
(57)摘要
本发明公开了一种基于95598客户服务数据
资源的处理装置, 包括: 存储模块, 存储客户的语
音转译文本数据; 数据分词模块, 对所述语音转
译文本数据进行分句, 进行分词处理, 获得分词
后的结果数据; 数据向量化模块, 将分词后的结
果数据生成词向量; 词向量处理模块, 将所述词
向量输入客户诉求识别算法单元, 通过神经网络
结构, 提取文本的核心 语义; 结果输出模块, 根据
所述语义识别得到客户的语音转译文本数据的
诉求分类, 将诉求分类发送至相应的处理模块;
处理模块对收到的诉求进行处理。 本发明对计算
资源消耗少, 能够在较低的计算资源下, 实现对
文本语义的提取, 不需要使用GP U服务器, 即可在
几小时内完成数据训练, 以及数据的分类处理,
处理速度快。
权利要求书1页 说明书5页 附图2页
CN 114444469 A
2022.05.06
CN 114444469 A
1.基于95 598客户服 务数据资源的处 理装置, 其特 征在于, 包括:
存储模块, 存储客户的语音转译 文本数据;
数据分词模块, 对所述语音转译文本数据进行分句, 去掉无效句, 对每句话的词, 进行
分词处理, 获得分词后的结果数据;
数据向量 化模块, 将分词后的结果数据生成词向量:
具体为, 将所述分词后的结果数据全部进行向量化, 转化为能够被神经网络处理的一
串数字, 根据全部的词组, 对这串 数字, 建立一个向量空间, 然后用每个向量来表示每个词、
字, 获得词向量;
词向量处理模块, 将所述词向量输入客户诉求识别算法单元, 通过神经网络结构, 提取
文本的核心语义, 捕捉整个句意中不同词/ 字在整句 句意的语义;
结果输出模块, 根据所述语义识别得到客户的语音转译文本数据的诉求分类, 将诉求
分类结果发送至相应的处 理模块;
处理模块, 处 理模块对收到的诉求进行处 理。
2.根据权利要求1所述的处理装置, 其特征在于, 所述数据分词模块的分词的原 理是通
过统计海量的文章和文本, 来制作一个字典库的数据库, 使用trie型树的数据结构来保存
所有的词组, 然后根据t rie型树, 生成有相无环图的数据结构。
3.根据权利要求1所述的处理装置, 其特征在于, 所述数据分词模块的分词处理是使用
动态规划算法进行分词的, 并在获得分词结果之后, 对语音转译文本格式进行调整, 去掉停
用词, 停用词包括语气助词、 副词、 介词、 连接词。
4.根据权利要求1所述的处理装置, 其特征在于, 数据分词模块还对含有重大服务事件
关键词的结果数据进行 标注, 经过标注的结果数据含有标注信息;
处理模块还 对收到的含有标注信息的诉求分类进行优先处 理。
5.根据权利要求1所述的处理装置, 其特征在于, 词向量处理模块的客户诉求识别算法
单元结合了时序神经网络的记忆力, 并从字/词意、 句意和文本意三个层 级提取文本的核心
语义。
6.根据权利要求1所述的处理装置, 其特征在于, 词向量处理模块在提取文本的核心语
义时, 同时兼顾句全局 和文本全局的不同部分对整个文本语义的贡献。
7.根据权利要求1所述的处理装置, 其特征在于, 词向量处理模块在提取文本的核心语
义时, 通过句层的注意力机制把握句意的核心词/字, 从而获取整句的语义; 通过文本层的
注意力机制, 获得不同语句的语义, 从而识别得到客户语音转译 文本数据的诉求分类。
8.根据权利要求1所述的处理装置, 其特征在于, 所述处理装置基于如下网络模型实
现: 所述网络模型是通过Tensorflow框架, 搭建双层的BiLSTM+Self ‑Attention+Fully
Connected+Softmax的网络模型。权 利 要 求 书 1/1 页
2
CN 114444469 A
2基于95598客户服务数据资源的处理装 置
技术领域
[0001]本发明属于通信数据处理技术领域, 涉及一种基于95598客户服务数据资源的处
理装置。
背景技术
[0002]基于95598客户服务数据资源和95598重大服务事件的判定依据, 利用文本分词、
机器学习训练等方法构建重大服务事件判别的分析模型, 通过模型对疑似95598重大服务
事件进行识别, 以此辅助开展95598重大服务事件的处置工作, 防止漏报和服务风险的升
级。
[0003]目前, 对于文本内容分析, 传统技术方案采用的多为基于统计的文字分析方法, 目
前这几年普遍开始使用神经网络+机器学习的方法来进行文本分析。
[0004]神经网络技术方案, 主要的区别点在于网络模型的设计, 虽然都使用神经网络, 但
是网络结构不同, 最终所达 到的效果 也会大大不同。
[0005]神经网络就是模拟动物神经网络的结构, 所设计的一种用来处理数据的网状结
构, 这种结构是通过软件来 实现的一种逻辑结构, 体现为一段程序 代码, 这段程序 代码的输
入就是待分析的文本。 神经网络要想能够很好的工作, 是需要 人对它进 行一些训练的, 这个
过程类似小孩 子学习的过程, 逐步 通过学习, 学会 对文本进行识别, 分类。
[0006]学习的过程, 首先需要人来对一些现有的文本数据进行标注, 这个标注就是告诉
机器, 这个文本对应的分类是什么。 譬如某段对话, 是关于停电的, 那么我们就给这段文本
标注一个标签 –停电。 另外一段关于欠费的, 我们就标注上 –欠费。 这样子, 事先通过人工标
注, 积累好一大批的标注数据。 然后将数据传入神经网络之中, 这时候, 训练程序会根据事
先标签的结果, 来核对神经网络出来的结果是否正确, 如果结果不正确, 那么通过使用一个
叫反向传播的方法, 来更新神经网络的参数, 更新完成后, 再重新把文本送入神经网络, 核
验结果。 重复这个步骤, 直到神经网络的结果与标签结果一致, 然后开始下一条语料的训
练, 当语料的数量足够多的时候, 最终训练完毕的神经网络, 就具备了非常好的分类性能,
准确度可以接 近人的水平。
[0007]现有技术的一大缺点就是对计算力消耗非常大, 以现在Google Bert网络为例, 它
需要16个Cloud TPU连续4天的计算才能够得到结果。 然而现实情况经常 并不具备如此大规
模的硬件条件, 同时, 客户希望的对每天的数据进行计算, 然后当天得到结果, 这对时间也
提了很高的要求。
发明内容
[0008]本发明的目的在于提供一种基于95598客户服务数据资源的处理装置, 能够减少
计算资源消耗, 加快处 理速度。
[0009]本发明采取的技 术方案如下:
[0010]基于95598客户服 务数据资源的处 理装置, 其特 征在于, 包括:说 明 书 1/5 页
3
CN 114444469 A
3
专利 基于95598客户服务数据资源的处理装置
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:59上传分享