(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210058425.2
(22)申请日 2022.01.19
(71)申请人 北京中科深智科技有限公司
地址 100000 北京市大兴区北京经济技 术
开发区永昌中路4号院4号楼3层311A
室
(72)发明人 梁晨阳
(51)Int.Cl.
G06F 16/332(2019.01)
G06F 16/33(2019.01)
G06F 16/335(2019.01)
G06F 16/35(2019.01)
G06F 40/242(2020.01)
G06F 40/279(2020.01)
G06F 40/30(2020.01)
(54)发明名称
一种基于知识库的电商直播实时问答系统
和方法
(57)摘要
本发明公开了一种基于知识库的电商直播
实时问答系统和方法, 包括: 包括: 清洗数据模
块、 构建知识库模块、 分词处理模块、 定义意图模
块和结果查询模块; 其中, 清洗数据模块, 用于从
数据源获取数据, 分领域地存到结构化数据库
中; 构建知识库模块, 把实体词和对应的近义词
同时存入图数据库中; 分词处理模块, 获得了所
有最小粒度的词, 并获取最小粒度词的近义词;
定义意图模块, 把意图和针对的对象名称链接起
来; 结果查询模块, 在数据库中查询相应的结果
并返回给用户。 本发明能够从元数据获得结构化
知识数据, 通过对结构化知识库的预处理, 从而
可以有效的提取结构化知识库的有效特征, 从而
可以在进行问答的时候高效地利用知识库, 实现
智能问答。
权利要求书2页 说明书6页 附图5页
CN 114090759 A
2022.02.25
CN 114090759 A
1.一种基于知识库的 电商直播实时问答系统, 其特征在于, 包括: 清洗数据模块、 构建
知识库模块、 分词处 理模块、 定义 意图模块和结果 查询模块; 其中,
所述清洗数据模块, 用于从数据源获取数据, 根据具体业务设计schema,根据schema清
洗数据, 并对数据进行识别, 组成结构化数据, 分领域 地存到结构化数据库中;
所述构建知识库模块, 把结构化数据, 做一次分词处理, 准备提前训练好词向量的词
库, 设置阈值筛 选出近义词, 把实体词和对应的近义词同时存 入图数据库中;
所述分词处理模块, 在处理挖掘出来结构化数据时, 做分词处理, 利用分词器获得了所
有最小粒度的词, 并获取最小粒度词的近义词;
所述定义意图模块, 根据历史语料, 进行聚类, 挑选出具有代表性的问句; 根据知识库
定义意图; 定义好意图后, 把相应的意图名称存入图数据库, 与相应的实体用关系边链接起
来; 再用关系边 把意图和针对的对象名称链接起 来;
所述结果查询模块, 当用户输入query时, 首先对query进行全分词操作; 获得所有分词
结果后, 去图数据查询最小词数据库, 通过查询与最小分词为要 素关系的长名词, 获取到所
有可能相关的长词; 然后通过查询所有长词的所有要素是否被包含于 问句中, 最终匹配满
足要求的长名词; 获得要查询的长名词后, 查询该长名词预先定义的所有意图, 再把query
处理, 并输入到相应的模型中; 模型会输出各个预先定义意图的输出值, 取最大值为匹配到
的用户意图; 在数据库中查询 相应的结果并返回给用户。
2.根据权利要求1所述的一种基于知识库的电商直播实时问答系统, 其特征在于,
schema包括相应的实体, 属性, 意图, 以及它 们之间的关系。
3.根据权利要求2所述的一种基于知识库的电商直播实时问答系统, 其特征在于, 筛选
出近义词的方法为: 对于所有挖掘出来的词, 计算与词库词的余弦相似度并设定一定的阈
值, 挑选出可能的近义词; 然后在原来的语料中, 把原词用挑选出来的备选近义词替换掉,
通过预训练的n ‑gram语言模 型和bert的掩码模 型为评分器, 设置阈值进一步筛选出可能的
近义词; 最终确定挖掘出来词的同义词。
4.根据权利要求3所述的一种基于知识库的电商直播实时问答系统, 其特征在于, 分词
处理方法为: 首先利用分词器把长词分成若干最小的词; 用每个最小词的同义词去替换原
来的最小词, 得到一个新的长词; 利用bert向量, 去计算替换前的长词和替换后的长词的余
弦相似度, 设定阈值, 如果低于阈值则认为小词在此不能替换; 利用bert的掩码模型去计算
每个字符的掩码得分, 设定阈值, 筛 选出符合条件的最小词的近义词;
筛选出每个最小分词的近义词后, 省略掉空字符; 剩下的最小分词及相应的近义词, 每
一组词称为该长词的一个要素;
最后把每 个长词和它的要素们存进图数据库中。
5.一种基于知识库的电商直 播实时问答方法, 其特 征在于, 包括如下步骤:
清洗数据, 从数据源获取数据, 根据具体业务设计schema,根据schema清洗数据, 并对
数据进行识别, 组成结构化数据, 分领域 地存到结构化数据库中;
构建知识库, 把结构化数据, 做一次分词处理, 准备提前训练好词向量的词库, 设置阈
值筛选出近义词, 把实体词和对应的近义词同时存 入图数据库中;
分词处理, 在处理挖掘出来结构化数据时, 做分词处理, 利用分词器获得了所有最小粒
度的词, 并获取最小粒度词的近义词;权 利 要 求 书 1/2 页
2
CN 114090759 A
2定义意图, 根据历史语料, 进行聚类, 挑选出具有代表性的问句; 根据知识库定义意图;
定义好意图后, 把相应的意图名称存入图数据库, 与相应的实体用关系边链接起来; 再用关
系边把意图和针对的对象名称链接起 来;
结果查询, 当用户输入query时, 首先对query进行全分词操作; 获得所有分词结果后,
去图数据查询最小词数据库, 通过查询与最小分词为要素关系的长名词, 获取到所有可能
相关的长词; 然后通过查询所有长词的所有要素是否被包含于 问句中, 最终匹配满足要求
的长名词; 获得要查询的长名词后, 查询该长名词预先定义的所有意图, 再把qu ery处理, 并
输入到相 应的模型中; 模型会输出各个预先定义意图的输出值, 取最大值为匹配到的用户
意图; 在数据库中查询 相应的结果并返回给用户。权 利 要 求 书 2/2 页
3
CN 114090759 A
3
专利 一种基于知识库的电商直播实时问答系统和方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:51上传分享