(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210097987.8
(22)申请日 2022.01.27
(71)申请人 南京邮电大 学
地址 210023 江苏省南京市 鼓楼区新模范
马路66号
(72)发明人 吴伟 孙文虎 周福辉
(74)专利代理 机构 南京苏科专利代理有限责任
公司 32102
专利代理师 姚姣阳
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 40/126(2020.01)
G06F 40/194(2020.01)
G06F 40/295(2020.01)
G06F 40/30(2020.01)
(54)发明名称
基于知识图谱的信息补充语义通信系统的
实现方法
(57)摘要
本发明提供了一种基于知识图谱的信息补
充语义通信系统的实现方法, 相较于传统的通信
信号传输系统, 该系统创新性地在接收方利用基
于BERT模型的命名实体识别技术、 基于知 识图谱
的知识关联技术 以及知识 图谱文本生成技术扩
充补全少量的接收信息使得接收端用户可以获
取发送方想要表达的完整信息, 从而显著减少了
通信传输 数据量; 创新性地利用基于字符的余弦
相似度纠错技术解决了通信传输过程和命名实
体识别过程导致的实体错误, 显著提高了系统在
较高信道差错概率情况下的信息传输准确度, 也
使得系统具有更好的鲁棒 性。
权利要求书2页 说明书7页 附图3页
CN 114461816 A
2022.05.10
CN 114461816 A
1.一种基于知识图谱的信息补充语义通信系统的实现方法, 其特征在于, 所述实现方
法主要包括:
步骤1, 获取 数据集以及准备相关知识图谱;
步骤2, 编码信息、 解码信息以及 传输信息;
步骤3, 基于初始解码信息的命名实体识别;
步骤4, 基于知识图谱数据库的相似度对比实体纠错; 利用余弦相似度计算公式, 计算
知识图谱数据库实体与 识别实体的相似度得分, 将知识库中得分最高的对应实体作为识别
实体的正确结果, 以进行纠错; 记纠错后的实体集 为E'(i);
步骤5, 基于知识图谱的关联信息补充; 调用neo4j知识图谱数据库, 对经过纠错的命名
实体进行知识库关联实体查询检索, 获取对话场景下输入实体的关联实体及关系, 形成格
式规整的S PO三元组数据集T(i)输出 给文本生成模型;
步骤6, 生成知 识图谱文本; 用预训练的T5模型作为知 识图谱文本生成模型, 采用数据集
作为知识图谱文本生成模型训练集及验证集, 进行知识图谱文本生成模型训练, 训练阶段
后, 生成参数模型文件, 该模型 可以利用检索出的三元组生成句子Text(i);
步骤7, 进行模型整体测试; 将要发送的语句与接收端最终恢复的语句进行包括BLEU评
分以及基于BERT模型的句子相似度评 分等多个指标的对比分析, 并与传统通信模 型的相关
得分进行比较分析。
2.根据权利要求1所述的基于知识图谱的信息补充语义通信系统的实现方法, 其特征
在于: 在步骤1中, 基于相关标识符利用代码提取其中的三元组数据, 并对错误及重复数据
进行清洗, 形成可用的格式规整三元 组数据集, 数据集中的文本经过处理, 以作为通信过程
发送语句来源, 三元组数据利用neo 4j形成知识图谱供模型使用。
3.根据权利要求2所述的基于知识图谱的信息补充语义通信系统的实现方法, 其特征
在于: 在步骤2中, 所述编码信息包括信源编码和信道编码; 所述解码信息包括信源解码和
信道解码。
4.根据权利要求3所述的基于知识图谱的信息补充语义通信系统的实现方法, 其特征
在于: 所述信源编码为霍夫曼编 码, 所述信道编码为卷积码方式; 所述信源解码为霍夫曼解
码, 所述信道解码为卷积 码对应解码方式。
5.根据权利要求1所述的基于知识图谱的信息补充语义通信系统的实现方法, 其特征
在于: 在步骤3中, 采用基于掩码语言模 型和下一句预测模型的BERT 预训练语 言模型作为命
名实体识别的编 码器, 对训练语料进行词向量的嵌入编码, 然后利用条件随机场(CRF)作为
命名实体识别模型 的解码模块, 获取最优的标注序列, 经过信道解码信源解码的恢复序列
为
将BERT加CRF的命名实体识别模型记为BERF,获得实体集记为E(i)。
6.根据权利要求5所述的基于知识图谱的信息补充语义通信系统的实现方法, 其特征
在于: 所述命名实体识别的处 理过程的抽象表达式为:
7.根据权利要求1所述的基于知识图谱的信息补充语义通信系统的实现方法, 其特征
在于, 在步骤4中, 纠错 步骤主要包括:
步骤4.1, 用数字 0到25对26个字母进行编码;权 利 要 求 书 1/2 页
2
CN 114461816 A
2步骤4.2, 将命名实体识别出的实体及 知识库中的实体 每个字母按顺序编码;
步骤4.3, 对Ai和Bi进行oneHot编码,计算每 个字母出现的次数;
步骤4.4, 获得两个实体的独热编码向量之后, 利用余弦相似度公式计算两个向量之间
夹角的余弦值, 值越大相似度越高;
步骤4.5, 遍历知 识库中的实体Bi, 分别计算它们和识别实体的余弦相似度, 将相似度得
分最高的实体Bi作为正确实体, 记为E'(i)。
8.根据权利要求7所述的基于知识图谱的信息补充语义通信系统的实现方法, 其特征
在于, 所述 余弦相似度的计算公式为:
9.根据权利要求1所述的基于知识图谱的信息补充语义通信系统的实现方法, 其特征
在于, 在步骤5中, 信息补充步骤主 要包括:
步骤5.1, 从纠错模块获取实体集E'(i);
步骤5.2, 将实体E'(i)作为头实体在知识图谱可视化软件neo4j中检索对应的关系及
尾实体;
步骤5.3, 在与头实体相关全部关系及为实体之前添加 标识符“<H>”、“<R>”、“<T>”, 形
成形如“<H>Athens<R>count ry<T>Gre ece”的三元组传输给文本生成器。
10.根据权利要求1所述的基于知识图谱的信 息补充语义通信系统 的实现方法, 其特征
在于: 在步骤5中, 所述T5模型的三元组文本生成表达式为: Text(i)=T5(T(i))。权 利 要 求 书 2/2 页
3
CN 114461816 A
3
专利 基于知识图谱的信息补充语义通信系统的实现方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:41上传分享