standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210097987.8 (22)申请日 2022.01.27 (71)申请人 南京邮电大 学 地址 210023 江苏省南京市 鼓楼区新模范 马路66号 (72)发明人 吴伟 孙文虎 周福辉  (74)专利代理 机构 南京苏科专利代理有限责任 公司 32102 专利代理师 姚姣阳 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/126(2020.01) G06F 40/194(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) (54)发明名称 基于知识图谱的信息补充语义通信系统的 实现方法 (57)摘要 本发明提供了一种基于知识图谱的信息补 充语义通信系统的实现方法, 相较于传统的通信 信号传输系统, 该系统创新性地在接收方利用基 于BERT模型的命名实体识别技术、 基于知 识图谱 的知识关联技术 以及知识 图谱文本生成技术扩 充补全少量的接收信息使得接收端用户可以获 取发送方想要表达的完整信息, 从而显著减少了 通信传输 数据量; 创新性地利用基于字符的余弦 相似度纠错技术解决了通信传输过程和命名实 体识别过程导致的实体错误, 显著提高了系统在 较高信道差错概率情况下的信息传输准确度, 也 使得系统具有更好的鲁棒 性。 权利要求书2页 说明书7页 附图3页 CN 114461816 A 2022.05.10 CN 114461816 A 1.一种基于知识图谱的信息补充语义通信系统的实现方法, 其特征在于, 所述实现方 法主要包括: 步骤1, 获取 数据集以及准备相关知识图谱; 步骤2, 编码信息、 解码信息以及 传输信息; 步骤3, 基于初始解码信息的命名实体识别; 步骤4, 基于知识图谱数据库的相似度对比实体纠错; 利用余弦相似度计算公式, 计算 知识图谱数据库实体与 识别实体的相似度得分, 将知识库中得分最高的对应实体作为识别 实体的正确结果, 以进行纠错; 记纠错后的实体集 为E'(i); 步骤5, 基于知识图谱的关联信息补充; 调用neo4j知识图谱数据库, 对经过纠错的命名 实体进行知识库关联实体查询检索, 获取对话场景下输入实体的关联实体及关系, 形成格 式规整的S PO三元组数据集T(i)输出 给文本生成模型; 步骤6, 生成知 识图谱文本; 用预训练的T5模型作为知 识图谱文本生成模型, 采用数据集 作为知识图谱文本生成模型训练集及验证集, 进行知识图谱文本生成模型训练, 训练阶段 后, 生成参数模型文件, 该模型 可以利用检索出的三元组生成句子Text(i); 步骤7, 进行模型整体测试; 将要发送的语句与接收端最终恢复的语句进行包括BLEU评 分以及基于BERT模型的句子相似度评 分等多个指标的对比分析, 并与传统通信模 型的相关 得分进行比较分析。 2.根据权利要求1所述的基于知识图谱的信息补充语义通信系统的实现方法, 其特征 在于: 在步骤1中, 基于相关标识符利用代码提取其中的三元组数据, 并对错误及重复数据 进行清洗, 形成可用的格式规整三元 组数据集, 数据集中的文本经过处理, 以作为通信过程 发送语句来源, 三元组数据利用neo 4j形成知识图谱供模型使用。 3.根据权利要求2所述的基于知识图谱的信息补充语义通信系统的实现方法, 其特征 在于: 在步骤2中, 所述编码信息包括信源编码和信道编码; 所述解码信息包括信源解码和 信道解码。 4.根据权利要求3所述的基于知识图谱的信息补充语义通信系统的实现方法, 其特征 在于: 所述信源编码为霍夫曼编 码, 所述信道编码为卷积码方式; 所述信源解码为霍夫曼解 码, 所述信道解码为卷积 码对应解码方式。 5.根据权利要求1所述的基于知识图谱的信息补充语义通信系统的实现方法, 其特征 在于: 在步骤3中, 采用基于掩码语言模 型和下一句预测模型的BERT 预训练语 言模型作为命 名实体识别的编 码器, 对训练语料进行词向量的嵌入编码, 然后利用条件随机场(CRF)作为 命名实体识别模型 的解码模块, 获取最优的标注序列, 经过信道解码信源解码的恢复序列 为 将BERT加CRF的命名实体识别模型记为BERF,获得实体集记为E(i)。 6.根据权利要求5所述的基于知识图谱的信息补充语义通信系统的实现方法, 其特征 在于: 所述命名实体识别的处 理过程的抽象表达式为: 7.根据权利要求1所述的基于知识图谱的信息补充语义通信系统的实现方法, 其特征 在于, 在步骤4中, 纠错 步骤主要包括: 步骤4.1, 用数字 0到25对26个字母进行编码;权 利 要 求 书 1/2 页 2 CN 114461816 A 2步骤4.2, 将命名实体识别出的实体及 知识库中的实体 每个字母按顺序编码; 步骤4.3, 对Ai和Bi进行oneHot编码,计算每 个字母出现的次数; 步骤4.4, 获得两个实体的独热编码向量之后, 利用余弦相似度公式计算两个向量之间 夹角的余弦值, 值越大相似度越高; 步骤4.5, 遍历知 识库中的实体Bi, 分别计算它们和识别实体的余弦相似度, 将相似度得 分最高的实体Bi作为正确实体, 记为E'(i)。 8.根据权利要求7所述的基于知识图谱的信息补充语义通信系统的实现方法, 其特征 在于, 所述 余弦相似度的计算公式为: 9.根据权利要求1所述的基于知识图谱的信息补充语义通信系统的实现方法, 其特征 在于, 在步骤5中, 信息补充步骤主 要包括: 步骤5.1, 从纠错模块获取实体集E'(i); 步骤5.2, 将实体E'(i)作为头实体在知识图谱可视化软件neo4j中检索对应的关系及 尾实体; 步骤5.3, 在与头实体相关全部关系及为实体之前添加 标识符“<H>”、“<R>”、“<T>”, 形 成形如“<H>Athens<R>count ry<T>Gre ece”的三元组传输给文本生成器。 10.根据权利要求1所述的基于知识图谱的信 息补充语义通信系统 的实现方法, 其特征 在于: 在步骤5中, 所述T5模型的三元组文本生成表达式为: Text(i)=T5(T(i))。权 利 要 求 书 2/2 页 3 CN 114461816 A 3

PDF文档 专利 基于知识图谱的信息补充语义通信系统的实现方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于知识图谱的信息补充语义通信系统的实现方法 第 1 页 专利 基于知识图谱的信息补充语义通信系统的实现方法 第 2 页 专利 基于知识图谱的信息补充语义通信系统的实现方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:41上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。