(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210120061.6
(22)申请日 2022.02.07
(71)申请人 北京妙医佳健康科技 集团有限公司
地址 100027 北京市朝阳区霄云 路40号国
航世纪大厦F5
(72)发明人 常德杰 刘邦长 庄博然 李栋栋
李伟 刘利平
(74)专利代理 机构 北京爱普纳杰 专利代理事务
所(特殊普通 合伙) 11419
专利代理师 何自刚
(51)Int.Cl.
G06F 40/284(2020.01)
G06F 40/30(2020.01)
G06N 10/60(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种可解释的深度学习方法、 可解释深度学
习装置、 计算机和介质
(57)摘要
本专利涉及一种可解释的深度学习方法,包
括如下步骤: 步骤1, 获得自然语言语料; 步骤2,
将所述自然语 言语料进行词嵌入, 使得标记指定
单个词语的语义信息并且每个所述指定单个词
语的上下文作为外界环境来反映所述指定单个
词语的语义信息, 同时用量子概率反映每个词嵌
入的语义置信度; 步骤3, 形成编码层; 步骤4, 根
据输入利用所述编码层解码出包含有解释信息
的输出信息。 还涉及可解释深度学习装置、 计算
机和介质。
权利要求书1页 说明书5页 附图3页
CN 114492417 A
2022.05.13
CN 114492417 A
1.一种可解释的深度学习方法,其特 征在于, 包括如下步骤:
步骤1, 获得自然语言语料;
步骤2, 将所述自然语言语料进行词嵌入, 使得标记指定单个词语的语义信息并且每个
所述指定单个词语的上下文作为外界环境来反映所述指定单个词语的语义信息, 同时用量
子概率反映每 个词嵌入的语义置信度;
步骤3, 形成编码层;
步骤4, 根据输入利用所述编码层解码出包 含有解释信息的输出信息 。
2.根据权利要求1所述的可解释的深度学习方法, 其特征在于, 所述步骤2中包括步骤
21, 为所述指定单个词 语建立纯态密度矩阵
和为每个所述指定单个词语的
上下文建立混合态密度矩阵
从而形成联合矩阵
3.根据权利要求2所述的可解释的深度学习方法, 其特征在于, 在所述步骤4中还包括
步骤41, 添加解释和调参。
4.根据权利要求3所述的可解释的深度 学习方法, 其特征在于, 所述自然语料包括医用
成功案例。
5.一种可解释深度学习装置, 其特征在于, 包括: 获得自然语言语料的模块, 用于将所
述自然语言语料进行词嵌入的模块, 使得标记指 定单个词语的语义信息并且每个所述指定
单个词语的上下文作为外界环境来反映所述指 定单个词语的语义信息, 同时用量子概率反
映每个词嵌入的语义置信度; 形成编码层模块; 和根据输入利用所述编码层解码出包含有
解释信息的输出信息的模块。
6.根据权利要求5所述的可解释 深度学习装置, 其特 征在于, 还 包括服务器和客户端。
7.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计
算机程序, 其特征在于, 所述处理器执行所述程序时, 实现如权利要求 1至4中任一项 所述的
可解释的深度学习方法。
8.根据权利要求7 所述的计算机设备, 其特 征在于, 还 包括采集和输出装置 。
9.一种非临时性计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述程序
被处理器执行时实现如权利要求1至4中任一项所述的可解释的深度学习方法。
10.根据权利要求9所述的非临时性计算机可读存储介质, 其特征在于, 还包括采集和
输出装置 。权 利 要 求 书 1/1 页
2
CN 114492417 A
2一种可解 释的深度学习方 法、 可解释深度学习 装置、 计算机和
介质
技术领域
[0001]本专利涉及深度学习, 特别涉及一种可解释的深度学习方法, 还涉及可解释深度
学习装置、 计算机和介质。
背景技术
[0002]词向量(又叫词嵌入)是一种表示自然语言中单词的方法, 把每个词都表示为一个
N维空间内的点, 即一个高维空间内的向量。 通过这种做法, 把自然语言计算转换为向量计
算, 词向量已经成为自然语言处理领域各种任务的必备一步, 而且随着BERT, ELMO, GPT等预
训练模型的发展, 词向量演 变为知识表示方法, 但其本质思想不变。 深度学习模 型在医学场
景下扮演着越来越重要的角色, 模型的 「可解释性」 成为了决定用户是否能够 「信任」 这些模
型的关键因素。 尤其是当我们需要模型为关系到人类生命健康等重要任务给出预测和决策
结果时。 本项发明将从可解释的角度出发, 提供一套应用于医学场景 的可解释的词向量技
术。
[0003]word2vec是经典的词向量技术。 word2vec来源于2013年的论文 “Efficient
Estimation of Word Representation in Vector Space”, 它的核心思想 是利用神经网络
对词的上下文训练得到词的向量化表 示, 训练方法: CBOW(通过附近词预测中心词)和Skip ‑
gram(通过中心词预测附近的词)。 一种重要的语 言学思想是Firth在1957年提出的, 一个词
语的语义应该由它的上下文来表示。 在word2vec出现之前, 一种简单的对词的表示是One ‑
hot向量表示, 即一个位置是1, 其余位置都是0, 这种表示方法 的最大缺点在于没办法表示
出词语之间的相似性。 2 013年, 在T omas Mikolov的论文中, 首次提出了CBOW和Skip ‑gram模
型, 并且介绍了几种优化训练的方法, 其中包括Hierarchic al Softmax(在2003年, Bengio
在他提出NNLM论文中的Future Work部分提到了这种方法, 并将其系统化发表于2005年),
Negative Sampling和Sub Sampling技术。 准确说来, word2vec并不是一个模型或算法, 只
不过Mikolov恰好在当时把 他开源的工具包起名叫做w ord2vec.
[0004]Glove, FastText等是根据word2vec改进的技术。 Glove首先根据语料库构建一个
co‑ocurrence matrix共现矩阵, 其中每一个元素代表单词和上下文词在特定的上下文窗
口内共同出现的次数, 并且Glove还提出了一个decreasing weighting, 基于两个词在上下
文窗口中的距离 d, 给出一个权重1/d, 也就是说距离远的两个词, 占总计数的权重小; 构建
了词向量和共现矩阵之间的近似关系。 FastT ext简单来说就是将句子中的每个词先通过一
个lookup层映射成词向量, 然后对词向量取平均作为真个句子的句子向量, 然后直接用线
性分类器进行分类, 从而实现文本分类, 不同于其他的文本分类方法的地方在于, 这个
FastText完全 是线性的, 没有非线性隐藏层, 得到的结果和有非线性层的网络差不多, 这说
明对句子结构比较简单 的文本分类任务来说, 线性的网络结构完全可以胜任, 而线性结构
相比于非线性结构的优势在于结构 简单, 训练的更 快。
[0005]DeepWalk是第一个基于表示学习的图嵌入方法, 它遵循表示学习的思想和词嵌入说 明 书 1/5 页
3
CN 114492417 A
3
专利 一种可解释的深度学习方法、可解释深度学习装置、计算机和介质
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:39上传分享