专利 一种可解释的深度学习方法、可解释深度学习装置、计算机和介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210120061.6 (22)申请日 2022.02.07 (71)申请人北京妙医佳健康科技集团有限公司地址 100027 北京市朝阳区霄云路40号国航世纪大厦F5 (72)发明人常德杰　刘邦长　庄博然　李栋栋　李伟　刘利平　 (74)专利代理机构北京爱普纳杰专利代理事务所(特殊普通合伙) 11419 专利代理师何自刚 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/30(2020.01) G06N 10/60(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种可解释的深度学习方法、可解释深度学习装置、计算机和介质 (57)摘要本专利涉及一种可解释的深度学习方法,包括如下步骤：步骤1，获得自然语言语料；步骤2，将所述自然语言语料进行词嵌入，使得标记指定单个词语的语义信息并且每个所述指定单个词语的上下文作为外界环境来反映所述指定单个词语的语义信息，同时用量子概率反映每个词嵌入的语义置信度；步骤3，形成编码层；步骤4，根据输入利用所述编码层解码出包含有解释信息的输出信息。还涉及可解释深度学习装置、计算机和介质。权利要求书1页说明书5页附图3页 CN 114492417 A 2022.05.13 CN 114492417 A 1.一种可解释的深度学习方法,其特征在于，包括如下步骤：步骤1，获得自然语言语料；步骤2，将所述自然语言语料进行词嵌入，使得标记指定单个词语的语义信息并且每个所述指定单个词语的上下文作为外界环境来反映所述指定单个词语的语义信息，同时用量子概率反映每个词嵌入的语义置信度；步骤3，形成编码层；步骤4，根据输入利用所述编码层解码出包含有解释信息的输出信息。 2.根据权利要求1所述的可解释的深度学习方法，其特征在于，所述步骤2中包括步骤 21，为所述指定单个词语建立纯态密度矩阵和为每个所述指定单个词语的上下文建立混合态密度矩阵从而形成联合矩阵 3.根据权利要求2所述的可解释的深度学习方法，其特征在于，在所述步骤4中还包括步骤41，添加解释和调参。 4.根据权利要求3所述的可解释的深度学习方法，其特征在于，所述自然语料包括医用成功案例。 5.一种可解释深度学习装置，其特征在于，包括：获得自然语言语料的模块，用于将所述自然语言语料进行词嵌入的模块，使得标记指定单个词语的语义信息并且每个所述指定单个词语的上下文作为外界环境来反映所述指定单个词语的语义信息，同时用量子概率反映每个词嵌入的语义置信度；形成编码层模块；和根据输入利用所述编码层解码出包含有解释信息的输出信息的模块。 6.根据权利要求5所述的可解释深度学习装置，其特征在于，还包括服务器和客户端。 7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时，实现如权利要求 1至4中任一项所述的可解释的深度学习方法。 8.根据权利要求7 所述的计算机设备，其特征在于，还包括采集和输出装置。 9.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至4中任一项所述的可解释的深度学习方法。 10.根据权利要求9所述的非临时性计算机可读存储介质，其特征在于，还包括采集和输出装置。权　利　要　求　书 1/1 页 2 CN 114492417 A 2一种可解释的深度学习方法、可解释深度学习装置、计算机和介质技术领域 [0001]本专利涉及深度学习，特别涉及一种可解释的深度学习方法，还涉及可解释深度学习装置、计算机和介质。背景技术 [0002]词向量(又叫词嵌入)是一种表示自然语言中单词的方法，把每个词都表示为一个 N维空间内的点，即一个高维空间内的向量。通过这种做法，把自然语言计算转换为向量计算，词向量已经成为自然语言处理领域各种任务的必备一步，而且随着BERT， ELMO， GPT等预训练模型的发展，词向量演变为知识表示方法，但其本质思想不变。深度学习模型在医学场景下扮演着越来越重要的角色，模型的「可解释性」成为了决定用户是否能够「信任」这些模型的关键因素。尤其是当我们需要模型为关系到人类生命健康等重要任务给出预测和决策结果时。本项发明将从可解释的角度出发，提供一套应用于医学场景的可解释的词向量技术。 [0003]word2vec是经典的词向量技术。 word2vec来源于2013年的论文 “Efficient Estimation of Word Representation in Vector Space”，它的核心思想是利用神经网络对词的上下文训练得到词的向量化表示，训练方法： CBOW(通过附近词预测中心词)和Skip ‑ gram(通过中心词预测附近的词)。一种重要的语言学思想是Firth在1957年提出的，一个词语的语义应该由它的上下文来表示。在word2vec出现之前，一种简单的对词的表示是One ‑ hot向量表示，即一个位置是1，其余位置都是0，这种表示方法的最大缺点在于没办法表示出词语之间的相似性。 2 013年，在T omas Mikolov的论文中，首次提出了CBOW和Skip ‑gram模型，并且介绍了几种优化训练的方法，其中包括Hierarchic al Softmax(在2003年， Bengio 在他提出NNLM论文中的Future Work部分提到了这种方法，并将其系统化发表于2005年), Negative Sampling和Sub Sampling技术。准确说来， word2vec并不是一个模型或算法，只不过Mikolov恰好在当时把他开源的工具包起名叫做w ord2vec. [0004]Glove， FastText等是根据word2vec改进的技术。 Glove首先根据语料库构建一个 co‑ocurrence matrix共现矩阵，其中每一个元素代表单词和上下文词在特定的上下文窗口内共同出现的次数，并且Glove还提出了一个decreasing weighting，基于两个词在上下文窗口中的距离 d，给出一个权重1/d，也就是说距离远的两个词，占总计数的权重小；构建了词向量和共现矩阵之间的近似关系。 FastT ext简单来说就是将句子中的每个词先通过一个lookup层映射成词向量，然后对词向量取平均作为真个句子的句子向量，然后直接用线性分类器进行分类，从而实现文本分类，不同于其他的文本分类方法的地方在于，这个 FastText完全是线性的，没有非线性隐藏层，得到的结果和有非线性层的网络差不多，这说明对句子结构比较简单的文本分类任务来说，线性的网络结构完全可以胜任，而线性结构相比于非线性结构的优势在于结构简单，训练的更快。 [0005]DeepWalk是第一个基于表示学习的图嵌入方法，它遵循表示学习的思想和词嵌入说　明　书 1/5 页 3 CN 114492417 A 3

专利 一种可解释的深度学习方法、可解释深度学习装置、计算机和介质

专利一种可解释的深度学习方法、可解释深度学习装置、计算机和介质