专利 一种针对领域的新词发现方法及计算设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210033645.X (22)申请日 2022.01.12 (71)申请人车智互联（北京）科技有限公司地址 100080 北京市海淀区丹棱街3号B座 11层1110、 1111室 (72)发明人杨雷　张志申　 (74)专利代理机构北京思睿峰知识产权代理有限公司 1 1396 专利代理师高攀　赵爱军 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) G06F 16/36(2019.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种针对领域的新词发现方法及计算设备 (57)摘要本公开公开了一种针对领域的新词发现方法及计算设备。其中，针对领域的新词发现方法包括步骤：基于特定领域的知识图谱，对文本进行分词处理，得到分词结果；对分词结果进行处理，得到多个词汇片段，并分别统计各词汇片段所指示词汇的词频；基于所统计的词频，来确定词汇在文本中的统计特征；确定词汇的语义向量；将语义向量输入卷积网络，输出预测词汇属于特定领域且是完整词汇的第一概率；以及基于词汇的词频、统计特征和第一概率，确定出词汇为特定领域的新词的第二概率。权利要求书2页说明书11页附图5页 CN 114462401 A 2022.05.10 CN 114462401 A 1.一种针对领域的新词发现方法，包括步骤：基于特定领域的知识图谱，对文本进行分词处理，得到分词结果；对所述分词结果进行处理，得到多个词汇片段，并分别统计各词汇片段所指示词汇的词频；基于所统计的词频，来确定词汇在文本中的统计特征；确定所述词汇的语义向量；将所述词汇的语义向量输入卷积网络，输出预测所述词汇属于所述特定领域且是完整词汇的第一概率；以及基于所述词汇的词频、统计特征和第一概率，确定出所述词汇为所述特定领域的新词的第二概率。 2.如权利要求1所述的方法，其中，基于特定领域的知识图谱，对文本进行分词处理，得到分词结果的步骤包括：解析所述特定领域的知识图谱中的概念和实体，作为属于所述特定领域的领域词汇；将所述领域词汇作为分词依据，对文本进行分词，得到分词结果。 3.如权利要求1或2所述的方法，其中，所述词汇的语义向量包括：表示所述词汇的语义的第一向量和表示所述词汇在句子中的语义的第二向量。 4.如权利要求3所述的方法，其中，所述确定词汇的语义向量的步骤包括：利用语言表示模型，分别确定出第一向量和第二向量；基于所述第一向量和所述第二向量，得到所述词汇的语义向量。 5.如权利要求4所述的方法，其中，所述利用语言表示模型，分别确定出第一向量和第二向量的步骤包括：将所述词汇输入第一语言表示模型进行处理，并将其在第一位置的输出向量，作为第一向量；将包含所述词汇的句子，输入第二语言表示模型进行处理，并利用其在第二位置和第三位置的输出向量，生成所述第二向量；其中，所述第一位置为CLS位置，第二位置为所述词汇在所述句子中的开始位置，所述第三位置为所述词汇在所述句子中的结束位置。 6.如权利要求5所述的方法，其中，所述将包含所述词汇的句子，输入第二语言表示模型进行处理，并利用其在第二位置和第三位置的输出向量，生成第二向量的步骤包括：从文本中选取部分包含所述词汇的句子；针对所选取的句子中的每个句子，将所述句子输入第二语言表示模型，来确定在第二位置和第三位置的输出向量；将第二位置的输出向量与第三位置的输出向量拼接，生成表示所述词汇在所述句子中语义的第二向量；将每个句子对应的第二向量相加并求取均值，来得到表示所述词汇在句子中的语义的第二向量。 7.如权利要求1 ‑5中任一项所述的方法，其中，所述基于词汇的词频、统计特征和第一概率，确定出所述词汇为特定领域的新词的第二概率的步骤包括：对所述词汇的词频、统计特征和第一概率分别进行归一化处理，得到归一化的词频、归权　利　要　求　书 1/2 页 2 CN 114462401 A 2一化的统计特征和归一化的第一概率；基于所述归一化的词频、所述归一化的统计特征和所述归一化的第一概率，确定出所述词汇为所述特定领域的新词的第二概率。 8.如权利要求1 ‑6中任一项所述的方法，其中，所述对分词结果进行处理，得到多个词汇片段，并分别统计各词汇片段所指示词汇的词频的步骤包括：基于N‑Gram模型，将所述分词结果划分成长度为 N的词汇片段序列；对各词汇片段所指示的词汇进行词频统计。 9.一种计算设备，包括：一个或多个处理器；存储器；一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行如权利要求1 ‑8中任一方法的指令。 10.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令在被计算设备执行时，使得所述计算设备执行如权利要求1 ‑8任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 114462401 A 3

专利 一种针对领域的新词发现方法及计算设备

专利一种针对领域的新词发现方法及计算设备