专利一种实体抽取模型的训练方法、装置、设备和存储介质 -在线下载 -AI解读-standardlibrary.site

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211165038.5 (22)申请日 2022.09.20 (71)申请人云知声智能科技股份有限公司地址 100096 北京市海淀区西三旗建材城内1幢一层101号 (72)发明人沙九　梁家恩　 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/216(2020.01) G06F 40/284(2020.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06N 3/08(2006.01) (54)发明名称一种实体抽取模型的训练方法、装置、设备和存储介质 (57)摘要本发明公开了一种实体抽取模型的训练方法、装置、设备和存储介质。该方法包括：利用预设的无监督算法在样本集合中选取实体关键词；根据选取的所述实体关键词，建立实体与标签映射表；基于所述实体与标签映射表为目标文本标注实体标签；利用已经被标注实体标签的目标文本训练预设的预训练语言模型，以便在训练完成之后得到实体抽取模型。本发明将NER任务看作原始预训练的语言模型任务，通过能表示标签的词汇结果空间映射，实现任务转化，消除下游任务与原始LM任务的差距，缓解了代表标签的词汇结果空间映射强相关问题。权利要求书2页说明书12页附图4页 CN 115470793 A 2022.12.13 CN 115470793 A 1.一种实体抽取模型的训练方法，其特征在于，包括：利用预设的无监督算法在样本集合中选取实体关键词；根据选取的所述实体关键词，建立实体与标签映射表；基于所述实体与标签映射表为目标文本标注实体标签；利用已经被标注实体标签的目标文本训练预设的预训练语言模型，以便在训练完成之后得到实体抽取模型。 2.根据权利要求1所述的方法，其特征在于，所述利用预设的无监督算法在样本集合中选取实体关键词，包括：在所述样本集合的每个样本中提取关键词；针对每个所述关键词，利用基于词袋加权的TF ‑IDF算法，确定所述关键词的词频以及所述关键词的逆向文件频率，并且，根据所述关键词的词频和逆向文件频率，确定所述关键词对应的权重；针对多个所述关键词，按照权重从大到小的顺序，对多个所述关键词进行排序，获取预设第一数量的所述关键词都作为实体关键词。 3.根据权利要求1所述的方法，其特征在于，所述利用预设的无监督算法在样本集合中选取实体关键词，包括：针对所述样本集合中的每个所述样本执行如下步骤：根据考虑关联网络的Text Rank算法，在所述样本中抽取关键词并且为抽取得到的所述关键词构建关键词无向图；确定所述关键词无向图中每条边的权重；其中，每条边用于连接所述关键词无向图中的两个关键词；按照权重从大到小的顺序，对多个所述权重进行排序，获取预设第二数量的所述权重；在获取的每个所述权重中，将每个所述权重对应的边所连接的关键词都确定为实体关键词。 4.根据权利要求3所述的方法，其特征在于，在将每个所述权重对应的边所连接的关键词都确定为实体关键词之后，还包括：将各个所述实体关键词在所述样本中分别进行标记；根据所述样本中的标记，查询相邻的所述实体关键词，将所述相邻的所述实体关键词组成的词组也作为实体关键词。 5.根据权利要求1所述的方法，其特征在于，所述利用预设的无监督算法在样本集合中选取实体关键词，包括：针对所述样本集合中的每个所述样本执行如下步骤：根据结合语义编码的K eyBert算法，在所述样本中提取文档嵌入；基于N‑Gram方式，在所述文档嵌入中提取词向量；利用预设的相似度算法，对提取到的所述词向量进行相似度聚合处理，得到至少一个词向量集合；将包含词向量数量最多的词向量集合中的词向量作为实体关键词。 6.根据权利要求1所述的方法，其特征在于，所述利用预设的无监督算法在样本集合中选取实体关键词，包括：权　利　要　求　书 1/2 页 2 CN 115470793 A 2利用预设的多种无监督算法分别在样本集合中选取实体关键词；其中，预先设置多个文本类别，所述样本集合中的每个样本对应一个文本类别；所述根据选取的所述实体关键词，建立实体与标签映射表，包括：在多种无监督算法分别选取的实体关键词中，获取实体关键词的并集；在所述实体关键词的并集中，针对每个实体关键词，确定所述实体关键词在每个文本类别的出现占比，并在所述出现占比大于预设的占比阈值时，将所述实体关键词确定为所述出现占比对应的文本类别中的命名实体；针对每个文本类别，为所述文本类别中的命名实体对应设置的实体标签，并形成所述文本类别对应的实体与标签映射表。 7.根据权利要求1所述的方法，其特征在于，所述实体抽取模型用于：接收文本字词序列；对所述文本字词序列中的各个字词进行顺序预测；如果当前位置的字词为命名实体，则输出所述命名实体以及所述命名实体的实体标签；反之，则输出所述命名实体。 8.一种实体抽取模型的训练装置，其特征在于，包括：选取模块，用于利用预设的无监督算法在样本集合中选取实体关键词；建立模块，用于根据选取的所述实体关键词，建立实体与标签映射表；标注模块，用于基于所述实体与标签映射表为目标文本标注实体标签；训练模块，用于利用已经被标注实体标签的目标文本训练预设的预训练语言模型，以便在训练完成之后得到实体抽取模型。 9.一种实体抽取模型的训练设备，其特征在于，所述实体抽取模型的训练设备包括处理器、存储器；所述处理器用于执行所述存储器中存储的实体抽取模型的训练程序，以实现权利要求1 ‑7中任一项所述的实体抽取模型的训练方法。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求 1‑7中任一项所述的实体抽取模型的训练方法。权　利　要　求　书 2/2 页 3 CN 115470793 A 3

专利 一种实体抽取模型的训练方法、装置、设备和存储介质

专利一种实体抽取模型的训练方法、装置、设备和存储介质