专利 对话内容的数据处理方法、装置、电子设备和介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210139509.9 (22)申请日 2022.02.15 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人徐俊　王海峰　牛正雨　吴华　 (74)专利代理机构中科专利商标代理有限责任公司 11021 专利代理师王江选 (51)Int.Cl. G06F 16/31(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 16/332(2019.01) G06F 16/33(2019.01)G06N 5/02(2006.01) G06F 11/36(2006.01) (54)发明名称对话内容的数据处理方法、装置、电子设备和介质 (57)摘要本公开提供了一种对话内容的数据处理方法、对话系统的训练方法、对话系统的评价方法、对话方法、装置、设备、介质和产品，涉及人工智能技术领域，具体为自然语言处理、深度学习等技术领域。对话内容的数据处理方法包括：从对话内容中提取答案数据；基于对话内容和答案数据，生成针对答案数据的问题数据；基于对话内容、答案数据和问题数据，确定对话内容包含的知识信息。权利要求书3页说明书12页附图8页 CN 114461749 A 2022.05.10 CN 114461749 A 1.一种对话内容的数据处理方法，包括：从对话内容中提取答案数据；基于所述对话内容和所述答案数据，生成针对所述答案数据的问题数据；以及基于所述对话内容、所述答案数据和所述问题数据，确定所述对话内容包含的知识信息。 2.根据权利要求1所述的方法，其中，所述问题数据包括多个问题数据；所述基于所述对话内容、所述答案数据和所述问题数据，确定所述对话内容包含的知识信息包括：针对所述多个问题数据中的每个问题数据，确定所述对话内容和所述问题数据之间的关联性；基于所述关联性，从所述多个问题数据中确定目标问题数据，其中，所述目标问题数据与所述对话内容之间的关联性高于剩余问题数据与所述对话内容之间的关联性，所述剩余问题数据为所述多个问题数据中除所述目标问题数据之外的问题数据；对所述对话内容和所述目标问题数据进行语义理解处理，得到所述答案数据和所述目标问题数据之间的匹配度；以及基于所述匹配度，确定所述对话内容包含的知识信息。 3.根据权利要求2所述的方法，其中，所述针对所述多个问题数据中的每个问题数据，确定所述对话内容和所述问题数据之间的关联性包括：预测所述问题数据作为查询语句的情况下所述对话内容被点击的概率；以及基于所述概率，确定所述对话内容和所述问题数据之间的关联性。 4.根据权利要求1所述的方法，其中，所述基于所述对话内容和所述答案数据，生成针对所述答案数据的问题数据包括：将所述对话内容和所述答案数据输入问题生成模型中，输出针对所述答案数据的问题数据。 5.根据权利要求4所述的方法，其中，用于训练所述问题生成模型的训练样本是通过以下方式得到的：从第一参考对话内容中提取参考答案；基于预设规则处理所述参考答案，得到参考问题；以及基于所述第一参考对话内容、参考答案以及所述参考问题，得到所述训练样本。 6.根据权利要求5所述的方法，其中，用于训练所述问题生成模型的训练样本是还通过以下方式得到：将所述参考问题作为查询语句进行查询，得到多个候选参考对话内容；从所述多个候选参考对话内容中选择第二参考对话内容，其中，所述第二参考对话内容包括所述参考答案；以及基于所述第二参考对话内容、所述参考答案以及所述参考问题，得到所述训练样本。 7.一种对话系统的训练方法，包括：获取多个候选对话内容；利用根据权利要求1 ‑6中任意一项所述的方法，确定所述多个候选对话内容中每个候选对话内容包含的知识信息，得到确定结果；基于所述确定结果，从所述多个候选对话内容中选择训练样本；以及权　利　要　求　书 1/3 页 2 CN 114461749 A 2利用所述训练样本训练所述对话系统。 8.一种对话系统的评价方法，包括：获取所述对话系统输出的对话内容；利用根据权利要求1 ‑6中任意一项所述的方法，确定所述对话内容包含的知识信息，得到确定结果；以及基于所述确定结果，评价所述对话系统。 9.一种对话方法，包括：响应于接收到第一对话内容，利用根据权利要求1 ‑6中任意一项所述的方法，确定多个候选对话内容中每个候选对话内容包含的知识信息，得到确定结果；基于所述确定结果，从所述多个候选对话内容中选择第二对话内容；以及输出所述第二对话内容。 10.一种对话内容的数据处理装置，包括：提取模块，用于从对话内容中提取答案数据；生成模块，用于基于所述对话内容和所述答案数据，生成针对所述答案数据的问题数据；以及确定模块，用于基于所述对话内容、所述答案数据和所述问题数据，确定所述对话内容包含的知识信息。 11.根据权利要求10所述的装置，其中，所述问题数据包括多个问题数据；所述确定模块包括：第一确定子模块，用于针对所述多个问题数据中的每个问题数据，确定所述对话内容和所述问题数据之间的关联性；第二确定子模块，用于基于所述关联性，从所述多个问题数据中确定目标问题数据，其中，所述目标问题数据与所述对话内容之间的关联性高于剩余问题数据与所述对话内容之间的关联性，所述剩余问题数据为所述多个问题数据中除所述目标问题数据之外的问题数据；处理子模块，用于对所述对话内容和所述目标问题数据进行语义理解处理，得到所述答案数据和所述目标问题数据之间的匹配度；以及第三确定子模块，用于基于所述匹配度，确定所述对话内容包含的知识信息。 12.根据权利要求1 1所述的装置，其中，所述第一确定子模块包括：预测单元，用于预测所述问题数据作为查询语句的情况下所述对话内容被点击的概率；以及确定单元，用于基于所述概率，确定所述对话内容和所述问题数据之间的关联性。 13.根据权利要求10所述的装置，其中，所述生成模块还用于：将所述对话内容和所述答案数据输入问题生成模型中，输出针对所述答案数据的问题数据。 14.根据权利要求13所述的装置，其中，用于训练所述问题生成模型的训练样本是通过以下方式得到的：从第一参考对话内容中提取参考答案；基于预设规则处理所述参考答案，得到参考问题；以及权　利　要　求　书 2/3 页 3 CN 114461749 A 3

专利 对话内容的数据处理方法、装置、电子设备和介质

专利对话内容的数据处理方法、装置、电子设备和介质