专利 声源定位方法、装置、计算机设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210765842.0 (22)申请日 2022.07.01 (71)申请人深圳魔耳智能声学科技有限公司地址 518000 广东省深圳市南山区桃源街道塘朗社区塘长路田寮大厦1401 (72)发明人叶威志　杨亚星　叶威廷　 (74)专利代理机构深圳众鼎汇成知识产权代理有限公司 4 4566 专利代理师朱业刚 (51)Int.Cl. G10L 17/04(2013.01) G10L 25/51(2013.01) G10L 25/24(2013.01) G10K 11/178(2006.01) G06V 10/74(2022.01) (54)发明名称声源定位方法、装置、计算机设备及存储介质 (57)摘要本发明公开了一种声源定位方法，获取音频采集信号，并对音频采集信号进行预处理，得到待定位音频信号；获取预设声纹识别模型，通过预设声纹识别模型对待定位音频信号进行声纹匹配，以确定待定位音频信号是否包括目标音频信号；当待定位音频信号包括目标音频信号时，获取至少一个目标采集图像；获取预设图像识别模型，通过预设图像识别模型对目标采集图像进行图像匹配，得到目标图像；一个目标图像关联一个声源音频信号；将声源音频信号和目标音频信号进行信号匹配，得到声源定位结果。如此，通过对音频采集信号进行预处理，实现了对待定位音频信号的获取。通过声纹匹配，实现了对目标音频信号的确定。通过图像匹配，实现了对目标图像的获取。权利要求书2页说明书13页附图3页 CN 115035900 A 2022.09.09 CN 115035900 A 1.一种声源定位方法，其特征在于，包括：获取音频采集信号，并对所述音频采集信号进行预处理，得到待定位音频信号；获取预设声纹识别模型，并将所述待定位音频信号输入至所述预设声纹识别模型，通过所述预设声纹识别模型对所述待定位音频信号进行声纹匹配，以确定所述待定位音频信号是否包括目标音频信号；当所述待定位音频信号包括所述目标音频信号时，获取至少一个目标采集图像，所述目标采集图像通过图像采集设备在目标采集区域拍摄得到；所述目标采集区域根据所述目标音频信号的信号采集区域生成；获取预设图像识别模型，将所述目标采集图像输入至所述预设图像识别模型，通过所述预设图像识别模型对所述目标采集图像进行图像匹配，得到目标图像；一个目标图像关联一个声源音频信号；将所述声源音频信号和所述目标音频信号进行信号匹配，得到声源定位结果。 2.如权利要求1所述的声源定位方法，其特征在于，所述获取音频采集信号，包括：通过麦克风阵列采集声波信号，并对所述声波信号进行声电转换，得到模拟音频信号；对所述模拟音频信号进行模数转换，得到所述音频采集信号。 3.如权利要求1所述的声源定位方法，其特征在于，所述对所述音频采集信号进行预处理，得到待定位音频信号，包括：通过波束形成算法对所述音频采集信号进行加权求和处理，得到有效音频信号；通过自动增益控制电路对所述有效音频采集信号进行放大处理，得到放大音频信号；基于主动降噪技术对所述放大音频信号进行降噪处理，得到所述待定位音频信号。 4.如权利要求1所述的声源定位方法，其特征在于，所述通过所述预设声纹识别模型对所述待定位音频信号进行声纹匹配，以确定所述待定位音频信号是否包括目标音频信号，包括：对所述待定位音频信号进行语音端点检测，以确定所述待定位音频信号中是否包括声波音频信号；在所述待定位音频信号中包括声波音频信号时，对所述声波音频信号进行声纹特征识别，得到与所述声波音频信号相对应的待定位声纹特征；一个所述声波音频信号对应一个待定位声纹特征；将所述待定位声纹特征和所述预设声纹识别模型中的目标声纹特征进行特征匹配，得到声纹匹配结果；一个所述待定位声纹特征对应一个声纹匹配结果；在任意一个所述声纹匹配结果表征匹配成功时，确定所述待定位音频信号中包括目标音频信号。 5.如权利要求1所述的声源定位方法，其特征在于，所述获取至少一个目标采集图像，包括：获取所述目标音频信号对应的信号采集区域；获取所述图像采集设备的当前采集区域，并根据所述信号采集区域对所述当前采集区域进行调整，得到目标采集区域；通过所述图像采集设备在所述目标采集区域进行图像采集，得到所述目标采集图像。 6.如权利要求1所述的声源定位方法，其特征在于，一个所述目标采集图像中包括至少权　利　要　求　书 1/2 页 2 CN 115035900 A 2一个采集对象；所述预设图像识别模型中包括至少一个目标人物图像；所述通过所述预设图像识别模型对所述目标采集图像进行图像匹配，得到目标图像，包括：对所述目标采集图像进行图像识别，得到至少一个截取采集图像；所述截取采集图像是指从所述目标采集图像中截取的仅包含一个采集对象的采集图片；将包含同一个采集对象的截取采集图像关联记录为一个拍摄采集组；针对每一个所述拍摄采集组，确定所述目标人物图像与所述拍摄采集组中的截取采集图像之间的图片相似度；将大于或等于预设图像相似度阈值的图片相似度对应的截取采集图像记录为所述目标图像。 7.如权利要求1所述的声源定位方法，其特征在于，所述将所述声源音频信号和所述目标音频信号进行信号匹配，得到声源定位结果，包括：对所述声源音频信号和所述目标音频信号进行声纹特征识别，得到声源音频信号对应的声源音频声纹特征和目标音频信号对应的目标音频声纹特征；将所述声源音频声纹特征和所述目标音频声纹特征进行相似度匹配，得到声源定位结果。 8.一种声源定位装置，其特征在于，包括：获取模块，用于获取音频采集信号，并对所述音频采集信号进行预处理，得到待定位音频信号；声纹匹配模块，用于获取预设声纹识别模型，并将所述待定位音频信号输入至所述预设声纹识别模型，通过所述预设声纹识别模型对所述待定位音频信号进行声纹匹配，以确定所述待定位音频信号是否包括目标音频信号；采集模块，用于当所述待定位音频信号包括所述目标音频信号时，获取至少一个目标采集图像，所述目标采集图像通过图像采集设备在目标采集区域拍摄得到；所述目标采集区域根据所述目标音频信号的信号采集区域生成；图像匹配模块，用于获取预设图像识别模型，将所述目标采集图像输入至所述预设图像识别模型，通过所述预设图像识别模型对所述目标采集图像进行图像匹配，得到目标图像；一个目标图像关联一个声源音频信号；结果模块，用于将所述声源音频信号和所述目标音频信号进行信号匹配，得到声源定位结果。 9.一种计算机设备，包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7 任一项所述声源定位方法。 10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述声源定位方法。权　利　要　求　书 2/2 页 3 CN 115035900 A 3

专利 声源定位方法、装置、计算机设备及存储介质

专利声源定位方法、装置、计算机设备及存储介质